Méthodes d'analyse des données écologiques et biogéographiques11/05/03 - © M. Dufrêne |
Différentes transformations sont possibles sur les données d'inventaires biologiques. La nécessité de ces transformations dépend d'abord de la nature des données et de la distribution des valeurs. Lorsque cette distribution des abondances est assymétrique, avec par exemple de nombreuses faibles valeurs et quelques grandes valeurs, il est parfois nécessaire d'effectuer une transformation des données pour donner moins de poids aux variations des grandes valeurs. Dans les inventaire biologiques, il y a toujours l'une ou l'autre espèce très abondante et très fréquente et de nombreuses espèces plus rares. Si on veut que les structures écologiques principales observées ne soient pas uniquement déterminées par les variations d'abondance des espèces fréquentes (elles contribuent souvent de manière significative à la variance totale du jeu de données), il est indispensable d'effectuer une transformation.Ces transformations peuvent être diverses :
- Racine carrée : Yt = racine (Y+1) pour des données présentant un mode mais il est assymétrique
- Logarithmique : Yt = log (Y+1) pour des données complètement assymétriques (la base du log n'a aucune importance sur les variances). L'ajout du 1 est utile pour que les fréquences unitaires ne se transforment pas en 0.
- Arcinus : Yt = arcsinus (Y) pour les pourcentages ou proportions
- ... (voir par exemple Legendre et Legendre, 1998).
Dans le cas d'inventaires phytosociologiques, les analyses quantitatives nécessitent que les valeurs de classes de recouvrement (échelle à 6 ou 7 degrés de Braun-Blanquet : r, +, 1, 2, 3, 4, 5) soient transformées en unités quantitatives. Le tableau suivant donne deux manières standards de transformer ces valeurs semi-quantitatives :
| |
|
|
|
| |
|
|
|
| |
|
|
|
| |
|
|
|
| |
|
|
|
| |
|
|
|
| |
|
|
|
| |
|
|
|
La médiane des classes de recouvrement peut sembler la plus logique mais elle donne une très forte importance aux recouvrements élevés : la classe 5 est 6 fois plus élevée que la classe 2 et près de 40 fois plus élevée que la classe 1. C'est pour cela que van der Maarel propose une échelle qui donne plus de poids à la présence de l'espèce dans la station puisqu'elle pondère légèrement sa présence par une échelle de 1 à 9 correspondant à sa dominance.Lorsqu'on dispose des estimations des fréquences relatives des espèces, on utilise directement ces valeurs quantitatives ou on effectue une transformation des données brutes. On utilise par exemple une transformation logarithmique pour donner moins de poids aux forts recouvrements :
si Y > 0 : Yt = log (Y) sinon Yt = 0 ou de manière systématique
Yt = log (Y+1)
Dans le cas de données botaniques, on obtient alors une distribution des valeurs qui est très proche de celle de van der Maarel. On rappellera toutefois qu'il est difficile d'estimer précisément les pourcentages de recouvrement des espèces et que la technique proposée par Braun-Blanquet a le mérite d'être opérationnelle sur le terrain. Les transformations proposées ci-dessous permettent ensuite de disposer de données quantitatives.
A la différence des données d'inventaires biologiques qui sont bien souvent des fréquences, les descripteurs écologiques sont souvent des données numériques continues dont les unités peuvent être différentes d'un descripteur à l'autre. Dans ce cas, il est nécessaire de les transformer pour les exprimer dans une échelle commune. On peut d'abord centrer les données, c'est-à-dire exprimer chacune des valeurs par rapport à la moyenne de tous les échantillons ou d'une partrie d'entre eux :Yt = Y - moyenne(Ys) ou standardiser les données, c'est à dire qu'on centre et qu'on divise en outre par l'écart-type pour avoir des variables transformées dont les moyennes sont égales à 0 et dont les écart-types sont tous égaux à 1.
Yt = (Y - moyenne(Ys)) / écartype(Y) Il est aussi possible d'étendre les données sur le même intervalle les exprimant par rapport à l'étendue observée dans le jeu de données :
Yt = (Y - Ymin) / (Ymax - Ymin) Ces transformations sont plus appropriées pour des données continues que pour les données de fréquence.