Méthodes d'analyse des données écologiques et biogéographiques14/05/03 - © M. Dufrêne |
La visualisation graphique des positions des stations ou des espèces dans leur espace réciproque a tout de suite évoqué la possibilité de mesurer la distance qui les sépare les unes des autres. Cette distance est en effet la meilleure mesure multivariée des différences qui existent soit entre les stations (dans l'espace multidimensionnel défini par les axes-espèces), soit entre les espèces (dans l'espace multidimensionnel défini par les axes-stations). Une mesure de distance est donc une estimation inverse de la similarité.De nombreux mesures de distance ou d'indices de similarité existent dans la littérature (voir par exemple Legendre, P. & Legendre, L., 1998. Numerical Ecology, Elsevier). On n'en citera ici que quelques unes plus parmi les plus fréquemment utilisées en écologie et en biogéographie.
La grande variété d'indices est notamment due à la nécessité de s'adapter aux traits caractéristiques des données selon qu'elles sont de type binaire, ordinale ou quantitative. Les données binaires correspondent à des données d'absence/présence où la présence d'espèces s'indique par le chiffre "1" et l'absence par le chiffre "0". Les données ordinales correspondent généralement à des classes ou à des intervalles dont le rang est codé par des chiffres allant de 0 ou 1 au nombre de classes. La transformation de van der Maarel des données de relevés botaniques peut être considérée comme une échelle ordinale. Les données de fréquence relative des espèces dans les stations sont des données de type quantitatif continu.
Une autre décision importante en matière de choix d'indice est la question des doubles-absences ou des doubles-zéros. Lorsqu'on compare deux-à-deux les relevés d'espèces d'un tableau, il y a toujours une série d'espèces qui sont absentes de deux relevés étudiés mais qui sont présentes dans les autres. Une question importante pour choisir un indice de similarité adéquat est de savoir si le fait qu'une espèce soit absente de deux stations particulières contribue - ou ne contribue pas - à augmenter leur similarité. Si la présence d'une espèce est un fait démontrable, il est en effet plus difficile de pouvoir prouver l'absence d'une espèce et donc, de lui donner le même poids que celle d'une présence. De nombreux indices permettent ainsi de ne pas tenir compte des doubles-absences et ne comptabilisent que la présence d'une espèce dans deux relevés comme contribution à leur similarité.
Les indices généralement utilisés relèvent de deux groupes principaux : les mesures de distances et les indices de similarité. Dans ce texte, nous identifierons les indices avec des numéros (D1, D7, S7, S18, ...) en respectant le codage défini par Legendre & Legendre (1998).
La distance euclidienne
La distance euclidienne est simplement la généralisation à un grand nombre de dimensions du théorème de Pythagore (C2 = A2 + B2 : la longueur de l'hypoténuse d'un triangle est égale à la racine carrée de la somme du carré de ses deux cotés).
D1 = [ somme(val1- val2)2]1/2 avec val1: la valeur de la première station pour la variable et val2 : la valeur de la seconde station pour la même variable.
On peut ainsi dans notre cas calculer les distances euclidiennes entre les stations. Pour la paire des stations A et B, D1 = racine carrée ((7-3)2 + (8-2)2 + (5-1)2 + (0-0)2 + (2-7)2 + (0-2)2 ) = racine carrée (97) = 9,85.
D1 Station A Station B Station C Station A 0,00 9,85 12,96 Station B - 0,00 8,66 Station C - - 0,00 La matrice de distance est symétrique : la distance entre la station A et la station B est strictement égale à la distance entre la station B et la station A. La diagonale d'une matrice de distance est occupée par des 0 qui est la valeur minimale pour la plupart des mesures de distance; la valeur maximale n'est généralement pas limitée. Elle dépend du nombre de variables (espèces ou stations) et de l'étendue de leurs valeurs.
La station A est plus différente de la station C qu'elle ne l'est de la station B. Celle-ci est pratiquement aussi similaire à la station A qu'à la C. On peut donc considérer que la station B est intermédiaire entre la station A et la station C. Comme la distance euclidienne est une distance métrique (cfr les caractéristiques données plus haut : si a=b alors D(a,b) =0; si a est différent de b alors D(a,b) > 0; D(a,b) = D(b,a); D(a,b) + D(b,c) est plus grand ou égal à D(a,c) : la somme de deux côtés d'un triangle est toujours plus grande ou égale au troisième côté), les relations entre ces trois stations peuvent être schématisées comme suit :
(le dessin actuel présente des distances approximatives)
On positionne d'abord les deux stations les plus distantes (A et C). La position de B correspond à l'intersection de deux cercles, dont le centre est positionné sur A et sur C et dont le rayon est proportionnel à la distance de B avec A et C. On remarquera que la station B est positionnée ici en dessous de la ligne A-C mais qu'elle aurait aussi bien pu être placée au-dessus, à l'autre intersection des mêmes distances A-B et C-B. Le sens et donc le signe des axes principaux est en effet arbitraire.
La station B apparaît comme étant intermédiaire à la station A et à la station C tout en ayant une certaine originalité puisqu'elle n'est pas située exactement sur l'axe qui sépare les stations A et C. Elle le serait si elle partageait exactement les caractéristiques de A et de C; cette situation correspond à plusieurs combinaisons possibles des recouvrements des espèces présentes en A et en C.
On peut aussi calculer des distances entre les espèces. Dans notre cas, la mesure de distance entre deux espèces sera la racine carrée de la somme des carrés des différences de recouvrement des espèces dans les relevés. Avec l'exemple vu plus haut, la distance euclidienne entre Deschampsia flexuosa et Vaccinium myrtillus est égale à la racine carrée de ((8-5)2 + (2-1)2 + (0-0)2) soit la racine carrée de 10 = 3,2. Si on effectue ce calcul pour toutes les espèces on obtient le tableau suivant :
| euclidienne |
|
|
|
|
|
|
| |
|
|
|
|
|
|
| |
|
|
|
|
|
|
| |
|
|
|
|
|
|
| |
|
|
|
|
|
|
| |
|
|
|
|
|
|
| |
|
|
|
|
|
|
Une comparaison avec le graphique à trois dimensions vu auparavant vous confirmera que les paires les plus différentes sont Erica tetralix - Deschampsia flexuosa et Vaccinium oxycoccos - Deschampsia flexuosa. Les deux espèces les plus proches sont Erica tetralix et Vaccinium oxycoccos d'un côté et Vaccinium myrtillus et Deschampsia flexuosa de l'autre.
Comme le signalent Legendre & Legendre(1998), puisqu'elle se base sur des différences d'abondance, la distance euclidienne peut conduire à ce que des stations qui n'ont pas d'espèces en commun soit plus proches que des stations qui ont des espèces en commun. Il suffit effectivement que les différences d'abondance entre les stations partageant des espèces en commun soient plus grandes (par exemple de 1 et 10 individus) que les différences d'abondances entre les stations n'ayant pas d'espèces en commun (par exemple de 0 à 1, 2 ... individus) pour que ces dernières soient considérées comme plus proches. Une transformation initiale des données de type logarithmique peut ainsi se justifier.
Les autres mesures de distance
D7 = somme(|val1- val2|) avec val1: la valeur de la première station pour la variable et val2 : la valeur de la seconde station pour la même variable.
D7 Station A Station B Station C Station A 0 21 28 Station B - 0 19 Station C - - 0
D14 Station A Station B Station C Station A 0,0 0,57 0,66 Station B - 0,00 0,54 Station C - - 0,00
D = [somme(val1/sumsta1- val2/sumsta2)2]1/2
avec val1: l'abondance d'une espèce dans la première station, val2 : l'abondance de la même espèce dans la seconde station, sumsta1: la somme des abondances dans la première station et sumsta2: la somme des abondances dans la seconde station. Toutefois, avec un tel indice, les espèces abondantes contribuent plus à la distance que les autres. Le carré de la différence pour une espèce est alors pondéré par la somme totale des abondances de cette espèce (sumesp).
D15 = [somme(1/sumesp x (val1/sumsta1- val2/sumsta2)2)]1/2
Si on reprend notre tableau de données qui sert d'exemples :
Espèces Station A Station B Station C SumespCalluna vulgaris - CALVUL
7 3 5 15Deschampsia flexuosa - DESFLE
8 2 0 10Vaccinium myrtillus - VACMYR
5 1 0 6Vaccinium oxycoccos - VACOXY
0 0 5 5Molinia coerulea - MOLCOE
2 7 3 12Erica tetralix - ERITET
0 2 7 9Sumsta 22 15 20 57Le calcul de cette distance entre les stations A et B est égal à : ((7/22 - 3/22)2/15 + (8/22 - 2/15)2/10 + (5/22 - 1/15)2/6 + (0/22 - 0/15)2/5 + (2/22 - 7/15)2/12 + (0/22 - 2/15)2/9)1/2 = 0,1558.
Métrique du Chicarré Station A Station B Station C Station A 0,0000 0,1558 0,2203
Station B - 0,0000 0,1696
Station C - - 0,0000 Vu les divisions successives, cet indice de distance est souvent inférieur à 1.
D16 = (sumall)1/2 * D15
avec sumall = à la somme de toutes les abondances. Dans notre cas, la distance du Chicarré entre les stations A et B sera égale à : ((7/22 - 3/22)2/(15/57) + (8/22 - 2/15)2/(10/57) + (5/22 - 1/15)2/(6/57) + (0/22 - 0/15)2/(5/57) + (2/22 - 7/15)2/(12/57) + (0/22 - 2/15)2/(9/57))1/2 = 1,1763 = 0,1558 * (57)1/2.
Distance du Chicarré Station A Station B Station C Station A 0,0000 1,1763 1,6634 Station B - 0,0000 1,2803 Station C - - 0,0000 Les similarités pour les données binaires
Comme pour les distances, de nombreuses mesures de similarité existent et nous nous limiterons ici à proposer les quelques indices les plus souvent utilisés.
La compréhension des indices mesurant la similarité entre deux stations est facilitée par l'utilisation tableau suivant:
Nombre d'espèces
Station 2
Station 1 1 0 1 a b 0 c d où a = le nombre d'espèces présentes dans les deux relevés, b et c = les nombres d'espèces absentes d'un des deux relevés et d le nombre d'espèces absentes de ces deux relevés mais présentes dans d'autres relevés (=double-absence).
La mesure de la similarité peut se calculer par les indices suivants :
- indice de simple concordance : S1 = (a+d) / (a+b+c+d)
- indice de Jaccard ou indice de communauté : S7 = a / (a+b+c)
- indice de Soerensen : S8 = 2a / (2a+b+c) ou la variante S9 = 3a / (3a+b+c)
Le premier indice tient compte des doubles-absences pour le calcul de la similarité alors que les deux autres les excluent. L'indice de Soerensen donne un poids plus important à la présence qu'à l'absence.
Similarités Indice de simple concordance Indice de
Jaccard
Stations A B C A 1,0 0,83 0,33 B 0,80 1,0 0,50 C 0,33 0,50 1,0 Si on utilise les absences/présences, la station B est cette fois plus similaire à la A qu'elle ne l'est avec la C. Elle se situe toutefois toujours entre les stations A et C qui ne partagent ensemble que 33 % de similarité. L'absence de Vaccinium oxycoccos dans les stations A et B modifie légèrement la valeur de la similarité (0,80 contre 0,83) si on utilise l'indice de Jaccard.
| |
|
||||||
| de Jaccard |
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
Le tableau ci-dessus présente les similarités entre espèces calculées avec l'indice de Jaccard (matrice triangulaire inférieure) et celle calculée avec l'indice de simple concordance (matrice triangulaire supérieure). Comme il s'agit d'indices de similarité, la diagonale est occupée par la valeur 1 qui représente la similarité maximale, le 0 étant la valeur minimale. Si on utilise des données binaires, les paires Deschampsia flexuosa-Vaccinium myrtillus et Molinia coerulea-Calluna vulgaris sont considérées comme totalement similaires. Ce sont les paires Vaccinium oxycoccos-Deschampsia flexuosa et Vaccinium oxycoccos-Vaccinium myrtillus qui n'ont en commun aucune présence. La seule différence entre les indices de Jaccard et de simple concordance est la modification de la valeur de la similarité de la paire Vaccinium oxycoccos-Erica tetralix. Le fait de ne pas tenir compte des doubles absences (elles sont toutes les deux absentes de la station A) diminue leur similarité commune.
Dans le cas présent, on a utilisé toutes les données de recouvrement pour établir la présence de l'espèce dans une des stations. La plupart des logiciels permettent de choisir un seuil de recouvrement à partir duquel on estime que l'espèce n'est pas significativement présente. On aurait pu ainsi transformer en absence les valeurs de recouvrement r et + (1 et 2 dans l'échelle van der Maarel).Les similarités pour les données quantitatives
De nombreux indices existent aussi. L'usage privilégie toutefois les indices suivants :
- indice de Steinhaus : S17 = [2W / (A+B)] avec A et B la somme des abondances pour les deux stations et W la somme des minimums d'abondance dans chacun des carrés.
Espèces Station A Station B W = Minimum A-B Calluna vulgaris - CALVUL
7 3 3Deschampsia flexuosa - DESFLE
8 2 2Vaccinium myrtillus - VACMYR
5 1 1Vaccinium oxycoccos - VACOXY
0 0 0Molinia coerulea - MOLCOE
2 7 2Erica tetralix - ERITET
0 2 2Sommes 22 15 8Avec notre exemple, la similarité entre les stations A et B est égale à : (2 * 8) / (22 + 15) = 0,4324.
Steinhaus Station A Station B Station C Station A 1,0000 0,4324 0,3333
Station B - 1,0000 0,4571
Station C - - 1,0000
- indice de Kulczynski : S18 = [(W/A) + (W/B)] / 2;
Avec notre exemple, la similarité entre les stations A et B est égale à : ((8 / 22) + (8 / 15))/2 = 0,4485.
Kulczynski Station A Station B Station C Station A 1,0000 0,4485
0,3341
Station B - 1,0000 0,4667
Station C - - 1,0000 Ces deux indices ne se comportent pas de la même manière. Lorsque des relevés d'espèces dans des stations ont des profils relatifs similaires (ce sont les mêmes espèces qui dominent ou qui ne dominent pas), l'indice de Kulczynski tend à ne pas descendre en dessous de 50% même si les effectifs totaux sont complètement différents. C'est ainsi que si on défini que le relevé de la station B est égal à celui de la station A multiplié par un nombre et que ce nombre augmente de manière croissante, l'indice de Steinhaus tend vers 0 tandis que l'indice de Kulczynski tend vers 0,5. Il n'y a vraiment que quand des espèces sont absentes dans un relevé et fréquentes dans l'autre (dissymétrie des profils) que l'indice de Kulczynski descend en dessous de 50%. Dans l'exemple suivant, on compare l'évolution de trois indices de similarité lorsque un relevé de 5 espèces (abondance = 10, 4, 2, 4, 8) est comparé un autre relevé qui n'est que l'abondance du premier multipliée par un nombre (profil relatif identique). On voit bien que l'indice de Kulczynski ne descendra pas en-dessous de 50%.
Multiplieur
1
1,25
1,5
1,75
2
3
4
5
10
15
20
25
Steinhaus
100,0%
88,9%
80,0%
72,7%
66,7%
50,0%
40,0%
33,3%
18,2%
12,5%
9,5%
7,7%
Kulczinsky
100,0%
90,0%
83,3%
78,6%
75,0%
66,7%
62,5%
60,0%
55,0%
53,3%
52,5%
52,0%
Gower
100,0%
80,0%
66,7%
57,1%
50,0%
33,3%
25,0%
20,0%
10,0%
6,7%
5,0%
4,0%
- indice de Gower : S15 = moyenne des Sp pour chaque espèce avec Sp = 1 - [|(val1-val2)|/la plus grande différence], soit la réciproque du rapport de la différence d'abondance entre les deux relevés pour une espèce et de la plus grande différence d'abondance observée pour toutes les comparaisons de relevés pour la même espèce. Au contraire des deux autres indices valable uniquement pour des tableaux de fréquence, cet indice est aussi utilisé pour des fichiers très hétérogènes mélangeant différents types de variables (binaires, classes ordinales, quantitatives) car les similarités partielles sont calculées de manière indépendante pour chaque variable et sont sans unité.
Espèces Station A Station B Station C |A-B|Plus grande différence Calluna vulgaris - CALVUL
7 3 5 4 4Deschampsia flexuosa - DESFLE
8 2 0 6 8Vaccinium myrtillus - VACMYR
5 1 0 4 5Vaccinium oxycoccos - VACOXY
0 0 5 0 5Molinia coerulea - MOLCOE
2 7 3 5 5Erica tetralix - ERITET
0 2 7 2 7Avec notre exemple, la similarité entre les stations A et B est égale à : ((1-(4/4)) + (1-(6/8)) + (1-(4/5)) + (1-(0/5)) + (1-(5/5)) + (1-(2/7))) / 6 = 0,3607.
Gower Station A Station B Station C Station A 1,0000 0,3607
0,2167
Station B - 1,0000 0,4226
Station C - - 1,0000
Tous ces indices produisent des valeurs bornées entre 0 (les deux relevés sont complètement différents) et 1 (les deux relevés sont identiques).
D'autres indices ayant un comportement similaire à celui des indices de similarités sont parfois utilisés comme les coefficients de corrélation (paramétrique = r de Pearson ou de rang = Spearman et Kendall) mais ceux-ci oscillent entre -1 (complètement différents) et 1 (identiques). Pour les transformer en indice de similarité borné entre 0 et 1, il suffit d'y ajouter 1 et de les diviser par 2.
Les similarités peuvent être exprimées sous forme de distances et vice-versa, les distances peuvent être exprimées en similarités. Dans le premier cas, il suffit d'appliquer la formule D = 1 - S. Dans le second cas, on doit ramener dans un intervalle de 0 à 1 des valeurs qui peuvent varier entre 0 et l'infini.
Le choix du mode d'expression dépend souvent des capacités des logiciels de groupement ou d'ordination qui vont être utilisés et très souvent, il faut plutôt utiliser des distances. Les propriétés des indices changent en fonction des transformations qui leurs sont appliqués. Pour plusieurs distances, il est recommandé d'utiliser une transformation racine carrée qui fait que des indices non métriques ou non euclidiens peuvent le devenir. C'est notamment important pour faire des ordinations pour éviter des axes avec des valeurs propres négatives (cfr LEGENDRE et LEGENDRE, 1998 - pages 275-276).
Similarité D = 1 - S D=SQRT(1-S) S1 métrique, pas euclidienne métrique, euclidienne S7 métrique, pas euclidienne métrique, euclidienne S9 semimétrique, pas euclidienne non métrique, pas euclidienne S15 métrique, pas euclidienne métrique, euclidienne (?) S17 (=D14) semimétrique, pas euclidienne métrique, euclidienne (?) S18 semimétrique, pas euclidienne non métrique, pas euclidienne S21 (=D15) métrique, pas euclidienne métrique, euclidienne
Pour les autres distances : D1, D7 et D16 sont métriques.
Le tableau suivant présente les similarités calculées entre les espèces avec l'indice de Steinhaus (matrice triangulaire inférieure) et celle calculée avec l'indice de Gower (matrice triangulaire supérieure).
| |
|
||||||
| de Steinhaus |
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
Ce sont les paires Deschampsia flexuosa-Vaccinium myrtillus et Vaccinium oxycoccos-Erica Tetralix qui sont considérées comme étant les plus similaires avec les indices quantitatifs. La paire Molinia coerulea-Calluna vulgaris qui est considérée avec les indices pour données binaires comme totalement similaire (100%) ne l'est plus qu'à peine (50%). Ces deux espèces sont en effet observées dans les trois stations mais elles y présentent de fortes différences de recouvrement. Ce sont les paires Vaccinium oxycoccos-Deschampsia flexuosa et Erica Tetralix-Deschampsia flexuosa qui sont les plus dissimilaires.
Les valeurs des deux indices ne sont pas identiques mais positionnent grosso-modo les espèces de la même manière les unes par rapport aux autres. Le schéma ci-dessous montre qu'il y a parfois des fortes différences : l'indice de Gower considère que certaines paires sont relativement similaires (Vaccinium myrtillus-Vaccinium oxycoccos) alors que l'indice de Steinhaus les suppose complètement différentes. Mais la corrélation entre les indices est relativement bonne.
Similarités Indice de Steinhaus Indice de
Gower
Stations A B C A 1,0 0,43 0,33 B 0,36 1,0 0,46 C 0,21 0,42 1,0 La station B est toujours située entre les stations A et C avec cette fois une plus forte affinité avec la station C lorsqu'on tient compte des différences de recouvrement.
Ces différents exemples démontrent qu'il n'y a pas une solution unique. Chaque indice tend à mettre en valeur une partie de l'information. Lorsque celle-ci est fortement structurée, le choix n'a guère d'importance mais alors l'usage de méthodes d'analyses sophistiquées est généralement inutile puisque les conclusions sont évidentes. C'est en réalisant plusieurs variantes de la même analyse que l'écologiste cernera le mieux la structure de son jeu de données et pourra choisir l'indice le plus efficient, soit celui qui résume le mieux la structure révélée par les différentes analyses.
L'exemple suivant donne une idée des relations entre les différents indices.
Les matrices de similarité et de distances sont un premier pas : on a ainsi mesuré les relations entre les espèces ou les stations à partir du tableau des relevés. Pour aller plus loin dans l'analyse, pour identifier des groupes de stations ou pour les ordonner selon un gradient des méthodes d'analyses complémentaires sont nécessaires.
Lorsque qu'on souhaite comparer deux matrices de données écologiques indépendantes (fichier d'abondances d'espèces et un fichier de descripteurs écologiques), on peut déjà simplement utiliser les deux matrices de similarité entre les stations et porter sur un graphique à deux dimensions, en abcisse les valeurs de la première matrice et en ordonnée, celle de la seconde. Si une relation existe, on devrait observer que les stations se distribuent sur la diagonale avec éventuellement certaines stations divergentes d'un point de vue écologique et d'un point de vue biologique. Le simple calcul de la corrélation donne déjà une bonne idée des relations éventuelles entre les jeux de données.![]()
Le test de Mantel vise justement à comparer de manière statistique des matrices de similarités, d'abord simplement deux par deux, puis parfois avec une troisième, pour en enlever éventuellement l'effet (voir Legendre et Legendre, 1998, pages 552-557).