Méthodes d'analyse des données écologiques et biogéographiques

20/03/07 - © M. Dufrêne

Les méthodes d'ordination décrivant un seul fichier

Principe de l'approche

L'objectif des méthodes d'ordination est d'ordonner des objets les uns par rapport aux autres de manière à éloigner les objets les plus différents en essayant de limiter le nombre de variables nécessaires. Imaginons que nous ayons un certain nombre de stations caractérisées par des mesures de pH et de concentration de carbonate de calcium.

Ces stations peuvent être représentées dans un espace à deux dimensions sur base des valeurs des deux variables écologiques. Il est évident qu'une relation étroite lie ces deux variables et que généralement, une forte valeur de pH (conditions basiques) correspond à une forte valeur de la [CaCO3] si bien qu'actuellement ces deux variables expliquent chacune près de 50% de la dispersion (de la variance) de l'ensemble des stations.

Puisque ces deux variables écologiques sont corrélées, on a intérêt à appliquer une méthode d'ordination pour chercher à trouver un nouvel arrangement des stations qui résume mieux leurs interrelations. Dans ce cas, la première étape d'une méthode d'ordination est de chercher le centre de gravité du nuage de points, soit la moyenne des valeurs de pH et la moyenne de la [CaCO3].

Ensuite, elle fait passer par ce centre de gravité un axe qui maximise au mieux la dispersion des stations et passe donc par le plus grand allongement du nuage de points. La projection de chaque station sur cet axe est sa nouvelle coordonnée sur le premier axe principal. Si on effectue une rotation du nuage de points pour que ce nouvel axe, appelé premier axe principal soit horizontal, on remarque que ce nouvel axe explique à lui seul plus de 80% de la dispersion des points.

L'analyse continue, recherchant le second axe qui explique le mieux la dispersion des stations tout en étant perpendiculaire au premier axe, de manière à lui être indépendant. Le second axe n'explique à lui seul que 20% de la variance ou de la dispersion initiale. On est donc arrivé à résumer au mieux l'information sur un seul axe majeur, interprété comme un axe d'alkalinité.

Algébriquement, un axe principal est une combinaison linéaire des variables initiales puisqu'il résulte d'un centrage et d'une rotation. La coordonnée d'une station sur un axe principal s'obtient par l'utilisation des valeurs de pH et de [CaCO3] de cette station dans la formule suivante :

X = a1 * pH + b1 * [CaCO3]

avec a et b étant les paramètres de transfert (= vecteurs propres) de l'espace original, défini par les variables écologiques, dans le nouvel espace, défini par les axes principaux.

La même démarche est appliquée pour des relevés biologiques. On cherche à opposer ceux qui sont les plus différents tout en identifiant les combinaisons d'espèces qui expliquent au mieux ces différences. Plusieurs méthodes d'ordination descriptives sont largement utilisées en écologie, mais l'analyse factorielle des correspondances est certainement la plus répandue. On introduira toutefois les méthodes d'ordination par une présentation de l'analyse en composantes principales qui est l'une des premières à avoir été utilisée. Cette analyse est d'ailleurs particulièrement utile pour synthétiser l'information de matrice de descripteurs écologiques.

L'analyse en composantes principales

La plus simple manière d'expliquer l'analyse en composantes principales (ACP; principal component analysis ou PCA en anglais) est purement géométrique. L'ACP repose sur le calcul de coefficients de corrélation entre des variables, qui sont descriptives d'objets dont on souhaite synthétiser les interrelations.

L'idée de base est que les coefficients de corrélation peuvent être exprimés comme des cosinus de triangles droits. Dans un triangle droit formé par les points O, A et B, le cosinus d'un angle est défini par le rapport des longueurs des côtés définissant cet angle. Lorsque l'angle est très aigu, les côtés O-A et O-B tendent dans la même direction et les points A et B sont très proches, le cosinus de l'angle tend vers 1.0, la valeur maximale. Si l'angle s'écarte, devient droit (90°), le cosinus de l'angle est nul. Si l'angle dépasse 90°, le cosinus de l'angle devient négatif. Il atteint la valeur de -1.0 lorsque l'angle atteint 180°.

Prenons par exemple le fichier de la section précédente détaillant la répartition de 6 espèces dans trois types de landes. Si on calcule les coefficients de corrélation entre les espèces, la valeur de ces coefficients mesure l'angle entre des droites (on les appelle des vecteurs) qui partent d'un point d'origine vers celles-ci. Ce point d'origine est défini comme étant le centre de gravité du nuage des variables. Pour le calculer, chacune des variables du fichier est d'abord centrée et standardisée. Pour se faire, on lui soustrait la moyenne et on la divise par l'écart-type. De ce fait, la moyenne de chacune est égale à 0 et l'écart-type vaut 1. Le centre de gravité du nuage est la coordonnée 0 sur tous les axes "espèces".

CALVUL
DESFLE
VACMYR
VACOXY
MOLCOE
ERITET
CALVUL
-
0,7206
0,7559
0,0000
-0,9449
-0,2774
DESFLE
43,9
-
0,9986
-0,6934
-0,4539
-0,8660
VACMYR
40,9
3,0
-
-0,6547
-0,5000
-0,8386
VACOXY
90,0
133,9
130,9
-
-0,3273
0,9608
MOLCOE
160,9
117,0
120,0
109,1
-
-0,0524
ERITET
106,1
150,0
147,0
16,1
93,0
-

Tableau des corrélations (matrice triangulaire supérieure) et des angles exprimés en degré (matrice triangulaire inférieure) entre les 6 espèces.

Comment identifier le premier axe principal ? Graphiquement, il pointe dans la direction principale. Pour l'identifier, on mesure la projection des différents vecteurs espèces sur cet axe principal; cette projection - toujours perpendiculaire à l'axe principal - est appelée le vecteur propre de chaque espèce sur le premier axe.

La position de cet axe est identifiée quand la somme des carrés des corrélations des variables avec cet axe ou valeur propre de l'axe est maximale. La valeur propre mesure donc le degré de corrélation le plus élevé entre toutes les espèces. Il s'agit de la première composante principale expliquant la structure des données. La seconde composante est choisie de la même manière, mais en étant orthogonale à la première. Orthogonale, cela signifie qu'elle est choisie à angle droit de la première pour lui être tout à fait indépendante (la corrélation entre les deux axes est égale à 0 puisque l'angle est de 90°). On continue ainsi avec les autres axes principaux.

Les vecteurs propres se déduisent des corrélations en divisant chacune par la racine carrée de la valeur propre correspondante. Ainsi, le vecteur propre de Calluna vulgaris sur l'axe 1 est égal à (0,7292/ racine carrée de (3,9536)) = 0,3667. Les vecteurs propres mesurent ainsi la contribution de chaque espèce à un axe. Ces vecteurs propres nous serviront notamment à calculer les coordonnées des stations sur les nouveaux axes.

Espèces
Station A
Station B
Station C
Station A std
Station B std
Station C std
Corrélation axe 1
Corrélation axe 2
Vecteur propre 1
Vecteur propre 2
CALVUL
7
3
5
1.00
-1.00
0.00
0,7292
0,6843
0,3667
0,4784
DESFLE
8
2
0
1.12
-0.32
-0.80
1,0000
-0,0125
0,5029
-0,0087
VACMYR
5
1
0
1.13
-0.38
-0.76
0,9992
0,0400
0,5025
0,0279
VACOXY
0
0
5
-0.58
-0.58
1.15
-0,6843
0,7292
-0,3442
0,5097
MOLCOE
2
7
3
-0.76
1.13
-0.38
-0,4560
-0,8853
-0,2339
-0,6189
ERITET
0
2
7
-0.83
-0.28
1.11
-0,8597
0,5108
-0,4324
0,3571
Résultats
Coordonnées sur les axes principaux
Valeurs propres
ACP1
2.235
-0.664
-1.571
3,9536
2,0464
ACP2
0.377
-1.581
1.204
65,9%
34,1%

On dispose ainsi de nouveaux axes qui décrivent de manière synthétique les relations entre les espèces tout en préservant les distances euclidiennes originales entre les stations. Pour identifier les coordonnées d'une station sur un de ces nouveaux axes principaux, il suffit de réaliser une combinaison linéaire entre les vecteurs propres des espèces sur cet axe et les données d'abondance des espèces dans cette station. La coordonnée de la station A sur le premier axe principal correspond ainsi à la combinaison linéaire des abondances des 6 espèces centrées (valeur - valeur moyenne) par les valeurs du vecteur propre 1 : (1.00-0.00)*0,3667 + (1.12-0.00)*0,5029+(1.13-0.00)*0,5025+ ... = 2.235.

 

Comme ce dessin le montre, l'analyse en composantes principales préserve les distances euclidiennes entre les 3 stations. Le passage d'un espace à 6 dimensions initiales défini par les 6 espèces à un espace à deux dimensions principales n'a pas modifié la matrice de distance euclidienne entre les stations.

L'analyse factorielle des correspondances

L'analyse factorielle des correspondances (AFC; correspondence analysis ou CA en anglais) est une méthode d'ordination particulière spécifiquement adaptée aux tableaux de contingence. Comme son nom l'indique, l'objectif est de mettre en correspondance les lignes avec les colonnes d'un tableau de fréquence. Cette analyse est très souvent employée pour résumer la structure d'un jeu de données de distribution d'espèces et mettre en relation les conditions écologiques des stations avec les espèces qui en sont caractéristiques.

Espèces
station A
station B
station C
Somme
CALVUL
7
3
5
15
DESFLE
8
2
0
10
VACMYR
5
1
0
6
VACOXY
0
0
5
5
MOLCOE
2
7
3
12
ERITET
0
2
7
9
Somme
22
15
20
57

L'analyse repose sur une pondération de chaque cellule du tableau d'une part par les totaux marginaux de la ligne et d'autre part, par les totaux marginaux de la colonne correspondante. C'est sur ces deux matrices pondérées que l'analyse recherche ensuite les axes principaux en veillant à conserver les distances euclidiennes entre les lignes d'une part et les colonnes d'autre part. Cette manière de procéder met rapidement en lumière les espèces qui ont le plus des relations avec des stations ou des groupes de stations. On peut visualiser facilement les relations entre les lignes et les colonnes en calculant pour chaque colonne le produit des probabilités conditionnelles calculées pour les lignes et pour les colonnes. Pour Calluna vulgaris dans la station A, la valeur de ce produit est égal à 7/22 * 7/15 = 0,1485

Espèces
station A
station B
station C
CALVUL
14,8%
4,0%
8,3%
DESFLE
29,1%
2,7%
-
VACMYR
18,9%
1,1%
-
VACOXY
-
-
25,0%
MOLCOE
1,5%
27,2%
3,8%
ERITET
0
3,0%
27,2%

Une autre manière de visualiser ces relations mise en évidence par l'AFC est de calculer une statistique de Chi2 pour chaque cellule. Pour ce faire, on calcule d'abord les valeurs attendues s'il n'y avait aucune relation privilégiée entre une espèce et une station. Cela suppose que les espèces se répartissent uniformément parmi les stations, compte tenu de leur richesse globale. La fréquence attendue ("Expected" en anglais) d'une espèce dans une station est calculée comme étant le produit des totaux marginaux de l'espèce et de la station, divisé par la fréquence totale. Pour Calluna vulgaris dans la station A, cette fréquence attendue est égale à: (22 * 15)/57 = 5,79; de même elle égale à ( 15*15)/57 = 3,95 pour Calluna vulgaris dans la station B.

Espèces
station A
station B
station C
CALVUL
5,79
3,95
5,26
DESFLE
3,86
2,63
3,51
VACMYR
2,32
1,58
2,11
VACOXY
1,93
1,32
1,75
MOLCOE
4,63
3,16
4,21
ERITET
3,47
2,37
3,16
Tableau des fréquences attendues des recouvrements des espèces dans les 3 stations.

Il suffit ensuite de calculer une statistique de Chicarré pour révéler les cellules qui montrent une association (ou l'inverse) significative entre une espèce et une station. Cette statistique ce calcule pour chaque cellule comme étant : (O - E)2/E avec O la valeur de fréquence observée et E la valeur de fréquence attendue.

Espèces
station A
station B
station C
CALVUL
0,25 (+)
0,23 (-)
0,01 (-)
DESFLE
4,44 (+)
0,15 (-)
3,51 (-)
VACMYR
3,11 (+)
0,21 (-)
2,11 (-)
VACOXY
1,93 (-)
1,32 (-)
6,00 (+)
MOLCOE
1,50 (-)
4,67 (+)
0,35 (-)
ERITET
3,47 (-)
0,06 (-)
4,67 (+)
Tableau des valeurs de Chicarrés partiels pour les six espèces dans les 3 stations. On y a ajouté le signe de la différence entre les valeurs O-E pour montrer les associations positives et négatives.

L'information qui sera expliquée par les axes principaux est la même que celle qui est révélée dans ce tableau. On remarque immédiatement dans ce tableau les relations privilégiées entre des espèces et des stations : Deschampsia flexuosa et Vaccinium myrtillus sont associés positivement à la station A alors qu'Erica tetralix y est négativement associée. Seul Molinia coerulea est associée positivement à la station B. Vaccinium oxycoccos et Erica tetralix sont positivement associés à la station C alors que Deschampsia flexuosa et Vaccinium myrtillus y sont négativement associés. Par contre Calluna vulgaris qui est l'espèce la plus répandue ne montre ici que de très faibles valeurs et, par le jeu des profils pondérés, contribuera donc très peu à la structure du nuage multidimensionnel.

L'intérêt des profils pondérés est donc bien de mettre en évidence les relations - les correspondances - entre espèces et les stations. Si une espèce n'est présente que dans une station, et qu'il n'y a pas d'autres espèces dans cette station, cette espèce est considérée comme contribuant au maximum à l'information : cette espèce et cette station établiront à elle seule un axe principal. Ce type de structure sera difficile à mettre en évidence avec une analyse en composantes principales si la variance de cette espèce est faible relativement aux autres espèces.

L'AFC est particulièrement adaptée à l'étude de gradients écologiques car elle tend à produire des axes principaux qui expliquent le mieux les amplitudes écologiques des espèces en opposant le plus possible les optimums.

Le graphique ci-dessus illustre les courbes d'amplitude écologiques de 5 espèces (A, B, C, D, E) sur un gradient d'humidité. La présence (y=1, les points verts) ou l'absence (y=0, les points rouges) de l'espèce D est indiquée sur le même graphique. L'ordre ou la séquence des sites étudiés est déterminé ci-dessus par les valeurs croissantes d'humidité. On observe une succession relative des différentes espèces et un chevauchement important.

Si on réalise une analyse factorielle des correspondances sur ces données, celle-ci produit un nouvel ordre des stations qui maximise très clairement la dispersion des optimums des différentes espèces et diminue aussi leur chevauchement réciproque.

L'une des méthodes de calcul de l'AFC est basée sur une pondération réciproque (reciproqual averaging = RA en anglais) illustre bien cet effet. La méthode repose sur une approche itérative. On calcule d'abord les totaux marginaux, puis commence la procédure itérative. Pour rechercher le premier axe, on assigne d'abord aux différentes espèces un poids arbitraire (W) réparti entre 0 et 100. On calcule ensuite les premières coordonnées des stations (Q1) en calculant pour chaque station la somme des produits des abondances des espèces avec le poids arbitraire W. Cette somme de produits est ensuite divisée par la somme des abondances des espèces dans les stations.

Espèces
A
B
C
Somme
W
CALVUL
7
3
5
15
0
DESFLE
8
2
0
10
20
VACMYR
5
1
0
6
40
VACOXY
0
0
5
5
60
MOLCOE
2
7
3
12
80
ERITET
0
2
7
9
100
Somme
22
15
20
57
-

La première coordonnées (Q1) de la station A est égale à ((0*7) + (20*8) + (40*5) + (60*0) + (80*2) + (100*0))/ 22 = 23,64.

On calcule ensuite les coordonnées des espèces (S1) en calculant pour chacune la somme des produits entre leur recouvrement et les coordonnées provisoires des stations Q1. La première coordonnée (S1) de l'espèce Calluna vulgaris est alors égale à ((23,64 * 7) + (56,00 * 3) + (62,00 * 5))/ 15 = 42,90.

On réparti ensuite les coordonnées de ces espèces sur une nouvelle échelle de 0 à 100 (S1sc) qui serviront de nouveaux facteurs de pondération pour calculer les coordonnées des stations Q2. Cette nouvelle échelle de pondération est calculée de manière à ce que la coordonnée S1 la plus basse soit égale à 0 et la plus haute à 100 : S1sc = 100 * ((S1 - minimum)/(maximum-minimum)). On se sert de ces nouveaux facteurs de pondération pour calculer Q2.

Espèces
S1
S1sc
S2
S2sc
...
S8
S8sc
S9
CALVUL
42,90
42,06
47,16
38,92
...
40,02
37,59
40,01
DESFLE
30,11
3,27
27,61
2,09
...
21,69
1,60
21,69
VACMYR
29,03
0,00
26,50
0,00
...
20,88
0,00
20,88
VACOXY
62,00
100,00
79,60
100,00
...
71,78
100,00
71,77
MOLCOE
52,11
69,99
55,07
53,80
...
44,79
46,97
44,78
ERITET
60,67
95,96
73,98
89,42
...
64,99
86,65
64,98

On continue ainsi la procédure jusqu'à ce que les coordonnées des stations et des espèces convergent vers les valeurs optimales. Après neuf itérations, les coordonnées obtenues montrent des valeurs fortement identiques à celles du niveau précédent. On dispose donc des coordonnées des stations et des espèces sur le premier axe principal.

Coordonnées
A
B
C
Q1
23,64
56,00
62,00
Q2
20,93
54,30
79,60
Q3
18,04
45,09
74,10
Q4
17,19
42,39
72,48
Q5
16,93
41,57
71,99
Q6
16,85
41,32
71,84
Q7
16,82
41,24
71,79
Q8
16,82
41,21
71,78
Q9
16,81
41,21
71,77

Ces coordonnées indiquent une opposition nette entre la station A et la station C, la station B se trouvant à mi-distance. Cette station ne participe que très peu à l'information exposée sur cet axe. Les espèces associées à la station A sur ce premier axe sont Vaccinium myrtillus et Deschampsia flexuosa; la station C est caractérisée par Vaccinium oxycoccos et Erica tetralix. Molinia coerulea et Calluna vulgaris participent aussi très peu à la construction de cet axe.

Pour rechercher le second axe, on procède de même, par itération convergente mais en éliminant l'information déjà expliquée par le premier axe.

Les résultats de l'AFC peuvent être présentés de nombreuses manières différentes car ce sont bien deux projections d'objets (les stations dans un espace défini par les espèces et les espèces dans un espace défini par les stations) que l'ont doit essayer de recadrer l'une sur l'autre. Trois solutions sont présentées ici. Les variantes sont toutefois nombreuses et diffèrent d'un logiciel à l'autre.

A

B

C

Espèces
Station_A
Station_B
Station_C
CALVUL
7
3
5
DESFLE
8
2
0
VACMYR
5
1
0
VACOXY
0
0
5
MOLCOE
2
7
3
ERITET
0
2
7

Rappel du tableau de données originales

Inertie axe 1 = 0,5089 (76%)
Inertie axe 2 = 0,1577 (24%)

Dans le premier cas (A; SAS : option PROFILE=ROW; CANOCO : Focus scaling on inter-samples distances), l'AFC est basée sur les profils pondérés des lignes (= stations dans le cas présent) et les stations sont positionnées aux centroïdes des coordonnées des espèces qui y sont présentes (voir par exemple la position de la station C). Les distances entre les stations ont une signification mais pas les distances entre les espèces et les distances entre les espèces et les stations ne sont pas interprétables. Les distances euclidiennes entre les coordonnées des stations sur les axes factoriels sont égales aux distances de Chicarré (D16) originales. C'est l'option à choisir si on s'intéresse d'abord à la position relative des sites.

Dans le second cas (B; SAS : option PROFILE=COLUMN; CANOCO : Focus scaling on inter-species distances), l'AFC est basée sur les profils pondérées des colonnes (= espèces dans le cas présent). Ce sont maintenant les espèces qui sont basées aux centroïdes des coordonnées des stations où elles sont présentes. Ainsi, Vaccinium occycoccos est superposée à la station C car elle y est uniquement présente. Les distances entre les espèces ont une signification mais pas les distances entre les stations et les distances entre les espèces et les stations ne sont pas interprétables. Les distances euclidiennes entre les coordonnées des espèces sur les axes factoriels sont égales aux distances de Chicarré (D16) originales. C'est l'option à choisir si on s'intéresse d'abord à la position relative des espèces.

Dans le troisième cas (C; SAS : option PROFILE=BOTH), il s'agit d'un mélange des coordonnées des stations du premier cas et des coordonnées des espèces du second cas. On peut donc interpréter les distances entre les stations d'un côté, les distances entre les espèces de l'autre, mais rester prudent pour les interprétations croisées comme la proximité de stations et d'espèces, surtout quand on s'éloigne de la périphérie des extrêmes des axes.

Le logiciel CANOCO (option focus scaling symmetric) donne une quatrième solution pour obtenir une solution intermédiaire entre les deux extrêmes des deux premières solutions.

On remarquera toutefois que ces options ne concernent que la représentation des coordonnées des stations et des espèces et non les directions des axes principaux ou les valeurs propres. Quelque soit l'option choisie, même si les moyennes et écart-types des coordonnées sur un axe peuvent être différents, les coordonnées des mêmes objets avec les 4 solutions restent toutes parfaitement corrélées.

En pratique, si on veut calculer les coordonnées des stations à partir des coordonnées des espèces (cas A), pour obtenir la coordonnée d'une station, il faut multiplier les coordonnées des espèces par leur abondances relative (nombre d'individus d'une espèce/ nombre total d'individus dans la station considérée) respectives. La somme de ces produits doit être encore divisée par racine carré de la valeur propre de l'axe considéré. La coordonnée de la station C sur l'axe 1 est ainsi égale à [-0,1062 x (5 CALVUL/20) + -0,8833 x (0 DESFLE/20) + -0,9178 x (0 VACMYR/20) + 1,241 x (5 VACOXY/20) + 0,0961 x (3 MOLCOE/20) + 0,9529 x (7 ERITET/20)] / [RACINE (0,5089)] soit 0,885.

L'analyse en coordonnées principales

L'analyse en coordonnées principales (ACoP; principal coordinate analysis ou PCoA ou encore metric multidimensionnal scaling en anglais) peut être présentée comme une généralisation des deux méthodes précédentes. Le but de l'analyse est de rechercher les axes principaux qui maximisent une matrice de distances métriques (une variante existe ausdi pour les mesures non-métriques). Cette méthode permet donc de situer les objets dans un espace de dimensions réduites, qui préserve aussi bien que possible les relations de distance entre eux. Au lieu de travailler sur le jeu de données originales, cette méthode utilise une matrice de distance calculée sur ce jeu de données. Il est donc possible d'utiliser ainsi l'indice le plus adéquat pour décrire la structure d'un jeu de relevés biologiques.

Le principe est donc simple : si on dispose d'une matrice de distances géographiques entre des villes, on obtient avec l'analyse en coordonnées principales des axes principaux qui permettent de reconstruire une carte géographique.

Si on calcule en kilomètres les distances entre une sélection de 20 villes belges (variance initiale du jeu de coordonnées X et Y = respectivement : 4398.68 pour X (65%) et 2394.18 pour Y (35 %), soit une variance totale de 6792,86) et qu'on utilise cette matrice de distance avec une analyse en coordonnées principales, on obtient le graphique suivant :

Les coordonnées obtenues ne sont pas identiques aux coordonnées originales puisque les deux axes principaux se dirigent dans les directions de plus grande variance (axe 1 = 5401.63 (80%) et axe 2 = 1391.23 (20%)), soit sur un axe qui part d'Ostende vers un point entre Arlon et Sankt-Vith en passant par Namur. Il y a donc eu une simple rotation des deux axes initiaux. Les distances (euclidiennes) entre les villes calculées sur ces deux nouvelles dimensions sont strictement identiques aux distance originales.

Dans le cas des relevés biologiques, on utilisera plutôt les indices de Steinhaus (S17) ou de Kulczynski (S18) (voir les pages consacrées aux indices de similarité et de distance). La transformation de cette indice en distance donne un indice (D14) qui n'est pas mesure métrique pure puisqu'elle n'est pas euclidienne (règle d'inégalité du triangle n'est pas respectée). Toutefois, la transformation racine carrée lui donne des propriétés euclidiennes (Legendre & Legendre, 1998, page 433). Si on veut utiliser une matrice de similarité/distance adaptée aux abondances d'espèces pour réaliser une ordination, on doit réaliser une transformation raciné carrée.

Si on utilise une matrice de distance euclidienne (D1) avec l'analyse en coordonnées principales, on obtient une représentation des objets qui est la même que celle produite avec une analyse en composantes principales (analyse basée sur la covariance !). Dans le cas des 20 villes belges, une ACP donne exactement les mêmes résultats. Cela devrait être aussi le cas avec une analyse en coordonnées principales d'une matrice de distance de chicarré (D16) obtenue à partir d'un tableau de contingence et les résultats d'une analyse factorielle des correspondances du même tableau. Si on calcule une matrice de distance euclidienne sur l'ensemble des axes produits par une ACoP, elle sera identique à la matrice de distance de chicarré calculée entre les données originales. Mais la représentation sur les premiers axes de l'ACoP peut être différentes que celle de l'AFC.

L'ACoP est disponible avec le logiciel SAS (PROC MDS) ou le logiciel gratuit DISTPCOA de Legendre et Anderson (1998) ou d'autres logiciels. Le logiciel DISTPCOA permet de travailler sur des matrices de distances ou de similarité ou encore des données brutes puisqu'il calcule les indices de base comme la distance euclidienne, l'indice de Steinhaus (appelé Bray Curtis) ou la distance du Chicarré. PROC MDS et DISTPCOA donnent exactement les mêmes mêmes coordonnées.

Les effets d'arche

Lorsqu'on utilise des données réparties sous la forme de longs gradients, les ordinations ne produisent pas la représentation attendue.

             1 2 3 4 5 6 7 8
       Sta01 1 1 0 0 0 0 0 0
       Sta02 1 1 1 0 0 0 0 0
       Sta03 0 1 1 1 0 0 0 0
       Sta04 0 0 1 1 1 0 0 0
       Sta05 0 0 0 1 1 1 0 0
       Sta06 0 0 0 0 1 1 1 0
       Sta07 0 0 0 0 0 1 1 1
       Sta08 0 0 0 0 0 0 1 1

Tableau de présence de 8 espèces dans 8 stations régulièrement disposées en gradient

Projection des points sur les axes 1 et 2 d'une AFC (axe 1 = 45% et axe 2 = 30%)

Projection des points sur les axes 1 et 3 d'une AFC

Projection des points sur les axes 1 et 4 d'une AFC

Le premier plan factoriel (axes 1 et 2) de l'AFC montre une représentation en forme d'arche où les stations et les espèces qui étaient situées aux extrêmes du gradient se retrouvent finalement assez proches les uns des autres. Le deuxième axe n'apporte aucun information originale par rapport au premier (il lui est d'ailleurs non linéairement corrélé) mais est nécessaire pour bien comprendre le gradient. Le troisième axe se caractérise par une forme en S couché. Chaque axe supplémentaire ajoute en fait un point d'inflexion à la courbe.

Que s'est-il passé ? Pourquoi n'observe-t-on pas réellement le gradient ? La forme observée n'est pas un artefact car si on calcule les distances entre les stations (par exemple, la D14 = 1 - S17 mais on aurait pu aussi le faire avec le Distance du Chicarré D16 qui est conservée avec l'AFC), on remarque que comme il n'y a très vite aucune espèce en commun entre des stations éloignées sur le gradient, les distances n'augmentent plus. La station 01 est aussi éloignée de la station 04 que de la station 08.

D14

Sta0

Sta02

Sta03

Sta04

Sta05

Sta06

Sta07

Sta08

Sta01

0,00

0,20

0,60

1,00

1,00

1,00

1,00

1,00

Sta02

0,20

0,00

0,33

0,67

1,00

1,00

1,00

1,00

Sta03

0,60

0,33

0,00

0,33

0,67

1,00

1,00

1,00

Sta04

1,00

0,67

0,33

0,00

0,33

0,67

1,00

1,00

Sta05

1,00

1,00

0,67

0,33

0,00

0,33

0,67

1,00

Sta06

1,00

1,00

1,00

0,67

0,33

0,00

0,33

0,60

Sta07

1,00

1,00

1,00

1,00

0,67

0,33

0,00

0,20

Sta08

1,00

1,00

1,00

1,00

1,00

0,60

0,20

0,00

Le graphique d'une ACop sur la matrice de distance D14 (transformée par la racine carrée) ne fait que confirmer cette relation de proximité : la Station 01 est en effet toujours pratiquement à la même distance des stations 04 à 08 !

Si on pouvait calculer une matrice de distance qui mesure correctement les distances entre les extrêmes du gradient, on obtiendrait une représentation correcte. Si par exemple, on dispose d'une matrice de distance comme celle ci-dessous, on obtient une représentation en gradient très claire (PCoA).

 
       S S S S S S S S S S
       T T T T T T T T T T
       A A A A A A A A A A
       0 0 0 0 0 0 0 0 0 1
       1 2 3 4 5 6 7 8 9 0
 STA01 0 1 2 3 4 5 6 7 8 9
 STA02 1 0 1 2 3 4 5 6 7 8
 STA03 2 1 0 1 2 3 4 5 6 7
 STA04 3 2 1 0 1 2 3 4 5 6
 STA05 4 3 2 1 0 1 2 3 4 5
 STA06 5 4 3 2 1 0 1 2 3 4
 STA07 6 5 4 3 2 1 0 1 2 3
 STA08 7 6 5 4 3 2 1 0 1 2
 STA09 8 7 6 5 4 3 2 1 0 1
 STA10 9 8 7 6 5 4 3 2 1 0

Si le gradient est moins long, comme dans l'exemple ci-dessous, la matrice de distance D14 permet d'obtenir avec une PCoA un véritable gradient.

 
       1 2 3 4 5 6 7 8
 Sta01 1 1 1 1 0 0 0 0
 Sta02 1 1 1 1 1 0 0 0
 Sta03 1 1 1 1 1 1 0 0
 Sta04 1 1 1 1 1 1 1 0
 Sta05 0 1 1 1 1 1 1 1
 Sta06 0 0 1 1 1 1 1 1
 Sta07 0 0 0 1 1 1 1 1
 Sta08 0 0 0 0 1 1 1 1

Ce problème des représentations de gradient a fait l'objet de développement de versions de méthodes d'ordination qui "redressent" les effets d'arche comme la Detrended Correpondence Analysis (DCA). Plusieurs solutions ont proposées comme un découpage du gradient en segments (DCA classique) ou des régressions polynomiales avec des termes au carré ou au cube pour essayer que le deuxième axe et suivants soit aussi non-linéairement corrélé au premier. Ces transformations ne font toutefois pas l'unanimité même si elles sont finalement largement utilisées.

Home