Méthodes d'analyse des données écologiques et biogéographiques11/05/03 - © M. Dufrêne |
Le principe d'une méthode de groupement ou de classification est de rassembler les objets qui ont un degré de similarité suffisant pour être réunis dans le même ensemble. Dans le cadre de l'analyse de la végétation, on groupe les relevés pour mettre en évidence des conditions écologiques particulières qui président à la reconnaissance des associations végétales.
A l'instar de la diversité des indices de similarités, il existe aussi un large éventail de méthodes de groupement. Elles sont généralement d'abord classées en fonction de leur caractère hiérarchique ou non-hiérarchique. On désigne par l'appelation hiérarchique les méthodes qui imposent de manière définitive la position d'un objet au sein d'une filière de la classification. Tous les objets doivent obligatoirement se retrouver dans la structure finale. Les méthodes hiérarchiques sont de deux types : elles sont agglomératives quand elles associent les objets et les groupent les uns avec les autres pour terminer par un seul groupe; elles sont divisives quand elles subdivisent les groupes jusqu'à obtenir autant de groupes qu'il y a d'objets. Les méthodes non-hiérarchiques établissent une classification qui est indépendante d'un niveau à l'autre. Certaines permettent en outre une superposition des objets dans deux ou plusieurs groupes de manière à bien révéler leur caractère intermédiaire.
On présentera ici le principe de base des méthodes de groupement hiérarchique agglomératif (méthode à liens simples) comme illustration de la procédure de groupement. La première étape consiste à ordonner en ordre décroissant une demi-matrice de similarité de manière à mettre en tête les valeurs de similarité les plus élevées.
Il suffit avec la méthode à liens simples d'associer la paire de relevés la plus similaire pour créer le premier niveau de groupement. On continue ensuite à associer les objets aux autres objets, ou aux groupes déjà existants, si l'objet auquel ils doivent être associés appartient déjà à un groupe.
Si on place les différents noeuds du groupement sur une échelle graduée en fonction des valeurs de similarité décroissante, on peut construire un dendrogramme qui visualise la similarité entre les différents objets.
Différentes méthodes de groupement existent car il y a plusieurs moyens de grouper des objets. L'exemple précédent montre que l'objet 3 a été associé à la paire d'objets 4 et 5, grâce à sa similarité de 0,3 avec l'objet 4. Mais sa similarité avec l'objet 5 n'est que de 0,2. Avec la méthode à liens simples, on a donc modifié la similarité originale de la paire d'objets 3 et 5 pour l'élever à une similarité de 0,3. Toute méthode de groupement tend donc à modifier plus ou moins les similarités originales par rapport à celles qui peuvent être lues sur un dendrogramme.
Cette similarité obtenue à partir du dendrogramme, différente de la similarité originale, s'appelle la similarité cophénétique. On utilisera un indice de corrélation habituel pour mesurer la relation entre les similarités originales et les similarités cophénétiques, indice qui sera d'ailleurs appelé corrélation cophénétique.
(à compléter)
Il est possible de réaliser une cartographie de l'appartenance des unités géographiques pour les différents niveaux du groupement (2 groupes, 3 groupes, ...). On obtient ainsi une partition géographique de la région étudiée en zones de plus en plus homogènes.
Les méthodes de groupement traditionnelles construisent des structures indépendantes de la localisation géographique des différentes unités géographiques opérationnelles. Rien ne s'oppose à ce que soit rassemblés dans le même groupe, des OGUs éloignés les uns des autres. Dès lors, lorsqu'une structure géographique claire est révélée, montrant des régions homogènes où tous les OGUs sont contigus, on peut conclure à une véritable homogénéité de la distribution et donc à de très fortes structures biogéographiques.
Il est toutefois fréquent que la qualité de l'échantillonnage des données biologiques soit loin d'être constante d'un OGU à l'autre et, qu'en conséquence, cette variation aléatoire ou incontrôlable soit à l'origine d'une structure géographique très hétérogène, où les OGUs de différents groupes se mélangent géographiquement les uns avec les autres.
Une alternative intéressante est le groupement avec contrainte géographique où on ne place dans un groupe que les OGUs qui sont proches ou contigus les uns aux autres. Cette contrainte permet une bien meilleure visualisation des tendances biogéographiques essentielles puisque la méthode de groupement aura tendance à se baser sur des noyaux géographiques forts pour, lorsque le nombre de groupes diminue, augmenter progressivement leur taille de manière concentrique.
En découpant une région donnée en sous-régions homogènes, on établit de facto des frontières entre ces sous-régions. L'un des problèmes majeurs de la biogéographie est la validation de la pertinence de ces frontières. Correspondent-elles à des structures locales fortes ou sont-elles des limites arbitraires perpendiculaires à un gradient environnemental relativement continu ?
Plusieurs méthodes ont été développées pour se faire mais l'une des plus simples consiste à calculer les différences entre tous les OGUs contigus et de cartographier ces différences locales en y superposant les frontières biogéographiques. Si la frontière obtenue par la méthode de groupement suit des zones de fortes différences locales, on peut conclure que la frontière est réellement une structure forte, qui joue un rôle fondamental dans la distribution des espèces. Si par contre, il n'y pas plus de différences entre les OGUs voisins qu'elle sépare, que de différences entre ces OGUs et ceux localisés dans le même groupe, on conclura que la frontière est en fait une limite arbitraire placée au milieu d'un gradient apparemment continu. Ce type de frontières devrait alors être représenté d'une autre manière (trait plus large, moins net) que les frontières biogéographiques réelles (trait fin, net).