La girafe est un mammifère ongulé artiodactyle ruminant. La femelle adulte pèse 830 kg et a une taille de 4,6 m ; sa vitesse est de 60 km/h. Nul doute que la première phrase est très claire pour tout lecteur.
Mais que veut dire la seconde ?
Qui est cette femelle adulte ? Toutes les girafes pèsent-elles 830 kg et ont-elles une taille de 4,6 m ? En « full option », sont-elles toutes équipées d’un « cruise control » qui maintient leur vitesse constante ? Cela doit être drôlement épuisant de vivre à cette vitesse-là ?
Que représente cette girafe ? C’est la question que pose, de façon indirecte, la quatrième activité qui vous est présentée dans ce quatrième épisode de la saga1. « Lors d’un souper, un groupe de 10 amis a fait un tournoi de fléchettes. Voici les résultats obtenus :
Quel est le résultat le plus représentatif du niveau du groupe ? Justifie ton choix en indiquant ta méthode et tes observations. »
Cette activité a été menée dans des classes de deuxième année de l’enseignement général à Saint-Roch Ferrières, dans des classes de troisième et de quatrième année professionnelle à Saint-Louis Amercoeur et en quatrième qualification à l’Institut Notre-Dame de Malmédy[1]Nous remercions messieurs Janssens et Tollet ainsi que madame Bourgeois de nous avoir accueillis dans leurs classes..
Les élèves constatent que la plupart des personnes ont des scores qui varient entre 30 et 50 points… À part Romane, la valeur extrême. La présence de cette dernière ne choque pourtant personne avant qu’on ne pose la question de façon explicite. Même si d’aucuns veulent diviser ce score par deux ou plus pour en faire des données plus « conformes ». Les élèves relèvent également qu’il y a deux fois les scores 37 et deux 41.
De façon générale, la valeur représentative se trouve pour eux, parmi les dix valeurs observées : pas question d’en construire une différente de celles-là comme représentante du groupe. Ils cherchent donc, de façon un peu erratique au départ, celle qui leur semble adéquate dans le tableau de données. Quelques-uns proposent le score de Romane. Comme s’il s’agissait de défendre les couleurs du groupe à une compétition, le meilleur résultat correspond alors au candidat idéal : un certain sens de « représentant ».
Sur notre conseil, les élèves envisagent les différentes valeurs centrales découvertes au cours des activités précédentes[2] Pour les trois premiers épisodes, voir les numéros 225 à 227 de TRACeS., mais pas forcément dans l’ordre de leur découverte. Cela varie d’un groupe à l’autre.
Dans cette série de données, on observe deux modes : 37 et 41 dont l’effectif est deux tandis que l’effectif de tous les autres est de un. Lequel des deux choisir ? Plusieurs propositions apparaissent : prendre le plus petit, le plus grand, la moyenne des deux modes ou encore, en choisir un par affinité numérique. Les élèves auraient pu considérer qu’ayant deux valeurs 37 et 41 à effectifs égaux, il n’y a pas de mode. Mais aucun d’entre eux ne l’envisage. Un élève propose également de considérer la moyenne des quatre valeurs 37, 37, 41, 41. Un autre fait remarquer que le mode n’est pas représentatif du groupe, car il ne prend pas en compte l’ensemble de la série : le mode est insensible à toutes les autres valeurs…
Et si on choisit la moyenne comme représentant… Les élèves pensent bien sûr à additionner tous les scores et à diviser la somme par le nombre de personnes. On obtient un résultat globalement accepté même s’il est particulièrement élevé (62,7), ce qui est dû à la présence de la valeur extrême de Romane qui tire la moyenne vers le haut… Quelques élèves estiment que cette moyenne est peu représentative et qu’il faut donc trouver une autre méthode. Mais rares sont ceux qui veulent exclure cette valeur élevée, ce qui reviendrait à exclure Romane. N’y a-t-il qu’une tricheuse qui peut atteindre un score aussi élevé ? Pour convaincre les autres qu’il faut prendre la valeur en compte, un jeune ajoute : « C’est comme Usain Bolt, il court beaucoup plus vite que les autres, mais il fait partie du championnat ! On est obligés de le prendre en compte. »
Dans certains groupes, on calcule la moyenne avec et sans Romane pour voir la différence : 62,7 et 40,7. Les élèves se rendent alors compte à quel point une valeur extrême peut influencer la moyenne. Un problème ressurgit, c’est que 62,7 et 40,7 sont des nombres à virgules et… des scores impossibles. Cette difficulté a pourtant déjà été rencontrée et traitée dans l’activité de partage équitable qui visait à faire découvrir une facette de la moyenne. Certains veulent arrondir, mais à l’unité inférieure, car on ne peut ajouter de points : 62 et 40, c’est bon. D’autres, après avoir calculé la moyenne avec et sans Romane, prennent la moyenne de ces deux nombres.
Enfin, une méthode inattendue a été proposée : celle de prendre le moins bon et le meilleur score et d’en prendre la moyenne, ce qui revient à calculer le milieu de l’étendue.
Il reste la médiane, cette valeur rencontrée dans un problème de pointure et qui sépare la série des valeurs ordonnées en deux parties égales.
Nous avons constaté que plusieurs groupes (environ un sur deux) cherchent la valeur du milieu en oubliant d’ordonner les données. En ordonnant les valeurs, on a : 37, 37, 39, 41, 41, 43, 44, 45, 49, 251. Il y a dix valeurs, c’est un nombre pair et on obtient donc la médiane en faisant la moyenne des deux valeurs du milieu, la cinquième et la sixième : on obtient 42. Si on exclut Romane et son score de 251, il reste 9 valeurs et celle du milieu, la cinquième, est 41. Avec et sans Romane, la médiane n’est modifiée que d’un seul point, c’est donc une valeur plus fiable. Certains préfèrent aussi cette valeur, car selon eux elle est rapide à déterminer.
Après discussion, on arrive à la conclusion que dans ce cas de figure ci, la médiane semble une meilleure valeur que la moyenne pour représenter le groupe, car elle est plus proche de la majorité des scores. Elle est par ailleurs insensible aux valeurs extrêmes, ce que les spécialistes qualifie par la « robustesse de la médiane ».
Pour prendre un peu de hauteur par rapport à cette activité menée en classe, revenons-en à nos girafes. Quand on exprime que la femelle girafe adulte pèse 830 kg, a une taille de 4,6 m et que sa vitesse est de 60 km/h, on évoque le représentant de l’espèce.
C’est un mathématicien et statisticien belge, Adolphe Quetelet[3]A. Quetelet, « Sur l’homme et le développement de ses facultés » ou « Essais de physique sociale », Tome premier, Bachelier imprimeur-libraire, Paris, 1835. Téléchargé sur le site … Continue reading (1796-1874) qui a précisé le premier, la notion d’homme moyen : « Nous devons, avant tout, perdre de vue l’homme pris isolément, et ne le considérer que comme une fraction de l’espèce. En le dépouillant de son individualité, nous éliminerons tout ce qui n’est qu’accidentel ; et les particularités individuelles qui n’ont que peu ou point d’action sur la masse s’effaceront d’elles-mêmes, et permettront de saisir les résultats généraux. […] L’homme que je considère ici est, dans la société, l’analogue du centre de gravité dans les corps ; il est la moyenne autour de laquelle oscillent les éléments sociaux : ce sera si on veut un être fictif pour qui toutes les choses se passeront conformément aux résultats moyens obtenus pour la société. »
La médiane n’est pas utilisée à l’époque de Quételet, mais ce qu’il écrit de l’homme moyen pourrait être transféré à l’homme médian sans correction. Dans le cas de notre girafe, la valeur de 830 kg n’est vraisemblablement pas le poids de toutes les girafes comme nous l’avons énoncé en début de texte. Il s’agit très certainement d’une valeur centrale. Mais on ne sait pas s’il s’agit du poids moyen ou du poids médian des girafes femelles.
Pour prendre un peu plus de hauteur encore par rapport à cette activité menée en classe, quittons nos girafes. Le problème posé au travers des quatre activités relatées dans quatre épisodes de la saga, est principalement celui de l’usage des valeurs centrales (mode, médiane, moyenne, milieu de l’étendue) et secondairement, suivant l’usage, celle qui convient le mieux. Dans le premier épisode, nous avons rencontré le mode comme moyen de choisir un individu dans une population. Et cela ne va pas sans difficulté.
Abordée dans le second épisode, retenue dans le présent, la médiane qui partage l’effectif total des valeurs en deux est ce qu’on appelle une valeur robuste qui colle bien au gros de la population et qui est insensible aux valeurs extrêmes. Dans les problèmes de revenus, elle sert de référence.
Dans le troisième épisode, nous avons abordé la moyenne comme valeur de partage équitable. Dans un contexte de salaires, la somme de toutes les valeurs est la masse salariale et la moyenne est le salaire que chaque salarié aurait si tous les salaires étaient identiques.
Dans ce quatrième épisode, la moyenne et la médiane apparaissent comme représentants d’une population. Le mode et les valeurs extrêmes n’étant au bout du compte pas des candidats sérieux pour jouer ce rôle.
Tout ça pour montrer que les usages des valeurs centrales sont variés. Et il y en a bien d’autres que ceux qui sont évoqués ici. Citons à titre d’exemple que les valeurs centrales servent à comparer deux populations (la durée de vie moyenne des femmes est plus élevée que celle des hommes en Belgique), mais aussi à comparer une valeur à l’ensemble de la population (pour l’enquête PISA, la Belgique francophone fait moins bien que la moyenne des pays OCDE).
Alors pourquoi, face à cette variété d’usages et de sens, réduit-on dans tant de classes, le travail statistique à des calculs un peu stériles ? Pour sûr, cela doit changer !
Notes de bas de page
↑1 | Nous remercions messieurs Janssens et Tollet ainsi que madame Bourgeois de nous avoir accueillis dans leurs classes. |
---|---|
↑2 | Pour les trois premiers épisodes, voir les numéros 225 à 227 de TRACeS. |
↑3 | A. Quetelet, « Sur l’homme et le développement de ses facultés » ou « Essais de physique sociale », Tome premier, Bachelier imprimeur-libraire, Paris, 1835. Téléchargé sur le site http://gallica.bnf.fr |