EHUko irakaslea. Hezkuntzako Ikerkuntzaren eta Diagnosi Metodoen Saila
Nombreux sont ceux qui mélangent des statistiques avec des statistiques. La statistique est une branche des mathématiques chargée de recueillir, organiser et analyser les données numériques. Et non seulement cela, mais cela nous aide à résoudre les problèmes et à prendre des décisions qui surgissent dans la conception des expériences. Malgré sa courte histoire comme discipline scientifique, il a une longue antiquité comme outil de synthèse et de publication d'informations numériques. L'étendue de la statistique et sa fonction instrumentale s'étend à toutes les branches de la science.
Dans les cas où l'on ne dispose pas de données de tous les éléments de la population étudiée, on travaillera dans des conditions d'incertitude et de hasard pour préparer les conclusions. Dans ces cas, l'analyse inferentielle des données utilise une méthodologie statistique pour estimer des paramètres inconnus, contraster des hypothèses concrètes, prévoir des comportements futurs, prendre des décisions, effectuer des diagnostics individuels et collectifs, quantifier l'incertitude et même limiter la marge d'erreur. Ainsi est annoncé le temps, l'état de santé d'une personne, la comparaison entre les résultats des deux procédures, la fiabilité des composants d'une machine sur plusieurs années. Les prévisions concrètes devraient être: demain il ya une chance de pluie de 87%, vous avez le cerveau mal avec 93% de probabilité, ou l'ampoule A est mieux que le B avec une marge d'erreur de 5%. Mais il ne semble pas que l'homme du temps, ni le médecin, ni le vendeur d'ampoules prennent la tâche de déterminer le degré d'erreur de leurs prévisions.
Il convient également de noter que les notions de folie et d'incertitude confondent parfois l'intuition. Ainsi, dans un collectif de 30 personnes, la probabilité qu'il y ait deux personnes qui remplissent les années le même jour est supérieure à celle qu'il n'existe pas, c'est-à-dire supérieure à 50%. Avec seulement trente personnes semble mensonge, mais la théorie des probabilités "prouve" que la probabilité que l'anniversaire se produit à la fois est plus grande que la probabilité qu'il ne se produise pas à la fois.
Un processus d'analyse inferentielle des données nous conduit à la définition de la population, la détermination de la taille de l'échantillon et la sélection des éléments, la mesure des variables de l'objet d'étude, l'analyse des données et la présentation des résultats. Dans chacune de ces étapes, nous pouvons faire des erreurs, qui dans certains cas sont difficiles à quantifier. L'objectif de l'inférence statistique sera de quantifier la probabilité de chaque éventuelle erreur. Cependant, comme on peut mentir avec le langage, avec les chiffres on peut aussi mentir, en manipulant les résultats, en divisant l'information, en gardant une partie dans la poche arrière, ou en présentant les résultats frauduleusement...
Voyons deux exemples assez naïfs. Les deux graphiques joints montrent les profils de deux courses avec une grande continuité au Pays Basque. Dans l'un d'eux, le Tour de France présente plusieurs ports de montagne que les cyclistes montent le long de 159,5 kilomètres, dont Tourmalet --2.114 mètres de haut-. L'autre graphique correspond à la course Behobia-San Sebastián. Dans cette course, les coureurs rejoignent les deux villages et courent environ 20 kilomètres. Il s'agit essentiellement d'un parcours plat avec les plus hauts sommets, Gaintxurizketa, avec 84 mètres. Regardez les profils qui apparaissent sur les deux graphiques : ils sont similaires. Les échelles utilisées pour créer des graphiques sont très différentes, mais elles m'ont permis de concevoir deux profils très similaires. Données très différentes mais graphiques identiques. Vous pouvez également voir des exemples contre tous les jours.
Allons maintenant à Oñati. Pour voir qui est un village est connu. Mais dans la revue Concelupetik (publiée à Oñati), en expliquant le nombre de visiteurs de la municipalité en 2007, une petite erreur apparaît.
Pour commencer, ce qui est surprenant est la précision du titulaire: "20.293 touristes ont visité Oñati en 2007". Il y a des doutes et des questions à ce sujet. Tous ceux qui font un tour autour de l'université sont-ils comptés ? Et tous ceux qui viennent le jour du Corpus ? Et tous ceux qui vont à Arantzazu? Et tous ceux qui vont aux grottes d'Arrikrutz ? Comment pouvez-vous compter tous sur ce type de précision? Être si beau Oñati et avec tant de touristes, ne sont-ils pas rares? Moyenne inférieure à 60 par jour.
Une fois la nouvelle lue, nos doutes sont clarifiés: 20.293 personnes passent par l'office de tourisme. Les deux concepts sont mélangés dans le titre : échantillon et population statistique. Malheureusement, ce type d'erreurs sont commises à une fréquence très élevée dans les présentations de résultats statistiques.
La statistique est un outil qui aide à connaître la “vérité” d’une réalité et nous envahit dans différents domaines de la vie. Cependant, le mauvais usage et les excès statistiques justifient parfois les réticences statistiques d'une partie de la population. Le seul vaccin contre ce mauvais usage est la plus grande formation statistique.
Je pense qu'il est temps de revendiquer l'inclusion d'autres concepts statistiques dans le programme scolaire de mathématiques. Statistiques pour la vie, ou quelque chose... Ou bien, pourquoi pas les mathématiques pour la vie? Cela nous aiderait à réduire l'"annihilisme social" et, par là, nous aiderait à être vigilant face aux mauvais usages des statistiques. Et c'est que, bien que les nombres ne se trouvent pas, les menteurs sont onze.
Juanito Etxeberria Murgiondo. Professeur à l'UPV. Département de recherche et méthodes de diagnostic en éducation.