Les statistiques en images 9782759820856

Sur quels concepts reposent les statistiques ? Que nous enseignent-elles exactement ? Quel que soit le domaine, les stat

182 118 18MB

French Pages 176 Year 2016

Report DMCA / Copyright

DOWNLOAD FILE

Polecaj historie

Les statistiques en images
 9782759820856

Citation preview

Dans la même collection : L'infini en images, 2016, ISBN : 978-2-7598-1771-9 Stephen Hawking en images, 2016, ISBN : 978-2-7598-1966-9 L'intelligence artificielle en images, 2015, ISBN : 978-2-7598-1772-6 Les mathématiques en images, 2015, ISBN : 978-2-7598-1737-5 La génétique en images, 2015, ISBN : 978-2-7598-1767-2 La logique en images, 2015, ISBN : 978-2-7598-1748-1 La relativité en images, 2015, ISBN : 978-2-7598-1728-3 Le temps en images, 2014, ISBN : 978-2-7598-1228-8 La théorie quantique en images, 2014, ISBN : 978-2-7598-1229-5 La physique des particules en images, 2014, ISBN : 978-2-7598-1230-1 La psychologie en images, 2014, ISBN : 978-2-7598-1231-8

Édition originale : Statistics, © Icon Books Lts, London, 2013. Traduction : Alan Rodney - Relecture : Gaëlle Courty Imprimé en France par Présence Graphique, 37260 Monts Mise en page de l’édition française : studiowakeup.com

ISBN : 978-2-7598-1770-2 Tous droits de traduction, d’adaptation et de reproduction par tous procédés, réservés pour tous pays. La loi du 11 mars 1957 n’autorisant, aux termes des alinéas 2 et 3 de l’article 41, d’une part, que les « copies ou reproductions strictement réservées à l’usage privé du copiste et non destinés à une utilisation collective », et d’autre part, que les analyses et les courtes citations dans un but d’exemple et d’illustration, « toute représentation intégrale, ou partielle, faite sans le consentement de l’auteur ou de ses ayants droit ou ayants cause est illicite » (alinéa 1er de l’article 40). Cette représentation ou reproduction, par quelque procédé que ce soit, constituerait donc une contrefaçon sanctionnée par les articles 425 et suivants du code pénal. © EDP Sciences, 2016

2

La noyade par les nombres Nous sommes noyés aujourd’hui sous les statistiques. Et il ne s’agit pas uniquement de nombres. Pour les médias, les statistiques sont systématiquement « damnées », « horrifiantes », « létales », « troublantes » – ou aussi, de temps à autre, « encourageantes ». La presse suggère constamment que les données statistiques qui traitent de crimes, de maladies, de pauvreté et de retards dans les transports sont non seulement une source de maux, mais représentent aussi des entités réelles ou des personnes réelles au lieu de se limiter à n’être que des points sur un graphique.

Cette tendance à affecter un sens à une seule entité, par exemple en se focalisant sur un point d’une distribution statistique, crée beaucoup de confusion et de craintes inutiles.

3

Moyennes ou variations ? Une grande partie des informations statistiques qui véhiculent des histoires choc et d’horreur, utilisées par les médias, sont basées sur des moyennes statistiques. Et, en dépit de cette obsession trompeuse pour les moyennes, le concept statistique le plus important, mais négligé par les journalistes et les reporters, est la variation. Il s’agit d’un concept essentiel aux statistiques mathématiques modernes et qui joue un rôle déterminant dans les statistiques biologiques, médicales, éducationnelles et industrielles. Alors, pourquoi la variation est-elle si importante ?

La variation est une mesure des différences individuelles, tandis que la moyenne s’attache à résumer l’information en un seul chiffre. 4

On peut facilement reconnaître des variations dans un Royaume-Uni aujourd’hui multiculturel, surtout à Londres qui regroupe plus de 300 souscultures avec autant de langues parlées (de l’acholi au zoulou) et treize religions différentes. Pour certains, le multiculturisme doit mettre en valeur tout un chacun et ne pas faire en sorte que chaque individu soit identique (ou ne pas réduire des groupes ethniquement différents à une seule personne représentative).

Il existe tant de différences individuelles au sein de la population britannique qu’il est désormais presque illusoire de parler d’un citoyen britannique « moyen », comme on pouvait peut-être le faire avant 1950.

Ces différences multiformes individuelles incarnent des variations statistiques, qui sont au cœur des statistiques mathématiques modernes. 5

Pourquoi étudier les statistiques ? Les scientifiques, les économistes, les agents gouvernementaux, l’industrie et les fabricants, tous utilisent des statistiques. Des décisions sur des bases statistiques sont prises tous les jours et affectent nos vies – des médicaments qui nous sont prescrits, les traitements que nous recevons, les tests d’aptitude et psychométriques pratiqués régulièrement par les employeurs, les voitures que nous conduisons, les vêtements que nous portons (les fabricants de laine se servent de tests statistiques pour choisir le tissage du fil idéal pour notre confort), jusqu’à la nourriture que nous mangeons voire même la bière que nous buvons.

Les statistiques constituent une composante incontournable de nos vies.

Une connaissance des bases de statistiques peut même sauver ou prolonger nos vies – comme ce fut le cas pour un certain Stephen Jay Gould, dont nous reparlerons plus tard. 6

Les statistiques, que sont-elles au juste ? Tout en étant conscients qu’elles sont omniprésentes, nous ne savons pas quoi penser précisément des statistiques. Pour citer un journaliste de la presse écrite, « ce sont les cigarettes qui constituent la plus grande origine des statistiques ». Les gens expriment le souhait d’écarter le mauvais sort en disant : « je n’ai pas envie d’être une simple statistique ». Est-ce que les statisticiens pensent que l’humanité peut être réduite à quelques chiffres ? Bien que certains estiment que les résultats statistiques sont irréfutables, d’autres pensent en revanche que toute information statistique est sujette à caution. On cite souvent ma phrase devenue célèbre « les mensonges, les pires mensonges et les statistiques » pour « démontrer » que les statistiques peuvent fréquemment servir délibérément à nous induire en erreur.

Les mensonges… les pires mensonges

Bien que Mark Twain ait fait l’erreur d’attribuer cet aphorisme au Premier ministre britannique de l’époque, Benjamin Disraeli, en 1904, en réalité, le premier à le prononcer fut un autre Britannique, le baron Leonard Henry Courtney, professeur d’économie à l’université de Londres et, par ailleurs, président de la Royal Statistical Society (société savante), lors d’une intervention à Saratoga Springs, dans l’État de New York en 1895, qui traitait de la représentation proportionnelle des 44 États américains. 7

Certains représentants du gouvernement voient même dans les statistiques la source de problèmes économiques. Quand l’attaché de presse de la Maison-Blanche Scott McClellan a essayé d’expliquer en février 2004 la raison pour laquelle le gouvernement Bush avait fait marche arrière, révisant à la baisse une prévision qui aurait vu la création de davantage de postes aux États-Unis, sa ligne de défense était des plus simples.

Le président des États-Unis n’est pas un statisticien.

Comme si un statisticien était en mesure de donner du travail aux chômeurs américains.

Au Royaume-Uni, la Statistics Commission (Comité national des statistiques, équivalent de l’INSEE, Institut national de la statistique et des études économiques) a même recommandé « que les ministres du Gouvernement britannique n’aient pas accès aux données statistiques avant leur publication officielle, et ce, afin d’éviter toute interprétation ou utilisation politique ». Néanmoins, les statistiques mises à disposition du public peuvent (dé)former les opinions, influencer les politiques gouvernementales et même (dés)informer les citoyens, s’agissant parfois de découvertes scientifiques ou d’innovations technologiques remarquables. 8

Que signifie le terme « statistique » ? Le mot « statistique » vient du latin status, qui a donné le mot italien statista, dont la première utilisation remonte au xvie siècle, se référant à un « statiste » ou homme d’État, c’est-à-dire quelqu’un qui s’occupe des affaires de l’État. Les Allemands, en 1750, employaient le terme « Statistik », les Français ont introduit « statistique » en1785 et les Hollandais ont adopté « statistiek » en 1807. Les premières statistiques étaient un système quantitatif pour décrire des questions étatiques – une forme d’« arithmétique politique ».

Le système statistique fut utilisé pour la première fois en Angleterre au xviie siècle par le marchand londonien John Graunt (1620–1674) et le physicien irlandais William Petty (1623–1687).

9

À noter qu’au xviiie siècle, bon nombre de statistes étaient des juristes formés souvent en droit public (la spécialité qui traite directement des affaires d’État). Mais il revient à Sir John Sinclair (1754–1834), propriétaire terrien écossais et premier président du Conseil national de l’agriculture, d’avoir introduit le mot « statistics » en anglais en 1798 dans son Statistical Account of Scotland (Compte statistique sur l’Écosse).

Je souhaitais mesurer le « quantum de bonheur » des Écossais.

Le quoi ?

Sinclair s’est servi des statistiques pour étudier des phénomènes sociaux plutôt qu’à des fins politiques. Quelque temps plus tard, à la moitié du xixe siècle, ses travaux débouchèrent sur des statistiques vitales. 10

Statistiques vitales versus statistiques mathématiques Les statistiques ne sont pas toutes de même nature. En réalité, il y en a deux sortes : les statistiques vitales et les statistiques mathématiques. Les statistiques vitales correspondent à ce que la plupart des personnes assimilent aux statistiques. Employées au pluriel, elles désignent un ensemble agrégé de données. Les statistiques vitales concernent la description et l’énumération utilisées dans les campagnes de recensement des populations ou dans la constitution de tables de statistiques officielles telles que mariages, divorces, naissances, décès, voire même les statistiques des crimes et délits.

À noter aussi les statistiques dans les assurances, voire au cricket et au baseball.

La procédure employée concerne principalement les valeurs moyennes et met en œuvre des tables de données sur la vie, les pourcentages, les proportions et les ratios : les calculs de probabilité sont le plus souvent utilisés à des fins d’actes notariés (assurance-vie). Ce n’est qu’au xxe siècle qu’est apparu le terme « statistique » au singulier, impliquant ainsi des faits individuels. 11

Les mathématiques statistiques ont pris leur essor à partir de la théorie mathématique de la probabilité, à la fin xviiie siècle, et des travaux du Suisse Jacob Bernoulli, des Français Abraham de Moivre et Pierre-Simon de Laplace, et de l’Allemand Johann Carl Friedrich Gauss. À la fin du xixe siècle, les statistiques mathématiques ont commencé à prendre la forme d’une discipline académique à part entière, notamment dans les travaux de Francis Ysidro Edgeworth (1845–1926), John Venn (1834–1923), Francis Galton (1822–1911), W. F. R. Weldon (1860–1906) et Karl Pearson (1857–1936).

Nous trois avons commencé à appliquer les idées de Charles Darwin à la mesure de la variation biologique, ce qui a demandé une nouvelle approche statistique.

12

Les statistiques mathématiques englobent une discipline scientifique qui analyse les variations et basée le plus souvent sur l’algèbre matricielle. Elles traitent de la collecte, l’ordonnancement, la description et l’interprétation de données issues d’enquêtes sociales, d’expérimentions scientifiques et d’essais cliniques. La probabilité est utilisée pour des tests statistiques de significativité. Les statistiques mathématiques sont de nature analytique et peuvent servir à élaborer des prévisions statistiques ou des inférences relatives à une population donnée.

De plus, elles capitalisent les différences individuelles des membres d’un groupe en examinant l’étendue de cette variation statistique au travers de méthodes classiques, telles que les mesures de portée ou d’écart-type, que nous allons décrire en détail plus loin.

Les statistiques vitales calculent des moyennes, tandis que les statistiques mathématiques analysent des variations.

Prises dans ce sens, les statistiques représentent une discipline technique et, dans la mesure où elles sont mathématiques, il est important de bien comprendre les concepts statistiques qui soustendent ces procédures mathématiques.

13

La philosophie des statistiques La décision d’examiner des moyennes ou de mesurer des variations trouve ses racines dans des idéologies philosophiques qui gouvernaient la pensée des statisticiens, des physiciens et des scientifiques tout au long du xixe siècle. Le fait de se focaliser sur des moyennes statistiques était soutenu par les défenseurs du déterminisme et des idées typologiques des espèces biologiques, ce qui a permis de perpétuer l’idée d’une moyenne idéalisée. Le déterminisme implique l’existence d’ordre et de perfection dans l’Univers… Ainsi, les variations sont imparfaites et perçues comme des erreurs qui doivent être éradiquées, dans la mesure où elles interfèrent avec le grand dessein de Dieu et Son objectif pour Son monde.

14

Le concept typologique des espèces, qui constituait la pensée dominante des taxonomistes*, des typologistes et des morphologistes jusqu’à la fin du xixe siècle, a donné lieu au concept morphologique des espèces. Ces dernières sont censées représenter un type idéal.

La présence d’un type idéal a été déduite d’une forme de similitude morphologique, qui devient le critère de l’espèce pour les typologistes. Cela aurait pu avoir pour conséquence de créer une prolifération des espèces, puisque toute déviation d’un type donné aurait conduit à la détermination d’une nouvelle espèce. Les véritables changements, selon le concept morphologique des espèces, n’étaient possibles que par saut ou bond vers une nouvelle espèce d’une génération à la suivante. De ce fait, la théorie de Darwin, qui était basée sur des changements « graduels », était incompatible avec l’essentialisme.

* Les taxonomistes classent les organismes vivants par groupes. Les typologistes classent les organismes par types d’ordre général. Les morphologistes étudient les formes physiques des organismes.

15

Darwin et les populations statistiques La transition vers des mesures de variations statistiques représentait une remise en cause idéologique, apparue au milieu du xixe siècle quand Charles Darwin (1809–1882) a commencé ses observations sur de minuscules variations biologiques chez des animaux et des plantes.

Quand j’ai suggéré en 1859 que l’évolution des espèces dépendait d’une accumulation de minuscules différences entre individus, j’ai introduit en réalité l’idée d’une variation continue à la pensée biologique de l’époque. Chaque idée de Darwin, depuis les variations, la sélection naturelle, l’hérédité de traits, en passant par la réversion, semblait exiger des analyses statistiques. Darwin n’a pas seulement démontré que la variation biologique était mesurable et prenait du sens en soulignant l’existence de populations statistiques plutôt que se focaliser sur un type d’animal ou une essence de plante, mais il a analysé, de plus, plusieurs formes de corrélations qui pouvaient expliquer la sélection naturelle. Comme l’a remarqué en 1931 le biologiste évolutionniste Darwin était Sewall Wright (1899–1988) : le premier à considérer véritablement l’évolution principalement comme un processus statistique. 16

Les valeurs victoriennes Bien que plusieurs développements aient vu le jour en Europe continentale dans les domaines des statistiques vitales et mathématiques, nous sommes très redevables, concernant les rapides dissémination et application des statistiques vitales au milieu du xixe siècle et des statistiques mathématiques à la fin du xixe et au début du xxe siècle, aux Victoriens suivants :

Le développement des deux types de statistiques a émergé de la culture de la mesure des Victoriens. Ces derniers appréciaient la précision et la justesse apportées par des instruments scientifiques, qui leur fournissaient des informations plus fiables. Dans le contexte d’une économie industrielle en plein essor, il était primordial de vérifier que les résultats obtenus étaient reproductibles en vue du marché international. 17

Les ingénieurs et les physiciens ont passé de longues heures dans les laboratoires à enregistrer et mesurer avec précision des constantes électriques, mécaniques et physiques pour des machines, des appareils et autres objets. Les biologistes et les géologues ont collecté autant de données que possible lors de leurs expéditions afin d’établir des cartes géographiques, relevant la longitude et la latitude, et classifiant de nouvelles espèces de plantes et d’animaux.

Les statistiques offrent une manière de quantifier les mesures humaines, notamment pour des sujets qui traitent de la santé et l’hygiène publiques, l’hérédité et la médecine.

18

Où tout cela a-t-il commencé ? Compter les populations ou réaliser des recensements représente l’une des utilisations les plus anciennes des statistiques connues de l’humanité : les Babyloniens, les Égyptiens et les Chinois ont rassemblé des données statistiques principalement pour voir combien d’hommes étaient disponibles pour effectuer le service militaire ou pour fixer le taux d’imposition. Au cours du millénaire avant Jésus-Christ, les Romains et les Grecs avaient introduit la pratique du recensement. Le terme « recensement » (et son équivalent anglais census) provient des censeurs romains dont la fonction consistait à compter leur population. Leur recensement fournissait le registre des citoyens romains, de leurs biens et propriétés. Le pays scandinaves ont procédé aux premiers recensements nationaux au milieu du xviie siècle. Les États-Unis ont effectué leur premier recensement en 1790 afin d’assurer une représentation proportionnelle des treize premiers États américains lors des élections des membres du Congrès américains.

Onze ans plus tard, en 1801, la Grande-Bretagne a effectué, à son tour, son premier recensement national officiel.

19

Les registres paroissiaux Comment comptait-on les populations avant les recensements officiels ? Les registres paroissiaux fournissaient des informations intéressantes et des idées pour réaliser des mesures statistiques sur les populations. Les Français en Bourgogne complétaient des registres de mariages et de décès au début du xive siècle et, au xvie siècle, l’enregistrement des baptêmes, mariages et décès était devenu obligatoire pour chaque paroisse française. En Angleterre, cet enregistrement est passé sous la responsabilité des églises en 1538, grâce à Thomas Cromwell, comte d’Essex et chancelier (Premier ministre) auprès du roi Henri VIII.

J’ai donné des instructions de manière à ce que dans chaque paroisse dans laquelle il officiait, le clergé tienne à jour des registres de tous les baptêmes, mariages et funérailles.

Mais les dissidents, non-croyants et fidèles d’autres religions en étaient exclus ; de même, au sein de l’Église, beaucoup rechignaient ou ne pouvaient se permettre de payer les droits ecclésiastiques à l’occasion de ces enregistrements. 20

Les registres de mortalité de la ville de Londres Au cours des xviie et xviiie siècles en Angleterre, un nombre croissant de personnes étaient en faveur des religions non conformistes, c’est-à-dire opposées à l’orthodoxie de l’Église anglicane. Et bien que des registres fussent tenus par des juifs, des quakers et nombre d’Églises et chapelles libres, ceux-là étaient considérés comme source inacceptable pour les registres nationaux, puisqu’en dehors du système établi. Avec une telle masse de gens hors des comptages officiels, on commençait à se demander si la population du pays augmentait ou, au contraire, diminuait. C’est John Graunt (1620–1674), tailleur de son état, qui a opéré l’une des premières tentatives de mise à profit des 10 000 registres paroissiaux de décès provenant de l’Angleterre et du Pays de Galles (mais pas d’Écosse), contenant des informations sur le sexe, l’âge et la raison supposée de la mort, dans son Natural and Political Observations upon the London Bills of Mortality (Observations d’ordre naturel et politique sur les registres de décès de la ville de Londres). Graunt employa l’expression « arithmétique politique » pour décrire la nature de son travail – expression inventée par son ami l’économiste William Petty (1623–1687).

On lit sur la couverture du livre de Graunt : Terrible inspection à Londres de la collection complète des registres de décès pour l’année en cours : débutant le 17 décembre 1664 et se terminant le 19 décembre inclus de l’année suivante, et également le rapport annuel fait à Sa Majesté le roi par la Compagnie des officiers d’état civil de la ville de Londres.

21

Les tables de mortalité de Halley La pièce maîtresse des analyses de données de décès au xviiie siècle fut la construction de la Table de Vie (appelée parfois « Table de vitalité »). Cette table a été suggérée d’abord par John Graunt puis mise en œuvre par l’astronome Edmond Halley (1656–1742), plus connu pour sa découverte (et ses prédictions des dates de visibilité) de la comète qui porte son nom.

J’ai publié ma première table astronomique sur les comètes en 1676 et construit la première table scientifique sur la mortalité en 1693.

Nicolaas Struyck (1687–1769), astronome et arithméticien politique hollandais, a poursuivi à la fois les travaux de Halley sur les comètes et ses propres recherches sur la taille de populations diverses. Struyck a organisé des recensements de populations à grand échelle aux PaysBas, mais sa plus grande ambition était de pouvoir un jour faire une estimation du nombre total d’Hommes sur Terre. Il voulait savoir si la population était en augmentation, stable ou en diminution. 22

Les populations malthusiennes Alors que divers commentateurs essayaient de déterminer la population d’un pays donné ou du monde entier, l’économiste britannique et révérend Thomas Robert Malthus (1766–1834) avançait dans son célèbre Essai sur le principe de population (paru en 1798), d’une part, que des populations humaines incontrôlées outrepasseraient toujours les moyens de subsistance et, d’autre part, que les progrès de l’espèce humaine dépendraient de sévères limitations de la reproduction.

C’est là une expression que j’ai adoptée plus tard quand j’ai énoncé ma théorie sur la sélection naturelle.

Si la population augmente mais que l’alimentation, quant à elle, augmente plus lentement, alors il y aura toujours une « lutte pour exister » au cours de laquelle seuls les plus adaptés survivront et pourront se reproduire.

Malthus croyait que les populations augmenteraient de façon exponentielle (2, 4, 8, 16, 32…), alors que l’alimentation augmenterait de manière arithmétique (2, 4, 6, 8, 10…). L’hypothèse de Malthus, prise au pied de la lettre, implique que la population actuelle aura toujours une tendance à outrepasser les ressources alimentaires.

Population

Ressources alimentaires

23

La démographie – la science des populations Toute tentative pour améliorer les conditions des classes défavorisées, soit en augmentant leur revenu par foyer, soit en augmentant la productivité agricole, était illusoire selon Malthus. Il croyait qu’une « contrainte morale » était nécessaire pour réduire le taux de croissance des populations. La démographie a commencé par des études numériques de la pauvreté. Alors que Malthus était d’avis que la croissance de la population pouvait limiter la prospérité vers la fin du xviiie siècle, ce n’est que vers le milieu du xixe siècle que la collection de statistiques sur les populations en Europe et aux États-Unis fut suffisamment étendue pour envisager une vraie science des populations. Le grand-père de la famille française de démographes, les Bertillon, un certain Achille Guillard (1799–1876), a été le premier à utiliser le mot démographie en 1855 pour cette nouvelle science.

La démographie traite de la dimension, des conditions, de la structure et des mouvements des populations, ainsi que des statistiques vitales, à savoir les naissances, les mariages et les décès, qui sont des chiffres utiles pour décrire ces populations.

24

La concurrence entre la France et l’Angleterre, exacerbée par la Révolution française et le déclenchement de guerres diverses en Europe à partir de 1793, a amené la société anglaise à mesurer ses forces militaires et ses ressources en populations dans la dernière décennie du xviiie siècle.

Pendant les années de guerres napoléoniennes, le philosophe utilitariste britannique Jeremy Bentham (1748–1832) a découvert que le Parlement ignorait combien de personnes très pauvres bénéficiaient d’une allocation sociale et n’était même pas en mesure de savoir combien d’argent était en circulation dans le pays.

Ce manque de données essentielles indique une certaine instabilité dans les affaires de l’État et souligne le besoin de disposer d’un système national de registre civil.

25

La Société des statistiques londonienne Le manque de registres officiels a fortement contribué à la création de la Société des statistiques londonienne (devenue depuis la Royal Statistical Society, équivalent de l’INSEE) en 1834. Malthus, avec le statisticien et météorologue belge Adolphe Quetelet (1796–1874) et Charles Babbage (1791–1871), l’ingénieur inventeur de la machine à calculer universelle (précurseur de nos ordinateurs), ont uni leurs forces pour créer cette société.

Notre première recommandation préconisait un système national d’enregistrement d’état civil ayant son siège à Londres. Le Parlement britannique a voté les textes en 1836, aboutissant ainsi à la création du registre d’état civil et instaurant l’obligation de déclarer toute naissance, ainsi que tout mariage et tout décès.

Le General Register Office (GRO, équivalent de l’état civil national) a été mis en place, donnant ainsi à l’Angleterre et au Pays de Galles* un système d’enregistrement démographique unique en Europe à l’époque. Cependant, le premier recensement d’envergure n’a été entrepris en Angleterre qu’en 1851, incluant des données sur l’âge, le sexe, la profession et le lieu de naissance, de même qu’un comptage des non-voyants et des sourds. * N.D.L.R. : l’Écosse, en tant que nation à part entière, a gardé le privilège de se recenser à part.

26

Edwin Chadwick et les réformes sanitaires Le premier recensement en Angleterre a fourni des informations détaillées sur le nombre de décès par maladie et a amené les populations à se rendre compte des conditions sanitaires déplorables dans les villes. Le surpeuplement des habitations menait souvent à des conditions de logement inappropriées sans ventilation convenable ni réseaux d’évacuation. Les fosses septiques débordaient et les effluents des égouts étaient déversés directement dans les rivières, générant des risques importants pour la santé générale de toute la population. Un personnage capital qui œuvrait pour des réformes sanitaires et pour une utilisation des statistiques disponibles était le très libéral Edwin Chadwick (1800–1890), impliqué dans la réorganisation par le gouvernement de l’aide octroyée aux pauvres et aux sans-abri.

Le succès des réformes sanitaires a donné une nouvelle importance à la collecte de statistiques.

Lorsque la principale question sur les conditions de vie en Angleterre a été le problème sanitaire, la fonction première des statistiques est devenue la mesure de l’état de santé du pays. 27

William Farr et les statistiques vitales Après la mise en place du GRO, Chadwick a préconisé la nomination d’un registraire général, qui était responsable du service national d’enregistrement des naissances et des décès. Ce poste a été créé par décision du Parlement britannique et attribué à Thomas Henry Lister (1800–1842), beau-frère du secrétaire d’État, une personnalité connue de plusieurs ministres.

Toutefois, face au besoin de mettre en forme les statistiques, Lister a recruté William Farr (1807–1893) pour les analyser, le seul médecin de son époque à s’intéresser aux statistiques vitales. Les travaux de Farr, entrepris en 1839 en sa qualité de superintendant des statistiques au GRO, constituent un jalon important du développement de la médecine préventive en Angleterre et des statistiques médicales. Sa méthodologie et son organisation des statistiques vitales allaient devenir une référence pour la plupart des pays. Farr et Thomas Rowe Edmunds (1803–1899) sont à l’origine de la spécialité moderne des statistiques

28

Florence Nightingale : la statisticienne passionnée Les travaux statistiques de Farr et Quetelet ont inspiré Florence Nightingale (1820– 1910), l’une des plus célèbres Victoriennes, connue de tous comme « la Dame à la lampe », qui a rendu le métier d’infirmière respectable. Mais peu de gens connaissent son rôle de « statisticienne passionnée », sobriquet donné en 1913 par son premier biographe, Sir Edward Cook.

En ma qualité de statisticienne, j’ai pu introduire certaines mesures essentielles de réformes sanitaires dans les hôpitaux, sur les champs de bataille et dans la ville de Londres.

En se servant de la méthodologie et des idées des statisticiens du milieu de l’époque victorienne, Nightingale a réussi à convaincre nombre de représentants du gouvernement de l’importance des leçons qu’elle avait ellemême apprises sur le front lors de la guerre de Crimée et qui démontraient que l’on pouvait réduire le taux de mortalité des membres des forces armées, même en restant chez soi. 29

Jeune femme, Florence avait fait la connaissance de certains scientifiques victoriens lors de dîners en ville, dont Charles Babbage. Elle était tellement fascinée par les nombres depuis son plus jeune âge qu’à 20 ans elle suivait des leçons de deux heures du grand mathématicien de l’université de Cambridge, James Joseph Sylvester (1814–1897). Chaque matin, Florence étudiait des documents de statistiques sur la santé publique et les hôpitaux, rassemblant une masse considérable de données. Sa joie était si immense qu’elle trouvait que « la vue d’une longue colonne de chiffres était extrêmement revigorante ». Les statistiques constituent la science la plus importante du monde. Pour bien comprendre la pensée de Dieu, nous devrions étudier les statistiques, car elles reflètent la mesure de Son dessein.

Elle partageait ainsi l’idée de Francis Galton qui avançait que l’étude statistique de phénomènes naturels constituait « un devoir religieux de l’Homme ».

30

Les statistiques de la guerre de Crimée En 1854, un ami de longue date, le ministre de la Guerre Sidney Herbert (1810–1861), vint faire une proposition à Florence Nightingale.

Je lui ai proposé de devenir la « superintendante du corps des infirmières pour le compte des hôpitaux militaires britanniques basés en Turquie ».

À ce titre, elle devait prodiguer des soins aux troupes britanniques qui se battaient en Crimée et avait la charge d’un groupe de 38 autres infirmières. Ses liens privilégiés avec les membres du gouvernement et les années où elle avait défendu le métier d’infirmière lui avaient valu le prestige qui avait rendu cette nomination exceptionnelle possible. Auparavant, aucune femme n’était admise à occuper un poste officiel. Herbert avait réagi à l’indignation publique suite à des reportages du Times… … des reportages sur la souffrance de soldats ordinaires, comme nous, due à l’incompétence de nos chefs des forces armées.

Herbert espérait que la seule présence de Nightingale en Crimée calmerait les esprits. Les lecteurs du Times ont fait un don de 7 000 £ pour subvenir à ses besoins personnels, qui a servi finalement à améliorer les conditions dans les hôpitaux, mais a aussi suscité la jalousie parmi les officiers et les médecins de l’armée.

31

Dès que Nightingale est arrivée en Crimée, elle s’est trouvée confrontée à un chaos total dans l’hôpital de Scutari : il n’y avait pas de meubles, de nourriture, d’ustensiles de cuisine, de couvertures voire de lits ; les rats et les puces représentaient un fléau permanent. Et bien qu’elle ait réussi à obtenir des bassins de thé sans lait de l’hôpital, ces mêmes bassins servaient ensuite aux soldats pour se laver, manger et boire. Elle était la seule personne disposant des fonds et de l’autorité nécessaires pour remédier à cette triste situation. Elle a demandé et obtenu des ustensiles de cuisine, des chemises, des draps, des couvertures, des sacs rembourrés pour faire des matelas, des tables d’opération, des paravents et des linges propres. En peu de temps, elle a réussi à installer une buanderie et une cuisine, et une large part de la nourriture qu’elle demandait était fournie par Fortnum & Mason (un grand magasin londonien). J’étais constamment debout, d’autant que j’étais la seule infirmière autorisée dans les salles de soins et de repos après 20 heures.

Nous l'avons surnommée « la dame à la lampe ».

32

Les statistiques de mortalité en Crimée Florence Nightingale était affligée par la négligence statistique qu’elle a pu constater dans les hôpitaux militaires. Il y avait un manque total de coordination entre les établissements, aucune normalisation ni rapport systématique sur l’état des lieux. Chaque hôpital avait son propre système de classement des maladies, les comptages étant inscrits sur des bordereaux distincts, rendant les comparaisons impossibles. Même le nombre de morts était erroné : des centaines d’hommes ont été enterrés sans que leur décès soit enregistré. J’y ai découvert un taux de mortalité annuel de 60 % dû à des maladies telles que le typhus, la typhoïde et le choléra – un taux plus important encore que celui de la Grande Peste qui avait frappé Londres (en 1664).

Le taux de mortalité des 25–35 ans dans les hôpitaux militaires était deux fois plus élevé que dans les hôpitaux civils.

33

Les graphes d’aire polaire Bien que nombre de statisticiens « vitaux » du xixe siècle aient eu recours à une panoplie de graphiques et de tables pour leurs résultats statistiques, Nightingale a rendu l’utilisation de diagrammes imagés populaire afin de transmettre des informations statistiques. Elle a développé son propre graphe d’aire polaire, un cercle découpé en douze secteurs d’angles égaux : chaque tranche représentait un mois de l’année et révélait les évolutions dans le temps.

Avril 1854 à mars 1855  ort par M blessures reçues au combat  ort due à M d’autres causes  ort par suite M de maladies

Mes graphiques dramatisaient non seulement le nombre de morts inutiles pendant la guerre, mais ils ont convaincu la profession médicale qu’elle pouvait sauver des vies si des réformes sanitaires étaient appliquées dans les hôpitaux.

Après la guerre, Nightingale a écrit à Quetelet : « Pour ce qui me concerne, mon étude passionnée des statistiques n’est pas à attribuer à un amour pour la science, loin s’en faut. Elle se base sur le fait que j’ai été le témoin de tant de misère et de souffrance de l’humanité, et de la non-pertinence des lois et des gouvernements. » 34

Les probabilités Mais comment les statisticiens du xixe siècle faisaient-ils pour réduire leurs données à quelque chose de plus manipulable ? Alors que les données étaient répertoriées dans des diagrammes et des tables de chiffres, jusqu’à la fin du xixe siècle, les deux outils statistiques principaux étaient les probabilités et les moyennes. Les probabilités représentent l’un des concepts statistiques parmi les plus anciens : on se servait de notions de probabilité comme outil pour résoudre des problèmes de jeux dès le début du xive siècle. Plusieurs manières d’aborder les probabilités existent : 1. la manière subjective 2. les jeux de hasard 3. l’approche mathématique 4. l’approche par fréquence relative 5. l’approche bayésienne On notera six façons de représenter une distribution probabiliste : 1. la distribution binomiale 2. la distribution de Poisson 3. la distribution normale 4. la distribution du χ² 5. la distribution en t 6. la distribution en F

}

Les trois premières sont expliquées ci-après aux pages 47–50 ; les trois dernières sont utilisées pour déterminer la significativité statistique de la loi du χ² (p. 153–156). Les tests t et F sont abordés plus tard, p. 165 et 170 respectivement.

Il y a deux catégories de distribution statistique : les distributions de probabilité, qui servent à caractériser de possibles événements par échantillonnage et fréquence ; les distributions de fréquence (voir pages 74, 76 et 79–85). Les statisticiens se servent de distributions de probabilité pour interpréter les résultats provenant d’un jeu de données qui a été analysé par divers traitements statistiques. Les distributions de fréquence aident à transformer de grands groupes de nombres en un format plus commode à manier et indiquent la fréquence d’apparition de tel item ou unité dans un groupe. 35

Les variables On désigne par variables les caractéristiques d’un individu ou d’un système qui peuvent être dénombrées ou mesurées. Elles peuvent varier dans le temps ou entre individus. Les variables peuvent être classées en deux groupes : Les catégories que l’on peut dénombrer sont les variables discrètes (couleur des yeux, genre, appartenance à un parti politique…).

Variables discrètes Cases que l’on peut cocher

Les grandeurs que l’on peut mesurer sont les variables continues (hauteur, poids, tension artérielle…).

Variables continues Valeurs que l’on peut mesurer sur une échelle

Couleur des yeux : Marron Bleu Vert Gris

Sexe : Homme Femme Parti politique : Gauche Droite Centre

Les variables peuvent encore être subdivisées, sujet que nous aborderons par la suite. 36

L’approche subjective des probabilités implique une part de croyance rationnelle.

On évalue la probabilité par un système de paris, tel que… Quelles ont été les performances récentes du cheval ? Dans quel état la piste se trouve-t-elle ? Comment les concurrents se présentent-ils ?

Les résultats possibles (ici de la course) reflètent des opinions personnelles. En effet, deux personnes peuvent s’appuyer sur des probabilités différentes et il n’existe pas de procédure objective pour déterminer lequel a raison et lequel a tort. La théorie des jeux est évaluée par un système de paris basé sur ce qu’une personne estime être la probabilité que telle ou telle issue surviendra. Il s’agit en réalité de replacer ce concept de probabilité où il doit être, c’est-à-dire dans l’esprit de l’observateur et non dans le monde extérieur. Le problème est que des personnes possédant les mêmes compétences et connaissances peuvent parvenir à des conclusions différentes.

37

Les jeux de hasard Les jeux de hasard existent depuis que l’Homme a appris à lancer des dés. Des indices archéologiques du Nord de l’Irak ont révélé que de tels jeux existaient en Mésopotamie avant le début du iiie millénaire avant J.-C. On se servait de dés au cours de la xviiie dynastie dans l’ancienne Égypte (environ 1400 av. J.-C.). Ces dés primitifs étaient obtenus en rendant grossièrement carré un os long d’animal et en le découpant en sections de manière à créer des objets de forme approximativement cubique. Les Grecs, et plus tard les Romains, utilisaient un petit os de la cheville, l’astragale, pour jouer.

J’ai abordé la question du nombre de jets différents possibles avec trois dés dans ma Divine Comédie.

Dante Alighieri (1265–1321) 38

Le physicien et mathématicien de la Renaissance italienne, Girolamo Cardano (1501–1576) était un parieur compulsif qui devait subvenir souvent à ses besoins en jouant. Il est l’auteur du premier ouvrage connu sur les probabilités : Liber de Ludo Aleae (Le livre des jeux de hasard), publié après sa mort en 1633 et devenu un manuel de référence pour les parieurs.

Dans mes calculs, j’ai également fait appel à la part de chance.

Cependant, la chance a été bannie au xviie siècle, dès lors que la théorie des probabilités classique a été établie. Cette théorie soulignait que des événements probabilistes devaient être étroitement liés à des probabilités mathématiques. Ainsi, même les événements imprévus de Cardano devaient se conformer aux exigences mathématiques. 39

De Moivre et les jeux d’argent à Soho Le mathématicien français Abraham de Moivre (1667–1754) a publié en 1718 Théorie du Hasard – Méthode pour calculer les probabilités d’événements dans des jeux, basé sur les avantages des joueurs et le montant des paris dans des jeux de hasard. Tout comme l’ouvrage de Cardano, celui de de Moivre est devenu un manuel de référence pour les parieurs. De Moivre quitta la France pour l’Angleterre en 1685, suite à la révocation de l’édit de Nantes par Louis XIV qui a mis fin à la tolérance vis-à-vis des protestants dans une France catholique, entraînant la fuite de milliers d’entre eux. Arrivé à Londres, de Moivre a fréquenté Edmond Halley et Isaac Newton, et a été élu membre titulaire de la Royal Society (Académie des sciences britannique) alors qu’il n’avait que 30 ans. Et puisque je devais travailler pour vivre, j’ai offert mes services de mathématicien aux parieurs du quartier de Soho.

40

La théorie mathématique des probabilités À la fin du xviie siècle, des notions probabilistes sur les mathématiques des permutations et combinaisons avaient été appliquées aux jeux de hasard par :

… mais ils ne savaient pas comment quantifier cette forme d’incertitude. La théorie mathématique des probabilités a fourni aux statisticiens un outil qui leur permettait de réduire la complexité mathématique, pour mettre en évidence comment la régularité pouvait naître du hasard, de même que ce hasard pouvait lui-même être réduit à un ensemble de lois scientifiques. Cette approche permet d’identifier une régularité sur le long terme dans une série d’événements aléatoires, qui est le rapport du nombre d’occurrences favorables sur le nombre d’événements :

nombre de réussites nombre de possibilités 41

Il s’agit d’une approche théorique qui ne nécessite pas d’examiner de réels objets – il suffit d’énoncer les conditions hypothétiques et de calculer la probabilité en se servant de la distribution binomiale (voir pages 47–48). Ainsi, on peut émettre l’hypothèse qu’une pièce de monnaie n’est pas biaisée (c’est-àdire qu’elle tombera autant de fois sur « face » que sur « pile ») …

… et calculer la probabilité d’obtenir différentes combinaisons de « pile » et « face » après un certain nombre de lancers de la pièce.

Ce développement mathématique, qui a vu le jour au xviie siècle, a été formalisé au début du xviiie, bien que l’application des probabilités à la théorie statistique n’ait été effective qu’à la fin du xixe siècle. 42

La fréquence relative L’approche dite de la fréquence relative permet d’émettre des affirmations probabilistes (P, A) pour des événements incertains, « P » étant la probabilité d’occurrences d’un certain événement « A ». Ainsi, la probabilité d’un événement correspond à la proportion de fois où des événements du même type surviendront sur le long terme. À l’heure



En retard

Si, par exemple, des avions arrivent à l’heure prévue dans 80 % des vols concernés, on dit que la probabilité qu’ils arrivent à l’heure est de 0,8.

Probabilité que l’avion soit à l’heure = 0,8

Il s’agit d’une approche plus scientifique et objective que les autres formes de probabilité et on s’en sert pour découvrir le monde et évaluer de réels objets existants. On peut lancer une pièce de monnaie 100 fois et noter le nombre de « face » et celui de « pile », et le rapport du nombre de « face » sur le nombre total de lancers. 43

Le résultat fut très proche de 50 % de « pile » et 50 % de « face », démontrant ainsi de manière pragmatique la loi des moyennes et de la probabilité.

Au cours d’une de ses premières leçons sur les statistiques, Karl Pearson, mathématicien britannique, l’un des fondateurs de la statistique moderne et inventeur du test dit du χ², a dispersé des centaines de pennies sur le sol de la salle de cours et a demandé à ses étudiants de les ramasser et les classer par « face » ou « pile ».

Mais comment savoir combien de fois il faut lancer une pièce (ou jeter un dé) pour avoir un test réputé fiable ? Si vous la lancez et obtenez 60 « pile » et 40 « face », vous n’aurez sans doute pas le même résultat la fois suivante. La valeur de la probabilité changera tout le temps et avant d’atteindre une probabilité stable, vous aurez usé la pièce. Pour contourner ce problème, on a recours au rapport de fréquence relative, c’est-à-dire le rapport entre le nombre d’événements recherchés dans une série de tests expérimentaux divisé par le nombre de tests effectués au cours de l’expérience menée. 44

L’approche bayésienne Le révérend Thomas Bayes (1702– 1761), mathématicien britannique et pasteur, s’était d’abord servi des concepts de la probabilité de façon inductive, établissant une base mathématique pour l’inférence probabiliste. Cependant, le terme « bayésien » n’a été utilisé en statistiques que vers 1950. Mon approche offre un moyen de calcul, partant du nombre de fois qu’un événement ne s’est pas produit pour déterminer la probabilité qu’il ait lieu lors d’essais futurs.

Le théorème de Bayes est une formule qui démontre comment des croyances existantes, exprimées formellement comme des distributions probabilistes, peuvent être modifiées dès lors que l’on dispose d’informations nouvelles.

Elle est liée à un degré subjectif de croyance dans le processus d’induction et elle mesure la plausibilité d’un événement dans un contexte de connaissances incomplètes.

Exemple Le théorème de Bayes peut être utilisé par des médecins généralistes ou par des spécialistes au cours de tests de diagnostic. Les médecins en question partent avec un a priori quant à la nature de la maladie du patient (basé sur la connaissance des symptômes du patient ou la présence de cette maladie dans la communauté) et ce sentiment sera modifié ou actualisé par les résultats de tests cliniques. 45

Les distributions en probabilité La distribution binomiale est une distribution de probabilité discrète et représente la probabilité de deux issues, qui peuvent ou non se produire. Elle représente le nombre possible de fois qu’un événement survienne dans une séquence donnée d’observations. Par exemple, elle indiquera la probabilité d’obtenir cinq « pile » dans une série de dix lancers de pièce.

Distribution binomiale pour n = 10

Cette distribution particulière a été proposée par le mathématicien suisse Jacques Bernoulli (1655–1705) dans son célèbre traité Ars conjectandi (L’art de la conjecture) publié après sa mort, en 1713. C’est cet ouvrage qui a marqué les débuts de la théorie mathématique de la probabilité.

J’ai démontré qu’il nous était possible d’estimer la probabilité inconnue d’un événement grâce à la fréquence relative des résultats observés.

La distribution binomiale modélise des expériences au cours desquelles sont dénombrés les résultats binaires d’une séquence qui se répète. On donne à chaque résultat binaire observé le nom d’« essai Bernoulli ». 46

La distribution binomiale (p + q) n est déterminée par le nombre d’observations n, et la probabilité d’occurrence est notée p + q (p et q correspondant à chacune des deux possibilités). Cela fournit un modèle pour les différentes probabilités d’issues pouvant se produire. Afin de déterminer la probabilité de chaque issue, on doit étendre la distribution binomiale au nombre d’observations, c’est-à-dire en élevant à la puissance n la somme p + q. DISTRIBUTION NORMALE STANDARD

DISTRIBUTION BINOMIALE QUI S’APPROCHE D’UNE DISTRIBUTION NORMALE CONTINUE

On se sert de la distribution binomiale quand les chercheurs s’intéressent à l’occurrence des événements.

Par exemple, dans le cas de l’administration d’un nouveau traitement médical et quand le médecin veut savoir si son patient va survivre ou mourir.

Ces distributions de probabilité correspondent à différents types de variables. Les distributions de probabilité discrètes, telles que la loi binomiale, utilisent des données discrètes (telles que les « pile » ou « face » après le lancer d’une pièce), tandis que les distributions continues, comme la loi normale, se réfèrent à des données continues (poids ou taille). 47

Dans l’exemple de lancer de pièce qui suit, le nombre d’observations est n = 2 et le nombre d’issues possibles est de 2 (« pile » ou « face »). Afin de tester une pièce non biaisée, la distribution binomiale doit être étendue pour tenir compte du nombre de lancers. On étend à la distribution binomiale en élevant p + q à la puissance n (ce qui revient à multiplier le nombre par lui-même).

• On se souvient que p + q =1 nécessairement (car

la probabilité d’obtenir « pile » est de 1/2, tout comme celle d’obtenir « face »).

• n = le nombre d’essais ou de lancers (dans notre exemple, n = 2).

• La distribution binomiale est (p + q) ². • Il s’agit de l’expansion de la loi binomiale au lancer d’une pièce :

Supposons que l’on lance la pièce 10 fois et que l’on obtienne 10 fois « face ». La probabilité sera donc (1/2)10, soit 1/1 024.

Cela signifie en clair que les chances d’obtenir 10 fois « face » avec 10 lancers et une pièce non biaisée sont inférieures à 1 pour 1 000.

Distribution binomiale développée pour n = 10

48

La distribution de Poisson La loi de Poisson, découverte par le géomètre et physicien français Siméon-Denis Poisson (1781–1840), est une distribution de probabilité discrète dont on se sert pour décrire l’occurrence d’événements peu probables dans un grand nombre d’essais répétés, indépendants et, de plus, dans un laps de temps donné. La loi de Poisson offre une excellente approximation de la distribution binomiale quand la probabilité est petite et le nombre d’essais élevé. Probabilité de la fonction de masse

La loi de Poisson donne la probabilité qu’un nombre d’événements aient lieu dans un laps de temps donné, si ces événements se produisent à une cadence moyenne et sont indépendants du temps écoulé depuis le dernier événement.

L’analyse des statistiques de mortalité fait souvent appel à la loi de Poisson, car on suppose que les décès dus à la plupart des maladies ont lieu de façon indépendante et aléatoire dans les populations. 49

La distribution normale La distribution dite normale est une distribution continue liée à la distribution binomiale. Et quand n tend vers l’infini, la loi binomiale s’approche de la distribution normale à sa limite. C’est-à-dire que la loi binomiale, en réunissant côte à côte un nombre infini de barres de largeur infinitésimale, deviendra une distribution normale.

Distribution binomiale

Distribution normale

Distribution binomiale qui ressemble à la distribution normale

On appelle également cette distribution la courbe normale, parfois la distribution gaussienne (de manière erronée) et elle a longtemps servi d’étalon pour comparer d’autres types de distributions statistiques. Elle joue un rôle capital dans les statistiques modernes car elle permet aux statisticiens d’interpréter leurs données en utilisant différentes méthodes statistiques, modélisées assez souvent à partir de la distribution normale. 50

Observations astronomiques L’idée d’une courbe normale a émergé des combinaisons de calculs d’observations mises en œuvre par les astronomes. Ils avaient recours à la « loi des erreurs » (autrement dit la loi normale) pour combiner les équations linéaires de leurs observations en astronomie et en géodésie*. Les méthodes des astronomes, qui consistaient assez souvent en des procédures ad hoc sans réel intérêt contenues dans des modèles formels de probabilité, requéraient la coopération d’un groupe de scientifiques pour aboutir. Mais, dès lors que les statisticiens mathématiques ont commencé à mettre au point des méthodes statistiques, il devenait possible pour une personne seule d’analyser les données.

* Étude de la surface et de la forme de la Terre.

Les recherches de de Moivre sur les jeux de hasard et sa propre utilisation du théorème binomial ont fourni la première dérivée connu de la loi normale, en 1733, appelée au départ la « loi des erreurs ». Il a été aussi le premier à construire une table de probabilités pour une distribution normale. 51

Le théorème central limite Pierre-Simon de Laplace (1749–1827), astronome et mathématicien français, est celui qui a proposé la probabilité comme un outil permettant la réduction et l’analyse du degré d’incertitude dans les données. Il s’est rendu compte, et ce avant 1789, que les mesures étaient entachées de petites erreurs, indépendantes les unes des autres, et a démontré qu’il pouvait en déduire de manière mathématique une loi des erreurs. Par la suite, il a apporté sa contribution la plus importante aux statistiques de par ses travaux sur le théorème central limite, en 1810. Il s’agit là d’un des résultats les plus remarquables de la théorie des probabilités…

… parce qu’il a démontré que plus l’échantillon est grand, plus les données seront conformes à la distribution normale.

Ou, comme les statisticiens diraient : la distribution d’échantillonnage des moyennes sera d’autant plus proche de la loi normale que l’échantillon est grand, indépendamment de tout écart à la normalité de la distribution de la population. 52

La raison pour laquelle tant de variables – la taille ou l’intelligence par exemple – ont une distribution normale relève du théorème central limite de Laplace. Les fondements mathématiques de ce théorème spécifient que les données, sous l’influence de très nombreux mais minuscules effets aléatoires non liés, auront la forme approximative d’une distribution normale.

53

La courbe de Gauss et la méthode des moindres carrés Le livre des travaux de Laplace est resté l’ouvrage le plus influent dans le domaine des probabilités mathématiques jusqu’à la fin du xixe siècle, quand Carl Friedrich Gauss (1777–1855), astronome et physicien allemand, a fait progresser les idées de Laplace, en termes explicitement probabilistes. Le résultat de ses travaux a été nommé finalement (et de manière quelque peu erronée) J’ai reconnu « courbe gaussienne », alors qu’elle avait en réalité que j’étais redevable déjà été découverte par Laplace. à Laplace et je me

Mais je l’avais déjà découverte en 1805.

suis servi de sa loi de probabilités dans mes propres recherches sur la théorie des mouvements Et c’est des astres et autres ainsi que j’ai objets célestes. pu formuler la méthode des moindres carrés en 1809.

Adrien-Marie Legendre (1752–1833), titulaire de la chaire de mathématiques de l’École militaire à Paris a communiqué sur la méthode des moindres carrés avant Gauss.

La méthode des moindres carrés, basée sur la théorie des erreurs, a été conçue au début du xixe siècle par des mathématiciens et astronomes tels que Gauss, Laplace et Legendre, qui s’en sont servis pour déterminer, par exemple, la forme exacte de la Terre. Cette méthode a connu son plus grand succès en statistiques vers la fin du xixe siècle pour l’interprétation de régressions statistiques (voir pages 128–131). 54

Que signifie normal ? En latin, norma désignait une équerre de maçon ou de charpentier dans l’Antiquité (qui leur permettait de respecter les angles droits dans leurs travaux et constructions. À partir de là, l’angle droit a été rebaptisé « angle normal », expression utilisée par la suite en géométrie au xviie siècle. Gauss, qui a étudié la courbe normale en 1809, utilisait le mot « norme » dans ses travaux d’algèbre à la fin du xviiie siècle.

Angle normal

Le terme « normal » a gagné en popularité au cours du xixe siècle, d’abord dans la sphère médicale. Normal se voulait être le contraire de pathologique,

mais allait bientôt s’appliquer à presque tout, surtout aux gens et à leur comportement. 55

Ainsi, le terme « normal » servait à exprimer comment les choses sont ou plutôt devraient être et s’est appliqué finalement à la distribution symétrique en forme de cloche qui était assez largement utilisée par les astronomes depuis le xviie siècle et par les statisticiens à partir des années 1870. Cependant, comme Ian Hacking l’a observé, le terme « normal » renferme une dualité de sens.

La norme peut être à la fois usuelle et typique, mais force est de constater que nos contraintes éthiques les plus exigeantes sont également appelées des normes.

Si, comme l’ont noté Stephen Stigler et William Kruskal, le terme « normal » signifie moyen ou usuel et que la « norme » représente l’idéal, un troisième composant intervient en statistiques faisant un peu la synthèse des deux premiers. 56

Il intervient quand les statisticiens parlent de la limite asymptotique* normale ou « limite usuelle », qui n’est pas totalement atteignable.

* Asymptotique : qui s’approche de manière continue d’une courbe donnée mais ne la rencontre pas à une distance finie.

Dénomination de la normale Quetelet utilisait l’expression « loi binomiale » pour décrire cette distribution, mais Galton employait plutôt la « courbe des erreurs » qu’il a finalement appelée « courbe normale » en février 1877 lors d’une lecture de son article « Les lois types de l’héritage » à la Royal Institution. Le logicien et mathématicien américain Charles Sanders Peirce (1839–1914) et le mathématicien allemand Wilhelm Lexis (1837–1914) ont aussi introduit le mot, indépendamment l’un de l’autre, en 1877.

J’ai commencé à utiliser l’expression « distribution normale » dans mes cours en octobre 1893.

Dès lors que j’ai réalisé que la courbe gaussienne avait été en réalité découverte par Laplace, j’ai proposé qu’on l’appelle la courbe de Laplace-Gauss, puis j’ai fini par utiliser l’expression courbe normale afin d’éviter des contestations internationales de préséance. 57

Cependant, il devenait évident assez rapidement que cela présentait l’inconvénient d’inciter les gens à croire que toutes les autres courbes étaient « anormales » …

… ce qui avait pour effet indésirable d’inciter beaucoup d’autres à forcer les données, par un processus de déformation quelconque, à suivre une loi « normale ».

Qui traitez-vous d’« anormal » ? Il n’en demeure pas moins vrai que c’est Karl Pearson qui a conduit à la dissémination de l’expression « distribution normale » et à son utilisation par les statisticiens à travers le monde. 58

Alors, qu’est-ce donc qu’une distribution normale ? Pour un statisticien, il s’agit d’une construction théorique utilisée pour exprimer une vérité hypothétique liant des données collectées et la probabilité que ces valeurs soient uniquement dues au hasard. La courbe normale possède trois propriétés mathématiques : 1. la courbe a la forme d’une cloche et est symétrique, s’étendant de l’infini négatif à l’infini positif de manière continue.

Une distribution rectangulaire est également symétrique car elle présente des fréquences égales, quelle que soit la position de référence sur l’axe des abscisses.

59

2. La moyenne (voir pages 65–67) et la déviation standard (voir pages 99–102) définissent la forme de la courbe ; la distribution normale théorique a une moyenne de population de 0 et une déviation standard de 1. Lorsque la déviation standard prend d’autres valeurs, la courbe présente des formes légèrement différentes. La moyenne est donnée par la position de la distribution sur l’abscisse et par la variabilité, qui montre comment les valeurs se dispersent et s’étalent. Dans les figures ci-dessous, les moyennes se trouvent au même emplacement mais la variabilité est plus grande pour la courbe B que pour la courbe A.

60

3. L’asymétrie de la courbe normale est de zéro, puisque la courbe est symétrique autour de la moyenne. Si la distribution avait été asymétrique, par exemple à gauche, la mesure de l’asymétrie aurait été négative ; si la distribution avait été asymétrique à droite, la valeur aurait été positive. La direction prise par la « queue » de la courbe indique si l’asymétrie est négative ou positive.

Asymétrie positive

Asymétrie négative

61

Quetelismus La distribution normale conférait des pouvoirs considérables à bon nombre de mathématiciens, philosophes et statisticiens du xixe siècle, notamment au Belge Adolphe Quetelet et au Britannique Francis Galton. Tous deux croyaient que la quasi-totalité des données devaient se conformer à la loi normale. Quetelet attachait une importance considérable à la courbe normale, tant sa foi dans le déterminisme était forte.

Cela signifiait qu’il existait une moyenne statistique idéale et que, par conséquent, la courbe normale était elle-même idéale, puisqu’en conformité avec la loi des erreurs.

Il s’ensuivait que toute variation autour de la moyenne devait également se conformer à cette distribution normale. La conviction de Quetelet sur le fait que les données observées devaient toutes se conformer à la distribution normale était si forte qu’une doctrine a été affublée du surnom « quetelismus » dans la mesure où Quetelet accordait une prévalence exagérée à la loi normale. Et bien que ce dernier fût conscient que nombre de distributions étaient bel et bien asymétriques, il considérait que cela était « dû à de curieuses causes accidentelles qui agissaient de manière inégale dans les deux sens ». 62

Le pantographe de Galton Inspiré par Quetelet, Galton était devenu si convaincu de l’existence d’une distribution normale universelle qu’il avait créé un dispositif mécanique, un pantographe modifié, qui lui permettait d’étendre ou de comprimer n’importe quelle figure dans les deux sens. Cela me permet d’étendre n’importe quelle courbe jusqu’à ce qu’elle se conforme à la distribution normale.

Cette croyance inébranlable dans la distribution normale allait diviser les tenants de la vieille école de statistiques vitales et ceux de la nouvelle école, qui préconisaient et défendaient les statistiques mathématiques. Mais la tyrannie de la distribution normale était telle qu’à la fin du xixe siècle, la plupart des statisticiens estimaient qu’aucune autre courbe ne pouvait être utilisée pour décrire des données. Mais cette vision monolithique allait être contestée par Pearson au cours de la dernière décennie du siècle. 63

Comment résumer des données ? Les moyennes Les moyennes constituent l’outil principal des statisticiens de la vie et prennent place parmi les plus anciens concepts de statistique. On s’en sert depuis l’Antiquité. Aristote parlait de la « moyenne d’or » – où or avait le sens de « bon » – désignant ce qui se plaçait entre deux extrêmes.

La vertu est le milieu entre deux vices, l’un qui pèche par excès, l’autre par défaut.

Le mot « moyen » est désormais synonyme de juste,

… médian, … médiocre, … indifférent et … tolérable.

Mais pour les statisticiens, il existe trois types de moyennes : la moyenne arithmétique, la médiane et le mode. 64

Quetelet et la moyenne arithmétique Cette méthode doit sa popularité à Quetelet, dans les années 1830, quand il a découvert que les lois d’erreurs astronomiques pouvaient aussi s’appliquer à des caractéristiques humaines, telles que la taille ou le tour de hanche. Ce qui l’a amené d’ailleurs en 1835 à son célèbre concept de l’homme moyen. Les régularités que Quetelet détectait tant dans les météores que chez l’Homme étaient comparables aux lois de la physique selon lui. Il parlait de son système social comme l’astronome du système de l’Univers. Nous sommes poussières d'étoiles

J’ai comparé l’homme moyen au centre de gravité et qualifié mon travail de « physique sociale ».

C’est moi qui le premier ai parlé de ce concept, mais j’ai proposé ensuite le mot « sociologie » après que Quetelet a commencé à employer « physique sociale ».

Auguste Comte (1778–1857), philosophe français. 65

Quetelet a également remarqué une similitude entre les occurrences de régularité de phénomènes dans la nature et de phénomènes dans la société. Il était persuadé que l’on pouvait se servir des valeurs moyennes pour déterminer un type idéal de société, de régime politique et d’ordre moral. Et puisque les déviations des valeurs centrales étaient à l’origine des maux de la société, Étant donné une position moyenne tant que les valeurs philosophique que politique moyennes n’ont de devait pouvoir apporter des valeur scientifique que solutions aux conflits de si elles représentent un type, les écarts par rapport la société. à cette moyenne sont imparfaits et le produit En 1836, Quetelet était le d’erreurs. précepteur des princes Ernest et Albert de Saxe-Cobourg et Gotha, le même Albert qui devient le prince consort de la reine Victoria.

J’étais impressionné par Quetelet et, plus tard, j’ai pu jouer un rôle important dans l’amélioration de ses rapports avec les scientifiques britanniques.

66

La

Moyenne

La moyenne est une expression courante. Elle implique d’abord l’addition de toutes les valeurs dans un ensemble de données (X), somme qui sera ensuite divisée par le nombre total d’items dans cet ensemble (N).

67

LA On définit la médiane comme le point qui divise une distribution en une moitié inférieure et une autre supérieure, de sorte que 50 % des valeurs sont dans l’une et 50 % dans l’autre.

Au départ, je m’en suis servi pour…

Francis Galton voulait trouver une manière plus rapide d’établir une moyenne sans passer par le travail fastidieux des calculs de la valeur moyenne. C’est lui qui a introduit le terme percentile (centile), qui désigne le point divisant une distribution en un pourcentage supérieur de cas et un pourcentage inférieur. Bien que Gauss fût le premier à utiliser la médiane, en 1816, c’est Galton qui l’a introduite en statistiques. En 1874, il a mis au point une échelle statistique pour déterminer la médiane quand il a introduit le 50e centile comme point milieu d’un ensemble de données, c’est-à-dire là où l’ensemble se sépare en exactement deux moitiés.

… et je suis le premier à l’avoir introduit en statistiques.

centile 68

10e 25e 50e 75e 90e

médiane La médiane est relativement facile à utiliser et demande encore moins de travail que le calcul de la moyenne. Lorsque Galton voulait mesurer la taille des hommes, il en alignait 100, du plus grand au plus petit, puis choisissait celui qui « était le plus proche du centre que possible », celui-là représentant le 50e centile ou la médiane.

50 % de ces hommes sont plus grands que moi.

50 % sont plus petits que moi.

Médiane

Localiser ce point m’a pris beaucoup moins de temps que le calcul de la moyenne arithmétique, qui impliquait l’addition de la taille des 100 hommes puis la division de cette somme par 100. 69

Comment localiser ou calculer la médiane La médiane est facile à trouver quand il y a un nombre impair de valeurs dans l’ensemble de données.

Mais que se passe-t-il s’il n’y a pas de point milieu permettant de déterminer la médiane ?

B Groupe 8 s, 7 centrale x valeurs oyenne afin u e d a 6 r leur m and il y 5 – – Qu s devez calcule e n ia e. d vou é m médian er la de trouv / 2 = 4,5 – – la 9 +4= 4––5 3 2 1 

Groupe A

7 6 5 4 – – La médiane 3 2 1

Galton a même réussi à produire, en superposant des images de différentes personnes, la photographie de son homme moyen. Il a appelé le résultat « photographie composite ». 70

La troisième mesure d’une tendance vers une valeur centrale, le mode, terme inventé par Karl Pearson en 1894, désigne la valeur qui se présente plus fréquemment que les autres dans un ensemble de mesures. Sa plus grande utilité se trouve dans le domaine de la publicité où il est question d’une « famille modale ». Le mode désigne le point (la valeur) qui apparaît le plus souvent ; on s’en sert souvent quand on recherche des cas typiques. Le mode peut être comparé ou non à une valeur réelle. Une famille modale peut s’établir à 3,79 personnes au lieu de 4. Parfois, il y a plus d’un mode.

Groupe A X 5 4 3 3 – – mode 3 3 3 1 1 Distribution unimodale

Groupe B X 8 7 7 7 – – Premier mode 7 3 3 – – Second mode 3 3 Distribution bimodale (avec deux modes)

Dans le groupe A, une valeur apparaît six fois, donc le mode est égal à 3, mais dans le groupe B, on distingue deux modes, à savoir 7 et 3. Cette dernière distribution est bimodale. 71

Le choix de la moyenne est-il important ? L’avantage d’avoir recours à la moyenne est que son calcul est simple et qu’elle prend en compte toutes les données collectées. Toutefois, si certains éléments ont des valeurs extrêmement basses ou hautes, cela faussera la valeur moyenne. Et à ce moment-là, la moyenne va sembler être un indicateur non pertinent.

Tout comme une arme à feu chargée qui, si elle est se trouve entre des mains inexpérimentées, peut occasionner de graves blessures, une moyenne peut apporter des résultats désespérément faussés.

Cependant, la médiane, quant à elle, reste inaffectée par des valeurs extrêmes. Par exemple, si l’on devait chercher le salaire médian dans le groupe de chiffres suivants : 40 000 €, 60 000 €, 120 000 €, 160 000 € et 820 000 € – la médiane serait le chiffre intermédiaire 120 000 €. Cette méthode de calcul d’une moyenne serait utile pour calculer des revenus, puisque la valeur extrême de 820 000 € introduit une asymétrie flagrante et produit une moyenne arithmétique de 240 000 €, qui n’est représentative d’aucun des salaires du groupe considéré. 72

À présent, considérons l’ensemble des trois mesures de la tendance centrale en calculant les salaires moyens d’un groupe de 41 salariés d’une entreprise.

= 1 salarié



4 000 €



6 000 €

10 000 € –– Mode : valeur la plus fréquente 18 000 € 24 000 € –– M  édiane : valeur du milieu avec vingt personnes au-dessus et vingt en dessous. 30 000 € 36 000 € 40 000 € 45 000 € 50 000 € 70 000 € 200 000 € La valeur moyenne = 60 400 € La valeur modale (avec huit salariés) = 10 000 € La valeur médiane = 24 000 €

73

Être induit en erreur avec les statistiques Dans l’exemple ci-dessus, les trois mesures livrent des résultats très différents pour la moyenne. Nous voyons immédiatement qu’il est possible d’induire délibérément des gens en erreur en choisissant la moyenne qui vous dessert le moins ! Par exemple, je peux affirmer que mes salariés perçoivent un salaire décent, car la valeur moyenne est de 60 400 €.

Mais nous ne sommes que deux à gagner autant ! Un journaliste d’investigation pourrait dire que le salaire modal est de 10 000 € et ajouter que la moitié des salariés gagnent moins que le revenu national moyen. La médiane de 24 000 € est sans doute la plus représentative, même si un résultat plus réaliste serait obtenu en excluant le salaire du patron, à savoir 200 000 €, qui représente une valeur extrême comparée aux autres. Les statisticiens qualifient ces valeurs extrêmes de « marginales » car elles tombent bien au-delà de la distribution.

Nombre de personnes

Distribution des fréquences de 37 individus dans cet exemple Mode

74

Moyenne

Médiane

Valeur marginale

Salaires perçus

« La médiane n’est pas le message » 1

La seule façon valable de réfléchir aux moyennes est de prendre en compte l’ensemble des informations, en particulier la variation autour des valeurs moyennes : une manière plus réaliste de localiser des informations individuelles. Ce fut la leçon salutaire apprise par le paléontologue et biologiste de l’évolution Stephen Jay Gould2 peu de temps après qu’on lui ait diagnostiqué un mésothéliome (une forme rare et grave de cancer le plus souvent dû à une exposition à l’amiante). Ses connaissances en statistiques l’ont aidé à réaliser qu’il n’avait pas à être une simple statistique qui devrait se conformer à la mortalité médiane de huit mois suggérée par la documentation médicale de l’époque. Qu’est-ce qu’une « mortalité médiane » de huit mois dans notre jargon ?

Étant donné que la médiane est placée au 50e centile de la distribution, cela signifie que la moitié des personnes atteintes vont mourir d’ici à huit mois et que l’autre moitié va survivre plus de huit mois.

1

Jeu de mot à partir d’un célèbre aphorisme de Marshall Macluhan, MIT, « The medium is the message »

2

 tephen Jay Gould (1941–2002). En juillet 1982, un cancer de la paroi abdominale lui a été diagnostiqué, S apparaissant souvent chez les personnes exposées à l’amiante et la plupart du temps mortel.

75

Médiane

Pourcentage des décès dans un intervalle de temps donné

La distribution des fréquences (voir page 35) est un outil à la fois important et pratique pour représenter des données statistiques. Gould avait bien compris que ce graphique ne voulait pas dire qu’il allait nécessairement mourir dans les huit mois à venir. Au contraire, il pouvait se trouver sur le côté droit de la distribution, où la moitié des patients vivront plus de huit mois.

La moitié meurt dans les 8 mois

La distribution asymétrique de la mortalité d’un mésothéliome (cas de Stephen Jay Gould)

La moitié vit plus longtemps La queue de droite

8 mois

Temps écoulé depuis le diagnostic

Gould était d’avis que pour la plupart des gens, sans formation en statistiques, la phrase « La mortalité médiane est de huit mois » signifie : « Je serai mort d’ici huit mois ».

… c’est cette sorte de conclusion prédictive qu’il convient d’éviter, pour peu que le rétablissement de la personne dépende de son état d’esprit.

76

En sa qualité de biologiste évolutionniste, Gould avait appris à traiter la variation comme une réalité basique et à se méfier des moyennes qui étaient, après tout, des mesures abstraites ne s’appliquant jamais à un seul individu et de plus souvent non pertinentes pour des cas particuliers.

La variation dans des systèmes complets, voilà l’ultime réalité. La nature abstraite des moyennes leur confère une utilité limitée. Un pigiste perspicace du Sunday Times a avancé astucieusement un jour que : « Les statistiques sont le meilleur ami d’un homme condamné. » Stephen Jay Gould est décédé en 2002, deux décennies après le diagnostic initial 1. Gould a vécu encore vingt ans, jusqu’au 20 mai 2002, emporté cette fois par un cancer du poumon, qui s’est propagé au cerveau et qui n’était pas lié à son ancien cancer de l’abdomen.

1

77

Les procédures de gestion de données Les Victoriens figuraient parmi les premiers à se servir des statistiques pour étudier des phénomènes de masse. D’énormes quantités de données avaient été collectées par des agences du gouvernement britannique, des organisations privées et toutes sortes d’individus qui s’intéressaient aux phénomènes sociaux, tels que la pauvreté, les maladies et le suicide. Voici les procédures principales qu’ils utilisaient pour traiter leurs données : 1. des tables – on inscrivait les données dans de longues colonnes de chiffres ; 2. la réalisation de camemberts et différents diagrammes ; 3. la réduction de données pour créer des sous-ensembles plus petits. Par exemple, quand Galton traitait un grand échantillon, il le réduisait souvent à 100 items en raison du pouvoir explicatif des pourcentages.

Mais, dans la mesure où ces diagrammes ou tables n’étaient pas normalisés, il était impossible de faire des généralisations ou des comparaisons. Bien que les statisticiens évoquassent des valeurs moyennes pour résumer leurs données, leurs outils statistiques traduisaient en réalité assez mal la complexité inhérente aux modèles de variations statistiques. 78

Distributions des fréquences normalisées Pearson a reconnu qu’il devait exister d’autres façons de traiter des données peu maniables. Il a mis au point une méthode systématique pour gérer de très grands ensembles de données en proposant un moyen d’établir une distribution des fréquences normalisée. Cette approche autorisait des comparaisons et des généralisations sur des ensembles de données ce qui, auparavant, était impossible à effectuer. Les procédures de gestion de données introduites par Pearson et les méthodes statistiques qu’il a conçues constituent le fondement des statistiques mathématiques élémentaires.

Nous allons aborder tout cela dans les pages qui suivent.

79

Échantillons versus populations Le meilleur ami de Pearson, le zoologiste darwinien W.F.R. Weldon, a commencé à utiliser le terme « échantillon » en 1892 pour se référer à ses nombreuses observations sur des organismes marins, même s’il se demandait si son échantillonnage était assez grand. Pearson a utilisé le terme « population » quatre ans plus tard, à la place de « groupe normal », et a rapproché population d’échantillon en 1903.

Je préconise le recours à de très grands échantillons, dans la mesure où les résultats statistiques seront davantage représentatifs de la population entière analysée.

Le terme technique population désigne un groupe entier d’organismes ou d’objets, tels que des roses ou des tigres, auxquels s’appliquent les résultats statistiques. Ainsi, une population représente toutes les observations concevables d’un type donné, tandis que l’échantillon ne représente qu’un nombre limité d’observations au sein de cette même population. Le meilleur exemple d’utilisation de la population entière est le recensement national qui a lieu tous les dix ans au Royaume-Uni. 80

Dans la majorité des études, la population à laquelle on s’intéresse est le plus souvent bien trop grande pour pouvoir y mesurer chaque membre individuellement (tous les étudiants en Angleterre, tous les votants du Royaume-Uni, toutes les voitures assemblées dans les usines Ford, etc.). Les statisticiens limitent le plus souvent leurs analyses à une fraction relativement petite de la population entière. Les statisticiens utilisent différentes techniques d’échantillonnage : aléatoire ; systématique ; accidentel ; volontaire ; stratifié. 81

Cela revient à mettre les noms de tout le monde dans un chapeau et de sortir plusieurs noms. Chaque membre de la population a la même chance, indépendamment des autres membres, d’être inclus dans l’échantillon. Tout en étant la manière préférée d’effectuer un échantillonnage, cela demande de pouvoir disposer d’une liste complète de tous les membres d’une population, ce qui n’est pas toujours possible. On peut se servir de tables de nombres aléatoires des livres de statistiques ou de celles générées par ordinateur ou encore par certains systèmes téléphoniques.

Cette approche requiert aussi de pouvoir disposer de la liste complète d’une population, qui est subdivisée par ailleurs en blocs, où chaque n-ième personne est sélectionnée (par exemple en prenant chaque 10e nom dans une liste alphabétique).

Cette approche utilise l’échantillon le plus accessible et disponible en prenant l’ensemble des sujets le plus pratique. C’est la moins sûre de toutes les méthodes d’échantillonnage.

L’expérimentateur choisit les sujets à utiliser qu’il pense être les plus représentatifs.

L’analyste choisit une caractéristique particulière dans l’échantillon, estimant celle-là importante pour ses recherches, puis il/elle subdivise l’échantillon en groupes ou strates sans chevauchement, tels que des groupes d’âge, de genre, d’origine géographique ou d’affiliation politique. On notera que cette approche peut aussi être appliquée aux autres procédures d’échantillonnage ci-dessus.

82

L’histogramme C’est Pearson qui a introduit l’histogramme le 18 novembre 1891. C’est un terme qu’il a inventé pour désigner un « diagramme de temps » lors de sa conférence sur les « Cartes et cartogrammes ». L’histogramme pouvait être utilisé à des fins historiques afin de créer des blocs de temps sur des graphiques qui décrivaient les règnes de souverains ou la durée des mandats de divers Premiers ministres.

L’histogramme est une représentation graphique d’un ensemble de données continues (telles que le temps, la taille, la température) qui montre le nombre de cas se retrouvant dans des colonnes rectangulaires adjacentes contiguës (pas d’espace entre les barres).

Un autre graphique similaire s’appelle le diagramme en barres, mais il comprend des espaces entre les barres et utilise des données discrètes (telles que le genre ou l’appartenance politique). Les graphiques aident souvent les gens à réfléchir à un problème en termes visuels. 83

Une autre manière de visualiser le même ensemble de données continues est d’utiliser un polygone de fréquence. Il s’agit d’un graphique linéaire qui relie les points du milieu de chacune des barres (d’un histogramme) par une ligne droite. Cette méthode pour localiser des points dans le polygone de fréquences est la manière la plus simple de « coller à la courbe », ce qui implique de connecter deux points de données, soit par une ligne droite, soit au sein d’une courbe produisant différentes formes.

L’étape suivante pour Pearson était de montrer à ses étudiants comment rassembler des distributions des fréquences pour de plus grandes quantités de données continues et comment construire ces distributions. 84

Les distributions des fréquences Les distributions des fréquences transforment de très grands groupes de chiffres en une forme plus maniable et mettent en évidence la fréquence d’apparition d’une valeur ou d’un objet dans un échantillon. L’histogramme et le polygone de fréquence sont des distributions des fréquences.

Quand Weldon a voulu identifier une preuve empirique de la sélection naturelle, il a eu besoin d’un système statistique capable de traiter des échantillons de 1 000 items chacun.

Il est nécessaire de disposer d’un grand échantillon pour mettre en évidence une preuve empirique de la sélection naturelle.

Et puisque les méthodes de Galton s’appliquaient à des échantillons de 100 individus maximum, j’ai demandé l’avis de Pearson. Afin de venir en aide à Weldon, Pearson a créé un système formalisé de distribution des fréquences qui était à même de traiter des échantillons de très grande taille qui ne reposaient pas sur la distribution normale. 85

La méthode des moments Comment déterminer et décrire la forme d’une distribution empirique ? Pearson avait commencé à mettre au point son système statistique en 1892, en se basant sur la méthode des moments. Le terme « moment » est emprunté au monde de la mécanique ; il s’agit d’une mesure de force autour d’un point de rotation, comme par exemple un pivot. Transposés au domaine des statistiques, les moments sont des moyennes. Les procédures computationnelles permettant de déterminer des moments sont les mêmes que celles employées pour trouver la moyenne arithmétique. Pearson a remplacé la force mécanique par une fonction de courbe de fréquence (telle que le pourcentage de la distribution analysée à l’intérieur d’un intervalle donné).

Le premier moment mesure la moyenne. Le deuxième moment mesure l’écart-moyen au carré…

… que j’ai appelé « variance » en 1918. Le troisième moment mesure l’écart-moyen au cube (asymétrie).

86

Le quatrième moment mesure l’écartmoyen à la puissance 4 (ou kurtosis ou coefficient d’aplatissement).

Appréciant les représentations graphiques, Pearson a démontré la méthode des moments à ses étudiants en se servant d’exemples tirés de la mécanique. Pour calculer la moyenne, il a identifié le point d’appui autour duquel un levier balance. La moyenne est le « point d’équilibre » du levier et correspond au centre de gravité (ou masse) en mécanique.

Si l’on applique une force au levier, alors le premier moment s’appelle le « moment de force ». On procède à des calculs pour déterminer ce moment de force afin de trouver la valeur moyenne. Pearson a poursuivi ces calculs avec les trois moments suivants. En se servant des mêmes données que pour déterminer la moyenne, il a porté ces valeurs au carré pour trouver le carré de la déviation standard (voir pages 99–102).

J’ai appelé cela la « déviation standard au carré ».

87

Pour trouver une mesure de l’asymétrie d’une distribution, il a porté ces mêmes valeurs moyennes au cube et a calculé le troisième moment. Quand une distribution est asymétrique, la moyenne tend à être plus proche de la queue.

Pour l’asymétrie : Si la valeur = 0, cela signifie que la distribution est symétrique. Une valeur négative = une distribution avec une asymétrie négative. Une valeur positive = une distribution avec une asymétrie positive.

Le premier coefficient de dissymétrie de Pearson lui a permis de calculer l’asymétrie en soustrayant le mode à la moyenne et en divisant le résultat obtenu par l’écart type. (moyenne – mode) Coefficient de dissymétrie = écart-type

88

Afin de trouver le quatrième moment, il a élevé ces valeurs moyennes à la puissance quatre. Cela donne une mesure de l’aplatissement ou du pic de la courbe de la distribution. Pearson a formulé le mot kurtosis pour cela (du mot grec qui signifie « courbure »), qui présente trois composants de plus. Si les données s’agglomèrent autour de la moyenne, je dis que la cloche de la distribution est « leptokurtique ».

Si les données s’étalent sur la distribution, je dis que la courbe est « platykurtique », car elle a la forme du bec de l’ornithorynque (platypus en anglais). Et si les données produisent une distribution normale, je dis qu’elle est « mésokurtique ».

• Pour le kurtosis : • une valeur négative =

une courbe moins pointue (platykurtique)

• une valeur positive =

une courbe plus pointue (leptokurtique)

• la valeur zéro =

une courbe symétrique (mésokurtique)

89

L’un des étudiants de Pearson, William Sealy Gosset (1876–1937), qui avait adopté le pseudonyme « Student », s’était servi d’une illustration d’ornithorynque pour représenter la courbe platykurtique et de deux kangourous à longue queue pour la courbe leptokurtique.

À partir de la méthode des moments, Pearson a établi quatre paramètres de forme de courbe pour montrer comment les données s’agglomèrent (moyenne), comment elles s’étalent (écart-type), s’il y a perte de symétrie et si la forme de la distribution est pointue ou plate. Ces outils statistiques sont primordiaux pour interpréter un ensemble de données statistiques, quelle que soit la forme que la distribution présente. 90

La sélection naturelle : les formes changeantes des distributions darwiniennes Darwin avait compris que la forme d’une distribution des fréquences avant un processus de sélection naturelle était « symétrique autour de la moyenne » (c’est-à-dire une distribution normale) et qu’après la sélection, la courbe perdait sa forme symétrique en cloche. (Cependant, après la reproduction, la courbe de distribution normale se rétablit mais avec une valeur moyenne différente.)

La sélection naturelle, mécanisme de l’évolution, provient de la variation de l’aptitude darwinienne (c’està-dire l’adaptabilité à l’environnement). Elle est inscrite dans nos gènes et se mesure par des différentiels de fertilité et de taux de mortalité. Il s’ensuit que seuls les organismes les mieux adaptés à leur environnement ont tendance à survivre et à transmettre leurs caractéristiques génétiques à leur descendance, tandis que les moins bien adaptés ont tendance à être éliminés.

91

Si la forme de la distribution comporte un ou plusieurs pics ou est aplatie (kurtotique, pour reprendre le terme de Pearson), cela suggère une forme de sélection stabilisatrice, qui cherche à maintenir le statu quo.

Temps

Stabilisateur

Kurtotique La courbe de distribution du haut montre la distribution normale avant sélection : les zones noircies indiquent les endroits où une pression de sélection s’est opérée sur une certaine période de temps, jusqu’au moment où la forme de la distribution se modifie finalement en celle du bas. Une pression sélective correspond à tout phénomène qui altère le comportement et l’adaptabilité d’organismes vivants dans un environnement donné. C’est la force motrice de l’évolution et de la sélection naturelle.

Le poids des enfants à la naissance est soumis à une sélection stabilisatrice. La mortalité infantile est la plus basse pour des poids à la naissance intermédiaires et la plus haute pour des poids hauts et bas. 92

Une distribution qui est bimodale traduirait une sélection perturbatrice, qui tend à éliminer le milieu de la distribution et favorise les extrémités de la courbe. La sélection perturbatrice se retrouve chez le pyréneste ponceau (Pyrenestes ostrinus), passereau vivant en Afrique de l’Ouest. Les oiseaux à petit bec mangent de petites graines molles, tandis que les oiseaux à grand bec mangent des graines plus grosses, plus dures.

Distribution perturbatrice

Distribution directionnelle

Distribution bimodale Je suppose que vous trouvez ça drôle ?

Distribution asymétrique

Si une distribution devient asymétrique dans un sens, cela indique une sélection directionnelle, ce qui se passe lorsqu’une population trouve des conditions plus favorables à une extrémité de la courbe qu’à l’autre. 93

Le phalène du bouleau L’un des exemples les plus connus de sélection directionnelle est donné par la phalène du bouleau (Biston betularia) qui proliférait dans l’Angleterre de l’époque victorienne. Bien qu’une mutante noire comme du charbon eût été découverte en 1849, il s’agissait d’un phénomène rare à l’époque.

Dans les villes victoriennes très industrialisées comme Manchester ou Leeds, la pollution de l’air était sévère et des suies et gaz toxiques noircissaient les troncs d’arbres.

La phalène noire, quasi invisible sur les troncs d’arbres noircis, avait donc une meilleure chance de survie que la phalène poivrée, qui devenait une proie facile pour les oiseaux.

En moins d'un siècle, ces phalènes noires ont proliféré jusqu’à représenter 90 % de la population du Nord industriel de l’Angleterre. Tandis que les phalènes d’origine poivrées présentaient une distribution normale, dès que les zones où vivaient ces phalènes furent polluées, la courbe de distribution normale s’est déplacée vers le côté droit, produisant une courbe asymétrique. 94

La famille pearsonienne des courbes En faisant ses calculs de la méthode des moments, Pearson avait également fourni une gamme de courbes théoriques avec des graduations variables, que l’on pouvait ensuite superposer à une courbe empirique afin de déterminer laquelle « s’adaptait » le mieux. Courbe On se réfère à ces gamma courbes comme la famille pearsonienne des courbes.

Distribution t Les courbes les plus importantes qui restent de nos jours une partie intégrante des statistiques théoriques incluent : le type III, la courbe gamma que Pearson a continué à utiliser pour déterminer la distribution précise du χ² (abordée plus loin) le type IV, la famille des courbes asymétriques (créée spécialement pour traiter les données de Weldon) le type V, la courbe normale le type VI, que l’on connaît dorénavant sous le nom de distribution de Student pour des tests t (traitée plus loin)

La famille de courbes de Pearson a largement contribué à dissiper la croyance quasi religieuse selon laquelle la distribution normale était le modèle mathématique de la variation des phénomènes biologiques, physiques et sociaux.

Churchill Eisenhart (1913–1994), responsable du Laboratoire des statistiques (SEL) au Bureau national des normes (USA-NBS).

95

COMMENT INTERPRÉTER DES DONNÉES ? Le statisticien commence par une recherche de modèles de variation et de tout écart flagrant par rapport au schéma standard.

Les mesures statistiques des variations La mesure des variations est la clef de voûte des statistiques mathématiques. Galton a inventé la première mesure de variation statistique en 1875 en introduisant l’« écart semi-interquartile », exprimé comme suit : (Q3 – Q1) 2 Un quartile est un point situé sur la distribution. De 1 à 25 % Q1 1er quartile

De 26 à 50 % Q2 2e quartile

De 51 à 75 % Q3 3e quartile

De 76 à 100 % Q4 4e quartile

L’écart semi-interquartile Comme pour la médiane de Galton, cette méthode était rapide et facile à mettre en œuvre. L’écart semiinterquartile ne dépend pas des valeurs extrêmes : 2 3 4 6 6 8 9 11 12 14 14 15 17 18 19 21 82 Q1 Q2 Q3 extrême Ici, l’écart semi-interquartile = (17 – 6) / 2 = 11 / 2 = 5,5 96

L’écart interquartile Il s’agit d’une méthode largement utilisée qui mesure la dispersion du milieu à 50 % (ou la médiane) d’un ensemble de données ordonnées. Par exemple, dans : 1 1 3 4 4 5 5 6 6 7 7 8 8 9 9 9 10 Q1 Q2 Q3 … l’écart interquartile = Q3 – Q1 ou 8 – 4 = 4. Ainsi, la médiane Q2 est égale à 6 et s’étend sur un intervalle de 4 points. Cette technique restait un moyen rapide et facile de calculer manuellement une estimation approximative de la variation, jusqu’à l’arrivée de logiciels de statistiques spécialisés pour ordinateurs à la fin des années 1970. Comme pour l’écart semi-interquartile, l’écart interquartile n’est pas affecté par des valeurs extrêmes. 2 3 4 6 6 8 9 11 12 14 14 15 17 18 19 21 82 Q1 Q2 Q3 extrême L’écart interquartile = Q3 – Q1 ou 17 – 6 = 11 ; la médiane de 12 s’étend sur un intervalle de 11 points. 97

L’écart dans l’ensemble suivant : 4, 7, 12, 25 et 34 sera de 34 – 4 = 30.

Lors de ses premières conférences sur les statistiques à Gresham en 1892, nommé à l’époque à la chaire de géométrie, Pearson a introduit le concept d’écart ou d’étendue, qui constitue la méthode la plus simple pour mesurer une variation. L’écart est défini comme la distance entre la valeur la plus haute et la valeur la plus basse dans un ensemble de données et offre une approximation de la dispersion des données.

On s’en sert assez souvent pour résumer des données mises à disposition du grand public, telles que l’étendue de salaires, d’âges ou de températures.

L’avantage de l’écart réside dans sa simplicité, Dans mais c’est la mesure la cet exemple moins fiable de la variation, de la température mesurée en degrés puisqu’elle n’utilise pas Celsius sur une semaine de toutes les données et novembre : 2, 6, 8, 12, 10 qu’elle est affectée par et 26, l’écart est de les valeurs extrêmes. 26 – 2 = 24. Ce résultat de 24 °C n’est pas une mesure numérique fiable de l’étendue des températures d’une semaine en novembre. La valeur extrêmement élevée de 26 °C est anormale (à moins peut-être d’être un indicateur du réchauffement climatique). 98

L’écart-type Pearson a introduit l’écart-type dans sa conférence du 31 janvier 1893 à Gresham, même si il l’avait appelé au départ la « divergence standard ». John Venn (1834–1923), mathématicien et logicien britannique, avait employé le terme « divergence » quelques années auparavant lorsqu’il parlait de déviation. L’écart-type permet de mesurer des variations. Il indique dans quelle mesure les valeurs se dispersent ou sont rapprochées dans un ensemble de données et montre dans quelle mesure chacune des valeurs s’écarte de la moyenne.

En utilisant la méthode des moments, j’ai montré à mes étudiants comment calculer l’écart-type et la covariance.

Écarts-types

L’écart-type ( ) correspond au « moment d’inertie » * et la covariance ( xy) au « moment dynamique » **.

Moyenne

Écarts-types

La covariance est la mesure qui indique dans quelle mesure deux variables aléatoires se déplacent ensemble. Si deux variables vont dans la même direction, alors la covariance entre les deux sera positive. Si deux variables vont dans des sens opposés l’une par rapport à l’autre, la covariance sera négative. S’il n’y a pas de mouvement des variables l’une par rapport à l’autre, la covariance sera nulle. * Le moment d’inertie constitue une valeur importante en mécanique : il représente une propriété géométrique d’une poutre (ou d’une autre structure) et indique sa résistance au flambage ou au ploiement. ** Le moment dynamique concerne l’effet d’une force sur le mouvement des objets.

99

En se servant de l’écart-type, Pearson a pu mesurer tous les points de variation dans une distribution plutôt que de relever deux ou trois points comme Galton proposait pour son écart quartile. L’écart-type montre la déviation (l’écart) d’une valeur par rapport à la moyenne et la fréquence de cette déviation.

Il constitue toujours et sans aucun doute l’un des outils statistiques le plus utilisé pour mesurer des variations.

L’écart-type =



(somme des valeurs brutes – moyenne des mesures réalisées) ² nombre de mesures réalisées

soit S=



–) ² ∑(X- x N

Ainsi, l’écart-type = la racine carrée de la moyenne des déviations au carré. 100

Au lieu de simplement additionner les valeurs pour déterminer leur moyenne, ici nous…

1 - soustrayons la moyenne de la somme des valeurs brutes (X), ce qui donne la valeur « déviationnelle » (symbolisée ici par un x minuscule) ;  égligeons les valeurs positives et 2-n négatives puisque nous élevons cet ensemble de valeurs au carré ; 3 - additionnons les valeurs déviationnelles élevées au carré pour calculer la déviation moyenne au carré (c’est-à-dire l’écart-type).

Formule déviationnelle : S =

√ √ √ ∑x ² 40 = = n 5

8 = 2,82

Cela signifie que la déviation moyenne de cet ensemble de données se trouve à 2,82 unités de la valeur moyenne de 8 et que, par conséquent, la variation de cet échantillon est faible. 101

L’écart-type s’exprime dans les mêmes unités que les données brutes.

Autrement dit, si l’on mesure quelque chose en pieds, en pouces ou en centimètres… … l’écart-type s’exprimera en pieds, en pouces ou en centimètres.

Un grand écart-type (par rapport à la valeur de la moyenne) indique que la distribution des fréquences est très dispersée par rapport à la moyenne, tandis qu’un petit écart-type indique au contraire que les données sont concentrées et proches de la moyenne, donc avec peu de variabilité entre deux observations. Bien que l’écart-type indique le degré de déviation du groupe dans son ensemble par rapport à la moyenne, il ne montre pas dans quelle mesure un groupe est variable.

Petit écart-type

Grand écart-type

Moyenne Moyenne

L’utilisation de l’écart-type est pratique pour mesurer des variations, tandis que la variance sert davantage pour des travaux théoriques, particulièrement dans ce que l’on appelle l’analyse de la variance (voir pages 168–170). 102

La variance est aussi une mesure de la variation, mais elle est utilisée surtout pour analyser des variables aléatoires et indique l’ampleur de la dispersion des valeurs autour de celles attendues*. Si nous prenons l’exemple de l’écart-type : La variance = (somme des écarts au carré – moyenne des observations) ² nombre d’observations soit S² =

–) ² ∑(X- x N

La formule déviationnelle pour la variance est donnée par : S² =

∑x ² 40 = = 8 n 5

* Les valeurs attendues représentent le nombre moyen « attendu » comme résultat du test aléatoire quand des possibilités identiques sont répétées de nombreuses fois.

103

Puisque l’écart-type ne met pas en évidence l’étendue de la variation dans un groupe, comment Pearson avait-il fait pour déterminer le degré de variabilité d'un groupe donné et comment le comparait-il à celui d’autres groupes aux moyennes fort différentes ? Pour y parvenir, il avait recours à une autre méthode statistique. C’était un problème auquel j’avais été confronté en 1886 en mesurant la taille d’hommes et de femmes.

Je voulais déterminer qui des hommes ou des femmes avaient la taille la plus variable. Galton a résolu le problème en ajustant la taille moyenne des femmes avec une taille moyenne des hommes équivalente, puis en comparant les déviations des hommes et des femmes. Il a ajusté ou « transmué » toutes les tailles des femmes en les multipliant par une constante de 1,08. 104

Le coefficient de variation Pearson était d’avis que la meilleure manière de comparer des déviations dans les tailles des hommes ou des femmes consistait à modifier les déviations dans le même rapport. Un recours à l’écart-type seul, qui pouvait être en centimètres ou en pouces, montrerait très probablement que les hommes sont plus grands en moyenne que les femmes, puisque la valeur moyenne de leur taille est plus grande, mais cela ne répondrait pas à la question suivante : « Qui présente la plus grande variation dans leur groupe ? » Pearson a inventé le coefficient de variation pour mesurer cela. Ce coefficient s’est montré très vite utile pour Pearson quand il essayait de déterminer le degré de variabilité de certains crabes et crevettes de Weldon.

Je voulais savoir dans quelle mesure la variation dans un groupe indiquait l’existence de deux espèces différentes…

La courbe à deux bosses de Weldon

… ou si elle reflétait simplement l’ampleur de la variation dans le groupe.

Le recoupement de deux courbes normales de Weldon

105

Pearson y est parvenu grâce à sa nouvelle méthode en exprimant l’écart-type comme un pourcentage de la moyenne arithmétique. Le coefficient de variation est, somme toute, une mesure relative de la variation, alors que l’écarttype est une mesure absolue de la variation. Comme Pearson l’a souligné, il faut garder à l’esprit que des mesures relatives influent non seulement sur les moyennes, mais aussi sur l’écart à la moyenne.

Le coefficient de variation = Écart-type × 100 Moyenne .

Avec ma nouvelle méthode, les groupes qui affichent une grande variation dans leur propre groupe peuvent à présent être mesurés. 106

Comparer des variations de variables Dans la mesure où le coefficient de variation ne possède pas d’unités, on peut s’en servir pour comparer des variations de variables différentes avec différentes unités. Ainsi, on peut comparer les températures à Londres en degrés Celsius et celles de New York en degrés Fahrenheit relevées sur une semaine et déterminer quel ensemble de températures est le plus variable.

En utilisant uniquement l’écart-type, on constaterait que les relevés en Fahrenheit sont plus variables puisque les valeurs absolues sont plus grandes.

LONDRES

Mais si l’on se sert du coefficient de variation, on verrait quel ensemble de températures est en réalité le plus variable.

NEW YORK Lundi Mardi Mercredi Jeudi Vendredi Samedi Dimanche 107

Des applications pratiques Cette méthode est encore largement utilisée dans l’industrie, le marketing et en économie. Les fabricants de laine se servent du coefficient de variation pour calculer les variations de la distribution des diamètres des fils et des irrégularités au niveau des fils. Les valeurs obtenues mesurent le niveau d’uniformité du diamètre de la fibre (mauvais, moyen, excellent) …

… qui est le facteur le plus important pour décrire les niveaux critiques de confort et les caractéristiques physiques des tissus finis.

Cette information permet notamment aux tisserands de produire différentes qualités de laine, pour mieux répondre à la demande sur le marché. 108

Les échelles de mesure de Pearson Il était très important de pouvoir distinguer différentes échelles de mesure pour développer les méthodes de corrélation de Pearson et d’autres tests statistiques. Quand Galton, Weldon et Pearson ont débuté leurs analyses de données, la grande majorité des données étaient de type « continu ». Juste avant 1899, Pearson avait commencé à étudier des coefficients statistiques pour mesurer les rapports entre variables « discontinues » (discrètes). On peut mesurer des variables continues comme la longueur, la hauteur, la largeur, le temps, la température et la pression artérielle…

… avec des instruments tels qu’un mètre de couturier, une règle de tailleur, un pied à coulisse, une horloge, un thermomètre et un tensiomètre respectivement.

Ce variables sont exprimées en unités de mesure qui peuvent être subdivisées en graduations bien définies telles que les pouces, les centimètres, les secondes, les minutes ou les degrés. 109

Variables nominales et ordinales Pearson a d’abord eu affaire à des variables qui ne pouvaient pas être considérées comme continues lorsqu’il a commencé à se pencher sur l’hérédité de la couleur des yeux chez les Hommes et la couleur de la robe chez les chevaux ou les chiens. Dans de telles situations, la seule manière de classer les observations est de procéder à un décompte, plutôt qu’à des « mesures » : on ne peut mesurer la couleur des yeux comme on mesure la taille, le poids ou l’écoulement du temps. Pearson a qualifié les variables telles que la couleur des yeux de nominales.

Simplement, vous « nommez » les valeurs des variables (par exemple noisette, marron, bleu, vert).

Celles qui sont ordonnées (par exemple du plus foncé au plus clair), je les appelle les variables « ordinales ». Les variables nominales incluent presque toutes les variables démographiques telles que les croyances religieuses, les tendances politiques et les catégories socio-économiques. 110

Les variables ordinales sont simplement classées puis nommées. L’échelle de Mohs, conçue par le minéralogiste allemand Friedrich Mohs (1773–1829) en 1822, est un exemple d’échelle ordinale. e absolu gle Dureté us l'on ble so ia ongle onnaie fr Dureté , lc avec l' Ta e de m le u b a y e pièc ra 1 n , u coutea e s c n p e u v c Gy yable a nt ave e ra 2 , m e e il it c u Calc ble fa coutea 3 e, raya u sable vec un Fluorin lime, d yable a e ra n 4 , u te c ve a Apati le b ne 5 e, raya tungstè e Orthos ure de le verr m 6 , raye le carb e siliciu c d e v a re Quartz u le rb 7 , rayab c le ca ant e v m a ia le d Topaze ab autre 8 on, ray vec un Corind able a 9 nt, ray a m ia D 10

L’échelle comprend dix minéraux, allant du plus mou (talc) jusqu’au plus dur (diamant) et est une mesure de leur dureté relative ou de la résistance aux rayures.

Elle n’implique pas des degrés de dureté absolue égaux : un diamant n’est pas 10 fois plus dur que du talc, il s’agit simplement du minéral le plus dur connu à ce jour.

Pour que des résultats statistiques soient valables et porteurs de sens, il est essentiel d’utiliser les bons types de méthodes statistiques, c’est-à-dire les plus appropriées au type de données analysées. 111

Rapports et intervalles Le psychologue américain Stanley Smith Stevens (1906–1973) a procédé à une subdivision supplémentaire des « variables continues » en 1947 lorsqu’il a introduit le rapport et l’intervalle comme échelles de mesure (la plupart des variables continues de Pearson étaient des rapports). Stevens a proposé les échelles suivantes :

1 - Échelles de rapport Elles diffèrent des intervalles de variables (voir page suivante) de deux façons : a) un zéro absolu indique l’absence de la propriété que l’on souhaite mesurer (c’est-à-dire la hauteur, le poids ou la pression artérielle) et b) les échelles de rapport sont de nature additive. On peut dire ainsi que quelque chose est « deux fois plus grand que » ou « trois fois plus loin que ».

Comme les outils de mesure métrique et anglosaxons donnent des mesures absolues, la différence entre 3 pieds et 6 pieds est identique à la mesure métrique de la différence entre 0,91 mètre et 1,82 mètre. Les deux sont deux fois plus longs.

112

2. Les échelles d’intervalle Le point zéro est arbitraire et ne reflète pas l’absence d’un attribut (tel que 0 degré Celsius ou 0 degré Fahrenheit).

Ainsi, on ne dira pas qu’il fait « deux fois plus chaud » si la température passe de 10 °C à 20 °C. Puisque la température est une mesure relative et que les échelles sont arbitraires, elles ne peuvent être comparées.

En convertissant les degrés Celsius en Fahrenheit, on aura respectivement 58 F et 68 F, ce qui paraît être un peu plus chaud mais pas deux fois plus chaud.

113

La corrélation, l’une des méthodes statistiques les plus répandues, indique dans quelle mesure deux variables se déplacent ensemble (par exemple la taille et le poids). Les corrélations les plus courantes mesurent un rapport linéaire entre deux variables et indiquent dans quelle mesure elles évoluent ensemble sur une ligne droite. Mais il n’est pas vrai pour autant que n’importe quelle paire de variables peut être analysée en utilisant une corrélation statistique, et on se sert de différentes méthodes de corrélation en sciences de la vie, médicales, comportementales, sociales et environnementales, de même que dans l’industrie, le commerce, en économie et l’éducation. Différentes types de méthodes de corrélation sont utilisées pour différents types de variables, selon la nature de l’échelle de mesure employée. Les variables peuvent être nominales, ordinales ou des rapports.

Et les données peuvent être classées et catégorisées, telles que binaires (0,1) ou dichotomes (deux valeurs mutuellement exclusives), ce qui requiert l’utilisation de méthodes de corrélation très spécifiques.

Pearson est à l’origine de méthodes pour toutes sortes de variables. 114

Les premiers usages de la corrélation Le mot « corrélation » était déjà en usage un siècle avant que l’on ne trouve le moyen de la mesurer. Il a d’abord été utilisé par Georges-Louis Leclerc, comte de Buffon (1707–1788), membre de l’Académie des sciences et de l’Académie française, et développé ultérieurement par le baron Georges Cuvier (1769–1832), professeur au Collège de France et membre de l’Académie des sciences française et de la Royal Society de Londres, qui parlait de la « corrélation des formes » en 1801.

Les organismes existent en tant que tout coordonné et il s’ensuit que la corrélation des formes peut être utilisée pour reconstruire un animal en ne regardant qu’une partie, par exemple une dent, une griffe ou un fémur.

115

Charles Darwin, qui estimait que l’idée de Cuvier sur la corrélation était importante, s’est penché sur la question des corrélations fonctionnelles quand, par exemple, la taille d’un organe est fonction d’un second organe. Il a aussi débattu de la corrélation développementale, qui survenait dans les premiers stades de la croissance et influait sur le développement d’un organisme. Les biologistes évolutionnistes actuels utilisent aussi des corrélations écologiques, telles que la relation entre les doigts d’un cheval et ses dents.

La réduction du nombre de doigts, de cinq à un, a permis aux chevaux de courir plus vite, tandis que leurs dents se sont allongées suite à un changement d’habitudes alimentaires, passant de feuilles à l’herbe.

Geoffrey Ainsworth Harrison, biologiste.

116

Causalité et corrélation fallacieuse Francis Galton a été le premier à proposer une méthode pour mesurer la corrélation quand il a créé un graphique pour déterminer une relation entre des générations de petits pois mère et fille. Jusqu’à ce que Galton invente l’idée de corrélation, la façon d’expliquer comment deux événements étaient liés passait principalement par la causalité, notamment en physique. J’ai découvert que quand deux événements ont lieu en même temps, cela ne signifie pas que l’un a causé l’autre.

Mais il peut s’agir simplement d’un lien entre les deux variables.

Avant de rencontrer Galton, Pearson était persuadé que les mathématiques formelles pouvaient s’appliquer aux phénomènes naturels déterminés par causalité. Mais les idées de Galton sur la corrélation ont pris la place de la causalité pour Pearson, surtout en biologie. Il est devenu anti-causalité, estimant que l’Univers n’était pas sous le contrôle des lois de causalité, pris au sens strict, mais que la variation jouait un rôle plus grand dans l’explication de phénomènes. 117

Pearson avait mis en garde ses étudiants que la corrélation ne pouvait pas être interprétée comme une indication de causalité, bien qu’il se rendît compte que « pour tous ceux qui persistaient à considérer toute corrélation comme cause à effet, le fait que des corrélations pouvaient se produire entre deux caractères non corrélés devait être un choc ». De plus, la direction de la cause en question n’est pas connue : X est-elle la cause de Y ou l’inverse ?

Toutes les corrélations ne sont pas authentiques, et il est possible de trouver une corrélation parfaite d’un point de vue mathématique mais totalement dénuée de sens.

Ce que j’appelle des corrélations fallacieuses.

Par conséquent, une corrélation parfaite mathématiquement n’implique pas de causalité : elle peut simplement indiquer que deux variables sont très corrélées. Cela peut même être le résultat d’une corrélation fallacieuse voire illusoire due à l’influence d’une « variable cachée ». Alors que les diplômes d’étudiants universitaires sont corrélées à leurs futurs revenus (plus le diplôme est élevé, plus le salaire est important), cette corrélation peut être due à une troisième variable cachée, comme à travailler très dur. 118

L’analyse de chemin et la causalité Le biologiste évolutionniste américain Sewall Wright (1889–1988) a poursuivi les idées de Pearson sur la corrélation dans le domaine de la cause à effet en cartographiant tous les liens logiques et de méthodologie entre corrélation et causalité. En se servant de la régression multiple de Pearson (voir pages 134–138), Wright a conçu une méthodologie statistique en 1918 qu’il a appelée l’analyse de chemin. Cela signifie que je suis en mesure d’appliquer des modèles scientifiques mathématiques et sociaux pour interpréter des corrélations dans des systèmes complexes de causalité faisant intervenir des données non expérimentales.

Je peux potentiellement découvrir des relations de cause à effet entre des variables.

119

Les graphiques en nuages de points On illustre souvent la corrélation graphiquement par un nuage de points pour visualiser quelle est la forme produite. Si deux variables produisent une ellipse étroite qui s’apparente à une ligne droite, cela indiquerait une forte corrélation. Une ellipse grandeur nature révèle une corrélation moyenne, tandis qu’un cercle indique qu’il n’existe pas de corrélation. De cette façon, la corrélation mesure la force (haute, moyenne ou faible) de la relation.

Cependant, la corrélation ne peut pas être transformée en un pourcentage. Ainsi, une corrélation modérée de 0,55 et une forte corrélation de 0,80 ne sont pas équivalentes respectivement à 55 % et 80 % comme certains sont tentés de le croire, à tort. 120

Weldon et la corrélation négative L’indice numérique donné par une corrélation mesure aussi le sens de la relation. Soit les deux variables se déplacent ensemble dans le même sens vers le haut ou vers le bas du graphique (par exemple la taille et le poids d’enfants en bonne santé qui augmentent de pair), ou l’une des variables augmente tandis que l’autre diminue (par exemple plus vite on se déplace en voiture, moins on met de temps pour arriver à destination : la vitesse augmente alors que le temps diminue). Le premier exemple donne une corrélation directe ou positive, tandis que le second donne une corrélation négative ou inverse. J’ai suggéré à Pearson en 1896 l’idée de corrélations « négatives » ou « inverses ». De ce fait, les valeurs du coefficient de corrélation pouvait s’étendre de –1,00 à +1,00, plutôt que de 0,00 à +1,00 comme l’avait suggéré Galton au départ.

121

Des relations curvilinéaires Bien que l’indice numérique fournisse quelques informations quant au degré de relation linéaire, le graphique en nuages de points s’avère être un outil utile, en ce sens qu’il peut mettre en évidence une relation curvilinéaire. Pearson avait introduit le rapport de corrélation en 1905 pour mesurer un lien curvilinéaire. Une courbe âge versus croissance tout au long de la vie est curvilinéaire, alors que pour le tout jeune enfant elle est linéaire. Les enfants continuent leur croissance jusqu’à l’adolescence : ils grandissent, leurs cheveux poussent et ils deviennent de plus en plus habiles, agiles et souples. Mais la durée de vie est curvilinéaire car bon nombre de ces caractéristiques diminuent chez les personnes âgées : beaucoup rapetissent, les hommes surtout ont tendance à perdre leurs cheveux et peuvent même devenir chauves, et bien d’autres seront moins agiles et souples en vieillissant.

122

La régression biologique selon Galton Avant de travailler sur les corrélations, Galton écrivait sur la régression.

Je voulais savoir comment il était possible que des générations successives parviennent à conserver autant de traits semblables…

… et, en même temps, pourquoi certains descendants variaient – certains devenant plus grands, d’autres plus petits que leurs parents.

Galton a mesuré le diamètre et le poids de milliers de graines de petits pois de générations « mère » et « fille » en 1875 et a trouvé que les descendants revenaient vers les parents et suivaient une distribution normale. Au fur et à mesure que la taille et le poids du pois mère augmentait, il en allait de même pour le pois fille, mais les descendants de première génération n’étaient pas aussi grands ou aussi petits que le pois mère ; en réalité, ils régressaient vers la taille du « pois ancestral ».

123

Régression vers la moyenne Il s’agit de la tendance d’une caractéristique d’une population donnée à se déplacer d’une valeur extrême pour s’approcher des valeurs moyennes. Galton voulait trouver la corrélation entre la taille des pères et celle de leurs fils, étant donné qu’elle était facile à mesurer et restait stable pendant toute la vie adulte. Je me suis rendu compte que la corrélation était bidirectionnelle et produisait deux lignes de régression : l’une des enfants vers les parents et l’autre des parents vers les enfants.

Cependant, le constat de Galton renfermait un paradoxe, en contradiction avec son idée d’une régression devant nécessairement être unidirectionnelle. Galton devait donc expliquer comment la taille des enfants pouvait influer, de quelque manière que ce soit, sur celle des parents.

124

Les deux lignes de régression de Galton Bien que Galton ait montré qu’il y avait une corrélation entre la taille des pères et celle des fils, ses deux lignes de régression donnaient un tableau différent. Les lignes de la partie supérieure du graphique révèlent en effet que si les parents sont plus grands que la moyenne, alors leurs enfants seront plus petits qu’eux – la taille des enfants régresse vers la moyenne. À l’inverse, les lignes de régression dans la partie inférieure du graphique montrent que si les parents ont une taille en dessous de la moyenne, leurs enfants auront une taille plus grande qu’eux, tout en régressant vers la moyenne.

125

Les tailles père-fils illustrent un cas individuel de régression vers la moyenne :

Tableau A Régression de la taille du père vers celle du fils Père = 1m 85 Moyenne = 1m 68 Fils = 1m 75 Tableau B Régression de la taille du fils vers celle du père Fils = 1m 88 Père = 1m 68

Dans le tableau A, la taille moyenne sur un échantillon de 100 pères et de leurs fils est de 1m 68 et la taille des pères de 1m 85. Si nous régressons la taille des fils vers celle des pères, la taille des fils sera de 1m 75. Le père est plus grand que la moyenne mais le fils est plus petit que le père ; aussi la valeur a-t-elle régressé vers la moyenne. Dans le tableau B, quand la taille du fils est de 1m 88, une régression de la taille du père dans cet exemple donnerait une taille de 1m 68 pour le père. Dans ce cas, le père est plus petit que la moyenne mais son fils est plus grand que son père. 126

Le plus grand homme du monde avec un adulte « normal » et un enfant

Moyenne = 1m 73

Puisque la régression vers la moyenne se réfère à la tendance d’une caractéristique dans une population donnée à s’éloigner des valeurs extrêmes pour s’approcher des valeurs moyennes, cela a conforté Galton dans l’idée que les distributions seraient normales quoi qu’il arrive. Il était convaincu pour sa part que la sélection naturelle ne pouvait pas mener à des changements permanents dans une population car la génération suivante aurait tendance à régresser vers la valeur moyenne de l’espèce considérée. Galton n’avait pas pris en compte le fait que, étant donné que la reproduction après sélection naturelle avait changé la forme de la distribution, la loi normale serait en effet rétablie, mais avec une valeur moyenne différente (voir page 93). La population La régression, toutefois, n’a aucun effet sur moyenne la variation (ou variance) de la population : se déplace de façon la variation ne diminue pas sous unidirectionnelle. l’influence d’une régression.

Quelle . régression !

Courbe en trait plein : courbe avant sélection Courbe en pointillé : nouvelle courbe normale avec une nouvelle valeur moyenne après sélection.

127

George Udny Yule et la méthode des moindres carrés À la fin du xixe siècle, un élève de Pearson, George Udny Yule (1871–1951), a proposé une nouvelle approche pour l’interprétation de la corrélation et de la régression, avec une nouvelle utilisation conceptuelle de la méthode des moindres carrés, un outil mathématique qui réduit l’influence des erreurs quand on ajuste une ligne de régression à un nuage de points de données.

Cette méthode permet de calculer la ligne qui s’ajuste le mieux aux données observées en minimisant la somme des carrés des déviations verticales qui séparent chaque point du nuage de données de la ligne de régression.

128

En se servant de la méthode des moindres carrés, une analyse de régression permet aux statisticiens d’estimer la variable de réponse « Y » (la variable dépendante ou celle que l’on manipule) à partir d’une variable spécifiée « X » (la variable indépendante ou celle que l’on étudie).

Mais pour bon nombre de statisticiens actuels, la régression est presque exclusivement utilisée pour déterminer la valeur d’une prédiction linéaire…

… de deux variables continues en utilisant la méthode des moindres carrés pour effectuer des prévisions statistiques Bien que l’on puisse utiliser la méthode des moindres carrés pour analyser des lignes de régression, une bonne partie de la confusion qui entoure le concept de régression peut être imputée à tous ceux qui ont oublié que la procédure de régression de Galton vers la moyenne impliquait deux lignes de régression et pas simplement une seule ligne dont on peut se servir pour prédire de futurs résultats via la méthode des moindres carrés. 129

Corrélation versus régression Bien que Galton voulût mesurer la corrélation de la taille entre père et fils, Pearson découvrit en 1896 que la procédure de Galton pour identifier la « co-relation », comme il l’orthographiait à l’époque, mesurait en réalité la pente de la ligne de régression, qui était plutôt une mesure du coefficient de régression.

Galton plaçait une ligne arbitraire puis la testait pour voir si sa pente était de 1. Si tel était le cas, cela aurait signifié que la taille prédite pour les enfants était identique à celle des parents ; si la valeur était inférieure à 1, ce sont les enfants qui auraient été plus proches de la moyenne et auraient eu ainsi des tailles plus petites.

130

Le dilemme de Galton Comment Galton a-t-il réussi à aboutir à une mesure de la régression alors qu’il essayait de produire une formule mathématique pour la corrélation ? Il revient à Pearson de clarifier ce travail. J’ai démontré que l’erreur de Galton provenait de sa supposition qu’il y aurait une « variabilité égale » entre parents et enfants (c’est-àdire que l’écart-type produirait des valeurs numériques identiques).

Pearson a pu mesurer cette variation pour les pères et les fils séparément, en se servant de son écart-type. Il a montré ensuite que si les écarts-types d’une caractéristique chez les enfants et les parents avaient les mêmes valeurs numériques, il s’ensuivait que le coefficient de régression et le coefficient de corrélation auraient aussi des valeurs identiques. Il a souligné, cependant, que les coefficients de corrélation et de régression donneraient des valeurs différentes dans la grande majorité des cas. Ainsi, Galton avait combiné les concepts de corrélation et de régression dans ses travaux. Pearson brisa l’unidirectionnalité du concept de régression de Galton, le libérant ainsi de la connotation étroite de l’hérédité chez les humains pour le transformer en un concept purement statistique. Puisque Pearson avait réussi à montrer que la formule de corrélation de Galton était plutôt une mesure de la régression, il a retenu le symbole « r » pour symboliser le coefficient de corrélation.

131

Corrélation du produit des moments de Pearson En partant du système de la méthode des moments, Pearson a conçu une formule mathématiquement rigoureuse pour la corrélation. Il a démontré que les valeurs optimales de la pente de régression et du coefficient de corrélation pouvaient être calculées à partir du produit des moments où x et y sont les déviations des valeurs observées à partir de leurs moyennes respectives. Pearson a trouvé que la meilleure formule pour ce qu’il a appelé en 1896 le coefficient de corrélation du produit des moments était : r=

∑(xy) covariance = (Sx))(Sy) (écart-type de x) (écart-type de y)

La covariance ∑(xy) définit dans quelle mesure les déviations de deux variables aléatoires se déplacent ensemble (voir page 99). Pearson a déterminé ensuite que le coefficient de régression était donné par : b=

132

∑(xy) covariance = S2x variance de x

R. A. Fisher : variables indépendantes et dépendantes

En 1925, Ronald Aylmer Fisher (1890–1962), biologiste et statisticien britannique, a reconstruit la notation de Pearson, introduisant Y = a + bX (l’équation générale pour une droite) et incorporant les termes variable « dépendante » et variable « indépendante ». Cette distinction était essentielle pour traiter des cas de régression, car la variable indépendante est prédictive et la variable dépendante est le critère de référence. Fisher a alors formulé l’équation pour la ligne de régression (ou ligne prédite) : Y’ = a + bX (où b est le coefficient de régression et Y’, prononcé « Y prime », la ligne de régression). On peut ainsi se servir de la régression pour prédire des revenus basés sur l’âge…

… ou prédire si les véhicules lourds vont consommer davantage de carburant, où « X » représente le poids du véhicule et « Y’ » le nombre de kilomètres parcourus par litre. 133

Corrélation simple et corrélation multiple Pearson a introduit le terme corrélation simple pour mesurer une relation linéaire entre deux variables continues seulement, telle que la relation entre la taille du père et celle du fils. Quand j’ai commencé à m’intéresser aux mesures des relations entre les caractéristiques de plus de deux générations, j’ai eu besoin d’un nouvel ensemble de procédures statistiques.

134

J’avais déjà traité des cas de corrélations statistiques entre trois variables en 1892, que j’avais appelées « les fonctions de Galton », nommées ainsi par Weldon en 1889.

Quand j’ai proposé une résolution mathématique pour les travaux de Galton, j’ai conçu une structure mathématique pour la corrélation multiple, symbolisée par R…

… pour mesurer la relation entre trois variables continues ou plus (c’est-à-dire entre une variable indépendante et l’ensemble combiné de deux ou davantage de variables indépendantes). Ainsi, la corrélation multiple implique le calcul simultané de coefficients de corrélation de plusieurs variables.

Ce travail a permis de constituer la base pour le développement de la régression multiple. Tout comme pour la régression simple, elle implique une prédiction linéaire, mais plutôt que d’utiliser une seule variable à « prédire », plusieurs variables peuvent être utilisées en même temps.

Superposition de trois variables

X1 = consommation d’aliments X2 = quantité d’exercice physique Y = indice de masse corporelle 135

Pour calculer le coefficient de corrélation multiple, Pearson a introduit une forme de mathématiques avancées. Cela a joué un rôle primordial dans la professionnalisation des statistiques mathématiques comme discipline académique à la fin du xixe siècle. Pearson avait appris ce type de mathématiques à l’université de Cambridge de James J. Sylvester et Arthur Cayley (1821–1895), qui avaient créé l’algèbre matricielle en partant de leur découverte de la théorie des invariants au milieu du xixe siècle.

136

C’est seulement à partir des années 1930 que la forme avancée des mathématiques introduite par Pearson a été remplacée par l’algèbre matricielle dans les statistiques mathématiques.

L’algèbre matricielle est restée au cœur des statistiques multivariées.

Ce haut niveau de mathématiques a permis aux statisticiens de trouver des solutions mathématiques complexes pour des problèmes statistiques dans un espace multivarié (ou p-dimensionnel) lorsque le système bivariant (à deux dimensions) s’avérait insuffisant.

Représentation géométrique d’un plan à régression multiple

Ligne de régression à deux dimensions

Le problème est mis en évidence par une figure à trois dimensions pour des problèmes de régression multiple et par un diagramme à deux dimensions pour une régression simple. 137

Le contrôle statistique Les scientifiques peuvent se servir de deux types de contrôle quand ils mènent leurs recherches : le contrôle expérimental ou le contrôle statistique. Le contrôle expérimental découle de l’action du chercheur à travers les sélections aléatoires et la manipulation des données recueillies…

… alors que le contrôle statistique, qui implique aussi une manipulation mathématique, n’est souvent qu’une première étape vers un contrôle expérimental. Pearson a proposé une manière de contrôler statistiquement certaines variables en 1895 avec la corrélation par parties, qui était utilisée avec la corrélation multiple uniquement et impliquait nécessairement trois variables ou plus. Il s’agit de la corrélation entre une variable dépendante et l’une des variables indépendantes après que le chercheur a neutralisé les effets de l’une des autres variables indépendantes par rapport à la première. Ainsi, le chercheur peut isoler mathématiquement la variable quand il ne peut l’isoler expérimentalement. Le statisticien traite l’item à analyser essentiellement comme si l’une des variables n’existait pas. (Comme nous le verrons plus loin, la corrélation par parties est liée à l’analyse de la covariance proposée par R.A. Fisher.) 138

Par exemple, si les diététiciens voulaient déterminer quels facteurs contribuent à une perte de poids en évaluant l’importance relative de l’exercice physique, du nombre de calories absorbées et de la quantité de matières grasses ingérées…

… une corrélation multiple pourrait peut-être indiquer qu’une prise en compte des trois variables expliquerait mieux une perte de poids qu’une variable seule.

Mais si les chercheurs voulaient analyser l’effet de la réduction de calories uniquement, ils pourraient se servir alors d’une corrélation par parties pour neutraliser les effets de l’ingestion de graisse et de l’exercice physique de l’ensemble combiné des variables indépendantes. Cela permettrait de déterminer le rôle de la consommation calorique seule dans la perte de poids. George Udny Yule a introduit plus tard la corrélation partielle, grâce à laquelle le statisticien peut éliminer les effets d’une variable ou plus aussi bien parmi les variables dépendantes que parmi les indépendantes. La corrélation partielle permet d’identifier les corrélations fallacieuses (voir page 118). 139

Les relations d’éléments discrets 2 × 2 Pearson a introduit deux nouvelles méthodes en 1900 : le coefficient de corrélation (rt ) tétrachorique (qui signifie « quadruple ») et le coefficient phi (ф), qui a pris le nom de « coefficient phi de Pearson » pour les variables discrètes par la suite. Les deux méthodes servent à mesurer l’association entre deux variables, par l’intermédiaire de tables dites 2 × 2 (quadruples) que l’on peut placer dans deux catégories mutuellement exclusives (appelées les variables « dichotomiques »). A récupéré

En est mort

a

b

Rescapé

Incidence

c

d Infecté

Exemple d’un tableau quadruple : une étude de Pearson qui date de 1904 sur l’efficacité d’un vaccin contre la fièvre typhoïde.

Le coefficient phi de Pearson était conçu pour deux variables lorsqu’il existe une vraie dichotomie et donc que les variables ne sont pas continues. Les psychométriciens s’en servent couramment pour la construction de tests dans des situations où une vraie dichotomie existe, comportant par exemple les réponses « vrai » ou « faux » ; de même que les épidémiologistes quand ils estiment un facteur de risque associé à la « présence » ou « l’absence » d’une maladie par rapport au taux de mortalité. 140

Pour la corrélation tétrachorique, la dichotomie est artificielle car les variables sont continues à l’origine, mais elles peuvent être classées en deux groupes. Ainsi, on peut mesurer la taille en pouces ou en centimètres et la traiter comme une variable continue, mais on peut également créer une dichotomie artificielle en classant les individus en « petits » ou « grands ». De même, l’âge et les revenus sont continus, mais peuvent être séparés en deux groupes de jeunes/âgés ou bien riches/pauvres. Transformer des variables continues en dichotomies artificielles :

141

La statistique Q de Yule En 1899 (un mois après que Pearson a introduit le coefficient phi et la corrélation tétrachorique), Yule a proposé la statistique Q, ainsi nommée en souvenir de Quetelet. Yule cherchait également une mesure qui ne dépendrait pas des variables continues ou d’une quelconque distribution normale sousjacente, comme c’était le cas pour la corrélation du produit des moments de Pearson. J’ai trouvé que mon Q (avec des valeurs comprises entre –1,00 et +1,00) était toujours légèrement plus haut que la corrélation tétrachorique de Pearson.

Les sociologues comptèrent parmi les premiers à se servir des travaux de Yule sur la statistique Q pour leurs travaux. Sa méthode a été adoptée par les statisticiens médicaux à la fin du xxe siècle et est devenue une mesure d’association pour des cas où l’on pouvait obtenir directement des comptages de cellules dans la table 2 × 2, connue sous le nom de rapport des chances*, qui est basé sur la statistique Q de Yule.

* Le rapport des chances est une façon de comparer si la probabilité d’un événement donné est identique pour deux groupes analysés.

142

Les corrélations bisériales Pearson a établi la corrélation bisériale en 1909. Celle-là est liée à la corrélation du produit des moments (dans laquelle les deux variables sont continues), mais avec une différence cependant. La valeur d’une des variables constitue une dichotomie artificielle, tel un résultat La frontière binaire « réussi » ou entre réussi et « échec » lors d’un échec peut être test. fixée différemment par divers enseignants.

Comme nous le verrons plus loin, la corrélation bisériale ressemble aussi non seulement au test t de Student et à l’analyse de variance de Fisher. La corrélation point-bisériale est liée à la corrélation bisériale de Pearson mais avec une variable continue et l’autre présentant une « vraie dichotomie », telle que la distinction mâle/femelle. C’est une estimation de ce que donnerait la corrélation du produit des moments si l’on remplaçait la variable dichotomique par une variable continue. 143

Ces deux méthodes sont beaucoup utilisées par les psychométriciens pour effectuer des analyses d’items de tests lors de la construction de divers tests d’intelligence et d’aptitude. La méthode bisériale sert le plus souvent à déterminer la corrélation entre les résultats d’un item de test et les résultats du test dans son ensemble. Qui a la tension artérielle la plus élevée/basse ?

Juif

Chrétien

Un exemple de corrélation trisériale : la relation entre tension artérielle et l’appartenance à l’une des trois religions majeures du Royaume-Uni Musulman

Quand on utilise le point bisérial pour mesurer la corrélation entre un résultat individuel et le résultat général à l’issue du test… … celle-là devient la mesure statistique de la « consistance interne » des items testés.

La corrélation trisériale de Pearson ressemble à la corrélation bisériale, l’une des variables étant continue, mais la seconde présente une trichotomie (par exemple basse, moyenne ou haute). 144

Egon Pearson et les corrélations polychoriques En 1922, Karl Pearson et son fils Egon ont élaboré la corrélation polychorique. Elle est proche de la corrélation tétrachorique, excepté qu’il y a trois ou davantage de valeurs possibles pour chaque variable. Alors que la corrélation tétrachorique se limite à une table de contingence 2 × 2 avec des variables limitées à des valeurs binaires (0,1) seulement, la corrélation polychorique est utilisée pour des tables n × n et les valeurs des variables sont polysériales (0, 1, 2, 3, 4…) et contient ainsi trois catégories ou plus.

Par exemple, un chercheur peut classer la douleur ressentie en plusieurs niveaux : 0 = aucune douleur, 1 = douleur légère, 2 = douleur modérée, 3 = douleur sévère pour quatre types différents de pathologies telles que la sclérose en plaque, l’arthrite, les migraines et l’ostéoporose.

145

La corrélation rang-ordre est l’étude des relations entre différents rangs dans un même ensemble d’items. Elle traite de la mesure de la correspondance entre deux rangs et estime sa signification statistique. Deux des principales méthodes ont été conçues par le psychologue anglais Charles Spearman (1863–1945), élève de Karl Pearson, et par Maurice Kendall, statisticien britannique formé à Cambridge (1907–1983). Trois autres tests incluent le test signé des rangs de Wilcoxon, le test U de Mann-Whitney et le test des rangs J’ai emprunté les idées de Galton sur de Kruskal-Wallis. les valeurs de rang quand j’ai formulé la corrélation rho ( ) de Spearman de l’ordre des rangs en 1906.

En principe, cette méthode est simplement un cas particulier du coefficient du produit des moments de Pearson dans lequel les données sont converties en rang, du plus haut jusqu’au plus bas, avant de calculer le coefficient correspondant.

146

L’analyse factorielle Spearman était également influencé par les idées de Galton sur la mesure des différences individuelles des capacités humaines et par ses idées antérieures sur les tests d’intelligence. En se servant de la corrélation du produit des moments de Pearson et de la méthode dite des composantes principales* introduite par Pearson en 1901, Spearman a créé une nouvelle méthode d’analyse statistique, appelée analyse factorielle, qui permet de réduire un ensemble de données complexes en une forme plus manipulable et qui permet en outre de détecter l’existence de structures dans les relations entre variables.

Par la suite, j’ai créé la première théorie psychométrique de l’intelligence avec ma théorie des deux facteurs, qui sert à mesurer des capacités générales et spécifiques.

* Il s’agit d’une procédure statistique générale permettant de trouver une représentation efficace d’un ensemble de données corrélées.

147

Le coefficient tau de Maurice Kendall Le statisticien britannique Maurice Kendall (1907–1983) a créé en 1938 une autre méthode de corrélation de rang appelée le tau de Kendall. Il s’agit d’une méthode dont le schéma est basé sur le nombre d’accords ou de désaccords dans un ensemble de données classées. Le résultat représente une probabilité et correspond à la différence entre la probabilité que dans les données observées…

… deux variables se trouvent dans le même ordre et la probabilité que les deux variables soient dans des ordres différents.

Le tau de Kendall sert souvent à analyser des échantillons plus grands que ceux soumis au rho de Spearman. 148

Corrélation versus association Ces deux termes décrivent deux procédures différentes pour mesurer des relations statistiques. Je me suis servi du terme corrélation pour décrire la force et le sens des relations entre deux variables continues ou plus qui suivent une distribution normale.

Et en 1899, j’ai introduit le terme association pour désigner deux variables discrètes ou plus qui ne suivaient pas une distribution normale, continue.

Les méthodes de corrélation incluent :

Les mesures d’association où les deux variables sont nominales :

Les mesures mixtes où l’une des variables est discrète et la seconde continue :

149

La validité des tests L’une des manières d’utiliser la distribution normale pour analyser ou interpréter des données est une méthode appelée le test de validité de l’ajustement, qui permet au statisticien de voir dans quelle mesure les données sont en phase ou correspondent à une distribution normale.

Ce faisant, le statisticien peut dire si les données sont distribuées normalement et peut ensuite avancer des conclusions probabilistes sur ces données.

Jusqu’en 1900, c’était d’ailleurs le principal moyen pour les statisticiens de dire quelque chose sur les probabilités de leurs résultats.

Notre champion de la courbe de distribution normale, Adolphe Quetelet, a été l’un des premiers à tenter de faire correspondre un ensemble de données à une courbe de distribution normale, vers 1840, que Galton a commencé à utiliser en 1863. Les procédures de Quetelet étaient graphiques et il se servait d’une table basée sur une distribution binominale plutôt que de prendre une approximation de la courbe de distribution normale. Une grande partie du travail de Galton n’impliquait pas de comparaisons avec la courbe de distribution normale ; il comparait plutôt ses valeurs calculées à celles issues d’une table statistique usuelle. 150

C’est un statisticien allemand, Wilhelm Lexis (1837–1914), qui a conçu le rapport de Lexis L en 1877, un test de validité de l’ajustement pour déterminer si une distribution empirique était conforme à la distribution normale, tandis que le professeur d’économie d’Oxford, l’Irlandais Francis Ysidro Edgeworth (1845–1926), a mis au point un test de justesse basé sur l’approximation normale de la distribution binomiale en 1887. Bien que beaucoup d’autres scientifiques du xixe siècle aient essayé d’élaborer des tests de validité, ils n’ont fourni aucune base théorique sous-jacente à leurs formules, contrairement à Pearson. Avant que Pearson ne conçoive un nouveau test de validité, la procédure habituelle consistait en une comparaison des erreurs d’observations à une table de distributions basée sur la courbe de distribution normale, ou graphiquement au moyen d’un diagramme des fréquences tracé point par point. Typiquement, comme le biologiste évolutionniste britannique John B. S. Haldane (1892–1962) expliquait en 1936 : Le chercheur émettait une hypothèse scientifique et procédait à une observation, et tout ce qui pouvait être déterminé l'était si les deux étaient conformes ou non… … mais dans des cas intermédiaires, il n’existait pas de test réel de conformité avant que Pearson propose son test de validité de l’ajustement appelé X 2.

151

L’ajustement de courbe pour les distributions asymétriques L’intérêt de Pearson pour l’ajustement de courbe était alimenté par les travaux de Weldon sur des crabes sur les plages de Plymouth. Quand Weldon a découvert en 1892 que certaines données sur les crabes ne se conformaient pas à une courbe de distribution normale et trouvé qu’elles produisaient deux courbes au lieu d’une – qu’il appelait « à deux bosses » (ou distribution bimodale) –, il a demandé l’aide de Pearson.

Pearson voulait trouver une autre façon d’interpréter les données sans essayer de les normaliser comme l’avaient fait Quetelet et Galton. Pearson et Weldon estimaient qu’il était important de donner du sens à la forme sans l’altérer, car elle contenait peut-être des informations sur la création d’une nouvelle espèce. 152

Dessins de Woldon des différences entre deux races de hareng quand il cherchait avec Pearson des marques spécifiques de spéciation.

Le système du χ² Le travail continu de Pearson sur l’ajustement de courbe au cours des années 1890 signifiait qu’il avait besoin d’un critère pour déterminer dans quelle mesure les données et la courbe étaient ajustées, ce qui l’a conduit à concevoir différents tests de validité d’ajustement. À la fin de l’année 1896, il a voulu développer un test de validité d’ajustement pour des distributions asymétriques, et qui serait utile à la fois aux biologistes et aux économistes, dont le résultat a abouti à son test du χ² en 1900. Il y a trois composants dans le système du χ² de Pearson : 1. la distribution de probabilité du χ², publiée en 1900 2. le test de validité d’ajustement de 1900 3. le test du χ² d’association pour les tables de contingence de 1904 (renommé « statistique χ² » en 1923 par R.A. Fisher). 

Mais qu’y avait-il de si important à propos de la distribution du χ² et du test de validité d’ajustement ?

Leur importance primordiale était que les statisticiens pouvaient dorénavant utiliser des méthodes statistiques qui ne dépendaient pas de la distribution normale pour interpréter les données recueillies.

153

Boire du chai [thé] n’est pas si carré que ça.

Tandis que la distribution normale est utilisée pour des données continues qui se conforment aux courbes symétriques en forme de cloche, la distribution du χ² peut être utilisée pour des données discrètes qui peuvent prendre n’importe quelle forme de distribution, asymétrique, binomiale ou de Poisson. Les tests du χ² de Pearson sont bâtis sur deux hypothèses distinctes : le test de validité d’ajustement détermine dans quelle mesure une distribution empirique, établie par un chercheur à partir de données observées directement par lui ou de résultats expérimentaux, pourrait décrire effectivement l’échantillon tiré d’une population donnée (par exemple dans quelle mesure les données expérimentales se conforment à la distribution théorique du χ²).

À l’inverse, le coefficient de contingence du χ², qui est une mesure d’association, teste la différence entre les valeurs observées et les valeurs théoriquement attendues issues d’une table de contingence. 154

Dans l’exemple ci-dessous, un analyste politique souhaiterait déterminer qui des femmes ou des hommes seraient plus enclins à voter républicain ou démocrate lors d’une élection présidentielle américaine. Préférence de vote dans une table 2 × 2 :

La meilleure illustration de la statistique du χ² pour les tables de contingence est donnée par une formule de calcul que Pearson a conçue en 1904 pour des tables de contingence 2 × 2. χ² = ∑

n (ad - bc)² (a + b) (c + d) (b+d) (a+c)

La statistique du χ² révèlerait que plus de femmes auraient tendance à voter démocrate tandis que les hommes préfèreraient voter républicain. Alors que les deux tests du χ² ont des fonctions différentes, ils peuvent s’écrire (en des termes actuels) : χ² = ∑

(O – E)² E

ou χ² = ∑

(la somme de toutes les valeurs de (nombre relevé – nombre attendu)²) nombre attendu

155

La statistique du χ² est souple et peut traiter plus d’une catégorie, mais dans ce cas précis une formule plus générale serait utilisée. Par exemple, lors des élections législatives en Grande-Bretagne, où il y a plus de deux partis, un analyste politique voudrait savoir si les femmes ou les hommes sont plus enclins à voter pour les partis majoritaires. Valeurs observées pour la préférence de vote dans une table 2 × 5 :

156

L’interprétation de résultats avec des degrés de liberté À la différence d’une corrélation, dans laquelle Pearson pouvait se pencher sur les nombres (par exemple 0,90, 0,5 ou 0,21) et déterminer si ces valeurs dénotaient des corrélations fortes, modérées ou faibles, cela n’est pas possible avec la méthode de la statistique du χ². On ne peut regarder la valeur issue de la formule et savoir ce qu’elle signifie sans une aide supplémentaire. Afin de pouvoir interpréter les valeurs obtenues par la méthode du χ², il a conçu ce qu’il a appelé un « facteur de correction ». En 1922, R.A. Fisher a formulé des « degrés de liberté » pour déterminer si les résultats du χ² étaient statistiquement significatifs ou non. Les degrés de liberté sont basés sur le nombre d’observations dans l’échantillon et utilisés dans la plupart des méthodes d’analyse statistique. Un test de signification est un concept important car il permet au chercheur de déterminer…

… si les résultats d’une étude proviennent d’une réelle différence ou sont dues au hasard.

Ce que je vois là, c’est sûrement un degré de trop !

157

La table statistique du χ² Pearson et son élève Alice Lee (1858–1939) ont créé une table statistique du χ² en 1900. Un an plus tard, un autre élève, William Palin Elderton (1877– 1962), l’a modifiée. Les chercheurs qui avaient accès à cette table pouvaient vérifier les valeurs de χ² calculées et le facteur de correction nécessaire pour déterminer si les résultats étaient statistiquement significatifs ou non. Pendant qu’Edgeworth débattait des tests de signification en 1885, les tests du χ² de Pearson ont rendu possible la détermination de la signification statistique de résultats sur une échelle plus grande qu’auparavant. Plus tard, des générations de statisticiens ont démontré que d’autres facteurs pouvaient influer sur les degrés de liberté corrects dans le cadre des tests du χ².

Première table statistique de Pearson du X2 en 1900

158

Un test statistique pour la brasserie Guinness Le premier test statistique industriel de contrôle qualité a été conçu par le statisticien et chimiste William Sealy Gosset, un maître brasseur à Guinness au début du xxe siècle. De par son contrat, Gosset ne pouvait publier des articles sous son nom (la raison étant peut-être que Guinness ne voulait pas que ses concurrents sachent qu’ils étaient en train de former certains membres de leur équipe scientifique aux statistiques), il a adopté le pseudonyme « Student ». C’était une pratique courante à Guinness, l’assistant de Gosset, Edward M. Somerfield, signait ses articles « Alumnus ». À la fin du xixe siècle, Guinness était la plus grande brasserie du monde, produisant plus de 1,5 million de barils de bière par an.

Afin de conforter sa position, Guinness a commencé à recruter des candidats ayant des diplômes scientifiques de premier rang d’Oxford et de Cambridge, et avait pris l’habitude d’envoyer de plus leur personnel poursuivre des études spécialisées.

159

La quantification de matière pour faire de la bière Guinness avait un grand intérêt pour l’agriculture, surtout pour les cultures d’orge pour la bière, ce qui a conduit à l’implication de Gosset dans des expériences agricoles et des tests en laboratoire. Quelques brasseurs avaient entrepris des analyses chimiques afin d’essayer d’identifier et de quantifier les qualités de l’orge et du houblon nécessaires pour faire une bonne bière…

… telles que le « frottement » du houblon, la « texture » de l’orge, qui peut être « laiteuse » ou « aciérée ».

Mais ces critères qualitatifs étant difficiles à mesurer, Guinness ne savait donc pas précisément ce qui rendait sa stout si populaire, ni comment améliorer ou maintenir sa qualité. Ils voulaient savoir quelles étaient les conditions nécessaires pour produire les variétés d’orge et de houblon qui donnaient respectivement les meilleurs maltage et brassage. 160

Les variations dans le monde agricole Quand Gosset est venu chez Guinness et a pu constater l’immense quantité de données chimiques de la brasserie, il s’est demandé si toutes ces informations pouvaient mettre en lumière une relation entre la qualité de la matière première, telle que l’orge ou le houblon, et la qualité du produit fini. Gosset a rencontré deux difficultés quand il a commencé à concevoir des analyses statistiques, d’une part une grande variation et, d’autre part, un nombre d’observations faible. Les variations de la pluviométrie, les dommages causés par les oiseaux, la composition chimique du sol et la température étaient critiques pour la production agricole de ces céréales, mais les brasseurs ne savaient pas comment prendre en compte cette variation quand ils interprétaient les données.

Guinness avait donc besoin de trouver un moyen de décider quelles différences ignorer et lesquelles prendre en compte. Une manière d’analyser les écarts était d’utiliser les méthodes statistiques de Pearson. Gosset s’est arrangé pour rencontrer Pearson le 12 juillet 1905 à East Ilsley dans le comté de Berkshire, où Pearson passait ses vacances d’été pour être à portée de vélo de Weldon qui se trouvait à Oxford. 161

Petits échantillons versus grands échantillons Gosset a fait part à Pearson qu’un de ses plus gros problèmes était la petite taille des échantillons – il ne disposait que d’un échantillon de dix pour chaque variété d’orge. C’était en effet un échantillon très limité comparé aux grands échantillons dont se servait Pearson pour d’autres analyses : c’est ce problème qui a conduit Gosset à concevoir le premier test de contrôle qualité statistique. Les méthodes statistiques de Pearson pour grands échantillons auraient donné des résultats biaisés si elles avaient été appliquées à de petits échantillons.

Les méthodes de Pearson étaient tout simplement inadaptées aux échantillons de petite taille.

Gosset a adapté les méthodes de Pearson à de petits échantillons et a emprunté aussi quelques-unes des méthodes statistiques utilisées par les astronomes. Ces équations linéaires combinées d’observations n’avaient cependant qu’une utilisation limitée car les observations étaient censées être réalisées dans des conditions stables, tandis que les conditions agricoles des données du brassage de la bière étaient instables – elles étaient hautement variables et affectées également par des changements de protocole expérimental dans les laboratoires. 162

Tester des différences statistiques entre deux moyennes En combinant les méthodes des astronomes avec les méthodes statistiques de Pearson, Gosset a créé les outils statistiques dont il avait besoin pour analyser ses données expérimentales. Il voulait déterminer s’il y avait une différence significative entre deux traitements fertilisants épandus sur deux variétés d’orge de parcelles voisines, soumises à différents types de sols, d’engrais et de conditions climatiques.

Quelle variété produirait la meilleure qualité de bière en termes de valeur par hectare ?

L’idée de calculer les différences entre deux moyennes de groupes et d’essayer de trouver une manière significative d’interpréter les données provenant de petits échantillons avait déjà retenu l’attention du médecin français Pierre Louis et du physicien allemand Gustave Radicke dans les années 1850, mais sans succès. Gosset a introduit son test z (ou rapport z) pour déterminer s’il y avait une différence significative entre la moyenne de l’échantillon et la moyenne de la population. 163

Des résultats statistiques pour Guinness Quand Gosset a analysé les parcelles d’orge en utilisant son tout récent rapport z, il en a déduit que la meilleure variété d’orge pour Guinness était l’Archer. À partir du moment où Guinness sut quelle variété d’orge acheter, il a voulu la cultiver partout en Irlande. Nous avons découvert que 1 000 graines d’orge de la pure lignée danoise Plumage Archer étaient disponibles, qui ont été distribuées à tous les cultivateurs choisis.

Quelle belle mousse…

Avec le nouveau test statistique de Gosset, il devenait possible de déterminer avec précision l’importance relative des nombreux facteurs influençant la qualité à diverses étapes du processus complexe de brassage de la bière. Le test z de Student est devenu le premier test statistique de contrôle qualité dans l’industrie. Les idées de Gosset, démontrant qu’il était important de déterminer le contrôle qualité d’un produit, ont influencé une nouvelle génération de statisticiens, dont R.A. Fisher, Walter Shewart (1891–1967) et W. Edwards Deming (1900–1993). 164

Le test t de Student Fisher a été si inspiré par le test statistique de Gosset qu’il a transformé le test z de Gosset et l’a réintroduit sous le nom de « test t de Student ». Fisher a ensuite recalculé les valeurs de Gosset issues de la table z, les remplaçant par une table t à laquelle Fisher a donné le nom de « distribution t de Student ». Ce test a été ré-exprimé de la manière suivante : t=

moyenne de l’échantillon du Groupe 1 – moyenne de l’échantillon du Groupe 2 écart-type des différences

Il y a trois façons différentes d’utiliser le test t :

Il teste les différences de moyennes entre deux échantillons indépendants.

Il teste les différences de moyennes entre deux échantillons appariés.

Il s’agit d’un test pour les coefficients de régression.

Fisher a développé davantage les travaux de Gosset quand il a formulé son « analyse de la variance » pour son modèle classique d’expériences sur les données du blé de Broadbalk à la station expérimentale de Rothamsted, à Harpenden, dans le comté de Hertfordshire (au nord de Londres). 165

Une nouvelle ère statistique : les données agricoles de Broadbalk, Rothamsted Bien que Pearson lui ait proposé un poste au University College de Londres en 1919, Fisher décida d’accepter l’offre de Sir John Russel pour travailler à la station expérimentale de Rothamsted afin d’analyser les données agricoles de Broadbalk, et c’est là que se sont concrétisées ses innovations statistiques. Rothamsted figure parmi les plus anciens centres agricoles au monde, établi en 1834 par Après avoir John Bennet Lawes (1814–1902) dont obtenu son diplôme à les ancêtres étaient propriétaires Oxford, Lawes est retourné des terres depuis 1623. au manoir de Rothamsted et

a transformé son étable en un laboratoire chimique où il a mené des expériences sur les minéraux phosphatés avec différentes quantités d’acide sulfurique et autres acides.

Ces travaux ont constitué les débuts de l’industrie des engrais et ont révolutionné l’agriculture britannique. 166

En 1834, le chimiste Joseph Henry Gilbert (1817–1901) s’est joint à Lawes pour ses études sur des cultures expérimentales dans les champs de Broadbalk. Leurs travaux ont donné lieu à la publication de tous les détails statistiques de leurs observations et expérimentations, et ont démontré que des parcelles traitées continûment par des engrais produisaient entre 12 et 13 bushels* par an alors que des parcelles fertilisées naturellement avait un rendement compris entre 30 et 40 bushels par an. À la fin de la Première Guerre mondiale, en 1918, Rothamsted a connu une période de prospérité et de reconstruction. Au cours des années suivantes, le chimiste Edward John Russel (1872–1965) a recruté le mathématicien Fisher ayant étudié à Cambridge.

Récoltes à Broadbalk On m’a demandé de rester le temps que je jugerais nécessaire pour déterminer si leurs archives se prêtaient à une analyse statistique digne de ce nom.

*1 bushel = 0,22 tonne (orge).

167

L’analyse statistique de la variance de Fisher De 1919 à 1926, Fisher a été le premier à développer les principes du modèle d’expérimentations et il a poursuivi la mise au point de sa méthodologie statistique de l’analyse de la variance (ANOVA) qu’il avait commencée en 1916. Alors que toutes les expériences sont concernées par les relations entre variables, il n’existait pas de manière systémique d’évaluer ces relations jusqu’au moment où Fisher a publié sa nouvelle et très novatrice méthodologie dans son ouvrage influent Statistical Methods for Research Workers [Méthodes statistiques pour les chercheurs] (1925).

À Rothamsted, le travail de Fisher consistait à analyser statistiquement les données de temps, de rendements et de l’usage d’engrais que la station avait engrangées depuis 66 ans.

168

J’ai décidé d’examiner le degré de variation dans les données afin d’identifier les facteurs qui influaient sur la qualité du blé.

L’analyse des variations agricoles Fisher s’est rendu compte qu’il était très important de distinguer trois types de variation dans le rendement du blé : les variations annuelles, qui résultaient directement des conditions climatiques stimulant la croissance des plantes, de même que de l’effet physique du sol ; les variations stables qui avaient été attribuées à la détérioration des nutriments emmagasinés dans le sol ; et enfin les variations lentes qui représentent de petits changements inattendus. En analysant différentes parcelles de blé, j’ai pu distinguer l’influence (c’est-à-dire l’effet principal) de pluies excessives sur les cultures qui emportaient des nitrates solubles.

Ses recherches ont suggéré qu’un engrais riche en azote devait être épandu au printemps plutôt qu’à l’automne pour avoir un blé de meilleure qualité. 169

L’analyse de la variance et petits échantillons L’analyse de la variance est une méthodologie qui consiste en une série de modèles statistiques pour traiter des données expérimentales et permet de subdiviser les variations observées en parties distinctes ; cette partition de la variance est intégrée à la méthodologie statistique de Fisher. Alors que le test t de Student sert à déterminer s’il existe une différence statistiquement significative entre les moyennes de deux groupes…

… l’analyse de Fisher de la variance utilise un test F suivi par une corrélation réalisée avec une table F afin de déterminer s’il existe une différence significative dans la moyenne du groupe.

Si la valeur est jugée significative, on se sert de tests t afin de tester les différences entre deux moyennes pour localiser ces différences.

Fisher a introduit l’analyse de la covariance (ANCOVA) en 1932 pour contrôler statistiquement une variable. Cela signifie que l’on « covarie » l’influence d’une variable par rapport à celle d’autres variables, ce qui peut améliorer la précision de l’expérience en réduisant la variance d’erreur. Pearson a fourni une analyse similaire avec la corrélation partielle en 1896. 170

Les statistiques inférentielles Fisher, en s’appuyant sur la méthodologie de Pearson, a non seulement contribué à en étendre la terminologie existante, mais ses innovations statistiques ont inauguré la seconde phase de statistiques mathématiques modernes par son développement des statistiques inférentielles. Si la variation aléatoire est au cœur des statistiques inférentielles, la caractéristique distinctive de cette nouvelle forme de statistiques implique des tests formels d’hypothèses et la théorie de l’estimation. Les tests d’hypothèses constituent une procédure scientifique utilisée pour prendre des décisions rationnelles sur des déclarations différentes. La théorie de l’estimation est une branche des statistiques qui traite de l’estimation des valeurs de paramètres (voir page suivante), basée sur des données recueillies par le chercheur. Si, par exemple, un analyste politique veut estimer la proportion de la population britannique susceptible de voter lors d’élections, la proportion est le paramètre inconnu et l’estimation est basée sur un petit échantillon aléatoire d’électeurs.

En statistiques, les lettres romaines –χ, s et r (respectivement pour la moyenne, l’écart-type et la corrélation) ont été développées principalement par Pearson. Les paramètres sont désignés par des lettres grecques telles que μ (mu), σ (« petit sigma ») et ρ (rho), introduites par Fisher en 1922 pour estimer la moyenne, l’écart-type et la corrélation dans les populations. Il s’ensuit que les statistiques sont aux échantillons ce que les paramètres sont aux populations.

171

La distribution par échantillonnage Afin de faire des généralisations sur une population donnée, des informations statistiques sont extraites d’un échantillon représentatif. Chaque échantillon tiré de la population a sa propre statistique (χ–, s ou r), qui sert à estimer un paramètre (μ, σ, ρ) de sa population. Selon Fisher, une statistique d’échantillon devrait constituer un estimateur non biaisé du paramètre de la population correspondante. (Fisher a créé trois autres estimateurs pour les paramètres, qui devaient être statistiquement consistants, efficaces et suffisants.) Pour parvenir, à partir d’une statistique d’échantillon, à une estimation de la population complète, le statisticien a recours à une « distribution d’échantillonnage ». Au lieu de traiter un seul échantillon, on tire plusieurs échantillons (voire même un infini d’échantillons) de la population ; chaque échantillon va produire une moyenne, un écart-type et une corrélation différents. La moyenne de toutes ces statistiques devrait être proche de la moyenne de la population entière. Par conséquent, un paramètre de la population offre une manière de résumer une distribution de probabilités, tandis qu’une statistique d’échantillon permet de résumer un échantillon d’observations. Les fondements de la méthode de Fisher étaient bâtis non seulement sur les travaux statistiques de Pearson, mais ils représentaient de plus une traduction du langage statistique de Pearson. Ils sont rentrés dans le jargon de la théorie mathématique statistique, bien que nombre des méthodes statistiques de Pearson et son langage propre demeurent une partie de la théorie des statistiques.

172

Conclusions La compilation bureaucratique de l’énorme quantité de statistiques vitales qu’avaient collectées les statisticiens du milieu de la période victorienne leur a permis de déployer un système d’analyse statistique pour mesurer la santé de la nation, et cela a abouti à des réformes politiques et à la promulgation de lois sur la santé publique en Grande-Bretagne. L’idée des statisticiens de la vie selon laquelle les variations observées étaient imparfaites et que la source d’erreurs devait être éradiquée, s’est confrontée aux idées de Charles Darwin sur les variations biologiques et les populations statistiques des espèces. Ce cadre darwinien a mené à une reconceptualisation d’une nouvelle méthodologie statistique initiée par Francis Galton, dont les recherches sur la mesure des différences individuelles ont mis le thème des variations sur le devant de la scène statistique. Son travail a attiré d’ailleurs l’attention de W.F.R. Weldon, dont les idées, l’encouragement et le soutien ont donné l’impulsion nécessaire à Karl Pearson et à ses collègues pour établir les bases des statistiques mathématiques modernes. Le premier test de contrôle qualité statistique pour l’industrie a été conçu par William Sealy Gosset, dont le travail a inspiré Ronald Fisher pour créer un système statistique destiné à l’analyse de petits échantillons, introduisant ainsi le modèle expérimental et la randomisation dans la théorie statistique. Le développement de la statistique inférentielle de Fisher a inauguré la seconde phase dans le développement des statistiques mathématiques modernes. Depuis le xxe siècle, les statistiques sont devenues le langage de la médecine, l’économie et des échanges politiques. Par conséquent, ces dernières ont envahi les conversations quotidiennes. Les informations statistiques peuvent exercer une influence puissante sur la vie des personnes, affectant des décisions en matière de traitements médicaux, sur l’achat d’une voiture, d’une maison, ou de vêtements, et quel parti politique soutenir lors d’élections. Dans notre société de la connaissance du xxie siècle emmenée par la technologie, une bonne compréhension des statistiques reste essentielle pour nos vies. 173

Bibliographie Bowler, Peter (2003), Evolution : The History of an Idea [L’histoire d’une idée], 3e édition, Berkeley & Los Angeles : University of California Press. Gigerenzer, Gerd (2002), Reckoning with Risk : Learning to Live with Uncertainty [Apprendre à vivre avec l’incertitude], Londres, Penguin, édition américaine : Calculated Risks : How to Know when Numbers Deceive You [Le risqué calculé : comment savoir quand les nombres vous trompent], New York : Simon & Schuster. Goldacre, Ben (2008), Bad Science [La mauvaise science], Londres : 4th Estate. Gould, Stephen Jay (1996, 1981), The Mismeasure of Man [La démesure de l’Homme], New York : W.W. Norton & Company. Gould, Stephen Jay (1996), Full House : The Spread of Excellence from Plato to Darwin [Quinte flush : la dissémination de l’excellence de Platon à Darwin], Londres et New York : Three Rivers Press. Hacking, Ian (1990), The Taming of Chance [Apprivoiser le hasard], Cambridge : Cambridge University Press. Hacking, Ian (2006), The Emergence of Probability [L’émergence de la probabilité], Cambridge : Cambridge University Press. Huff, Darrell (1996, 1954), How to Lie with Statistics [Comment mentir avec les statistiques], New York : W.W. Norton & Company. Porter, Theodore M. (1966), The Rise of Statistical Thinking, 1820–1900, [La montée de la pensée statistique, 1820–1900], Princeton : Princeton University Press. Sardar, Ziauddin, Ravetz, John et Van Loon, Borin (2006), Introducing Mathematics, Cambridge : Icon Books. Traduction française : Les mathématiques en images, EDP Sciences, 2016.

Auteur Eileen Magnello a d’abord reçu d’une formation de statisticienne avant de présenter un doctorat sur l’histoire des sciences au St Antony’s College, à l’Université d’Oxford. Elle a réalisé de nombreuses publications sur Karl Pearson et a coédité The Road to Medical Statistics [Le chemin des statistiques médicales].

Illustrateur Borin Van Loon est illustrateur et peintre surréaliste. Ses B.D. en collage sont regroupées dans The Bart Dickon Omnibus, un roman graphique. Ayant déjà collaboré aux ouvrages Darwin, Buddha et Cultural Studies de la même série, c’est la quinzième B.D. documentaire qu’illustre et conçoit.

174

Index

A

Algèbre matricielle 136 Analyse de chemin 119 Analyse de la covariance (ANCOVA) 170 Analyse de facteurs 147 Analyse de la variance (ANOVA) 168–70 Association 149

B

Bayésienne 45

C

Causalité 117 Chances 142 Coefficient de variation 105–8 Coefficient phi 140 Contingence (tables) 154–6 Contrôle statistique 138–9 Corrélation bisériale 143, 144 curvilinéaire 122 de rang 146 de rapport 122 de régression 130–1 par parties 138–9 développementale 116 écologique 116 fallacieuse 118 fonctionnelle 116 moment (coefficients) 131–2, 143 multiple 135, 139 négative 121 partielle 139, 149 Pearson 132 phi 140 point bisériale 143–4 polychorique 140, 149 positive 120–1 simple 134

Spearman rho 146 tétrachorique (coefficient) 140–1 Wilcoxon 149 zéro 120 Courbe de Gauss 53 Courbes platykurtiques 89–90 Courbes pearsoniennes 95 Covariance 99, 132

D

Degrés de liberté 157 Démographie 24 Déterminisme 14 Déviation (formule) 101, 103 Déviation (valeur) 101 Diagramme à barres 83 Dichotomies 140–1 Distribution asymétrique 93 bimodale 93, 152 binomiale 46–8, 50 de Poisson 49 normale 50, 52–3 probabilité 35, 46–53 χ² 153–8 Données discrètes 47

E

Écart interquartile 97 Écart semiinterquartile 96 Écart-type 60, 90, 99–102, 131 Échantillons aléatoires 81–2 délibérés, 81–2 distribution 172 statistiques 171–2 stratifiés 81–2 systématiques 81–2

techniques 80–2 Espèces 14–15 Estimation (théorie) 171–2 Extrêmes 74, 96–7

F

Facteur de correction 157 Fisher, R.A. 133, 153, 166–72 Fréquences relatives 43–4 standardisées 79

G

Galton (dilemme) 131 Galton, Francis 12, 57, 62–3, 68–70, 78, 96, 104, 117, 123, 125, 127, 150 Gestion de données (protocoles) 78–90 Gosset, W. S. 90, 159–64

H

Histogrammes 83

K

Kruskal-Wallis 149 Kurtosis 86, 89–90, 92

M

Malthus, T.R. 23–4, 26 Manque de données 2, 33 Médian 68–70, 72–7 Mesures échelles de 109 intervalles de 113 ordinales 111 rapports 112 Méthode des moindres carrés 128–9

175

Mode 71, 73–4 Moments 86–90, 99 Morphologistes 15 Moyenne 4, 60, 64–5–7, 72–4, 77, 86, 90

N

Normal (e) 55–8 Norme 56 Nuages de points 120, 122

P

Pantographe (Galton) 63 Pearson, Karl 12, 44, 57, 71–2, 79, 83–9, 95, 99–100, 104–6, 109, 114, 118, 122, 131–2, 134–6, 138, 140, 143–5, 151–8, 161–3, 170–1 Percentile 68 Polaires (graphiques) 34 Polygones de fréquence 84 Population statistique 16–7 Populations (malthusiennes) 23 Probabilités bayésienne 45 distributions 35, 46–53 fréquence relative 43–4 jeux de hasard 38–9 jeux de mises d’argent 40 lancers de pièce 42, 48 mathématiques 41–2 probabilité F 35, 170 subjective 37

Q

Q (statistique) 142 Quartiles 96

176

Quetelet, Adolphe 26, 62, 150 Quetelismus 62

R

Rapport de Lexis 151 Rapports curvilinéaires 122 Recensements 19, 26–7, 80 Régression biologique 123 coefficient de 131–3 lignes de 125, 128–30, 133 méthode des moindres carrés 54, 128–9 multiple 135, 137 simple 134 Rho Spearman 146

S

Sélection perturbatrice 93 directionnelle 94 naturelle 91–4 Statistiques Q de Yule 142 d’inférence 171 mathématiques 12–3 vitales 11, 13, 28 Système du χ² 153–8

T

t 165 Tables 2 × 2, 140 Tables de probabilité 158 Tables de taux de mortalité 22 Tables quadruples 140 Taille d’échantillons 162 Tau de Kendall 148 Taxonomistes 15 Tests de signification 157–8

validité 153–4 t de Student 165 U de MannWhitney 149 z 163–4 Tests d’hypothèses 171 Tests de validité 150–1, 154 Théorème central limite 52–3 Théorie du jeu 37 Type dépendant 133 indépendant 133 Typologistes 15 Validité 84, 90 Variables continues 36, 109, 141 de rapport 112 dépendante 133 discrètes 36, 109 discrètes dichotomiques 140 discrètes nominales 110 discrètes ordinales 110–1, 114 indépendante 133 ordinales 111 Variance 86, 103, 127 Variations (mesures ) coefficients de 105–8 comparaison 107 écart interquartile 97 écart semiinterquartile 96

W

Weldon, W.F.R. 12, 80, 85, 121, 152

Y

Yule, George Udny 128–9, 139, 142