Histoire(s) de(s) données numériques
 9782759822133

Citation preview

Histoire(s) de(s) données numériques

Histoire(s) de(s) données numériques JEAN-JACQUES DROESBEKE CATHERINE VERMANDELE

Préface d’Emmanuel Didier

17, avenue du Hoggar – P.A. de Courtabœuf BP 112, 91944 Les Ulis Cedex A

Composition et mise en pages : Patrick Leleux PAO Imprimé en France ISBN (papier) : 978-2-7598-2201-0 ISBN (ebook) : 978-2-7598-2213-3

Tous droits de traduction, d’adaptation et de reproduction par tous procédés, réservés pour tous pays. La loi du 11 mars 1957 n’autorisant, aux termes des alinéas 2 et 3 de l’article 41, d’une part, que les « copies ou reproductions strictement réservées à l’usage privé du copiste et non destinés à une utilisation collective », et d’autre part, que les analyses et les courtes citations dans un but d’exemple et d’illustration, « toute repré­ sentation intégrale, ou partielle, faite sans le consentement de l’auteur ou de ses ayants droit ou ayants cause est illicite » (alinéa 1er de l’article 40). Cette représentation ou ­reproduction, par quelque procédé que ce soit, constituerait donc une contrefaçon ­sanctionnée par les articles 425 et suivants du code pénal. © EDP Sciences, 2018

À Alain Desrosières, qui savait si bien commenter les données et cultiver l’amitié

« … Les histoires sont le meilleur moyen d’élever la vie au-dessus de la médiocrité du quotidien. » Gilles Legardinier Complètement cramé

SOMMAIRE

Une nouvelle collection d’ouvrages de la Société Française de Statistique................................................ 13 Préface : Les données et la vie......................................................... 17 Avant-propos................................................................................. 21 1.  Une courte histoire des données numériques............................. 35 1.1 De Sumer au xvie siècle......................................................... 36 1.2 Les xviie et xviiie siècles........................................................ 39 1.3 Quelques points forts du xixe siècle........................................ 43 1.4 Le xxe siècle et le début du xxie siècle.................................... 45 2.  Des nombres pour construire des données................................. 47 2.1 Des clous et des chevrons pour fabriquer des données.............. 48 2.2 Neuf individus en quête de sens............................................ 54 2.3 Ce n’est pas rien, zéro !........................................................ 59 2.4 L’attirance des nombres ronds................................................ 63 2.5 Voyage vers l’infini.............................................................. 66 3.  Combien y en a-t-il ?............................................................... 73 3.1 Des poèmes pour « pas cher »............................................... 74 3.1 En route vers le pays des grands nombres............................... 77 3.3 Comment faire disparaître quinze millions de personnes............ 81

9

SOMMAIRE

4.  Erreur ? Vous avez dit erreur ? N’est-ce pas une erreur ?............ 87 4.1 Sans données, une erreur peut en chasser une autre................. 88 4.2 C’est compliqué d’avoir des données précises !......................... 93 4.3 Des données difficiles à obtenir............................................. 99 4.4 Les maîtres de l’erreur.......................................................... 104 5.  Histoires de « milieu » et de son entourage............................... 109 5.1 Qu’en pensez-vous, Votre Altesse ?......................................... 109 5.2 Êtes-vous génial ?............................................................... 116 5.3 Y a-t-il des données normales ?............................................. 119 5.4 Il y a milieu et milieu.......................................................... 122 6.  Tout est relatif........................................................................ 133 6.1 Des proportions superflues.................................................... 134 6.2 Mon fils travaille-t-il mieux à l’école ?.................................... 138 6.3 Simplicité, synonyme de « sans surprise » ?............................ 140 6.4 Comment faire disparaître mes calculs rénaux ?........................ 144 6.5 Faut-il jouer au loto ?.......................................................... 146 6.6 Combien de fois peut se produire un événement rare ?.............. 152 6.7 Cela peut paraître paradoxal.................................................. 156 7.  Regardez les données !............................................................ 161 7.1 Un bon dessin vaut mieux qu’un long discours......................... 162 7.2 Il y a des artistes…............................................................. 167 7.3 … Et d’autres à blâmer ....................................................... 172 7.4 Des camemberts dont on pourrait se passer............................. 174 8.  La manipulation par des données............................................. 179 8.1 Il y a manipulation et manipulation....................................... 180 8.2 Changez de définition.......................................................... 184 8.3 Ne nous laissez pas succomber à la tentation…....................... 188 8.4 Causalités douteuses et sondages inutiles............................... 193 9.  Et voici les données massives !................................................. 201 10.  En guise de conclusion : que faire avec toutes ces données ?... 205 10

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

SOMMAIRE

Bibliographie ................................................................................ 209 Notes longues ............................................................................... 217 Index .......................................................................................... 221

11

UNE NOUVELLE COLLECTION D’OUVRAGES DE LA SOCIÉTÉ FRANÇAISE DE STATISTIQUE

L’article premier des statuts de la Société Française de Statistique (SFdS) stipule que cette société savante « a pour but de promouvoir l’utilisation de la statistique et ses développements méthodologiques, d’assurer la représentation de ceux qui la pratiquent, l’enseignent et y effectuent de la recherche, de coopérer avec les autres organisations concernées. Elle se propose en particulier de faciliter les échanges entre statisticiens travaillant dans les administrations, les entreprises et les établissements d’enseignement ou de recherche ». Le deuxième article précise que « Les moyens d’action de l’association consistent en particulier en l’organisation de réunions et de congrès, l’édition de publications et en l’attribution de prix, médailles et récompenses ». La SFdS propose deux types de publications : des revues et des ouvrages. Citons d’abord les premières. Le Journal de la Société Française de Statistique (http://journalsfds.fr) publie, après évaluation par des spécialistes, des articles, en français ou en anglais, dédiés à des recherches méthodologiques ou appliquées dans tous les champs de la statistique. Il vise un niveau académique élevé. Il souhaite encourager la publication d’articles émanant de jeunes chercheurs ainsi que des numéros spéciaux 13

Une nouvelle collection d’ouvrages

thématiques dressant l’état de l’art sur des sujets spécifiques afin de fournir un outil de référence pour la communauté des chercheurs académiques et industriels. La revue Statistique et Enseignement (http://www.statistique-etenseignement.fr) publie, après évaluation par des spécialistes, des contributions relatives à l’enseignement de la statistique (niveaux scolaires ou universitaires), à la formation extra-scolaire dans cette discipline, et à sa popularisation « grand public ». Statistique et Société (http://statistique-et-societe.fr) est un magazine trimestriel publié par la Société Française de Statistique pour quiconque s’intéresse à l’analyse et l’interprétation de controverses et de débats dans lesquels intervient la statistique. C’est une publication d’intérêt général pour les statisticiens, les utilisateurs de statistiques, et tous ceux que la méthodologie statistique intéresse. Ce n’est pas un journal de recherche, et les articles, s’ils font l’objet d’un travail éditorial, ne sont pas soumis à révision par des pairs. Enfin, la revue CSBIGS (www.csbigs.fr) – Case Studies in Business, Industry and Government Statistics – a pour objectif de publier en anglais des études de cas présentant des applications de la statistique principalement dans les champs des trois grands secteurs économiques et de la statistique officielle. Les finalités sont de promouvoir l’utilisation de nouvelles techniques statistiques en illustrant leur mise en œuvre dans des cas d’application, de fournir des cas à visée pédagogique pour les enseignants, de permettre à des consultants de confronter des pratiques au savoir universitaire, d’inciter la communauté à interagir sur des cas en proposant des études ou des approches alternatives. À côté de ces revues, la Société Française de Statistique publie des ouvrages, essentiellement au sein de quatre collections. La première d’entre elles propose les ouvrages issus des Journées d’étude en statistique1, publiés chez Technip. Une deuxième collection, intitulée 1.  Voir Droesbeke (2017). 14

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Une nouvelle collection d’ouvrages

Pratique de la statistique, est publiée en collaboration avec les Presses universitaires de Rennes. Une troisième collection, La statistique autrement, a pour objectif de favoriser la compréhension de la statistique et de son enseignement dans la société de notre époque. Les ouvrages de cette collection sont publiés par les éditions Technip à Paris. Enfin, la dernière collection créée par la Société Française de Statistique s’intitule Le monde des données. Les ouvrages de cette collection sont écrits à l’intention de ceux qui ne connaissent pas suffisamment cette discipline et son langage pour accéder aux ouvrages diffusés habituellement sur le marché. L’ouvrage que vous tenez entre les mains est le premier livre de cette nouvelle collection. S’adressant à un public très large, il témoigne de la volonté de la Société Française de Statistique de s’ouvrir davantage vers la société civile. Après une étude préalable menée par Emmanuel Didier, rédacteur en chef de la revue Statistique et Société, Jean-Jacques Droesbeke, président de la cellule Publications de la SFdS et Catherine Vermandele, rédactrice en chef de la revue Statistique et Enseignement, nous avons signé une convention de publication avec EDP Sciences que nous remercions chaleureusement ici. Puissent les lectrices et les lecteurs trouver dans cette nouvelle collection ce qu’ils recherchent pour mieux entrer dans le monde des données qui s’ouvre de plus en plus aux citoyens que nous sommes. Gérard Biau Président de la Société Française de Statistique Octobre 2017

15

PRÉFACE LES DONNÉES ET LA VIE

Comme beaucoup, vous êtes passionnée ou passionné par l’explosion de données numériques à laquelle nous assistons aujourd’hui, qui nous promet des avancées économiques, sociales et culturelles de tous ordres. Et en même temps, vous restez dubitative ou dubitatif sur les façons de vous approprier tous ces nombres, de reprendre le contrôle sur ce nouveau vocabulaire parfois surprenant, sinon abscons. Et bien vous êtes ici entre de bonnes mains ! Ce livre a tout ce qu’il faut pour faire évanouir vos doutes. Il vous offre les moyens de remettre en perspective et dans leur contexte d’usage ces données, et ainsi de les juger avec aplomb et confiance. Vous êtes entre de bonnes mains d’abord à cause de la carrière des auteurs. Tous deux sont de grands experts en nombres : professeurs de statistique à l’Université libre de Bruxelles, ils sont réputés pour leurs travaux sur l’inférence ou la modélisation. Mais ces titres seraient bien insuffisants pour écrire le livre qu’ils nous proposent ici, car ce n’est pas assez de savoir les mathématiques, il faut aussi savoir les rendre accessibles. Or nos deux auteurs sont habités par cette passion depuis longtemps. Ils sont tous deux membres de la Société Belge de Statistique et de la Société Française de Statistique. Catherine Vermandele est de 17

Préface : Les données et la vie

surcroît passionnée par l’enseignement et la pédagogie de la statistique, à tel point qu’elle dirige la revue Statistique et Enseignement. Quant à Jean-Jacques Droesbeke, membre de l’Institut international de statistique, il est aussi, depuis fort longtemps, passionné par l’histoire de la statistique – il est co-auteur du « Que sais-Je ? » qui porte ce titre. Enfin, ces auteurs se sont associés avec un dessinateur de bandes dessinées qui illustre le texte de façon fort plaisante, produisant ainsi un effet de récréation bienvenu. Pédagogie, histoire, illustration, voilà l’écrin dans lequel les auteurs nous présentent aimablement les données qui autrement pourraient nous impressionner. Qu’ils me permettent d’ajouter qu’ils ont aussi la grande qualité d’être Belges. « Et alors ? », pourrait-on me demander. Et bien, sans tomber dans le culturalisme, je peux tout de même dire que mes amis belges sont pour la plupart simples, dénués de prétention, drôles et très pertinents – et ceux-ci ne font pas exception. Vous êtes entre de bonnes mains aussi pour la composition du livre qu’ils vous proposent. Les auteurs l’ont structuré en de très brefs chapitres, la plupart du temps de cinq ou six pages, ce qui facilite la lecture. Les chapitres sont regroupés en dix parties, dont l’ordonnancement donne une direction générale à l’ouvrage, qui est chrono-­ thématique : on part des plus anciennes données retrouvées (à Sumer) et on arrive au monde contemporain, et à chaque étape on aborde une question propre aux données (qu’est-ce que la corrélation, un événement rare, un bon graphique, etc.). Chaque période est l’occasion de poser une question. Or une grande liberté que nous propose ce livre est qu’il n’est pas nécessaire de le lire linéairement. Comme dans La vie mode d’emploi, le roman magistral de Georges Perec, on peut lire les chapitres dans l’ordre que l’on veut. Assurément, ces auteurs sont du genre à nous procurer des marges de manœuvre, et non l’inverse ! Vous êtes encore entre de bonnes mains à cause de l’argument général de l’ouvrage. On a parfois tendance à penser que les données numériques constituent une langue à part, et même un monde séparé, secret, auquel n’ont accès que ceux qui, après de pénibles efforts, se 18

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Préface : Les données et la vie

sont habitués à parler la langue hermétique des formalismes mathématiques. Mais ce livre nous prouve par A + B que cet argument est faux. Au contraire, il nous montre que les données font intimement partie de notre vie de tous les jours et participent à toutes les sphères de nos activités. Il n’y a pas de séparation entre le quotidien et les données : celles-ci sont partout et partout on trouve des données. Les auteurs recourent à un très grand nombre d’historiettes, qui peuvent être prises à une source précise (on y rencontre Pythagore, Bernoulli, Cassini, Newton, Quetelet, Minard et bien d’autres), ou à la culture commune (l’invention du jeu d’échec), ou même inventées de toute pièce (on assistera à un débat syndical ou à une partie de Cluedo), pour mettre les données dans leur contexte et montrer la variété des situations où elles peuvent prendre sens. Ils utilisent aussi la littérature – en particulier le recueil de Queneau intitulé Cent mille milliards de poèmes – montrant ainsi implicitement que Pascal avait tort lorsqu’il opposait l’esprit de synthèse, littéraire, et l’esprit de géométrie. Ils pointent la valeur heuristique des paradoxes, si souvent utilisés en matière de mathématiques. Bref, leur texte nous montre que les données sont au cœur de la vie, qu’elles sont vivantes et joyeuses, de mille et une manières. Ils s’inscrivent ainsi dans la belle tradition initiée par Émile Borel lorsqu’il avait écrit Les probabilités et la vie. Vous êtes enfin entre de bonnes mains parce que les auteurs savent qu’il n’y a pas à proprement parler une « révolution » numérique. Ils nous montrent l’épaisseur du socle qui a été construit depuis des siècles pour qu’aujourd’hui quelque chose de nouveau apparaisse, certes, mais certainement pas quelque chose d’inouï, d’inexplicable ou d’incommensurable comme on nous l’assène parfois. Non, les données prennent appui sur une longue et passionnante histoire de la statistique et de ses outils qui nous permettent de leur donner sens, que l’on soit spécialiste ou pas… du moment que l’on a lu ce livre ! Emmanuel Didier Rédacteur en chef de Statistique et Société 19

AVANT-PROPOS

Chaque jour nous apporte son lot de données numériques, c’està-dire d’informations chiffrées. Certaines sont souriantes, d’autres mystérieuses, d’autres encore terrifiantes… Parce qu’elles se rattachent toujours à des situations, à des objets, à des images, à des sentiments qui leur transmettent leurs caractéristiques. Certains journaux ont leur chiffre du jour. Vous apprenez le taux d’accroissement du chômage du mois dernier ; avec une ou deux décimales, il fait encore plus mal. Le nombre de grippés prévu pour la semaine prochaine fait froid dans le dos. Celui du nombre de tués la semaine dernière est révoltant. Il est des données moins ravageuses : cinquante couples se sont mariés au même endroit samedi dernier, quel embouteillage dans cette petite ville. En une vie, le Français moyen aura bu quinze barriques de vin rouge ; on imagine le mal de tête… Il y en a pour tous les goûts. Certaines données sont très utiles, d’autres sont bien futiles. Et plus elles sont précises, plus elles semblent crédibles. À notre époque, elles sont tellement nombreuses qu’on n’a plus vraiment le temps de les regarder de près, de les analyser ou tout simplement d’en comprendre l’intérêt. Il faut dire que ceux qui nous les transmettent ne le font pas toujours dans les règles de l’art. Bref, Monsieur et Madame Toulmonde se sentent souvent déstabilisés par 21

Avant-propos

cet afflux de données. Deux attitudes extrêmes en résultent souvent, allant de : « Oh ! Moi, les chiffres ! Ils sont de toute façon tous faux ! » à : « Vous avez vu ce nombre ? Je vais vous expliquer pourquoi rien ne fonctionne en ce moment ! ». Rendre les données plus proches de nous, leur donner un sens (quand c’est possible !), éviter de mal les présenter… est de plus en plus nécessaire. Il ne faut pas grand-chose pour y arriver. C’est ce que nous avons déjà tenté de démontrer dans un livre publié en 2016 dans la collection La statistique autrement de la Société Française de Statistique et destiné en priorité à ceux qui sont chargés de les recueillir, de les analyser, de les diffuser ou d’enseigner les méthodes utilisées à cet effet. Notre but était d’apporter notre petite contribution à tous ceux qui souffrent autant que nous de cette situation. Mais « à raconter ses maux, souvent on les soulage », écrit Pierre Corneille dans Polyeucte. C’est pourquoi nous avons voulu écrire un autre livre, moins technique et construit selon une autre logique. Ce nouvel ouvrage a pour objectif de vous faire rentrer, lectrices et lecteurs, dans le monde des données en suivant un fil conducteur qui raconte son évolution, ses découvertes, ses caractéristiques. Nous avons donc choisi de vous sensibiliser à l’importance des données numériques dans notre vie quotidienne en racontant une histoire essentielle au moyen de quelques histoires emblématiques. La plupart d’entre elles sont vraies, les autres pourraient l’être. Il en est de surprenantes, d’autres bien navrantes. Toutes sont issues de notre volonté de montrer que la façon dont des données numériques ont été utilisées et parfois maltraitées dans le passé doit nous éclairer sur la manière actuelle d’en recueillir, de les fabriquer, de les analyser, de les interpréter. Insistons sur ce point. Ces histoires ont pour seule ambition de faire réfléchir à la manière d’aborder des données numériques dont la sécheresse de la présentation voisine souvent avec une imprécision dans le langage ou les moyens de communication utilisés. D’autres histoires auraient pu être évoquées mais l’exhaustivité n’était pas 22

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Avant-propos

notre but. Redisons-le clairement. Une manière de vous montrer comment il est conseillé de traiter des données est d’attirer votre attention sur l’importance de les regarder avec un sens critique. On ne peut plus ignorer leur existence et leur importance. « Peu importe ce qu’on pourra vous dire, les mots et les idées peuvent changer le monde », proclame le professeur dans Le cercle des poètes disparus. Osons ajouter « les données numériques aussi ». Mais posons-nous d’abord une première question. C’est quoi, une donnée numérique ? Formellement, nous l’avons dit, c’est une information qui s’exprime sous l’aspect d’un nombre. Mais cette réponse est insuffisante pour comprendre vraiment ce qu’elle peut receler. Que représente ce nombre ? D’où vient-il ? Que peut-on en faire ? Pour répondre à ces questions et à bien d’autres, il est utile de distinguer plusieurs situations possibles. Une donnée numérique peut résulter d’un dénombrement ou d’une mesure : le nombre d’enfants d’une famille et leur taille en sont deux exemples courants. Elle peut aussi découler d’une nombrification2 ou d’une quantification  : le numéro de sécurité sociale d’un individu et le produit intérieur brut d’une nation en sont deux exemples respectifs. Une donnée numérique peut concerner un individu, une entité, un objet. On lui donne alors le nom de donnée individuelle ou donnée personnelle. Elle peut résulter d’un regroupement de données : on parle alors de donnée agrégée. Elle peut aussi se construire par une transformation (par exemple en la multipliant par 100) ou par l’intermédiaire d’un calcul (par exemple celui d’une moyenne). Elle peut même être engendrée par un processus technique, de manière virtuelle, comme c’est le cas d’une donnée simulée. Et selon le cas, l’usage qu’on en fait généralement peut être très variable. Un dernier détail : une donnée est rarement vraiment donnée ; elle peut résulter d’une observation directe, d’une enquête, d’une expérience, d’une découverte… Comment peut-on s’y retrouver dans toutes ces possibilités ? 2.  Terme introduit par Olivier Rey (2016). 23

Avant-propos

Plutôt que de vous présenter un catalogue des cas possibles, nous préférons les introduire en suivant un chemin historique, car ces catégories ne sont pas apparues en même temps. Une manière utile et agréable de vous en rendre compte consiste à suivre l’évolution du concept de donnée de l’Antiquité à nos jours. C’est la voie que nous vous proposons d’emprunter. Nous nous pencherons ensuite sur les caractéristiques de l’instrument majeur de la construction d’une donnée numérique, le nombre, qui peuvent influencer le contenu et la perception de cette donnée. Les sept chapitres qui suivent concernent des sujets qui peuvent nous interpeller chaque jour de diverses façons. « Combien sont-ils ? » aborde le problème délicat du dénombrement. « Erreur ? Vous avez dit erreur ? N’est-ce pas une erreur ? » examine les problèmes liés à l’exactitude et la précision d’une donnée. « Histoire de Milieu et de son entourage » souligne les dangers liés à l’usage automatique d’une moyenne pour résumer un ensemble de données. « Tout est relatif » illustre les massacres quotidiens provoqués par l’usage irréfléchi du concept de proportion et de ses dérivés. « Regardez les données » rappelle que notre époque recourt fréquemment à la représentation graphique, pas toujours à bon escient. « La manipulation des données » évoque une face peu glorieuse de l’usage des données. « Et voici les données massives » nous plonge dans notre époque la plus récente. Vous êtes toutes et tous susceptibles d’être concernés par ces questions. Notre but est de vous aider à y voir plus clair en vous racontant quelques histoires. Voyons cela un peu plus en détail. Le premier chapitre de cet ouvrage est donc consacré à une courte histoire des données numériques. Nous y distinguerons quatre périodes : celle qui précède le xviie siècle, l’ensemble des xviie et xviiie siècles, le xixe siècle et enfin le xxe siècle et le début du suivant. S’il fallait résumer ces quatre périodes en quelques mots, voilà ce que nous proposerions, au risque de paraître simplificateurs. La première période (ce qui précède le xviie siècle) concerne essentiellement trois types de données numériques : celles qui résultent d’un 24

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Avant-propos

dénombrement, l’enregistrement de productions de biens et de transactions commerciales et enfin les résultats de l’observation de phénomènes astronomiques et terrestres. La deuxième période (composée des xviie et xviiie siècles) est avant tout celle des innovations qui ont permis de fournir aux États des informations utiles à leur gestion et de répondre à des questions scientifiques ou philosophiques. Elle concerne en particulier le développement d’un outil qui s’avérera très utile dans la suite : la probabilité. La troisième période (le xixe siècle) est assurément celle du développement d’une méthodologie statistique structurée et de ses principaux outils (moyenne, mesure de dispersion, corrélation, représentation graphique…) ainsi que de l’extension de ses domaines d’application. Quant à la dernière, qui débute au xxe siècle, elle témoigne d’une profusion de méthodes nouvelles de recueil, de traitement, d’analyse et d’interprétation ainsi que d’une accélération de la présence des données numériques dans notre vie quotidienne. Nous adopterons dans ce premier chapitre une trame fortement inspirée de celle d’un article3 publié en 2005, qui avait pour modeste ambition de raconter très brièvement l’histoire des données, de Sumer aux Big Data. Et comme beaucoup d’histoires, elle commence par… Il était une fois, une donnée. Au début, elle a la forme d’un trait, tracé sur la paroi d’une grotte, accompagné souvent de quelques autres traits semblables. Elle se transforme en signes divers, en particulier cunéiformes, quand l’écriture est inventée, parfois inclus dans d’autres dessins gravés sur une tablette d’argile. Les plus connus d’entre eux ont l’air de clous et de chevrons. On les appellera plus tard des nombres. Les données numériques pouvaient naître ! Il est difficile de bien comprendre l’histoire des données sans aborder celle des nombres. Celle-ci est relativement bien connue mais son influence sur la perception d’une donnée l’est probablement moins. Nous nous bornerons ici à rappeler que si les nombres ont été élaborés au moyen de clous et de chevrons chez les Babyloniens, ils 3.  Voir Droesbeke (2005). 25

Avant-propos

apparurent aussi dans d’autres régions, sous forme de pictogrammes ou au moyen de lettres d’un alphabet avant d’utiliser des chiffres. Ce qui nous guide ici, c’est la constatation que l’élaboration et l’usage de données numériques dépendent du système de numération utilisé – c’est-à-dire de l’ensemble des règles d’utilisation des signes, des mots ou des gestes permettant d’écrire, d’énoncer ou de mimer des nombres. Cela justifie amplement d’évoquer quelques aspects de l’histoire des nombres. Nous en retiendrons quatre, emblématiques à divers égards. Un système de numération nous intéresse tout particulièrement car il est notre référence quotidienne : celui qui recourt à neuf chiffres venus des Indes. Depuis la création de l’imprimerie, ils sont notés 1, 2, 3, 4, 5, 6, 7, 8 et 9. Mais ces neuf premiers nombres (dits entiers) ne sont pas uniquement utiles et opérationnels. L’être humain leur a donné des sens qui dépassent leur aspect purement numérique, notamment d’ordre religieux ou liés à des superstitions. Ce phénomène peut influencer la valeur de certaines données observées comme on peut le constater, par exemple, pour des séries de données numériques telles que le montant des mises hebdomadaires à un jeu de hasard ou les ventes de produits saisonniers. Par ailleurs, le traitement des données numériques doit beaucoup aux propriétés des nombres. Ceux qui sont entiers, bien sûr, mais aussi tous ceux qui ont suivi (nombres fractionnaires, nombres réels…). L’un d’entre eux joue un rôle tout à fait spécifique : le zéro. Nous nous y arrêterons, et comme vous pourrez le constater, « ce n’est pas rien, zéro ». Un aspect particulier du zéro est d’être à la base des nombres ronds. Nous verrons que leur influence sur les données numériques quotidiennes n’est pas négligeable. Enfin, pour beaucoup d’entre nous, les nombres très proches de zéro sont qualifiés de « très petits ». Mais avant de les connaître, l’être humain a d’abord été perturbé par les nombres très grands. Au fait, qu’appelle-t-on « très grand » ? En réalité, les systèmes de 26

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Avant-propos

numération ont donné à ce concept des significations distinctes au cours du temps. Les mathématiciens l’ont aussi abordé en introduisant la notion d’infini. Nous nous arrêterons quelques instants à la frontière du pays des grands nombres. Nous aborderons ensuite le troisième chapitre de l’ouvrage qui traite d’une réponse à la question importante suivante : « À quoi ces nombres ont-ils d’abord bien pu servir ? ». Une des premières activités pour comprendre le monde dans lequel vit l’être humain a été de construire des catégories d’êtres ou de choses. À titre d’exemple, l’une des plus anciennes consiste à distinguer les femmes des hommes. Pour mesurer l’importance numérique des classes constituées, il a fallu les dénombrer, compter combien il y a de personnes, d’animaux, d’objets dans un endroit, au cours d’un événement. Les dénombrements ont engendré les premières données numériques construites par les êtres humains. Compter le nombre d’individus dans un groupe est a priori simple si ce dernier est petit. Dans le cas contraire, il faut recourir à des moyens humains et financiers plus ou moins importants (comme dans le cas d’un recensement). Certains dénombrements ont été facilités par les progrès des mathématiques. À titre d’exemple, quand on désire connaître le nombre de paires, de triades… que l’on peut former à partir des éléments d’un groupe d’individus ou d’objets, on peut recourir à des méthodes combinatoires bien utiles. Ces techniques de dénombrement ont accéléré le processus de confrontation aux grands nombres, parfois de manière surprenante. Une question nous interpelle à propos du dénombrement d’une population. Même si l’on dispose de moyens importants pour en réaliser un, il ne faut pas croire que le résultat est toujours facile à obtenir. De nombreuses publications en témoignent. Quelle était la taille de l’armée perse ? Combien y a-t-il de manifestants dans la rue ? Quel est le nombre de poissons dans le lac ?… Pour répondre à ce type de question, on est souvent amené à réaliser des estimations qui évitent des comptages difficiles ou impossibles à réaliser. Certaines 27

Avant-propos

d’entre elles peuvent être précises, mais beaucoup d’autres ne le sont pas. Des méthodes statistiques ont été créées à cet effet. Mais leur usage n’est pas toujours sans surprise, comme nous le découvrirons. Il n’y a pas que les dénombrements qui peuvent être erronés. La construction d’une donnée, son analyse, son interprétation, n’échappent pas à la possibilité de commettre des erreurs. Ce thème est à la base du quatrième chapitre de cet ouvrage. «  Pour pouvoir utiliser des données numériques, il faut en posséder », aurait dit Monsieur de la Palisse. Mais que faisait-on dans le passé quand on ne disposait pas ou peu de données numériques pour étudier un problème, quel qu’il soit ? Dans ce cas, seule l’imagination et l’observation qualitative pouvaient être mises à contribution pour se représenter la réalité – ce qu’on appelle en jargon scientifique «  modéliser ». Une première erreur à laquelle tout le monde peut être confronté consiste à choisir un mauvais modèle. De nombreux scientifiques ont commis ce mauvais choix, surtout quand ils ne disposaient pas de données fiables. Cela arrive encore actuellement plus souvent qu’on ne le pense. Nous illustrerons ce fait par une des grandes questions de notre histoire humaine. Par ailleurs, il arrive fréquemment que les données recueillies soient entachées d’erreurs au moment de leur collecte. Parmi les plus courantes, il faut citer les erreurs d’observation qui peuvent avoir des conséquences importantes sur l’usage des données recueillies. Cela peut être dû à des instruments de mesure défectueux, mais il existe d’autres causes d’erreurs. Des difficultés techniques peuvent, par exemple, rendre délicate l’obtention de certaines données. Nous illustrerons ce propos par des exemples, eux aussi célèbres. Une des manières de gérer les erreurs d’observation consiste, depuis le xviiie siècle, à modéliser leur comportement. À cette époque, le besoin de mesurer est partagé par de nombreux savants qui bénéficient d’instruments de mesure de plus en plus précis. On devient exigeant à propos de la qualité des mesures effectuées et l’erreur de mesure devient un souci essentiel. Il a fallu cependant du temps 28

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Avant-propos

pour s’apercevoir que, dans de bonnes conditions expérimentales, ces erreurs ne se comportent généralement pas de manière quelconque : elles semblent suivre des « lois » – c’est ainsi qu’on appelle ces modèles – qui ont suscité l’intérêt des scientifiques, et tout particulièrement des astronomes. Le « chapeau de gendarme » – nous rappellerons ce dont il s’agit plus tard – fut un soulagement pour beaucoup ! La recherche d’un modèle théorique pour décrire le comportement des erreurs a ouvert la voie à une nouvelle approche du traitement des données numériques. Au début du xixe siècle, une loi des erreurs s’impose dans les esprits. Elle donne à la moyenne un rôle central dans la méthodologie naissante de l’analyse statistique des données numériques. Le sacre du chapeau de gendarme est accompagné de celui de la moyenne. Le cinquième chapitre de cet ouvrage lui est consacré. Adolphe Quetelet (1796-1874) se saisit de cette loi pour analyser des données relatives à des populations humaines. Il se rend ainsi compte qu’une moyenne peut en réalité avoir plusieurs significations. Nous lirons ensemble ce qu’il en dit dans une des lettres qu’il a écrites… Mais il n’y a pas que la moyenne qui soit intéressante à calculer. La façon dont les données se répartissent autour d’elle est tout aussi importante. Si la lettre de Quetelet lui permet d’affiner le concept de moyenne, il est une autre histoire, plus étonnante encore. Dans la deuxième partie du xixe siècle, les défenseurs britanniques de l’eugénisme sont davantage captivés par ce qui se passe autour de la moyenne, surtout au-dessus d’elle. Comment appelle-t-on cette loi des erreurs, introduite à la fin du xviiie siècle ? Elle est appelée par Quetelet loi des possibilités et reçoit un nouveau qualificatif durant la dernière partie du xixe siècle : celui d’être « normale ». Cela semble sous-entendre que tout autre comportement est « anormal », ce qui s’est avéré faux par la suite. Il faut reconnaître que l’usage du terme « normalité » est assez malvenu. Il peut encore se montrer abusif à notre époque à propos des données numériques. Nous verrons pourquoi. 29

Avant-propos

Le calcul de la moyenne de données numériques peut être très utile pour analyser un problème. Mais ce n’est pas la seule façon de chercher le milieu d’une série d’observations. Il a fallu beaucoup (trop) de temps pour s’apercevoir qu’un autre milieu, la médiane, est aussi digne d’intérêt que la moyenne. Trop souvent de nos jours, des médias, comme d’ailleurs certaines publications scientifiques, nous assomment de moyennes mais ignorent la médiane et le concept de dispersion. Il faut changer cette habitude et en faire un usage plus fréquent, comme dans la tranche de vie que nous vous présenterons dans cet ouvrage. Si la moyenne est un sujet souvent (mal)traité, il en est un autre tout aussi périlleux auquel nous consacrons le sixième chapitre de cet ouvrage. Tous les médias vous le diront : les proportions, les taux et les pourcentages font partie intégrante du langage de notre époque. On en trouve à tous les coins d’articles et dans tous les commentaires ! Les sondages nous bombardent de pourcentages d’intentions de votes en période électorale. Nul n’ignore quelles proportions d’hommes et de femmes préfèrent le camembert au fromage de chèvre frais, la bière belge au scotch ale écossais, les vacances à la mer plutôt qu’à la montagne. Les pages économiques n’en finissent pas de nous informer sur les taux d’inflation, les taux de chômage… Bref ! On devrait tous être des spécialistes de la proportion tant on en voit. Et pourtant, on n’arrête pas d’en faire n’importe quoi ! On oublie trop souvent qu’une différence et une division, cela ne se permute pas ! Dans le même registre, une autre façon de « faire n’importe quoi » est liée au mauvais usage que l’on fait trop fréquemment du concept d’accroissement. Disons-le une fois pour toutes : ce n’est pas parce que la proportion est un outil élémentaire qu’elle ne conduit pas à des situations parfois ubuesques. Il est d’autres situations qui peuvent sembler inextricables ! En tout cas, elles apparaissent comme telles au premier abord. Lisez cette petite histoire que nous vous proposons dans le sixième chapitre où les proportions jouent un rôle prépondérant. Elle illustre le célèbre paradoxe de Simpson. 30

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Avant-propos

Une proportion permet de décrire une situation observée en termes relatifs. S’il s’agit d’étudier un événement qui ne s’est pas encore réalisé ou auquel vous n’avez pas accès, on vous suggérera de recourir à cette cousine de la proportion, qu’on appelle probabilité, plus énigmatique et indigeste pour beaucoup d’entre nous. Prenez un exemple bien connu : faut-il jouer au loto ? Cette question est évidemment très personnelle. Et pourtant, une presse spécialisée vous fournit toutes les données nécessaires pour affiner votre stratégie : le nombre de gagnants hebdomadaires, le nombre de fois que chaque numéro est sorti au cours des derniers mois, des dernières années. Ces données peuvent-elles vous être d’une quelconque utilité pour vous inciter à jouer ? S’il est bien un domaine où le concept de probabilité est difficile à gérer, c’est celui des événements rares. Un événement rare a, par définition, très peu de chances de se produire mais on remarque que si cet événement concerne un grand nombre d’individus, il n’est pas étonnant qu’il se produise une ou deux fois. Est-ce vraiment possible ? Nous vous proposons une petite histoire, racontée par Schneps et Comez, qui illustre parfaitement ce qui peut arriver. Nous terminerons cette incursion dans le monde du probable par la porte des paradoxes. Celui de Simpson cité ci-dessus n’est pas véritablement si paradoxal que cela. Il en est d’autres qui le sont davantage dès qu’on touche au hasard. Le septième chapitre de notre ouvrage traite d’un outil de travail et de communication très important : les représentations graphiques associées aux données numériques. « Pour qu’une chose soit intéressante, il suffit de la regarder longtemps », proclame Flaubert en 1845. Tout le monde sait que, dans la vie courante, il n’y a rien de tel pour aborder un problème que de recourir à l’usage d’un croquis, d’un dessin, d’une représentation graphique, même de façon sommaire. Ils facilitent notre compréhension, notre réflexion, notre désir de convaincre. Aucune discipline n’échappe à ce processus qui nous permet de voir une situation. Un petit exemple vous en convaincra. 31

Avant-propos

On ne peut que recommander cette procédure quand on dispose de données numériques. Pour cela, de nombreux graphiques ont été proposés dans tous les cas de figure. Selon le cas, certains graphiques sont plus convaincants que d’autres, comme nous aurons l’occasion de le vérifier. L’histoire de la construction des graphiques est variée et passionnante. Elle nous montre comment l’être humain a pris conscience de leur importance jusqu’à en faire un outil essentiel d’analyse et de communication à notre époque. Vous trouverez dans cet ouvrage des conseils judicieux pour faire un graphique. Il est en effet des graphiques qu’il vaut mieux éviter d’utiliser et d’autres qui ne jouent pas leur rôle. Comment savoir si un graphique est bon ou mauvais ? Nous terminerons ce chapitre par une constatation aisée à vérifier par chacune et chacun d’entre nous. Il n’est pas un jour sans que l’on rencontre un graphique qu’on appelle, dans le langage courant, un camembert. Est-il aussi utile que son usage le fait penser ? L’avant-dernier chapitre de notre ouvrage est consacré à la manipulation par des données. Le monde de la manipulation est vaste et très puissant à notre époque. Nous ne pensons pas ici à l’homme qui fait des manipulations chimiques en laboratoire, sauf s’il falsifie ses résultats. La manipulation qui nous intéresse est bien sûr l’action d’orienter la conduite de quelqu’un dans le sens que l’on désire et, généralement, sans qu’il s’en rende compte. Et la plupart du temps, ce sens n’est pas le plus honnête ! Pour atteindre ses objectifs, un manipulateur utilise des mots, des arguments, des gestes et des postures. Il peut aussi s’appuyer sur des nombres, au travers de données numériques et de leurs représentations graphiques. L’omission est une technique de manipulation qui peut avoir des conséquences plus ou moins graves. La modification et la suppression en sont deux autres. On peut non seulement modifier des données existantes, mais en fabriquer de nouvelles, et même les mélanger à des données fiables pour rendre ces dernières plus crédibles. 32

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Avant-propos

Une manipulation peut se réaliser à tout moment. Elle peut concerner le recueil de données : un relevé manuel ou automatique, une enquête, une expérimentation scientifique… On en trouve aussi lorsque ces données sont traitées par un statisticien ou par un utilisateur qui n’est pas toujours si « lambda » que cela. Les supports de diffusion constituent enfin un terrain fertile en la matière. Nous consacrons quelques histoires à ce sujet pour souligner son importance et son danger. La dernière concerne tout particulièrement les causalités douteuses et les sondages inutiles. Il est parfois difficile de distinguer « erreur de bonne foi » et manipulation. Il peut alors être compliqué de se faire une conviction sans examen plus approfondi. Les deux derniers domaines repris ci-dessus sont souvent concernés. Un dernier chapitre très court est consacré aux données massives, appelées couramment Big Data. Il ne s’agit pas de détailler dans cet ouvrage le traitement de ce type de données, mais plutôt d’évoquer pour la lectrice et le lecteur quelques aspects des questions qu’il soulève. La citoyenne et le citoyen d’aujourd’hui se doivent de s’informer sur la science des données. Cet ouvrage constitue donc une invitation à regarder les données numériques auxquelles nous sommes confrontés quotidiennement sous un jour plus critique et, nous l’espérons, à améliorer la qualité de leurs usages. Partant d’une courte histoire des données numériques, nous vous proposons donc trente-deux petites histoires qui illustrent autant de paragraphes de cet avant-propos que nous rappellerons chaque fois en guise d’introduction. Pour ne pas encombrer le texte, les notes qui pourraient prendre trop de place sont reportées en fin d’ouvrage, numérotées en chiffres romains de I à XII pour les distinguer des notes de bas de page. Ce livre n’aurait pas vu le jour sans l’avis et l’amitié de plusieurs personnes. Nous remercions tout particulièrement Avner Bar Hen, JeanChristophe Thalabard et Béatrice Touchelay dont les commentaires et 33

Avant-propos

remarques nous ont permis d’améliorer significativement le manuscrit que nous leur avions soumis. Nous remercions aussi Gérard Biau pour avoir géré le processus d’acceptation de cet ouvrage dans la collection Le monde des données de la Société Française de Statistique. Cinq autres personnes ont aussi joué un rôle important dans la publication de ce livre. Nous les citons par ordre alphabétique : Yannick Dehée qui nous a donné, peut-être involontairement, l’idée d’élaborer ce livre, Ben Dessy dont les talents artistiques ont à nouveau égayé nos propos, Emmanuel Didier dont l’amicale préface nous honore, Loïc Laridant pour son aide technique et Anne Staquet qui nous a amenés à rentrer dans le monde de la manipulation. Qu’ils en soient aussi remerciés vivement !

34

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

1 Une courte histoire des données numériques

« Seule l’histoire n’a pas de fin. » Attribué à Charles Baudelaire (1821-1867)

C’est quoi, une donnéeI numérique ? Une information qui s’exprime sous l’aspect d’un nombre. Mais cette réponse est insuffisante pour comprendre vraiment ce qu’elle peut receler. Pour approfondir la question, nous pensons qu’une manière utile et agréable de procéder consiste à suivre l’évolution du concept de donnée de l’Antiquité à nos jours4. Nous distinguerons quatre périodes dans cette évolution : ce qui précède le xviie siècle, les xviie et xviiie siècles, le xixe siècle et enfin le xxe siècle et le début du suivant.

4. Ce qui suit reproduit en grande partie l’article de Droesbeke (2015), avec l’autorisation de la revue Variances. 35

Une courte histoire des données numériques

Ce premier chapitre a pour but d’illustrer les sujets suivants : – Les dénombrements, les productions de biens, les transactions commerciales et l’observation de phénomènes astronomiques et terrestres ont fourni les premières données numériques. – Le xviie siècle a engendré des méthodes de production de données originales. – Le xviiie siècle a vu naître une théorie des erreurs d’observation, Oh combien utile ! – Le xixe siècle a permis le développement des concepts de milieu, de dispersion, de corrélation, de régression… – Le xxe siècle a vu l’explosion des méthodes de traitement des données. – Le début du xxie siècle est confronté aux « mégadonnées » ou « données massives ».

1.1 DE SUMER AU XVIe SIÈCLE Les données produites pendant cette période concernent essentiellement quatre opérations : le dénombrement, les productions de biens, les transactions commerciales et l’observation de phénomènes astronomiques. Le dénombrement a toujours été une opération importante de l’activité humaine, que ce soit au niveau familial, du clan, des États. Le recensement des populations en est son expression statistique la plus visible. Les premiers témoignages de mise en œuvre de cette méthode de collecte de données sont gravés sur des tablettes d’argile sumériennes et babyloniennes. Dès le début de son utilisation, le recensement s’avère être un outil de gestion apprécié des puissants. Si les Mésopotamiens y recourent très tôt, on en trouve aussi trace dans l’Égypte ancienne, dès la fin du troisième millénaire avant notre ère. Ces peuples ont très bien compris l’intérêt de recenser les populations pour connaître le nombre d’hommes pouvant participer à la construction des temples, palais, pyramides… ou encore d’utiliser cette technique à des fins fiscales. 36

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Une courte histoire des données numériques

Figure 1 | À l’origine… (source : Wikipedia)

Plus une population est nombreuse, plus le recensement s’avère utile. C’est ce qu’ont compris aussi les empereurs chinois. Quelle que soit l’époque concernée, ceux-ci ont doté la Chine d’une structure administrative consacrée à ce thème, dirigée par des directeurs des multitudes aux pouvoirs affirmés. Pendant plus de deux mille ans, le recensement constituera un outil au service de l’administration chinoise. L’Inde est un autre pays d’Asie qui procède dès le ive siècle avant notre ère au dénombrement de sa population. Elle va même plus loin que cet objectif fondamental en prônant une politique planificatrice d’expansion territoriale et économique basée sur une connaissance approfondie de sa population. Un traité définit la façon d’y parvenir : l’Arthasastra, rédigé par Kautilya, ministre de l’Empire indien des Maurya. Il s’agit d’une méthode dont la minutie est remarquable, tant dans la manière de définir les caractères de la population pris en compte que dans la quantité importante de données relevées5. On imagine sans difficulté que la mise en œuvre de ces recensements ne 5.  Voir Hecht (1987). 37

Une courte histoire des données numériques

peut se réaliser sans un soutien administratif très dense, encadré par un contrôle policier explicite, peu propice aux non-réponses. Cette manière d’agir met plus de temps pour être appliquée en Occident. La civilisation grecque donne moins d’importance à la recherche du nombre d’habitants qu’à celui de la composition idéale de la Cité, chère à Platon, même si Aristote, dans sa Politique, s’attarde à réaliser des travaux de statistique descriptive et comparative. Les Romains reprennent les objectifs originaux rappelés ci-dessus : réaliser des recensements périodiques grâce à une structure administrative bien organisée afin de contrôler et de gérer toutes les composantes de leurs territoires. Initiés sous Servius Tullius au ve siècle avant notre ère et réalisés jusqu’en l’an 73 sous Auguste (année du dernier recensement de l’Empire romain), les dénombrements ont fait de la fonction de censeur, comme en Chine, un privilège recherché. La période du déclin de l’Empire romain et le Haut Moyen Âge n’ont pas constitué un terrain fertile pour l’organisation de recensements. Il faut attendre le milieu du deuxième millénaire de notre ère pour voir apparaître à nouveau un réel besoin d’informations, que ce soit au niveau des rôles fiscaux ou à celui des relevés d’ordre religieux6. Un autre domaine propice à l’éclosion de données numériques, plus proche de la vie au jour le jour, est le commerce. Produire, vendre, consommer sont des activités avides de données même réduites à leur plus simple expression, que ce soit pour établir des listes de produits agricoles, de biens fabriqués par des individus ou des collectivités… Un troisième foyer de données numériques est l’astronomie. Les Babyloniens observent les mouvements du Soleil et des planètes à intervalles réguliers, obtenant ainsi plusieurs observations d’un même phénomène. Nous ne connaissons malheureusement pas la manière dont ils ont remplacé ces observations différentes l’une de 6.  Mentionnons en particulier les ordonnances de Villers-Cotterêts de François Ier, en 1539, et celle de Blois de Henri III en 1579, qui introduisirent respectivement les registres de baptêmes et de mariages. 38

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Une courte histoire des données numériques

l’autre par une « valeur de compromis ». On possède par contre plus d’informations7 sur les travaux ultérieurs des astronomes grecs. Ainsi, Ptolémée, astronome du iie siècle, utilise les relevés antérieurs d’Aristarque de Samos et surtout d’Hipparque et propose, en présence de plusieurs observations d’un même phénomène, de conserver une seule valeur accompagnée de mesures de variation basées, semble-t-il, sur l’étendue des observations, c’est-à-dire l’écart entre la plus grande et la plus petite d’entre elles. Jusqu’au xvie siècle, on préfère retenir une « bonne valeur » – en omettant souvent de justifier l’adjectif utilisé – que recourir à une « valeur de compromis » construite à partir des valeurs observées. Le premier qui utilise à plusieurs reprises une moyenne comme « outil de synthèse » est probablement l’astronome Tycho Brahe (1546-1601) dont les nombreuses données sur le mouvement des planètes ont permis à Johannes Kepler (1571-1630) d’énoncer les lois qui portent son nom. En cette fin du xvie siècle, les données sont essentiellement primaires (c’est-à-dire non transformées) et individuelles (elles ne concernent qu’un seul individuII, une seule entité, un seul objet) comme elles l’ont toujours été depuis l’apparition de l’écriture. Pour ce qui est du traitement de données résultant d’observations répétées d’un même phénomène, les faibles progrès techniques réalisés dans la recherche d’une plus grande précision des instruments de mesure ont fait croire longtemps qu’une « bonne mesure » était meilleure qu’une agrégation dont on ne soupçonnait pas réellement l’intérêt. Mais cela allait changer…

1.2 LES XVIIe ET XVIIIe SIÈCLES Durant le xve siècle, de nombreuses villes ont recensé leurs habitants. Les États tendant à se centraliser et à se doter d’une administration solide, le besoin de dénombrer se fait à nouveau sentir, même 7.  Voir, par exemple, Droesbeke et Saporta (2010). 39

Une courte histoire des données numériques

si la pratique est souvent défaillante. Jusqu’à la fin du xviie siècle, les registres sont en effet loin d’être parfaits ! Ce siècle voit trois courants distincts se développer en Europe : la Staatkunde allemande, les enquêtes de l’administration française et l’arithmétique politique anglaise. La Staatkunde allemande trouve ses racines dans les travaux d’Aristote. Pour ses défenseurs8, la statistique est la science de l’État. Purement descriptive, elle ne fait pratiquement jamais appel à des données chiffrées. Son influence est cependant significative, surtout en Europe centrale, et perdurera jusqu’au xixe siècle. En France, on plaide toujours pour les dénombrements comme outils de gouvernement. Deux hommes s’illustrent particulièrement dans le recours à des enquêtes en raison des contraintes économiques : Colbert (1619-1683) qui développe une stratégie de dénombrement des villes et des régions, et Vauban (1633-1707), auteur d’une Méthode générale et facile pour faire le dénombrement des peuples en 1686. La première édition du Dictionnaire de l’Académie, datant de 1694, définit ainsi le mot dénombrement : « Compte et détail par le menu. David fut puni pour avoir fait le dénombrement de son peuple ». Cette année-là, le pouvoir royal lançait une grande enquête en France pour satisfaire aux besoins de la capitation, cette taxe par tête d’individu, qui ne fut abolie qu’en 1789. Mais c’est en Angleterre qu’un mouvement véritablement novateur se répand avec l’arithmétique politique due principalement à Graunt (1620-1674) et Petty (1623-1687). Comme le dira Davenant, émule de Petty, « l’arithmétique politique est l’art de raisonner par des chiffres sur des objets relatifs au gouvernement ». On y trouve les fondements de la méthode du multiplicateur qui a marqué les techniques de dénombrement des xviie et xviiie siècles, provoquant une mise à l’ombre certaine de la Staatkunde allemande en Europe occidentale. 8.  Parmi lesquels il faut citer le nom d’Achenwall (1719-1772) à qui l’on attribue la paternité du mot statistique. 40

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Une courte histoire des données numériques

La méthode du multiplicateur repose sur l’idée suivante : il existe des quantités qui sont en rapports simples et relativement constants avec la population d’un pays. Si ces quantités sont plus aisées à dénombrer (nombre de maisons, feux (foyers)… ou encore nombre de naissances, de décès… dans l’année), il suffit de multiplier leur nombre par un multiplicateur adéquat pour obtenir une estimation du nombre d’individus dans la population. Pour les responsables politiques de l’époque, le recensement d’une population présente des désavantages certains (réactions de méfiance des enquêtés, coûts de mise en œuvre trop élevés…) ; mais d’un autre côté, le choix d’une entité dont le nombre est plus simple à obtenir et la détermination d’un multiplicateur unique pose aussi des problèmes de fiabilité des estimations obtenues. Une des caractéristiques du siècle des Lumières est le triomphe de l’esprit de calcul. Il faut dire que les progrès réalisés par les mathématiques sont alors considérables et les développements du calcul des probabilités viennent ajouter leur pierre à l’édifice. L’époque est cependant marquée par de nombreuses imprécisions sur les estimations fournies par les uns et les autres. Il n’est donc pas étonnant de constater que les recensements sont revenus en force au xixe siècle avant de connaître une stagnation puis un déclin au xxe siècle, dû notamment à l’introduction de registres administratifs performants et au développement des techniques de sondage. Parmi les développements qui contribuent significativement à l’évolution de l’histoire des données numériques pendant cette deuxième période, il faut souligner l’amélioration des instruments de mesure. Celle-ci est essentielle car elle permet aux hommes de s’aventurer sur les mers en s’assurant une meilleure qualité des moyens de se guider. Par ailleurs, si les mesures astronomiques constituent toujours une manière incontournable – même si elle est encore souvent imprécise – de savoir où l’on se trouve, un autre instrument de connaissance permet de mieux maîtriser le sol sur lequel on vit : la géodésie. Cette discipline et l’astronomie constituent deux domaines 41

Une courte histoire des données numériques

privilégiés d’un traitement de données qui se cherche. Un exemple remarquable est celui de la mesure d’un arc de méridien, au centre d’une question primordiale à l’époque : quelle est la figure de la Terre ? Nous en reparlerons un peu plus loin. Le besoin de mesurer est partagé à l’époque par de nombreux savants qui bénéficient d’instruments de mesure de plus en plus précis. On devient exigeant à propos de la qualité des mesures effectuées et la maîtrise de l’erreur de mesure devient un souci essentiel. Deux approches coexistent à l’époque. La première est centrée sur la recherche d’une « bonne » mesure, entachée d’une erreur limitée, en tout cas inférieure à une erreur maximale, acceptable dans la mesure du possible. Dans cette optique, réaliser d’autres mesures, en plus de la bonne, ne peut que faire croître l’erreur globale, notamment si l’on utilise les observations les plus mauvaises. Un deuxième modèle repose sur l’hypothèse que l’utilisation de toutes les observations permet des compensations dont on peut espérer qu’elles réduisent l’erreur résultante. C’est en recherchant des modèles appropriés qui décrivent la manière dont les erreurs de mesure se répartissent que de nombreux scientifiques ont contribué à la consolidation d’une théorie qui est qualifiée, en 1765, de théorie des erreurs par Johann-Heinrich Lambert (1728-1777). La multiplicité des observations et le besoin de s’interroger sur le comportement des erreurs de mesure n’amènent pas seulement les savants à vouloir modéliser cette erreur pour mieux la dompter ; cette question comporte aussi des aspects politiques et commerciaux qui constituent autant d’enjeux importants pour l’époque. Les données numériques se multiplient et se contredisent souvent. Il faut en comprendre la raison, gérer les contradictions pour en tirer profit. Le calcul des probabilités vient en aide à ceux qui affrontent ce problème. Il en résulte une conséquence à trois facettes dont les effets seront durables : l’émergence d’une loi des erreurs (d’observation) qui sera qualifiée de « normale » à la fin du xixe siècle et devient une loi de référence ; le triomphe de la moyenne qui s’avère être le mode de 42

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Une courte histoire des données numériques

synthèse privilégié pour résumer une suite d’observations distinctes relatives à un même sujet ; le recours au critère des moindres carrés qui permet de montrer le caractère optimal de la moyenne comme étant le « milieu » qui minimise la somme des carrés des écarts entre les valeurs observées et un milieu inconnu. Un autre milieu dont nous parlerons dans cet ouvrage, la médiane, aurait pu émerger en recourant à un autre critère (minimiser la somme des valeurs absolues des écarts entre les valeurs observées et un milieu inconnu), mais il faudra attendre le xxe siècle pour reconnaître ses qualités. Deux hommes jouent un rôle central dans cette histoire : le Français Pierre Simon de Laplace (1749-1827) et l’Allemand Carl Friedrich Gauss (1777-1855). Les données résultant d’observations astronomiques et géodésiques deviennent plus fiables. Grâce aux développements théoriques évoqués ci-dessus, elles vont engendrer des données agrégées (calcul d’une moyenne, par exemple) et aussi des données transformées plus faciles à analyser.

1.3 QUELQUES POINTS FORTS DU XIXe SIÈCLE Le xixe siècle occupe une place très importante dans le traitement des données numériques. Des statistiques de toute nature déferlent sur l’Europe et le monde. Le Danois, Harald Westergaard parle, en 1932, d’une « ère de l’enthousiasme », tout particulièrement à propos de la période 1830-1850. La statistique envahit les sociétés humaines, leurs caractéristiques physiques mais aussi morales. Nous ne pouvons détailler toutes les conquêtes des données numériques de ce siècle, mais s’il fallait retenir quelques caractéristiques essentielles de l’histoire qui nous occupe ici, notre choix serait le suivant : 1) La statistique devient un outil de gestion important des États, au niveau économique et social9. 9.  Voir Desrosieres (1993). 43

Une courte histoire des données numériques

2) L’application des outils dont nous venons de parler – essentiellement utilisés en astronomie – à l’étude des populations et de leurs caractéristiques humaines, permet à Adolphe Quételet (17961874) de créer une théorie des moyennes aux accents multiples10. 3) La démographie devient un domaine spécifique de l’étude des populations humaines et de leur dynamique. 4) Les données individuelles cohabitent avec les données agrégées qui acquièrent un statut à part entière. 5) Les tables statistiques et les représentations graphiques deviennent des outils importants d’analyse et de communication. 6) Le rôle central joué par la recherche d’une moyenne (surtout dans la seconde moitié du siècle) est remplacé par celui de la mesure d’une dispersion autour de cette valeur centrale ou d’un autre milieu, effectuée par des savants de tous bords. 7) Le centre de gravité de la statistique se déplace vers Londres qui voit l’émergence des concepts de corrélation et de régression11 dans un contexte biométrique et dans une ambiance d’évolutionnisme et d’eugénisme. 8) À côté des recensements et des monographies12, une nouvelle méthode de recueil des données voit le jour : les sondages13. Les données individuelles sont évidemment attractives ; la manière de les produire se diversifie. Elles deviennent de plus en plus nombreuses et des domaines de plus en plus divers sont concernés : l’étude des sociétés humaines, l’économie, la médecine, les sciences naturelles… Pour tenter de les maîtriser, il faut les montrer et les résumer. Se contenter de calculer une moyenne ne suffit plus. Il faut aussi mesurer leur diversité et les utiliser à bon escient. 10.  Voir Académie royale de Belgique (1997), Desrosieres (1993) ou Droesbeke et Vermandele (2016). 11.  Voir Droesbeke et Tassi (2015) ou Droesbeke et Vermandele (2016). 12.  Voir Desrosières (1993). 13.  Voir Droesbeke et Tassi (2015) ou Droesbeke et Vermandele (2016). 44

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Une courte histoire des données numériques

1.4 LE XXe SIÈCLE ET LE DÉBUT DU XXIe SIÈCLE Il est difficile de détailler dans cet ouvrage les développements du traitement des données numériques au xxe siècle, tant les innovations sont nombreuses et diversifiées. Au début du siècle dernier, l’inférence statistique est au centre des préoccupations, avec deux problèmes centraux : l’estimation de paramètres d’une population et les tests d’hypothèses réalisés à partir d’un échantillon. Beaucoup de méthodes inférentielles recourent à l’usage de modèles sous-jacents14. Il y a des modèles pour comprendre et des modèles pour prédire15. Les premiers facilitent souvent l’usage des seconds. À côté des plans d’expérience et des modèles de régression, apparaissent et se développent des méthodes spécifiques pour traiter des données : elles s’appellent méthodes de sondage, analyse statistique bayésienne, analyse exploratoire des données, analyse robuste… Parallèlement des stratégies d’analyse voient le jour ainsi que des procédures de diffusion des résultats d’analyse appropriées. Les données deviennent multivariées, portant simultanément sur plusieurs caractères ou variables. Elles sont quantitatives ou qualitatives, selon qu’elles sont constituées de nombres ou pas. Il en est de manquantes et d’extrêmes, c’est-à-dire très différentes de la majorité d’entre elles. Elles deviennent encore de plus en plus nombreuses ce qui pose de nouvelles questions quant à leur stockage, leur traitement ou encore le temps mis à les analyser. En ce début de xxie siècle, les données massives ou Big Data nous lancent des défis de toute nature. Certains épisodes de cette histoire de l’évolution des données et de leur analyse sont enthousiasmants, d’autres étonnants. Notre but est de vous en présenter quelques-uns pour souligner le fait que l’usage des données peut puiser dans ces épisodes de quoi susciter des réflexions diverses utiles dans la vie de tous les jours.

14.  Voir Dehon et al. (2015), Droesbeke et Vermandele (2016) ou Saporta (2011). 15.  Voir Breiman (2001), Donoho (2015) ou Saporta (2017). 45

Une courte histoire des données numériques

Mais revenons au début, quand il fallut trouver de bons moyens de compter et de transmettre des données numériques, c’est-à-dire constituées de nombres. Il ne s’agit pas de refaire l’histoire de ces derniers, mais d’en évoquer quelques aspects qui ont influencé l’histoire des données numériques.

46

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

2 Des nombres pour construire des données

« Les hommes sont comme les chiffres : ils n’acquièrent de valeur que par leur position. » Attribué à Napoléon Bonaparte (1769-1821)

Ce deuxième chapitre a pour but d’illustrer les sujets suivants : – La facilité d’usage de données numériques dépend du système de numération utilisé. – Les neuf premiers nombres entiers de notre système décimal peuvent avoir une dimension philosophique qui influence le comportement des données numériques. – Le zéro est un nombre à part. – Les chiffres ronds ne ressemblent pas aux autres. – L’infini est déroutant pour beaucoup.

47

Des nombres pour construire des données

2.1 DES CLOUS ET DES CHEVRONS POUR FABRIQUER DES DONNÉES L’élaboration et l’usage de données numériques dépendent du système de numération utilisé – c’est-à-dire de l’ensemble des règles d’utilisation de signes, de mots ou de gestes permettant d’écrire, d’énoncer ou de mimer des nombres – ce qui justifie amplement de se rappeler quelques éléments de l’histoire de ces nombres.

Si on voulait raconter très vite l’histoire des nombres, on commencerait par reconnaître qu’ils ont mis du temps à naître, et pourtant nous pensons, comme d’autres16, qu’il n’y a jamais eu de sociétés sans nombre. Au début, les humains vivant en petites communautés n’en eurent réellement pas un besoin vital. La vie du un était avant tout leur vie. Celle du deux était, selon les cas, la vie du couple ou celle du combat avec un adversaire. Après un et deux, cela devenait beaucoup. Il faut d’emblée séparer deux situations. La première concerne les sociétés orales au sein desquelles il est difficile de développer des systèmes de numération. Il existe encore de nos jours de telles sociétés qui utilisent des systèmes « à petits nombres ». Ainsi, les Mundurucu qui vivent en Amazonie, au Brésil, ne connaissent que l’équivalent des cinq premiers nombres entiers17, ce qui ne les empêche pas de se prêter à des comparaisons, des additions et des soustractions « de façon approchée ». Il existe aussi des systèmes de numération corporelle18 permettant la représentation de grands nombres. C’est en se tournant vers son corps ou vers la nature que l’on a tenté de maîtriser le beaucoup. Jusqu’à dix, les doigts des deux mains ont permis de compter. Jusqu’à vingt, on pouvait aussi faire participer les doigts des deux pieds. Au-delà, cela devenait compliqué mais nos ancêtres ont trouvé un moyen systématique de dénombrer qui fonctionne encore aujourd’hui. 16.  Vandendriessche (2016). 17.  Voir Pica et al. (2004). 18.  Voir Mimica (1988). 48

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Des nombres pour construire des données

Ainsi, une technique ancestrale pour vérifier si un troupeau de moutons n’avait pas subi de pertes dans la journée, est de les faire sortir de l’enclos où ils ont passé la nuit, l’un à la suite de l’autre, en mettant un caillou dans un récipient chaque fois qu’un animal passe devant le berger. Le soir, il suffit de retirer un caillou chaque fois qu’un animal repasse devant lui pour rentrer dans l’enclos, pour savoir si le troupeau est complet ! Une technique semblable a été utilisée avec les hommes d’une armée qui partait à la guerre.

Avec l’introduction de l’écriture, la situation a pu évoluer. Dans un premier temps, la croissance du nombre d’individus, d’objets ou d’entités auxquels on s’intéressait et les besoins en matière de commerce ont vite fait ressentir la nécessité de disposer d’un moyen de retenir et de transmettre des informations au moyen de dessins. Nous avons tous recouru à ce procédé : dessiner des bâtonnets les uns à côté des autres pour dénombrer un ensemble d’objets. Cette pratique primitive constitue un système de numération additif dans lequel 49

Des nombres pour construire des données

ajouter un bâtonnet correspond à avoir un élément de plus. On peut ajouter autant de bâtonnets qu’on veut et, même si cela demande un peu plus de travail, en retirer. Il vaut cependant mieux ne pas devoir dénombrer un grand ensemble d’éléments ! Vous avez certainement pratiqué une méthode alternative plus facile à gérer : regrouper les bâtonnets par paquets de cinq, le nombre de doigts par main. Vous pouvez aussi utiliser des cailloux, mais les bâtonnets, c’est plus facile… à condition d’avoir de quoi les dessiner ! Notons aussi que la valeur du bâtonnet ne dépend pas de la position qu’il occupe sur le support utilisé (un bout de bois, le sable, une tablette d’argile chez les Babyloniens ou une feuille de papier dans nos chaumières). Mais vous savez qu’il y a moyen de faire mieux. Avec les chiffres 1, 2, 3, 4, 5, 6, 7, 8, 9 et le zéro que nous pratiquons depuis notre enfance, nous utilisons un système de numération positionnel : la valeur d’un chiffre dépend de la position qu’il occupe dans le nombre. Le 2 n’a pas la même valeur dans 102 que dans 201. Mais ces chiffres ne sont apparus en Europe que depuis le xe siècle. Cela ne signifie cependant pas qu’un tel système était ignoré dans l’Antiquité pour produire des données. Remontons près de quatre mille ans dans le temps… Mettez des clous ( ) – on dirait maintenant des unités – les uns à côté des autres (au minimum un, au maximum neuf) ou les uns sur les autres, si on veut gagner de la place, et vous obtiendrez un système additif comme ci-dessus. Pour dix, utilisez un chevron ( ) – ou, si vous préférez, une dizaine. En empilant des chevrons (au maximum cinq), vous aurez de une à cinq dizaines. Nous sommes toujours dans un système additif. À titre d’exemple, comment faisaient les Babyloniens pour écrire « quarante-trois » ? Il suffisait de dessiner quatre chevrons (dizaines) et de tracer ensuite trois clous (unités) : . Cinq dizaines : l’influence d’une main n’est pas loin. Et avec ce système, on peut aller jusqu’à cinquante-neuf. Que firent-ils pour la suite ? Eurent-ils peur de ne plus pouvoir gérer la quantité de clous et de chevrons quand ils décidèrent de 50

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Des nombres pour construire des données

représenter « soixante » de la même façon que pour représenter « un » : en utilisant UN SEUL CLOU ! Mais dans ce cas, deux clous peuvent donc aussi représenter cent vingt, trois clous, cent quatre-vingt, et ainsi de suite !

Figure 2 | Des clous et des chevrons (source : Wikipedia)

Essayons d’abord de comprendre la manière dont cela fonctionne en écrivant à la mode babylonienne un nombre supérieur à soixante, par exemple « quatre-vingt-trois ». Nous dirons alors qu’il vaut « soixante » plus « vingt-trois ». Il suffit de mettre un clou (soixante) AVANT deux chevrons et trois clous (vingt-trois), et le tour est joué : . C’est la position du clou qui détermine sa valeur : comme le premier clou PRÉCÈDE une suite de chevrons et de clous qui représente « vingttrois », il vaut « soixante » et non plus « un ». Bien sûr, il est des cas douteux ! Prenez par exemple . Cela veut aussi bien dire « deux » que « soixante et un ». Pour savoir ce dont il s’agit, on peut se référer au contexte ou écrire le premier clou un peu plus grand que le second. De même que 76 représente actuellement sept dizaines plus six unités, correspond à une soixantaine (le premier clou) plus seize unités (le chevron suivi de six clous). Voulez-vous encore un dernier exemple ? Que signifie pour vous  ? 51

Des nombres pour construire des données

Bravo ! Vous avez trouvé ! C’est l’année d’une célèbre bataille de l’histoire de France, l’une des rares connues par tous les élèves de l’hexagone, ou presque. Vous vous posez certainement la question : mais qu’est-ce que les Babyloniens ont bien pu trouver dans ce système de numération, qu’on appelle actuellement « en base soixante », alors que la technique des bâtonnets ou des cailloux est élémentaire et que notre système actuel « en base dix » est apparemment plus simple ou plus naturel, compte tenu de nos dix doigts ? Pour vous aider à répondre à cette question, rappelez-vous que Babylone est, à l’époque, au centre du monde. Le croissant fertile produit de multiples denrées et le commerce y est roi. Mais pour bien vendre, il faut savoir compter, faire des parts et en donner le prix rapidement. Faire des parts, c’est diviser en parties égales ou non. Connaissez-vous les diviseurs de dix ? Il y a un, deux, cinq et dix. C’est tout. Et ceux de soixante ? Ici, la liste est plus longue : un, deux, trois, quatre, cinq, six, dix, douze, quinze, vingt, trente et soixante. « Il n’y a pas photo », comme on dit couramment. Oui ! Mais peut-on aussi utiliser les doigts pour mettre en pratique ce système de numération ? Affirmatif, mon général ! Cela marche encore ! Regardez l’une de vos mains, la paume tournée vers le haut. Vous pouvez parcourir avec le bout du pouce, la phalange, la phalangine et la phalangette, ces trois petits os qui se succèdent sur chacun des autres doigts de la main. Suivons le décompte : 1, 2, 3 sur l’index, 4, 5, 6 sur le majeur, 7, 8, 9 sur l’annulaire, 10, 11, 12 sur l’auriculaire. Nous avons ainsi créé ce qu’on appelle aujourd’hui une « base 12 ». Si l’on répète l’opération autant de fois qu’il y a de doigts sur l’autre main, nous pouvons arriver à 5 × 12 = 60 et créer la « base 60 ». Voilà, vous êtes prêt(e) à faire du commerce avec les Babyloniens de l’époque. Et si vous répétez l’opération autant de fois que l’autre pouce peut se promener sur les phalanges des quatre doigts de cette seconde main, vous arrivez à 12 × 12 = 144 ! Il ne vous reste plus qu’à déposer un brevet pour appeler une douzaine de douzaines par le mot grosse, si prisé des vendeurs d’escargots, des mareyeurs ou des 52

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Des nombres pour construire des données

marchands d’œufs ! Mais, peut-être, est-il un peu tard pour vous adresser à l’Office européen des brevets ! Ils étaient futés, les Babyloniens ! Mais les autres nations n’étaient pas encore mûres pour produire des données en utilisant une écriture positionnelle. La plupart des autres peuples se contentèrent de recourir à des systèmes additifs en utilisant des pictogrammes ou des lettres de l’alphabet19. Un exemple rarement cité est l’alphabet arménien primitif de la figure 3. Il est composé de quatre lignes de neuf lettres (trente-six lettres le composent, proposées en 405 par Mesrop Machtots ; trois nouvelles lettres se sont ajoutées par la suite). Les lettres de la première d’entre elles correspondent aux neuf premiers nombres entiers ; celles de la deuxième définissent les dizaines, celles de la troisième, les centaines et la dernière fournit les milliers. Il n’existait pas de « zéro » dans ce système, et les valeurs associées aux différentes lettres étaient simplement additionnées. Ce système était en fait assez proche des systèmes de numération grecque et hébraïque.

Figure 3 | Alphabet arménien (source : Wikipedia)

19.  Voir Ifrah (1994) ou Droesbeke et Vermandele (2016). 53

Des nombres pour construire des données

Ces systèmes de numération n’ont plus cours de nos jours. Celui que nous utilisons couramment repose sur les neuf chiffres introduits par les Indiens à partir du iiie siècle avant notre ère, auxquels est venu se joindre plus tard le zéro. D’autres systèmes ont été proposés par la suite, comme le système binaire, qui utilise uniquement les nombres 0 et 1, plus adapté au traitement informatique des données (voir plus loin). Mais l’histoire des neuf premiers nombres entiers et du zéro, que nous utilisons quotidiennement, vaut la peine d’être évoquée pour bien en comprendre l’usage dans la production et le traitement des données numériques.

2.2 NEUF INDIVIDUS EN QUÊTE DE SENS Depuis la création de l’imprimerie, les neuf premiers nombres entiers, venus des Indes, sont notés 1, 2, 3, 4, 5, 6, 7, 8 et 9. Ils ne sont pas uniquement utiles et opérationnels. L’être humain leur a donné des sens qui dépassent leur aspect purement numérique, notamment d’ordre religieux ou liés à des superstitions. Ce phénomène peut influencer la valeur de certaines données observées comme on peut le constater, par exemple, pour des séries de données numériques telles que le montant des mises hebdomadaires à un jeu de hasard ou les ventes de produits saisonniers.

Nous sommes au iiie siècle avant notre ère. Les systèmes de numération sont loin d’être uniformes dans les régions connues à cette époque. Pour s’en rendre compte, il suffit de consulter les ouvrages consacrés à cette question ; nous les avons évoqués plus haut. Que ce soit en recourant à des pictogrammes (Chine, Égypte…) ou à des lettres de l’alphabet (Grèce, Rome…), les systèmes utilisés sont additifs avec un zeste de positionnel. Prenons par exemple l’écriture latine que l’Occident utilisera jusqu’au xe siècle : les neuf premiers nombres entiers sont I, II, III, IV, V, VI, VII, VIII et IX. Ils consistent à juxtaposer des symboles dont l’usage est a priori facilement 54

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Des nombres pour construire des données

compréhensible. Mais avez-vous déjà tenté de retrancher MCMLII (1 952) de MMMDCCXXXI (3 731) et de multiplier DCLXVII (667) par CXXIV (124) « à la romaine » ? Les systèmes les plus utilisés sont décimaux mais on attend encore, à l’époque, l’étoile qui brillera au firmament ! C’est l’Inde qui la fait apparaître. Ce pays adopte un système de numération décimale dans l’Empire des Maurya. Ce système appelé Brāhmi est non positionnel – la position d’un symbole n’intervient pas dans sa valeur – mais on commence à se rendre compte de l’intérêt d’utiliser des symboles distincts pour représenter les neuf premiers nombres entiers. Il faut cependant attendre la fin du vie siècle pour trouver les premières traces d’un système positionnel dans ces contrées. Le mathématicien et astronome indien Brāhmagupta publie, en 628, le Brāhma Siddhanta dans lequel apparaissent les chiffres que nous utilisons encore aujourd’hui. Leur graphisme n’est pas encore le nôtre (1, 2, 3, 4, 5, 6, 7, 8 et 9) mais il va évoluer jusqu’à ce que l’imprimerie stabilise ses transformations. Il est donc logique qu’on les ait dénommés chiffres indiens. Cette écriture a été adoptée par les Arabes au cours des siècles qui suivirent puis transférée, en subissant des transformations de forme, vers l’Europe, en passant par l’Afrique du Nord et l’Andalousie. C’est d’ailleurs la raison pour laquelle on a pris l’habitude de les appeler, en Occident, des chiffres arabes. Ces neuf chiffres ont révolutionné les mathématiques. Malheureusement, cette révolution est lente car leur diffusion prend du temps. Pour s’en convaincre, il suffit de constater qu’ils ne parviennent en Occident qu’au xe siècle. Ces nombres entiers et les suivants ont permis de faire progresser l’arithmétique et même les mathématiques de manière générale. Mais bien avant qu’ils acquièrent la forme que nous leur connaissons, les nombres entiers se sont vus dotés d’une dimension non calculatoire qui n’est pas étrangère à la valeur de certaines données. Pratiquement toutes les religions, ainsi que de nombreuses sectes, ont attribué à certains nombres entiers un rôle spécifique, une 55

Des nombres pour construire des données

interprétation particulière. Déjà dans la mythologie sumérienne puis assyrienne et babylonienne, An était le plus important des dieux, personnifiant le ciel et les constellations. Il fut représenté par le nombre « 60 » dont nous venons de voir le rôle primordial qu’il joue dans la numération inventée par ces peuples. Plus près de nous, portons notre attention au rôle attribué aux nombres entiers par un personnage dont un théorème a certainement enchanté votre jeunesse : Pythagore. Pythagore a vécu au vie siècle avant notre ère. Sa devise peut se résumer à « tout est nombre ! ». Bâtie sur des préceptes que l’on retrouvera par la suite dans d’autres contextes – Honore les dieux immortels comme la loi les a établis, Vénère les serments et aussi les nobles héros, Honore ton père et ta mère ainsi que tes proches… – son école fait des nombres un instrument des dieux ; l’arithmétique trace le chemin vers la perfection. Son influence au cours des siècles qui suivent sera grande20 et touchera aussi les philosophies occidentales. Pythagore et ses disciples définissent des catégories de nombres en leur attribuant des caractéristiques morales ou physiques. Ainsi, les nombres pairs sont féminins et les impairs, masculins. Chacun des nombres peut avoir une identité symbolique. Prenons le cas des dix premiers nombres entiers. Le un est à l’origine de tout. En tant que tel, ce ne peut d’ailleurs pas être un nombre. Ce principe sera repris vers 300 avant notre ère par Euclide selon qui un nombre était un agrégat d’unités. Tous les nombres sont en fait issus du un. L’importance primordiale de ce dernier sera proclamée par de très nombreuses religions. Le vrai premier nombre pour Pythagore, c’est donc deux ; il permet la dualité et l’affrontement entre deux principes, deux idées. En outre, le un, c’est la droite, le deux, la gauche. Ce dernier est aussi le principe de la féminité. 20.  À titre d’exemple, le chapitre 5 du livre I de la Métaphysique d’Aristote s’intitule « Les pythagoriciens et leur doctrine des nombres ». 56

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Des nombres pour construire des données

Le trois est le mariage entre le un et le deux (3 = 1 + 2). Il est le symbole de la création parfaite. Les Grecs l’associent tout naturellement au triangle. Ce nombre est omniprésent dans les mythologies antiques et son importance sera prolongée dans certaines religions actuelles. Le quatre est le nombre féminin par excellence. Il est associé aux éléments fondamentaux : la terre, l’air, le feu et l’eau. Symbole de l’harmonie, mais aussi de la justice, il fait tout naturellement penser au carré. C’est un nombre empreint de robustesse. Le cinq a plusieurs significations. Il représente l’union du deux et du trois, du féminin et du masculin ; il forme aussi avec trois et quatre un triangle divin (32 + 42 = 52) – rappelez-vous, « le » théorème qui a bercé votre jeunesse : « Dans un triangle rectangle, le carré de la longueur de l’hypoténuse est égal à la somme des carrés des longueurs des deux autres côtés ». Il intervient aussi dans la représentation des cinq éléments chez Platon : la terre, l’air, l’eau, le feu et la voûte céleste. De plus, le pentagramme, cette étoile régulière à cinq branches, ne fut-il pas le signe de reconnaissance des pythagoriciens, montrant ainsi l’importance de ce nombre ? Le six est le chiffre de la procréation, union du masculin et du féminin (6 = 2 × 3). Il sera considéré par Euclide comme un nombre parfait car il est la somme de ses diviseurs (6 = 1 + 2 + 3) et leur produit (6 = 1 × 2 × 3). Le sept, c’est bien sûr la durée d’une semaine en nombre de jours, eu égard à celle d’une des quatre phases de la Lune. C’est aussi l’association du quatre et du trois, du carré et du triangle, de la force et de la perfection. Il est impossible de diviser une figure géométrique en sept parties égales. Pythagore associe ce nombre entier à la virginité. Le nombre sept acquiert une importance énorme qui s’accroîtra au cours du temps dans la plupart des religions et de croyances diversesIII. Le huit est le cube du premier nombre féminin : 2 × 2 × 2 ; c’est le symbole de l’amitié. Le neuf est le carré du premier nombre masculin : 3 × 3 ; il est celui de l’amour, de la gestation. Quant au dix, 57

Des nombres pour construire des données

la décade, il est la somme des quatre éléments fondamentaux : 1, 2, 3 et 4. Représenté par le tétraktys (voir figure 4), c’est le symbole de l’ordre divin, de l’univers.

Figure 4 | Le tétraktys

D’autres nombres entiers ont été mis à l’honneur dans l’Antiquité (12, 15…) ainsi que dans certaines religions (19, 22…). Il en est aussi qui sont associés à des événements heureux ou malheureux, comme le nombre 13, surtout s’il est associé à un vendredi ! Le caractère mystérieux, voire mystique des nombres est présent à toutes les époques. Il a notamment engendré des croyances populaires comme la numérologie qui attribue à des nombres associés aux données personnelles d’un individu (nom, prénom, date de naissance…), la capacité de décrire ses caractéristiques morales et de prédire son avenir. Si l’on revient aux nombres associés aux données que l’on crée sans cesse, à ceux qu’on est amené à traiter et même à ceux que l’on découvre quotidiennement, il est rare qu’on leur accorde une telle signification. Mais peut-être les regarderez-vous différemment en sachant ce qui précède. Il est aussi bon de savoir que les neuf premiers nombres entiers proposés par les Indiens n’auraient pu se vêtir de la gloire qu’ils ont connue par la suite s’ils n’avaient pas été rejoints par un compagnon d’exception : le zéro. 58

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Des nombres pour construire des données

2.3 CE N’EST PAS RIEN, ZÉRO ! Le traitement des données numériques doit beaucoup aux propriétés des nombres. Ceux qui sont entiers, bien sûr, mais aussi tous ceux qui ont suivi (nombres fractionnaires, nombres réels…). L’un d’entre eux joue un rôle tout à fait spécifique : le zéro. Comme nous allons pouvoir le constater, « ce n’est pas rien, zéro ».

Un des moments cruciaux de l’histoire que nous évoquons dans ce chapitre est l’apparition du zéro en tant que nombre. Cette situation nous semble tellement naturelle à notre époque – aussi naturelle que la présence des nombres entiers positifs 1, 2, 3… qui sont d’ailleurs désignés comme faisant partie des nombres naturels – qu’on peut s’étonner du fait qu’il fallut attendre si longtemps pour le voir apparaître. En réalité, les systèmes de numération antiques ont commencé par chercher quelque chose pour représenter le « vide », le « rien ». Revenons chez les Babyloniens. Nous avons évoqué précédemment la confusion possible entre le clou valant « un » et celui valant « soixante ». Mais il y a encore pire ! Un clou peut aussi valoir 3 600, c’est-à-dire soixante soixantaines. Comment faut-il écrire, par exemple, 3 601 ? En reprenant la décomposition présentée ci-dessus, ce nombre s’exprime comme valant « une soixantaine de soixantaine – 3 600 – plus un ». On ne peut pas se contenter d’écrire (qui signifie aussi 2 et 61) ! Comment indiquer qu’entre le premier clou qui vaut 3 600 et le second qui est égal à 1, il n’y a rien ! Le contexte peut éventuellement suffire pour éliminer l’ambiguïté mais il faut avouer que, pour un puriste, ce n’est pas très rigoureux. Les Sumériens ont imaginé un pictogramme composé de quatre clous et dessiné en losange pour représenter 3 600. Une solution très tardive consiste aussi à représenter ce « rien » par deux clous en biais. Au iiie siècle, les Chinois marquent les emplacements vides par des points et ensuite des petits ronds. Le zéro est dans l’air mais ce n’est pas encore un chiffre, résultant, par exemple, 59

Des nombres pour construire des données

de la différence entre 7 et 7. Le progrès réel vient en réalité de l’Inde, il y a près de dix-sept siècles. Nous avons mentionné le fait que les premières traces d’un système positionnel basé sur les neuf chiffres 1, 2, 3, 4, 5, 6, 7, 8 et 9 sont apparues avec le mathématicien et astronome indien Brāhmagupta. Celui-ci leur ajoute un autre nombre : le zéro. Ce qui est tout à fait novateur à l’époque, c’est que ce zéro devient un nombre à part entière. Ce n’est plus seulement la représentation de rien ou du vide. On peut l’ajouter à d’autres nombres, même si cela ne change rien à leur valeur. On peut aussi multiplier un nombre par zéro, même si le résultat risque de lasser celui qui s’adonne à ce passe-temps. Il y a plus difficile : que se passe-t-il quand on divise un nombre par zéro ? Nous reviendrons sur cette question un peu plus loin. Il y a encore plus difficile : que vaut zéro divisé par lui-même ? La réponse proposée à l’époque est fantaisiste, ce qui n’est pas tout à fait surprenant. N’empêche que la porte ouverte par ce zéro accueillera de nombreux progrès.

60

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Des nombres pour construire des données

Plusieurs siècles plus tard, le zéro s’associe au un pour créer un nouveau système de numération qui s’avérera par la suite particulièrement intéressant : le système binaire. Il jaillit des idées de Leibniz (1646-1716), en 1666, mais ses contemporains ne sont pas prêts à le suivre sur cette voie. Comment est-il possible d’utiliser un système composé uniquement des nombres 0 et 1 pour représenter un nombre entier quelconque ? Pour obtenir la réponse, il suffit de faire un parallèle avec notre système décimal habituel dans lequel on utilise les puissances successives de 10 (100 pour les unités, 101 pour les dizaines, 102 pour les centaines, 103 pour les milliers…) pour représenter un nombre entier. C’est ainsi, par exemple, que 1 515 se « lit » dans notre système décimal comme valant : 1 000 + 500 + 10 + 5 = 1 × 103 + 5 × 102 + 1 × 101 + 5 × 100. Il y a quatre chiffres dans le nombre 1 515 : quatre puissances de 10 sont utilisées. Elles vont de 100 à 103. La numération binaire fait de même avec les puissances de 2 :   0 1 2 2 = 1, 2 = 2, 2 = 4, 23 = 8, 24 = 16, 25 = 32…   Les seuls symboles utilisés dans la numération binaire sont les nombres 0 et 1. Comment peut-on lire, par exemple, le nombre 10101 dans un tel système ? Il suffit de « traduire » cette série de chiffres comme on l’a fait ci-dessus avec le système décimal. Il y a cinq chiffres ; cinq puissances de 2 doivent être utilisées ; elles vont de 20 à 24. Le nombre 10101 se « lit » :   1 × 24 + 0 × 23 + 1 × 22 + 0 × 21 + 1 × 20 = 16 + 0 + 4 + 0 + 1 = 21.   Quant à 1 515, ce nombre s’écrit « en binaire » sous la forme 10111101011. Nous sommes bien d’accord : c’est peut-être un peu 61

Des nombres pour construire des données

compliqué de le mémoriser pour l’examen d’histoire ! Mais ce système est à la base de l’informatique et du traitement des données massives qui nous concerne tant aujourd’hui. C’est en cela qu’il est essentiel. Ce n’est qu’en 1854 qu’un Anglais, George Boole (1815-1864), propose ce qu’on appellera plus tard une algèbre booléenne dont les trois éléments de base sont le « et » – qui est une sorte de produit – le « ou » – qui correspond à une somme – et le « non » – le contraire, un outil oh ! combien utile. Ces derniers permettent d’effectuer des calculs arithmétiques en utilisant uniquement deux états représentés par zéro et un. Et c’est en 1867 que la numération binaire put s’appuyer sur une découverte de l’Américain Charles Sanders Peirce (1839-1914) qui compare la relation entre les deux états de l’algèbre booléenne avec ceux d’un interrupteur d’un circuit électrique : 1, c’est ouvert ; 0, c’est fermé ! Il suffisait d’y penser… Une dernière remarque concerne le couple formé par zéro et un. Le second a comme propriété qu’il a plus d’influence en recourant à l’opération de somme ou de différence qu’en utilisant celle de multiplication ou de division : multiplier un nombre ou diviser ce nombre par un ne le modifie pas, contrairement à ajouter ou à retrancher un de ce nombre :

4

= 4 ; 4  + 1 = 5 ; 4 − 1 = 3.   Qu’en est-il de zéro ? C’est tout à fait le contraire. Ajouter ou retrancher zéro d’un nombre ne le modifie pas alors que multiplier ce nombre par zéro donne toujours zéro : 4 + 0 = 4 ; 4 − 0 = 4 ; 4 × 0 = 0.   Et pour ce qui concerne la division par zéro, c’est une autre paire de manches qui vaut la peine d’être regardée de plus près, ce que nous ferons un peu plus tard. 4 × 1=4;

62

1

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Des nombres pour construire des données

2.4 L’ATTIRANCE DES NOMBRES RONDS Un aspect particulier du zéro est d’être à la base des nombres ronds. Leur influence sur les données numériques quotidiennes n’est pas négligeable.

Qu’y a-t-il de plus rond que le zéro dont nous venons de parler ! Mais il n’est pas le seul nombre à être qualifié de rond. Notre système de numération décimal en a décidé ainsi : les nombres ronds sont ces nombres qui se terminent par 10 et ses multiples. «  Je sais compter jusqu’à dix », s’exclame fièrement le bambin. Au-delà, c’est encore l’inconnu ! « Cinquante ans de mariage ? Mais ça n’existe plus, mon bon Monsieur », nous dit le nostalgique. « Le nouveau président ? Il a cent jours de grâce devant lui », proclame le journaliste. Les seuils regorgent de nombres ronds. À partir de mille euros, vous changez de statut. Quand vous dépassez les dix mille, vous êtes très nanti. Au pays des grands nombres, les nombres ronds sont rois. « La rapidité d’un rayon de soleil est, en nombre rond, seize cent soixantesix mille six cents fois plus forte que celle d’un boulet de canon », écrit Voltaire dans les Éléments de la philosophie de Newton édités en 1773. À notre époque, on arrondit même au milliard le plus proche. Tant pis pour les amateurs de précision ! Les multiples de 10 ont été rejoints dans cette famille par ceux qui se terminent par un 5, tout particulièrement 25 et 75. La caractéristique la plus importante des nombres ronds est qu’ils sont utilisés plus souvent que les autres. Dans les recensements démographiques du xixe siècle, on observe des effectifs anormalement élevés21 pour les âges se terminant par 0 ou par 5. Les nombres ronds peuvent ainsi influencer les résultats d’une enquête ou d’un traitement de données. 21.  Voir Durand (1961). 63

Des nombres pour construire des données

Le nombre rond est le préféré des indécis, de ceux ou de celles qui ne se souviennent plus très bien ou qui ne veulent pas s’engager. Un exemple typique concerne les estimations de durée : « Depuis combien de temps avez-vous pris conscience de mettre vos coudes sur la table en mangeant ? ». Écartez d’abord ceux qui font cela depuis toujours ou qui ont reçu une remarque cinglante de leur grandpère lors du dîner organisé pour fêter leurs dix-huit ans. En posant cette question aux autres, vous obtiendrez souvent des réponses du type « Il y a bien dix ans » ou « Il y a environ cinq ans ». Cette situation se présente aussi fréquemment quand un individu possède une certaine latitude de choix dans une réponse à donner au cours d’une enquête. Dans le domaine du commerce, les nombres ronds jouent un rôle particulier lors de la fixation des prix et des rabais. Ces derniers s’expriment toujours sous forme de nombres ronds : moins 25 %, moins 40 %, moins 75 %. Par ailleurs, il existe des règles permettant de définir un prix de vente en fonction du prix de fabrication, des coûts de transport, du bénéfice escompté… mais cette façon d’agir peut être modifiée pour tenir compte de ces nombres ronds. Il suffit de regarder les devantures des magasins pour s’en apercevoir. Quand un acheteur consulte un prix, il s’est souvent fixé, de manière consciente ou pas, des seuils « à ne pas dépasser ». Ceux-ci sont souvent des nombres ronds. Or, il est bien connu qu’on regarde avant tout les premiers chiffres d’un prix, sans trop s’attarder aux décimales. Les commerçants ont tout naturellement déduit de cette situation l’intérêt de proposer des prix du type 29,99 € au lieu de 30 € ou 99,99 € au lieu de 100 €. Vous n’êtes pas dupe, nous direz-vous, mais vous admettez que « pour les autres » ça marche presque toujours. Cette « manipulation commerciale » n’est pas bien grave en soi ; elle permet simplement de souligner toute l’importance de certains nombres dans le vécu des gens. Nous verrons d’autres types de manipulations bien plus graves à la fin de cet ouvrage ! 64

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Des nombres pour construire des données

Il n’y a pas que les données commerciales qui sont concernées par ce succès des nombres ronds. Avez-vous remarqué qu’on se donne plus souvent rendez-vous à 11 h 00 qu’à 11 h 07 ou 11 h 23 ? Et cela marche aussi dans les anciens systèmes de numération : vous achetez plus souvent deux douzaines d’escargots que 23 ou 25 de ces gastéropodes. Terminons ce paragraphe avec deux remarques, si vous le voulez bien. Quand un nombre contient beaucoup de décimales, on a tendance à l’arrondir, parfois à l’entier le plus proche. Quand on cite un nombre dont la valeur est élevée, il est très souvent rond. On investit un milliard d’euros. L’étoile se trouve à plus de dix mille annéeslumière. Le pays des grands nombres est surpeuplé de nombres ronds. Il est vrai que ce pays est assez mystérieux. Il abrite un habitant dont la réputation en effraie plus d’un : l’infini.

65

Des nombres pour construire des données

2.5 VOYAGE VERS L’INFINI Pour beaucoup d’entre nous, les nombres très proches de zéro sont qualifiés de « très petits ». Mais avant de les connaître, l’être humain a d’abord été perturbé par les nombres très grands. Au fait, qu’appellet-on « très grand » ? En réalité, les systèmes de numération ont donné à ce concept des significations distinctes au cours du temps. Les mathématiciens l’ont aussi abordé en introduisant la notion d’infini.

Dans un ouvrage publié à Oxford en 1655 et intitulé Johannis Wallisii Arithmetica infinitorum, le mathématicien Wallis (16161703) introduit pour la première fois le symbole ∞ pour représenter l’infini 22, ce concept que peu de personnes apprécient à sa juste valeur tant le sujet est difficile : « Étant donné […] qu’une première limite dans une série de nombres premiers23 est zéro, la première limite dans une série réciproque sera ∞, à savoir l’infini (de même que dans une division, si le diviseur est zéro, le quotient sera infini) ». En français, le mot infini est emprunté au latin infinitus, « sans fin, sans limites », « indéfini »24. Au départ, l’adjectif s’applique à ce qui n’a aucune limite. Au xive siècle, il qualifie ce qui n’est pas borné dans le temps, ce qui n’a pas de terme. Comme nous le verrons ci-dessous, il s’applique spécialement à Dieu. Au xvie siècle, l’adjectif qualifie, par extension, ce qui est considérable par la grandeur, la durée, l’intensité, le nombre. La locution adverbiale à l’infini – « extrêmement » – apparaît au xviie siècle. Nous venons d’évoquer son usage et sa représentation en mathématiques. 22.  Cum enim primus terminus in Serie Primanorum sit 0, primus terminus in serie reciproca erit ∞ vel infinitus (sicut, in divisione, si diviso sit 0, quotiens erit infinitus). 23.  Rappelons à la lectrice et au lecteur qu’un nombre premier est un nombre entier qui n’est divisible que par 1 et par lui-même : 2, 3, 5, 7, 11, 13, 17… Ces nombres ont aussi une histoire passionnante ! 24.  Voir Rey et al. (1993). 66

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Des nombres pour construire des données

Quelle est l’histoire de l’infini ? Nous n’avons pas la prétention de l’exposer ici, préférant nous référer à l’excellent ouvrage de Koyré qui, en 1973, décrit le passage d’un monde clos, le Cosmos, à l’infinitisation de l’Univers au xviie siècle. « L’origine de la conception de l’infinité de l’Univers se trouve […] chez les Grecs », explique Koyré, citant d’emblée leurs écrits oubliés pendant de longs siècles25 et redécouverts à la fin du Moyen Âge. Parmi eux se trouve un manuscrit intitulé De rerum natura, rédigé au ier siècle avant notre ère par le poète philosophe latin Lucrèce (± 98-55). Celui-ci décrit le monde selon les principes d’Épicure : « L’univers existant n’est limité dans aucune de ses dimensions »26. Ces conceptions infinitistes propagées par les atomistes grecs27 sont combattues par les principaux courants philosophiques grecs et n’ont été acceptées, ni par l’Empire romain, ni par les penseurs du Moyen Âge. Les principales théories de l’Univers sont bien connues. L’une d’elles est le géocentrisme. Il s’agit d’un modèle physique selon lequel la Terre se trouve immobile, au centre de l’Univers – nous reviendrons sur ce concept de modèle plus loin. Cette théorie date de l’Antiquité et a été notamment défendue par Aristote (384-322 avant notre ère) pour qui rien n’existe en dehors du « monde » décrit par ce modèle. Dans celui-ci, les changements de jour et nuit comme ceux des saisons se font par des mouvements extérieurs à la Terre. Pour ce qui concerne les mouvements des planètes – au sens ancien, le mot planète inclut le Soleil et la Lune, mais pas la Terre – ils sont censés être parfaits : seul le mouvement circulaire est pensable (voir figure 5). Le géocentrisme est bien sûr une tentative scientifique pour expliquer l’Univers, mais il s’agit aussi d’une conception philosophique de notre monde. Quelques siècles plus tard, Claude Ptolémée (90-168) 25.  Chez les Grecs, le mot choisi pour désigner l’infini est α-πειρου (apeiron), terme qui vient de πειραρ-τος « terme, extrémité, fin », précédé de l’alpha privatif. 26.  De rerum natura, I, v. 958. 27.  Et reprises par Lucrèce : « Il faut poser d’abord notre premier principe. Rien n’est jamais créé divinement de rien […]  Rien ne s’anéantit ; toute chose retourne, par division, aux corps premiers de la matière ». 67

Des nombres pour construire des données

propage le modèle géocentrique dans sa grande syntaxe mathématique transmise à l’Occident en 140 par les Arabes sous le nom d’Almageste. Cet ouvrage influence le monde des scientifiques jusqu’au début du xvie siècle, époque à laquelle un astronome polonais nommé Nicolas Copernic (1473-1543) se rend compte des insuffisances du système de Ptolémée. Cette découverte l’amène à proposer une nouvelle théorie des mouvements planétaires en passant du géocentrisme à l’héliocentrisme (voir figure 6). Son œuvre intitulée De revolutionibus et publiée en 1543 ouvre la porte aux travaux de Galilée et plus tard de Newton. Elle fait la part belle à une sorte d’infini.

Figure 5 | L’Univers de Ptolémée (source : Wikipedia)

Figure 6 | L’Univers de Copernic (source : Wikipedia)

Il est difficile d’imaginer l’ahurissement et le scepticisme provoqué par le nouveau modèle proposé par CopernicIV. Il faut souligner que celui-ci n’a jamais dit que le monde des étoiles fixes était infini mais seulement qu’il était « immensum, non mesurable ». La conception médiévale du Cosmos empreinte de finitude n’avait pas accepté la vision de Lucrèce et était toujours bien ancrée. Ce n’est pas sans risque qu’elle est combattue par Nicolas de Cues (1401-1464) à qui « est attribué le mérite ou le crime d’avoir affirmé l’infinité de l’Univers », nous dit Koyré. Nicolas de Cues évite 68

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Des nombres pour construire des données

soigneusement de donner à l’Univers le qualificatif d’infini réservé à l’époque à Dieu et à Dieu seulement. René Descartes (1596-1650) fera de même deux siècles plus tard28. Un homme, fervent disciple de Copernic, contribue à l’ouverture des théories de son maître sur l’infini : Thomas Digges (1546-1595). Le monde clos se transforme en monde ouvert (voir figure 7) ! La différence entre le monde copernicien et le monde astral de Dieu devient essentiellement qualitative.

Figure 7 | L’Univers de Digges (source : Wikipedia)

À la même époque, mais à Rome, Giordano Bruno (1548-1600) proclame que Dieu ne peut s’expliquer que dans un monde infiniment étenduV. Ses écrits lui sont fatals : l’Inquisition le condamne à être brûlé vif pour ses idées. Si Lucrèce imagine un vide infini, Bruno voit plutôt son espace infini rempli d’« éther ». Le combat pour l’infini connaîtra encore des épisodes par la suite29 avec tout particulièrement l’appui des mathématiciens. 28.  Il qualifie l’Univers d’« interminé », ce qui signifie qu’il n’a pas de limites et n’est pas contenu dans les sphères célestes des modèles considérés jusqu’alors. 29.  Voir Koyré (1973). 69

Des nombres pour construire des données

Il existe deux grandes approches quantitatives de l’infini : l’infini actuel et l’infini potentiel. Prenez un nombre entier quelconque, par exemple un. Ajoutez-lui sa moitié, puis son quart, puis son huitième et ainsi de suite : 1+1+1+1+… 2 4 8 Les points de suspension nous font comprendre qu’on est parti pour faire une infinité d’ajouts. Si on pouvait le faire, on parlerait d’infini actuel, « en actes ». Aristote refusait cette approche et l’Église du Moyen Âge fit de même. Par contre, Aristote admettait l’existence d’un infini potentiel : « Les mathématiciens n’ont pas besoin de l’infini et ne l’utilisent pas ; ils ont simplement besoin d’une grandeur finie, choisie aussi grande qu’ils le veulent ». L’infini potentiel a gain de cause jusqu’à la Renaissance et l’un des premiers à revenir sur l’infini actuel est Gottfried Wilhelm Leibniz (1646-1716). Ce retour est consolidé par Bernhard Placidus Johann Nepomuk Bolzano (1781-1848), dans son ouvrage posthume Les paradoxes de l’infini, et finalement précisé de manière rigoureuse par Georg Ferdinand Ludwig Philipp Cantor (1845-1918). C’est à partir de son œuvre qu’on distingue deux infinis : le dénombrable et le non dénombrable. La séparation rigoureuse entre ensembles discrets et continus est alors mise sur les rails… Les grands nombres ont toujours fasciné l’être humain, qui ne s’est jamais senti tout à fait à l’aise parmi eux. Il en a souvent même un peu peur. Pour les maîtriser, il faut disposer d’outils appropriés. Si on considère l’histoire des nombres30, on se rend compte que la notion de « grand » a évolué au cours du temps : « plusieurs » aux temps préhistoriques, « un million » chez les Égyptiens pour arriver à l’infini bien plus tard.

30.  Voir Ifrah (1994) ou Droesbeke et Vermandele (2016). 70

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Des nombres pour construire des données

Dans le monde des données numériques qui est le nôtre, il est clair que l’argument d’Aristote en faveur de l’infini potentiel est pertinent pour la plupart d’entre nous, dans la vie de tous les jours. Mais la difficulté de l’approcher concrètement est toujours réelle, même si les mathématiciens nous ont donné des outils pour nous aider à y parvenir. Nous pensons qu’à présent la lectrice et le lecteur ont bien compris toute l’importance de nuancer l’interprétation d’une donnée numérique en tenant notamment compte des caractéristiques des nombres utilisés pour représenter sa valeur. Il est temps à présent de retrouver le début de notre petite histoire des données numériques en nous concentrant d’abord sur l’une des premières actions qui en a produites : le dénombrement.

71

3 Combien y en a-t-il ?

« C’est pas parce qu’ils sont nombreux à avoir tort qu’ils ont raison ! » Michel Colucci, dit Coluche (1944-1986) Pensées et anecdotes

Ce troisième chapitre a pour but d’illustrer les sujets suivants : – Il existe des méthodes de dénombrement très utiles et parfois surprenantes. – On peut vite se retrouver au pays des grands nombres et s’y sentir mal à l’aise. – Certaines techniques de dénombrement ne sont pas tout à fait au point.

73

Combien y en a-t-il ?

3.1 DES POÈMES POUR « PAS CHER » Compter le nombre d’individus dans un groupe est a priori simple si ce dernier est petit. Dans le cas contraire, il faut recourir à des moyens humains et financiers plus ou moins importants (comme dans le cas d’un recensement). Certains dénombrements ont été facilités par les progrès des mathématiques. À titre d’exemple, quand on désire connaître le nombre de paires, de triades… que l’on peut former à partir des éléments d’un groupe d’individus ou d’objets, on peut recourir à des méthodes combinatoires bien utiles.

Pour dénombrer un ensemble d’individus, d’objets ou de situations possibles, il existe plusieurs méthodes. Nous avons déjà évoqué la première qui consiste à compter ces individus en les identifiant tous. C’est le principe du recensement. Il en est une autre qui repose sur les propriétés mathématiques du dénombrement à réaliser. L’exemple le plus connu est fourni par les méthodes d’analyse combinatoire que nous évoquerons dans ce paragraphe car il nous permettra de retrouver la problématique des grands nombres dont nous avons déjà parlé dans le chapitre précédent. Prenons un petit exemple classique pour introduire une méthode combinatoire bien connue. « Comment peut-on décrire la composition possible des familles de deux enfants ? ». Si nous tenons compte de l’ordre dans lequel les deux enfants peuvent naître, en utilisant la notation (premier enfant, deuxième enfant), il y a quatre situations différentes possibles représentées par les couples (Fille, Fille), (Fille, Garçon), (Garçon, Fille), (Garçon, Garçon). On peut simplifier ce dénombrement en utilisant la règle du produit bien connue des mathématiciens : multiplier le nombre de possibilités pour le premier enfant (il y en a deux) par le nombre de possibilités pour le second (il y en a aussi deux). Une façon intéressante de procéder pour comprendre cette règle quand il y a deux étapes consiste à construire le tableau 1 dans lequel 74

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Combien y en a-t-il ?

Tableau 1 | Règle du produit

2e enfant → 

F

G

F

FF

FG

G

GF

GG

1er enfant ↓

les lignes correspondent aux possibilités de la première étape et les colonnes à celles de la seconde. Nous y avons représenté par la lettre F le fait d’avoir une fille et par la lettre G celui d’avoir un garçon. Cette règle est très utile dans la pratique. En voici une application amusante tirée de l’œuvre de Raymond Queneau (1903-1976) et intitulée Cent mille milliards de poèmes. Ce recueil de poésie permet de composer des sonnets constitués, comme il se doit, de quatorze alexandrins, dont celui-ci : « Lorsque tout est fini lorsque l’on agonise Lorsque le marbrier astique nos tombeaux Sur la place un forain de feu se gargarise Il donne à la tribu des cris au sens nouveau Le cheval Parthénon frissonnait sous la bise Les gauchos dans la plaine agitaient leurs drapeaux Nous regrettions un peu ce tas de marchandises Lorsque vient le pompier avec ses grandes eaux La Grèce de Platon à coup sûr n’est point sotte Le chat fait un festin de têtes de linotte Le chemin vicinal se nourrit de crottin Frère je te comprends si parfois tu débloques Tu me stupéfies plus que tous les ventriloques Toute chose pourtant doit avoir une fin ». 75

Combien y en a-t-il ?

Comment l’avons-nous « composé » ? Pour chaque vers, nous avons choisi « au hasard »31 quatorze nombres dans l’ensemble des dix nombres entiers 0 (qui représente le nombre 10), 1, 2, 3, 4, 5, 6, 7, 8 et 9. La série de nombres que nous avons obtenue en écrivant ces lignes est 0098 2134 299 780. Il suffit alors de prendre l’ouvrage de Queneau composé de quatorze paquets de dix languettes qui contiennent chacune un alexandrin se terminant par la même rime (voir figure 8) et de repérer celles qui correspondent à ces chiffres (dixième languette pour le premier et le deuxième vers, neuvième languette pour le troisième vers, huitième languette pour le quatrième vers…).

Figure 8 | Cent mille milliards de poèmes

Il est de bon ton, après avoir déclamé votre poème, de sortir cet ouvrage de votre serviette et de dire négligemment : « Et si vous le désirez, j’en ai encore ici quatre-vingt-dix-neuf mille neuf cent quatrevingt-dix-neuf milliards neuf cent quatre-vingt-dix-neuf millions 31.  À notre époque, tout le monde peut accéder à un générateur de nombres aléatoires. 76

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Combien y en a-t-il ?

neuf cent quatre-vingt-dix-neuf mille neuf cent quatre-vingt-dix-neuf autres ! ». Croyez-nous ! Vos interlocuteurs seront bien attentifs quand vous leur prouverez qu’avec les dix choix possibles offerts par Queneau, pour chaque alexandrin du sonnet, et présentés sur des languettes en carton séparables les unes des autres, le nombre de sonnets que vous pouvez composer est égal, selon la règle du produit énoncée ci-dessus, à : (10 × 10 ×10 × 10) × (10 × 10 × 10 × 10) × (10 × 10 × 10) × (10 × 10 × 10) = 1014.

Le nombre de possibilités est donc égal à cent mille milliards. Votre victoire sera encore renforcée si vous récitez l’avant-dernier paragraphe du mode d’emploi de l’ouvrage : « En comptant 45 secondes pour lire un sonnet et 15 secondes pour changer les volets, à 8 heures par jour, 200 jours par an, on a pour plus d’un million de siècles de lecture, et en lisant toute la journée 365 jours par an, pour 190 258 751 années plus quelques plombes et broquilles (sans tenir compte des années bissextiles et autres détails) ». Ce résultat risque de surprendre vos interlocuteurs. Rien ne vous empêche d’ajouter que l’achat de ce livre peut leur procurer de très nombreuses heures de lecture pour un prix qui va vite leur apparaître comme tout à fait raisonnable.

3.1 EN ROUTE VERS LE PAYS DES GRANDS NOMBRES Les techniques de dénombrement ont accéléré le processus de confrontation aux grands nombres, parfois de manière surprenante.

L’exemple des Cent mille milliards de poèmes de Raymond Queneau illustre un fait réel : l’être humain n’est pas habitué à utiliser des 77

Combien y en a-t-il ?

nombres très grands. Imaginer la capacité d’un stade ou estimer la population d’une ville nous rattache encore à des « objets » que nous voyons. Mais quand on vous dit que le cerveau humain peut comporter jusqu’à cent milliards de neurones, cela devient plus abstrait. Et ce problème n’est pas nouveau… On raconte qu’il y a cinq mille ans environ, le roi des Indes, Belkib, promit une forte récompense à celui qui lui proposerait une distraction qui le satisfasse. Un homme sage, du nom de Sissa, lui présenta le jeu d’échecs. Le souverain fut ravi de cette nouveauté et proposa à Sissa de lui donner ce qu’il voulait en échange de ce cadeau extraordinaire. Tout le monde sait qu’un échiquier est composé de 64 cases. Sissa demanda au prince de déposer un grain de riz sur la première case d’un échiquier, deux sur la deuxième case, quatre sur la troisième, et ainsi de suite, pour remplir l’échiquier en doublant la quantité de grain à chaque passage d’une case à la suivante. Le prince accepta cette demande sans hésiter, au grand dam de ses conseillers. Le tableau 2 nous montre pourquoi la réaction de ces derniers était sensée. Regardez ce tableau et plus particulièrement la dernière case de l’échiquier. Qu’y voyez-vous ? Vous n’avez pas rêvé ! Cette case est en effet destinée à recevoir : 263 grains = 9 223 372 036 854 775 808 grains, soit plus de neuf milliards de milliards de grains ! Si en outre, on fait la somme des 64 nombres contenus dans cette figure, on constate que l’échiquier doit recevoir plus de 18 milliards de milliards de grains. Il vous suffit de connaître le nombre approximatif de grains de riz par kilo et la production annuelle de riz dans le monde depuis l’époque où ce roi vivait, pour calculer le temps qui aurait été nécessaire au roi pour récompenser Sissa. 78

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Combien y en a-t-il ?

Tableau 2 | L’échiquier de Sissa

1

2

4

8

16

32

64

27 = 128

256

512

1 024

2 048

4 096

8 192

16 384

215 = 32 768

216

217

218

219

220

221

222

223

224

225

226

227

228

229

230

231

232

233

234

235

236

237

238

239

240

241

242

243

244

245

246

247

248

249

250

251

252

253

254

255

256

257

258

259

260

261

262

263

Un autre exemple lié à la taille des puissances de 2 est interpellant. Nous le reprenons d’une rubrique de Jean Célestin, publiée dans la lettre d’information de Pénombre de mai 2014, à propos de cette affirmation : « Ne sommes-nous pas tous descendants de Charlemagne ? ». Le raisonnement de base suivi pour éclairer cette question est le suivant. Chacun de nous a deux parents. Il a aussi, en principe, quatre grands-parents (éliminons les situations scabreuses), huit arrières grands-parents… En remontant de n générations (n = 1, 2, 3…), le nombre d’aïeux faisant partie de cette classe démographique est égal au produit de n facteurs égaux à 2, appelé la n-ième puissance de 2 et notée 2n. Admettons un intervalle moyen entre générations de trente 79

Combien y en a-t-il ?

ans. Pour remonter à l’époque de Charlemagne, il y a environ mille deux cents ans ; il faut donc remonter de quarante générations. Le nombre de personnes de cette époque que chacun peut considérer comme un (ou une) aïeuil(le) est donc égal à la quarantième puissance de 2. Prenez votre calculette : cela fait… 1 099 511 627 776 d’individus – près de mille cent milliards de personnes – ce qui dépasse de très loin la population de l’époque. Si on prend un intervalle moyen entre générations de 25 ans, plus proche de la réalité dans le passé, le nombre d’individus de la quarante-huitième génération qui nous précède est égal à 281 474 976 710 656. Ce nombre de plus de deux cent quatre-vingt mille milliards d’individus est encore plus impressionnant ! Même si les couples implexes – ces unions entre cousins germains – modifient quelque peu ce calcul, la conclusion est très claire : « les habitants de l’empire carolingien sont [plusieurs fois] ancêtres de chacun d’entre nous », et donc en particulier Charlemagne ! Et comme le souligne l’auteur de cette rubrique, « il y eut certainement quelques croisés descendants de l’empereur qui ont fait souche outre-Méditerranée pour que des immigrés en provenance de ces régions soient aussi en partie charlemagnisés ». Même si le choix d’un conjoint n’est pas assimilable à une opération purement mathématique, ce petit calcul nous fait voir notre histoire familiale, et l’histoire de nos pays, sous un aspect surprenant, n’est-il pas ? Remarquons que la notion de grand nombre dépend du contexte dans lequel il est utilisé. Il n’est pas nécessaire d’avoir beaucoup de chiffres avant la virgule pour être qualifié de « grand ». Connaissezvous le prix Ig Nobel ? Il s’agit d’un prix parodique organisé par le magazine scientifique humoristique The Annals of Improbable Research et décerné chaque année depuis 1991. L’objectif de ce prix est de « récompenser les réalisations qui font d’abord rire les gens, puis les font réfléchir ». Beau programme, en vérité ! L’un d’eux, décerné en 1993, concerne un article publié dans The New England Journal of Medicine (volume 329, numéro 10, pages 673-682) : il est signé par… 80

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Combien y en a-t-il ?

976 auteurs ! L’intitulé du prix est d’ailleurs tout à fait explicite : « Pour avoir publié un article de recherche médicale qui a cent fois plus d’auteurs que de pages ». Voilà un nombre de trois chiffres qui nous semble bien grand. Il en est de même pour un autre nombre de la même catégorie, intervenant dans un article primé en 2015. Le prix de mathématiques a été décerné à Elizabeth Obersaucher et à Karl Krammer, « Pour avoir tenté d’utiliser des techniques mathématiques pour déterminer comment le roi « sanguinaire » du Maroc Moulay Ismaïl a pu engendrer 888 enfants entre 1697 et  1727 ». Remarquez que ce nombre est inférieur à ceux que l’on peut trouver çà et là, qui évoquent plutôt une descendance de 1 050 à 1 150 enfants. Ce ne fut pas facile pour l’héritage ! Si cela vous intéresse, consultez le site de ce prix : http://improbable.com. À partir d’un certain seuil, qui varie d’un individu à l’autre, la compréhension de ce que vaut réellement un grand nombre dépasse l’entendement de la plupart d’entre nous. Prenons un exemple : notre galaxie, la Voie lactée, contient près de deux cent milliards d’étoiles. En chiffres, cela fait 200 000 000 000. Le nombre de planètes potentiellement habitables est estimé à cent millions. Si vous ajoutez à cela que l’Univers « connu » contient de cent à deux cents milliards de galaxies… Pensez-vous que vous êtes à même de gérer ce type d’information sans problème ?

3.3 COMMENT FAIRE DISPARAÎTRE QUINZE MILLIONS DE PERSONNES On est souvent amené à réaliser des estimations qui évitent des comptages difficiles ou impossibles à réaliser. Certaines d’entre elles peuvent être précises, mais beaucoup d’autres ne le sont pas.

Regardez la figure 9. Elle concerne un problème actuel important : la sécurité routière. En France, le décompte des tués sur la route 81

Combien y en a-t-il ?

Figure 9 | Évolution du nombre de tués sur la route en France de 1996 à 2015

« à trente jours » – c’est-à-dire décédés sur le coup ou dans les trente jours qui suivent un accident – préconisé par l’Europe dès 1960, est un des facteurs principaux qui permettent de caractériser l’évolution de la sécurité routière au niveau national et de faire des comparaisons internationales. En principe, ce dénombrement doit donner lieu à des valeurs correctes, vu la définition du concept. C’est ainsi que la figure 9 – tirée d’un article de Jean Orselli, publié en 2016 et reproduite avec l’autorisation de la revue Statistique et Société – permet de disposer d’un outil de travail que l’on peut qualifier de « fiable » pour apprécier l’évolution du nombre de tués sur les routes de France32. Il n’en est pas de même si on s’intéresse au nombre de blessés suite à un accident de la route, parmi lesquels on peut distinguer les blessés « graves », généralement hospitalisés, de ceux qui sont considérés comme « légers ». Le dénombrement devient ici beaucoup plus incertain et donne lieu à des techniques d’estimation diverses, très

32.  Dans ce graphique, une année est glissante quand elle est considérée de date à date (par exemple du 1er juillet au 30 juin) ; elle est calendaire du 1er janvier au 31 décembre. 82

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Combien y en a-t-il ?

intéressantes d’un point de vue statistique mais sujettes à discussions, voire à polémiques33. Un autre exemple bien connu nécessite aussi le recours à des estimations : le comptage de manifestants. Qui n’a pas été surpris de constater que le nombre de manifestants mentionné par les organisateurs était deux à trois fois supérieur à celui publié par les services de police ! Il est vrai que le phénomène ne permet pas de procéder comme s’il s’agissait d’un recensement. Une foule se déplace à un rythme plus ou moins rapide, dans des rues plus ou moins larges, les individus qui la composent étant parfois serrés les uns contre les autres, parfois pas, et cela pendant des durées qui varient. Trois facteurs interviennent clairement : l’espace, le temps et la densité du cortège. On a beau avoir des « compteurs » professionnels, il faut souvent passer par des procédures qui rappellent la technique du multiplicateur (voir le premier chapitre). Les polémiques engendrées par des comptages distincts ont donné lieu en France à des études d’experts et des comparaisons de procédures34. La manière statistique de procéder est à présent communément acceptée, mais la vraie question n’est pas là. L’important est de savoir à quoi servent ces comptages35. Selon l’enjeu qu’ils représentent, vous aurez tendance à lire les estimations publiées avec un œil critique ou complaisant. Cette manière statistique de prouver qu’on est pour ou contre une loi, une politique ou une conviction, nécessite-t-elle vraiment un souci de précision dans ces comptages qui, d’ailleurs, ne se font pas partout dans le monde ? L’une des grosses difficultés de ce type d’estimation est certainement d’éviter des erreurs trop grossières. Elles peuvent être le résultat d’une méthodologie douteuse ou d’une volonté politique de sousévaluer ou de surévaluer une réalité. Elles peuvent aussi être dues 33.  Voir Laumon (2016) et Machu (2016). 34.  Voir, par exemple, Muller (2015). 35.  Voir aussi Suesser (2015). 83

Combien y en a-t-il ?

à d’autres raisons. La petite histoire suivante nous incite à être très prudents quand on rencontre une estimation. En 1885, Henry Morton Stanley (1841-1904) publie The Congo and the founding of his free state dans lequel il raconte ses missions pour Léopold II, roi des Belges. Il se rend compte qu’il lui est absolument nécessaire d’y mentionner une estimation du nombre d’habitants de ce nouvel État et, pour y arriver, il recourt, probablement sans le savoir, à la méthode du coefficient multiplicateur. Il estime dans son ouvrage avoir observé environ 806 000 habitants sur les rives situées de part et d’autre du fleuve Congo et de certains de ses affluents sur lesquels il a navigué. Après avoir calculé que ces rives s’étendent sur 2 030 miles, il émet une hypothèse de travail selon laquelle les habitants qu’il a observés proviennent d’un village situé au maximum à 10 miles de la rive. Connaissant la superficie totale du pays, une petite règle de trois lui fait écrire que la population totale est de 42 608 000 habitants. Ce nombre rond devient « la » référence pour les spécialistes, surtout anglo-saxons. Cet ouvrage est traduit en français par Gérard Harry à Bruxelles, au siècle suivant. Sans être un grand mathématicien, ce dernier s’aperçoit d’une petite erreur de calcul de Stanley. Pour arriver aux 2 030 miles que représente la longueur des rives où se trouvaient les populations locales, il a simplement multiplié par 2 (il y a en effet 2 rives de part et d’autre d’un cours d’eau) la distance totale parcourue par son bateau : 1 515 miles. Harry se rend compte que 2 fois 1 515 ne vaut pas 2 030 mais bien 3 030. Et comme le dit si gentiment Stengers, en 2007 : « discrètement, sans un mot d’avertissement au lecteur, le traducteur rectifie le calcul de Stanley pour aboutir ainsi à une population de 27 694 000 habitants », ce deuxième chiffre devenant dès lors la référence dans les pays de langue française. De nombreux ouvrages ont cité ces estimations, parfois la première, parfois la seconde selon qu’on avait lu la version originale du livre de Stanley ou sa traduction. L’histoire aurait pu rester anecdotique si en 1999 n’avait paru un best-seller d’Adam Hochschild dont le titre est évocateur : Les fantômes du roi Léopold II. 84

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Combien y en a-t-il ?

Un holocauste oublié. Un document filmé a même été tiré de ce dernier, produit par la BBC et diffusé sur les petits écrans avec un certain succès. L’effet aurait peut-être été moins ravageur si la différence entre population en 1885 et population au début du xxe siècle n’avait pas été basée sur l’estimation initiale de Stanley ! Il faut reconnaître que la disparition de près de quinze millions d’habitants due à une erreur de multiplication, ce n’est pas si fréquent !

Ah ! Les erreurs. Voilà un sujet captivant quand on s’intéresse aux données numériques ! On peut en commettre de natures très diverses. Elles peuvent être « naturelles », dues à l’imprécision d’un instrument de mesure ; elles peuvent être liées au mauvais choix d’une méthode d’analyse, d’une hypothèse de travail… ; elles peuvent aussi être dues à ceux qui sont chargés d’examiner des données. Ce sont souvent les plus ridicules ! Un fait est certain : elles ont joué et jouent encore un rôle majeur dans l’histoire et le traitement des données. Cela mérite que l’on regarde cette question d’un peu plus près… 85

4 Erreur ? Vous avez dit erreur ? N’est-ce pas une erreur ?

« L’erreur agite ; la vérité repose. » Joseph Joubert (1754-1824) Pensées

Ce quatrième chapitre a pour but d’illustrer les sujets suivants : – Sans données, une erreur peut en chasser une autre. – C’est compliqué d’avoir des données précises. – Des données peuvent aussi être difficiles à obtenir. – Quand tout va bien, les erreurs ont des lois, elles aussi.

87

Erreur ? Vous avez dit erreur ? N’est-ce pas une erreur ?

4.1 SANS DONNÉES, UNE ERREUR PEUT EN CHASSER UNE AUTRE « Pour pouvoir utiliser des données numériques, il faut en posséder », aurait dit Monsieur de la Palisse. Mais que faisait-on dans le passé quand on ne disposait pas ou peu de données numériques pour étudier un problème, quel qu’il soit ? Dans ce cas, seule l’imagination et l’observation qualitative pouvaient être mises à contribution pour se représenter la réalité – ce qu’on appelle en jargon scientifique « modéliser ». Une première erreur à laquelle tout le monde peut être confronté consiste à choisir un mauvais modèle.

Nous l’avons déjà dit : plusieurs types d’erreurs peuvent intervenir quand on étudie un problème. Le premier d’entre eux sur lequel nous voulons attirer l’attention de la lectrice et du lecteur consiste à proposer un modèle non approprié pour représenter une réalité. Cela peut advenir, que l’on dispose ou non de données, mais a plus de chances de se produire dans le second cas. Nous illustrerons cela au moyen d’une des histoires les plus emblématiques de l’histoire des modèles. Les premières observations liées à l’astronomie ont eu pour objectif de répondre à des questions importantes pour l’être humain : Comment s’articule l’Univers ? Quelle est la forme de la Terre ?… Dans l’Antiquité, les données numériques permettant de donner des réponses sont pratiquement inexistantes. La seule manière de procéder est d’observer l’environnement et l’espace, information essentiellement qualitative, et d’en déduire des modèles, c’est-à-dire des représentations de la réalité. Nous en avons déjà parlé dans le chapitre 2 à propos du remplacement du modèle de l’univers géocentrique par le modèle héliocentrique, avec pour toile de fond la recherche de l’infini. Complétons cette problématique par une autre, tout aussi célèbre : la recherche de la forme de la Terre – encore appelée figure de la Terre. Nous savons (presque) tous aujourd’hui que la Terre a la forme d’un 88

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Erreur ? Vous avez dit erreur ? N’est-ce pas une erreur ?

ellipsoïde aplati aux pôles. Et pourtant, ce modèle a été précédé par beaucoup d’autres, tous aussi faux les uns que les autres ! Remontons le temps, si vous le voulez bien. Dès le vie siècle avant notre ère, les philosophes grecs, qui ne connaissent que la Méditerranée et son environnement, s’interrogent sur la forme et l’étendue de notre planète : « Qu’y a-t-il derrière ce que l’on voit ? Jusqu’où s’étend le sol sur lequel on vit ? Sur quoi repose la Terre ? » Le premier modèle proposé est bien connu : la Terre est supposée plate, de la forme d’un disque, entourée par le fleuve Océan et recouverte d’un ciel en coupole hémisphérique (voir figure 10). Il est complété par le modèle dont nous avons déjà parlé : la Terre est au centre de l’univers. Ces modèles – qu’on peut aussi qualifier d’hypothèses – sont suggérés par le mouvement des astres qui décrivent des arcs de cercles au cours de la journée et de la nuit.

Figure 10 | La Terre au

vie

siècle avant notre ère (source : Wikipedia)

Considérons la dernière question posée ci-dessus : « Sur quoi repose la Terre ? ». Plusieurs solutions ont été imaginées pour y répondre : sur un pilier invisible, sur l’eau, comme le pensait Thalès (± 625 à 547 89

Erreur ? Vous avez dit erreur ? N’est-ce pas une erreur ?

avant notre ère), ou encore sur l’air, hypothèse d’Anaximène (± 585 à 525 avant notre ère). À l’époque, on ne dispose pas encore de données suffisantes pour répondre à ces questions ; on se contente d’imaginer des explications qui semblent plausibles. Anaximandre de Milet (± 610 à 546 avant notre ère) propose un modèle plus élaboré. Il imagine une Terre immobile, en équilibre au centre d’un ciel entièrement sphérique. Les astres peuvent ainsi passer sous la Terre et recommencer chaque jour leur course céleste autour de notre planète, sans jamais l’interrompre. La forme de la Terre est celle d’un cylindre, comme une colonne de pierre tronquée, dont seule la face supérieure est habitée. Ce modèle est un peu plus sophistiqué que les précédents, ce qui ne l’empêche pas d’être aussi erroné qu’eux ! Un nouveau modèle de la figure de la Terre voit le jour et chasse les autres : la Terre est sphériqueVI. Son existence sera plus longue. Parmi ceux qui défendent ce principe, il faut citer Parménide d’Élée (fin du vie siècle avant notre ère – milieu du ve siècle) – le premier à affirmer que la Terre est sphérique et située au centre de l’Univers – mais aussi Platon (428 à 348 avant notre ère) pour qui la forme des éclipses de Lune montre que l’ombre de la Terre projetée sur son satellite est circulaire. Aristote (± 384 à 322 avant notre ère) soutient aussi cette vision mais pour d’autres raisons. Il n’est pas inutile de rappeler que ce modèle est repris, au iie siècle de notre ère, par Claude Ptolémée (100-168). Tout le monde sait qu’il sera remplacé, au xvie siècle, par celui de Nicolas Copernic (14731543). Ce qu’on connaît moins, ce sont les modèles alternatifs nés dans l’intervalle, dont celui de Buridan, assez curieux ! Jean Buridan (1292-1363) est un philosophe français, considéré comme l’instigateur du scepticisme religieux en Europe. Il s’intéresse aussi à l’astronomie et développe ses idées dans ses Questions sur le traité du ciel et surtout dans ses Questions sur les météores. Nous sommes au début du xive  siècle. À cette époque, trois quarts de la surface terrestre sont encore inexplorés ! 90

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Erreur ? Vous avez dit erreur ? N’est-ce pas une erreur ?

Une question préoccupe notre homme : « La Terre est sphérique, nous sommes d’accord ! Mais quelle est la part recouverte par l’eau et celle qui ne l’est pas ? ». Il fait état de ses idées à ce sujet : « Il y a [...] trois grandes opinions. Certains admettent qu’un quart seulement de la Terre est habitable ou quasi habitable ; d’autres, au contraire, prétendent que d’autres quartiers de la Terre sont habitables [...]. Les partisans de cette opinion disent donc que la Terre et l’eau sont toutes deux concentriques au Monde [...]. Il y a une autre opinion. Dieu et la nature ont ordonné de toute éternité que l’eau fut excentrique au Monde. Le centre de la Terre serait donc le centre du monde, mais le centre de l’eau serait hors du centre du Monde – voir figure 11. [...] Ainsi une partie de la Terre, qui en est à peu près le quart, peut demeurer à sec, tandis que les autres quartiers sont recouverts par l’eau. » On comprend bien pourquoi Buridan est plus connu pour son « paradoxe de l’âne »36 que pour ses idées liées à l’astronomie !

Figure 11 | Les sphères de Buridan

36.  Le célèbre « paradoxe de l’âne de Buridan » est une légende selon laquelle un âne serait mort de faim et de soif entre un seau d’eau et un picotin d’avoine, ne parvenant pas à choisir par quoi commencer : boire ou manger ! 91

Erreur ? Vous avez dit erreur ? N’est-ce pas une erreur ?

« Cette fois, on tient le bon modèle », ont sûrement proclamé certains contemporains de Copernic ! « Le Soleil est au centre de notre monde, la Terre est ronde et, comme les autres planètes, elle tourne autour du Soleil ». Ce n’est pourtant pas ce qu’ont pensé tous les scientifiques du xvie siècle, y compris parmi les astronomes. Prenons le cas de Tycho Brahé (1546-1601). Il est tout à fait intéressant car ce dernier est un fournisseur de données nombreuses pour l’époque. Ce personnage, de nationalité danoise, appartient à la plus ancienne noblesse du royaume du Danemark. Sa richesse personnelle et le soutien du roi Frédéric II du Danemark lui permettent de construire un observatoire sur l’île Hveen que ce monarque lui a donnée. Grâce à l’achat de nombreux instruments d’observation, il recueille de multiples données – relativement précises pour l’époque – dans ce haut lieu de l’observation astronomique qui prend pour nom Uranibourg. Tycho Brahé y travaille pendant dix-sept ans avant de passer en Allemagne où, avec l’aide de Kepler (1571-1630) et d’autres collaborateurs, il poursuit ses études, dont celles consacrées à la planète Mars sont restées célèbres (ces études seront utilisées par Kepler pour établir ses trois lois fondamentales). Voilà un homme qui dispose enfin de nombreuses données (nous en reparlerons), mais il ne les utilise pas à bon escient. Il émet en effet des réflexions théoriques dont le géocentrisme n’est pas tout à fait banni. Il suffit pour s’en convaincre d’examiner son modèle de rotation des astres. Bien qu’influencé par les idées de Copernic, il ne peut pas faire complètement abstraction des théories antérieures. C’est ainsi qu’il prône un système géo-héliocentrique dans lequel la Terre est toujours immobile au centre de l’Univers, la Lune et le Soleil tournant autour d’elle, alors que les planètes et les corps célestes tournent autour du Soleil. Il meurt à Prague en 1601, convaincu d’avoir raison. C’est bien la preuve que la construction d’un modèle peut avoir des ratés même quand on dispose de données ! Depuis l’Antiquité, des modèles de représentation de la Terre se sont donc succédé, certains moins faux ou moins farfelus que 92

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Erreur ? Vous avez dit erreur ? N’est-ce pas une erreur ?

d’autres. Nous sommes à présent au xviie siècle. On ne peut cependant pas encore affirmer qu’il n’y a plus d’erreur dans la façon de voir le monde et, en particulier, la Terre. L’hypothèse de sphéricité parfaite de la Terre se trouve en effet en butte aux avancées de la science. Cette situation est due en partie à Kepler qui propose des trajectoires elliptiques pour les planètes autour du Soleil. Et puis des astronomes renommés observent des planètes dont la forme semble plus ellipsoïdale que sphérique. Un des centres d’intérêt de Giovanni Domenico Cassini (dont nous parlerons plus loin) est Jupiter. Cassini avait déjà remarqué, dès 1666, que cette planète était assez fortement aplatie. Cette idée l’inspire pour proposer un nouveau modèle pour la Terre qui va nécessiter de recourir à des données, pratique encore peu usuelle à l’époque, nous l’avons vu. Il faut dire que les instruments de mesure utilisés jusqu’alors étaient peu précis. Mais la situation s’améliore vaille que vaille. De nouvelles méthodes de production de données apparaissent qui améliorent leur fiabilité. C’est à une belle illustration de cette constatation que nous vous convions.

4.2 C’EST COMPLIQUÉ D’AVOIR DES DONNÉES PRÉCISES ! Il arrive fréquemment que les données recueillies soient entachées d’erreurs au moment de leur collecte. Parmi les plus courantes, il faut citer les erreurs d’observation qui peuvent avoir des conséquences importantes sur l’usage des données recueillies. Cela peut être dû à des instruments de mesure défectueux.

Nous illustrerons la difficulté d’obtenir des données fiables en reprenant la question que se sont posée les astronomes quand ils ont cru que la Terre était sphérique : « Quelle est la valeur du rayon terrestre ? ». Dès le ive siècle avant notre ère, des Grecs célèbres tentent d’y répondre. Parmi eux, Ératosthène de Cyrène (273 à 192 avant notre ère) propose une méthode originale donnant une mesure 93

Erreur ? Vous avez dit erreur ? N’est-ce pas une erreur ?

approximative, mais néanmoins pas trop mauvaise, de ce rayon. Comment procède-t-il ? Érathostène a constaté que le jour du solstice d’été, quand le Soleil est au zénith, il envoie ses rayons au fond d’un puits. Cette découverte se passe à Syène, aujourd’hui Assouan, en Égypte. Une autre observation réalisée à Alexandrie dans les mêmes circonstances (solstice d’été, à « midi »…) lui montre que le Soleil n’est plus à la verticale : ses rayons forment avec cette dernière un angle qu’il peut estimer grâce à l’ombre projetée sur le sol par un obélisque (voir figure 12).

Figure 12 | Procédure d’Érathosthène (source : Wikipedia)

Or Alexandrie se situe pratiquement sur le même méridien que Syène – à l’époque, le méridien est supposé être un cercle passant par les deux pôles – mais se trouve plus au nord. Il suffit alors à Érathosthène de « mesurer » la distance entre les deux villes – avec la marche à pied ou sur un chameau, on peut tout mesurer ! – et d’associer angle et distance pour estimer, grâce à un facteur multiplicatif adéquat, le rayon de la Terre. Voilà une bonne idée ! Encore faut-il que les données soient précises ! L’association « angle-distance » a permis de traiter un problème « classique » de l’histoire des sciences : comment mesurer la distance correspondant à un degré de méridien, c’est-à-dire la distance de l’arc correspondant à un angle au centre de la Terre de un degré ? 94

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Erreur ? Vous avez dit erreur ? N’est-ce pas une erreur ?

Cette méthode s’avère très utilisée au cours du temps pour donner une estimation du rayon terrestre. Ainsi, Jean-François Fernel (14971558), médecin d’Henri II, quitte un jour Paris vers le nord jusqu’à un lieu où le soleil possède une hauteur méridienne plus faible d’un degré par rapport à celle de la capitale française. En revenant à Paris dans son coche et en comptant le nombre de tours de roue nécessaires à son retour, il effectue « la » petite multiplication qui lui permet de fournir une estimation du rayon de la Terre (6 337 km). Au xviie siècle, trois résultats obtenus pour la longueur interceptée à la surface de la terre par un degré d’amplitude permettent d’en déduire autant d’estimations du rayon terrestre. Il y a celle du mathématicien Willebrord Snellius (1580-1626) qui propose un rayon de 6 153 km, en 1617, celle de Richard Norwood (1590-1675) qui, à partir de la distance entre Londres et York, propose un rayon de 6 398 km, en 1635 et celle de Giovani Battista Riccioli (15981671), basée sur une méthode de détermination d’angles zénithaux et valant 7 024 km, en 1661. Cette opération permet aussi à JeanFélix PicardVII (1620-1682) d’obtenir un degré de près de 111,22 km (57  064 toises, à l’époque), et de proposer un rayon terrestre de 6 372 km. Il faut reconnaître que ces données sont très différentes les unes des autres ! Les scientifiques sont perturbés par la diversité des mesures de ce rayon et ne savent pas trop comment réagir. Il faudra encore attendre un siècle pour prendre ce problème à bras-le-corps. D’autres histoires de données nous content l’embarras suscité par la diversité de résultats engendrée par des imprécisions d’instruments de mesure. En voici une, tout aussi édifiante que la précédente ! Nous sommes à Paris, en 1666. La jeune Académie royale des sciences, mise en place par Colbert37, estime que le calcul des distances 37.  L’un des premiers souhaits exprimés par Colbert était « … qu’il désirait que l’on travaillât à faire des cartes géographiques de la France plus exactes que celles qui ont été faites jusqu’ici et que la Compagnie prescrivît la manière dont se serviraient ceux qui seraient employés à ce dessein ». 95

Erreur ? Vous avez dit erreur ? N’est-ce pas une erreur ?

entre villes françaises fournit des données beaucoup trop fantaisistes. Picard répond à l’attente de Colbert en recourant à une méthode qui a déjà fait ses preuves auparavant : la triangulation. Son principe repose sur une idée très simple : il est plus facile de mesurer des angles que des distances  ! Il suffit de relier les deux villes dont on veut mesurer la distance qui les sépare par une chaîne de triangles adjacents, c’est-àdire des triangles qui ont des sommets et des côtés communs, comme dans la figure 13. Regardons cette dernière. A

B C E

D

F

G

Figure 13 | Chaîne de triangulation

Figure 14 | La technique de triangulation (source : Wikipedia)

La détermination de la distance entre les villes représentées par les sommets A et G repose sur la possibilité de calculer aisément (et si possible le plus exactement possible) la distance entre la ville A et un endroit facilement accessible B. Cette distance est appelée base de la triangulation. Il suffit alors de choisir un endroit C, accessible visuellement à partir de A et B, de se placer en chacun de ces deux endroits et de mesurer, au moyen d’un théodolite, les angles associés aux sommets A et B pour en déduire celui associé à C ainsi que la longueur des deux autres côtés AC et BC de ce triangle, grâce à des calculs trigonométriquesVIII. On poursuit ce procédé, triangle après triangle, jusqu’à atteindre le point G. La figure 14 présente un dessin 96

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Erreur ? Vous avez dit erreur ? N’est-ce pas une erreur ?

très pédagogique consacré à cette méthode, et réalisé au xvie siècle par Levinus Hulsius (1546-1606). Un homme remarquable étend l’entreprise de Picard : Giovanni Domenico Cassini (1625-1712). Né en Italie, dans le comté de Nice, il fait des études d’ingénieur. Il se tourne vers l’astronomie et travaille à l’observatoire de Panzano de 1648 à 1669. Ses enseignements de géométrie euclidienne et d’astronomie à l’université de Bologne lui procurent une réputation telle que le sénat de cette ville et le Pape lui confient des missions diverses, tant scientifiques que politiques. Colbert le remarque et l’attire à Paris, en 1669, où il se fait naturaliser. La jeune Académie des Sciences lui ouvre les bras et Louis XIV lui offre la direction de l’Observatoire de Paris, charge qu’il occupe à partir de 1671.

Figure 15 | Carte de France des Cassini (source : BNF-Gallica)

97

Erreur ? Vous avez dit erreur ? N’est-ce pas une erreur ?

En 1683 – peu avant la parution des Philosophiæ Naturalis Principia Mathematica de Newton dont nous reparlerons dans la suite – Giovanni Domenico Cassini, assisté par Philippe de La Hire (1640-1718), un disciple de Picard décédé l’année précédente, décide de prolonger la méridienne de ce dernier. La Hire réalise ce travail vers le nord et Cassini l’effectue vers le sud. Ces travaux durent longtemps. Entrecoupés de péripéties diverses, ils se prolongent jusque 1701. Leurs résultats ne sont publiés qu’en 1723 par Jacques Cassini (1677-1756), fils de Giovanni Domenico, qui avait rejoint son père à partir de 1700. Les Cassini père et fils, auxquels viendra s’ajouter le petit-fils de Giovanni Domenico, César, produisent pendant près d’un siècle, par triangulations, un jeu remarquable de cartes de la France. La figure 15 nous en montre un exemple. De nombreuses triangulations sont effectuées à cette époque. Parmi elles, mentionnons celle de la méridienne de Paris (voir figure 16) réalisée, à partir de juin 1792, par les astronomes JeanBaptiste Delambre (1749-1822) et Pierre Méchain (1744-1804), chargés, par décret, de mesurer la méridienne de France entre Dunkerque et Barcelone (soit près de 1 147 km). Ce résultat est utilisé dans un rapport de l’Académie des Sciences du 19 mars 1791 – présenté par Nicolas de Condorcet – préconisant que l’unité de longueur, baptisée mètre, soit basée sur une distance correspondant à une partie de l’arc du méridien terrestre38 : « […] l’on mesure, non pas tout un quart de méridien, mais l’arc de neuf degrés et demi entre Dunkerque et Montjuïc (Barcelone), qui se trouve exactement de part et d’autre du 45e parallèle et dont les extrémités sont au niveau de la mer ». Cette histoire nous montre comment l’amélioration des méthodes et des instruments de mesure permet de réduire les erreurs d’observation. Encore faut-il que ces méthodes soient aisément mises en 38.  Le mètre fut défini officiellement le 26 mars 1791 par l’Académie des Sciences comme étant la dix-millionième partie de la moitié de méridien terrestre (ou d’un quart de grand cercle passant par les pôles), ou encore le dix-millionième de la distance pour aller par le plus court chemin d’un pôle à un point donné de l’équateur. 98

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Erreur ? Vous avez dit erreur ? N’est-ce pas une erreur ?

œuvre, ce qui n’est pas le cas de la petite histoire que nous allons à présent découvrir.

Figure 16 | Triangulation de la méridienne de Paris (Delambre et Méchain) (source : BNF-Gallica)

4.3 DES DONNÉES DIFFICILES À OBTENIR Des difficultés techniques peuvent aussi rendre délicate l’obtention de certaines données.

En ce début de xviiie siècle, Giovanni Domenico Cassini pense que la Terre doit être ellipsoïdale. Son ouvrage, paru en 1723, porte le 99

Erreur ? Vous avez dit erreur ? N’est-ce pas une erreur ?

titre de Traité de la grandeur et de la figure de la Terre. Un débat aux facettes multiples va se dérouler à propos de cette « figure ». L’idée que la Terre n’est pas une sphère parfaite débouche sur une question cruciale qui agite petit à petit le monde scientifique : si la Terre a une forme ellipsoïdale, s’agit-il d’un ellipsoïde allongé ou aplati aux pôles ? Dans le premier cas, la figure 17 indique que la distance du centre de la Terre aux pôles, notée c, est supérieure au rayon a dans le plan de l’équateur. Ce serait le contraire dans le second cas. Pour Cassini, la solution doit être fournie grâce à la mesure d’un « degré de méridien » – rappelez-vous qu’on appelle ainsi la distance de deux points situés sur le même méridien dont les segments de droite qui les relient au centre O forment un angle de un degré – à deux latitudes distinctes. Le degré de méridien entre Paris et Collioure correspond, selon ses calculs et ceux de son fils, à environ 111,91 km (57 097 toises dans les unités utilisées à l’époque), alors que celui qui concerne la distance Paris-Dunkerque vaut la même valeur que celle trouvée par Picard entre Paris et Amiens. Comme Cassini conclut son propos en affirmant : « il paraît avec assez d’évidence que les degrés d’un méridien sont plus grands plus ils sont près de l’équateur et diminuent au contraire à mesure qu’ils s’approchent du pôle », l’énigme est résolue pour lui : la Terre est un ellipsoïde allongé aux pôles ! Oui, mais… Une autre théorie se répand à la fin du xviie siècle, venant de l’autre côté de la Manche. Elle est due à Isaac Newton (1643-1727), exprimée dans cette œuvre majeure de l’histoire des sciences qu’est son ouvrage publié en 1687, intitulé Philosophiæ Naturalis Principia Mathematica. Figure emblématique des sciences de cette époque, Newton est reconnu comme fondateur de la mécanique classique et sa théorie de la gravitation universelle bouleverse le paysage scientifique du début du xviiie siècle. Newton considère dans ses Principia que la Terre était à l’origine un fluide dont la masse volumique était constante du centre à la surface et tournant sur elle-même en 24  heures. Si la Terre n’avait 100

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Erreur ? Vous avez dit erreur ? N’est-ce pas une erreur ?

Figure 17 | Ellipsoïde allongé ou aplati ? (source : Wikipédia)

pas son mouvement quotidien, elle serait sphérique à cause de l’égale gravité de ses parties. Mais elle tourne et prend donc une forme ellipsoïdale aplatie aux pôles. Les idées de Newton se propagent lentement39 et se limitent au départ à l’Angleterre. Le premier scientifique français à se frotter aux thèses de Newton est Pierre Louis Moreau de Maupertuis (16981759), lors d’un séjour en Angleterre où il fréquente la Royal Society de Londres. Il est convaincu par les travaux de Newton. De retour à Paris, profitant du fait qu’il est membre de l’Académie des sciences, il décide de diffuser les thèses de ce dernier à travers des mémoires 39.  La première édition des Principia n’est imprimée qu’en 250 exemplaires, en latin. La deuxième édition ne sortira qu’en 1713, cette fois en 750 exemplaires. 101

Erreur ? Vous avez dit erreur ? N’est-ce pas une erreur ?

qu’il publie. Son Discours sur la figure des astres ne va qu’amplifier une polémique qui s’installe entre les partisans des Cassini et ceux convaincus par les travaux de Newton. Le choix du « bon modèle » prend alors une tournure très vive. Pour lever l’indécision sur la figure de la Terre et calmer les élans des uns et des autres, l’Académie décide de trancher la question. Elle propose d’envoyer, sur ordre du roi, deux missions géodésiques chargées de mesurer des arcs de méridien à des latitudes très différentes, l’une près de l’équateur et l’autre près du pôle Nord, pour faciliter les comparaisons. Le secrétaire d’État à la Marine, Jean-Frédéric Phélypeaux, comte de Maurepas (1701-1781), se charge de contacter l’Espagne et la Suède pour faciliter les expéditions. La première expédition débute en 1735 ; elle a pour cadre le Pérou. Elle est dirigée par celui qui avait eu l’idée de l’opération, l’astronome Louis Godin (1704-1760). Il est accompagné par le mathématicien Pierre Bouguer (1698-1758), le chimiste et géographe Charles-Marie de La Condamine (1701-1774) ainsi que le naturaliste Joseph de Jussieu (1704-1779). Deux officiers espagnols, désignés par Madrid pour les surveiller, les accompagnent. La deuxième expédition commence en 1736 et se déroule en Laponie sous la direction de Maupertuis. Celui-ci est accompagné du mathématicien Alexis Claude Clairaut (1713-1765), de l’astronome Pierre Charles Le Monnier (1715-1799) et d’un membre correspondant, l’abbé Outhier. L’astronome suédois Anders Celsius (17011744) est chargé par le roi de Suède de les accompagner. L’expédition en Laponie est rondement menée et rapporte ses résultats dès 1737. Leur conclusion est claire : un degré de méridien en Laponie, mesuré à 66° de latitude, vaut 111,95 km (57 438 toises) ; il est donc plus grand que celui mesuré en France (± 57 030 toises = 111,15 km). Pour Maupertuis, la conclusion est claire : la Terre est effectivement aplatie aux pôles. Les mesures de la méridienne de France, bien qu’effectuées avec soin par Cassini et ses adjoints devaient être erronées. 102

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Erreur ? Vous avez dit erreur ? N’est-ce pas une erreur ?

La mission de Laponie ne clôt pas les débats car les partisans de l’allongement de la Terre vers les pôles ne veulent pas renoncer à leur conviction. En 1740, César-François Cassini de Thury (1714-1784) – fils de Jacques, ce qui justifie son appellation de Cassini III – et l’abbé Nicolas Louis de La Caille (1713-1762), astronome de son état, effectuent une nouvelle mesure de la méridienne de France et constatent que les degrés vont bien en augmentant vers le nord. De son côté, l’expédition au Pérou, bien que partie plus tôt que celle de Laponie, n’atteint Quito qu’en juin 1736. Les conditions de travail ne sont pas les mêmes dans les deux régions. Si les montagnes andines sont superbes, leur accès difficile, les intempéries multiples et un soutien peu fiable de guides et porteurs ne simplifient pas la tâche des expéditionnaires. De plus, la mésentente s’installe entre eux ! Le Procès des Étoiles de Florence Trystram raconte avec beaucoup d’àpropos cette aventure extraordinaire. L’expédition se termine en 1743. Bouguer va de Quito à Cartagène par voie terrestre et gagne la France par la mer, des Antilles à Brest. La Condamine préfère naviguer sur l’Amazone, il rejoint Cayenne où il s’embarque pour Amsterdam et arrive à Paris quelques mois après Bouguer qui ne l’a pas attendu pour informer l’Académie. Godin et Jussieu ne rentreront que beaucoup plus tard. Tout cela n’apaise pas les tensions antérieures mais ils reviennent avec une moisson de résultats scientifiques. Les derniers doutes disparaissent : avec un degré de méridien valant 110,613 km (56 753 toises) mesuré à 1°30’ de latitude, plus court que celui mesuré en Laponie, la Terre est clairement aplatie aux pôles. Que d’efforts pour arriver à choisir entre deux modèles ! Le recours à des modèles est actuellement de plus en plus pertinent dans tous les domaines, même s’ils sont présentés sous une forme différente que dans les siècles passés. À notre époque, de nombreux modèles s’expriment au moyen d’expressions mathématiques et sont imaginés à partir de réflexions théoriques mais aussi de données observées. Par ailleurs, leur validité est aussi testée au moyen de données. 103

Erreur ? Vous avez dit erreur ? N’est-ce pas une erreur ?

La recherche de modèles pour la figure de la Terre ne s’est pas arrêtée au xviiie siècle. Mais c’est avec des péripéties de ce type qu’on se rend compte de l’importance que l’on doit accorder aux erreurs d’observation. Non seulement leur maîtrise est essentielle, mais il faut aussi savoir les réduire, voire les minimiser. C’est à cette tâche que se sont attelés quelques grands scientifiques du siècle des Lumières.

4.4 LES MAÎTRES DE L’ERREUR Une des manières de gérer les erreurs d’observation consiste, depuis le xviiie siècle, à modéliser leur comportement. Il a fallu cependant du temps pour s’apercevoir que, dans de bonnes conditions expérimentales, ces erreurs ne se comportent généralement pas de manière quelconque : elles semblent suivre des « lois » – c’est ainsi qu’on appelle ces modèles – qui ont suscité l’intérêt des scientifiques, et tout particulièrement des astronomes.

Deux manières de traiter des erreurs d’observation ont coexisté pendant de nombreuses années. La première milite pour la recherche d’une bonne mesure, entachée d’une erreur limitée, inférieure à une erreur maximale, acceptable ou en tout cas à craindre. Dans cette optique – défendue par Leonhard Euler (1707-1783) –, prendre en compte d’autres mesures en plus de la bonne ne peut que faire croître l’erreur globale, notamment si l’on utilise les observations les plus mauvaises. Une deuxième approche nous intéresse davantage ici. Elle repose sur l’hypothèse que l’utilisation de toutes les observations permet des compensations dont on peut espérer qu’elles réduisent l’erreur résultante. Tycho Brahé, dont nous avons déjà parlé, est à la source d’une question importante. Contrairement à la plupart de ses prédécesseurs, il a amassé « tellement » de données – de l’ordre de dix à vingt parfois pour un même phénomène – qu’il ne sait pas quelle est la 104

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Erreur ? Vous avez dit erreur ? N’est-ce pas une erreur ?

« vraie ». C’est vers la moyenne arithmétique de ses données que se tourne généralement notre personnage pour trouver une solution à son problème. Vers 1620, Kepler suit la voie tracée par Tycho Brahé en utilisant plusieurs fois la moyenne arithmétique. Néanmoins, les progrès techniques réalisés dans la recherche d’une plus grande précision des instruments de mesure feront encore croire longtemps qu’une « bonne mesure » est suffisante. Cette amélioration des instruments de mesure est essentielle car elle permet aux hommes de s’aventurer sur les mers en s’assurant une meilleure qualité des moyens de se guider. C’est en recherchant des modèles appropriés de distribution des erreurs que de nombreux scientifiques contribueront à la consolidation d’une théorie qui sera qualifiée, en 1765, de théorie des erreurs par Johann-Heinrich Lambert (1728-1777). L’un des premiers à aborder cette question de façon argumentée est Thomas Simpson (1710-1761). Ce tisserand, fils de tisserand, a cultivé sa passion des mathématiques et ses qualités pédagogiques pour intégrer un monde qui le séduit en commençant par dispenser des cours du soir et proposer des solutions élégantes et compréhensibles à des problèmes de mathématiques publiés dans des périodiques populaires. Attiré par de nombreux sujets des mathématiques, il a publié entre 1737 et 1757 onze ouvrages dont le succès commercial et la notoriété soulignent la qualité d’écriture. Simpson publie en 1756 A letter to the Right Honourable George Earl of Macclesfield, President of the Royal Society, on the advantage of taking the mean of a number of observations, in practical astronomy dans les Philosophical Transactions of the Royal Society of London. Cette publication est certes de nature modeste mais elle n’est pas banale pour l’époque. Le souci de Simpson est de montrer qu’une moyenne arithmétique – calculée dans son cas sur six observations – est meilleure qu’une seule observation en supposant connues certaines caractéristiques aléatoires liées aux observations. L’originalité de Simpson est de se concentrer non sur la répartition de ces dernières, mais plutôt 105

Erreur ? Vous avez dit erreur ? N’est-ce pas une erreur ?

sur celle des erreurs de mesure associées à ces observations. Plus précisément, il suppose que les observations sont indépendantes et que chacune d’entre elles est susceptible d’être entachée d’une erreur ayant une distribution symétrique connue. Sans rentrer dans une technicité inutile ici, la façon dont se distribuent des erreurs d’observation peut revêtir pour Simpson divers aspects. Il peut s’agir d’une distribution uniforme, comme dans la figure 18, où les erreurs possibles se répartissent symétriquement autour de zéro, l’« erreur idéale », faisant de cette dernière la moyenne des erreurs possibles. Mais penser que les toutes petites erreurs de mesure ont autant de chance de se produire que celles qui sont plus grandes ne le satisfait pas. S’inspirant de travaux antérieurs d’Abraham de Moivre (1667-1754) sur la distribution de la somme des faces de plusieurs dés, Simpson envisage une distribution triangulaire (voir figure 19) où les erreurs proches de zéro sont plus probables que celles qui sont plus éloignées. Mais l’histoire ne s’arrête pas là ! Vingt ans plus tard, en 1776, Joseph-Louis, comte de Lagrange (1736-1813), rédige un Mémoire sur l’utilité de la méthode de prendre le milieu entre les résultats de plusieurs observations : dans lequel on examine les avantages de cette méthode par le calcul des probabilités ; et où l’on résout différents problèmes liés à cette matière. On y retrouve les résultats de Simpson augmentés de nouvelles lois des erreurs qui constituent autant de nouveaux modèles. Densité de probabilité

Densité de probabilité

0

Erreurs

Figure 18 | Distribution uniforme

106

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

0

Erreurs

Figure 19 | Distribution triangulaire

Erreur ? Vous avez dit erreur ? N’est-ce pas une erreur ?

Peu avant les travaux de Lagrange, Johann Heinrich Lambert (1728-1777) avait consacré une partie de son traité Photometria – publié en 1760 – à l’étude de courbes symétriques autour de zéro, cette dernière valeur étant la plus probable (ce qu’on appelle un mode). Cinq ans plus tard, dans un ouvrage intitulé Beyträge zum Gebrauche der Mathematik und deren Anwendung, il propose même une loi semi-circulaire. C’est dans la préface de ce dernier ouvrage que Lambert introduit l’expression « die Theorie der Fehler » – la théorie des erreurs – qui perdurera par la suite. Toutes les lois des erreurs mentionnées ci-dessus concernent des erreurs comprises dans un intervalle limité. Le premier à proposer une loi où les erreurs n’ont pas de limites imposées est Pierre Simon, marquis de Laplace (1749-1827), qui, en 1774, considère une loi des erreurs appelée « double exponentielle » et rebaptisée « première loi de Laplace » (voir figure 20).

Figure 20 | Distribution double exponentielle

Figure 21 | Loi normale, dite « de LaplaceGauss »

Vient ensuite – ou revient, puisque de Moivre était déjà passé par la loi qu’on appellera normale à la fin du xixe siècle et dont on retiendra surtout qu’elle fut choyée par Laplace et Gauss (voir figure 21). On la nomme aussi le « chapeau de gendarme » à une là40 –

40.  Voir, par exemple, Droesbeke et Tassi (2015). 107

Erreur ? Vous avez dit erreur ? N’est-ce pas une erreur ?

époque où le couvre-chef de ces gardiens de l’ordre public avait l’allure de cette courbe. Cette loi devient une loi de référence à partir du début du xixe siècle, dans de nombreux domaines. Imaginée au départ comme caractérisant le comportement possible d’erreurs d’observation, elle est utilisée ultérieurement dans des domaines très éloignés de l’astronomie, là où les données vont être nombreuses et de nature beaucoup plus diverses, comme nous allons nous en rendre compte. Des résultats d’ordre probabiliste, proposés à l’aube du xixe siècle, donnent à cette loi un statut presque universel, privilégiant dans la foulée l’usage de la moyenne arithmétique comme moyen idéal de synthétiser un ensemble de données et le recours à une méthode statistique que l’on enseignera très vite à ceux qui ont pour mission de traiter des données observées : la méthode des moindres carrés41. Et pourtant, le cours de l’histoire eût pu être tout autre si la première loi des erreurs de Laplace que nous avons évoquée ci-dessus avait été préférée au chapeau de gendarme. La moyenne aurait alors dû céder la place à la médiane, cet autre milieu dont nous allons parler bientôt. Mais les circonstances et les obstacles d’ordre mathématique n’en ont pas décidé ainsi42. La guerre du milieu ne se déclenchera que plus tard !

41.  Voir, par exemple, Droesbeke et Tassi (2015). 42.  Voir, par exemple, Droesbeke, Saporta et Thomas-Agnan, Éds. (2015). 108

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

5 Histoires de « milieu » et de son entourage

« Le juste milieu est le meilleur. » Phocylide de Milet (vie siècle avant notre ère)

Ce cinquième chapitre a pour but d’illustrer les sujets suivants : – La moyenne eut son heure de gloire. – Votre génie peut être localisé grâce à elle. – Il y a plusieurs milieux possibles.

5.1 QU’EN PENSEZ-VOUS, VOTRE ALTESSE ? Au début du xixe siècle, la loi des erreurs donne à la moyenne un rôle central. Adolphe Quetelet (1796-1874) s’en saisit pour analyser des données relatives à des populations humaines. Il se rend ainsi compte qu’une moyenne peut en réalité avoir plusieurs significations. Lisons ensemble ce qu’il en dit dans une des lettres qu’il a écrites…

109

Histoires de « milieu » et de son entourage

« Le gladiateur est sans contredit l’un des plus beaux ouvrages de la sculpture ancienne. C’est avec raison que les artistes ont étudié ses formes nobles et dégagées, et qu’ils ont souvent mesuré les principales dimensions de la tête et du corps, pour en saisir les rapports et l’harmonie. La mesure d’une statue n’est pas une opération aussi facile qu’on le croirait au premier abord, surtout si l’on désire l’obtenir avec une grande précision. En mesurant dix fois de suite la circonférence de la poitrine, on n’est pas sûr de trouver deux résultats identiquement les mêmes. Il arrive presque toujours que les valeurs obtenues sont plus ou moins éloignées de celle que l’on cherche ; et je suppose même les circonstances les plus favorables, celles où l’on n’aurait aucune tendance à prendre des mesures trop grandes ou trop petites. Si l’on avait le courage de recommencer mille fois, on finirait par avoir une série de nombres qui différeraient entre eux selon le degré de précision qu’on aurait mis à les recueillir. La moyenne de tous ces nombres s’écarterait certainement très peu de la véritable valeur. De plus, en classant toutes les mesures par ordre de grandeur, on ne serait pas médiocrement étonné de voir les groupes se succéder avec la régularité la plus grande. Les mesures qui s’écartent le moins de la moyenne générale composeraient le groupe le plus considérable ; et les autres groupes seraient d’autant plus petits, qu’ils contiendraient des mesures plus en désaccord avec cette même moyenne. Si l’on figurait la succession des groupes par une ligne, Votre Altesse a déjà deviné que cette ligne serait la courbe de possibilité – C’est ainsi que l’auteur de ce texte désigne la courbe de la « loi des erreurs » que nous nommons normale à notre époque – ce résultat, en effet, était à prévoir. En sorte que la maladresse, ou le hasard, si nous aimons mieux ce mot pour couvrir notre amour-propre, procède avec une régularité qu’on ne serait guère tenté de lui attribuer. Je suppose maintenant qu’on réunisse les cinq cents mesures qui s’écartent le moins de la moyenne ; la demi-différence qui se trouvera entre la plus grande et la plus petite de toutes ces mesures, sera le module de la précision ou l’erreur probable. Il pourrait se faire que, dans les circonstances actuelles, cette erreur probable ne fût que d’un millimètre ; 110

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Histoires de « milieu » et de son entourage

en sorte que, sur les mille mesures, cinq cents seraient en erreur de moins d’un millimètre, et cinq cents autres seraient en erreur de plus d’un millimètre. On aurait ainsi 1 contre 1 à parier qu’en prenant une nouvelle mesure, on ne s’écarterait pas d’un millimètre de la moyenne de toutes les mesures, laquelle peut être considérée comme la véritable circonférence qu’on voulait apprécier. Si l’on avait à mesurer la poitrine d’une personne vivante au lieu de celle d’une statue, les chances d’erreur seraient beaucoup plus nombreuses ; et je doute fort qu’après mille mesures, on trouvât encore une erreur probable de 1 millimètre. Le seul acte de la respiration, qui fait varier à chaque instant la forme et les dimensions de la poitrine, ajouterait une puissante cause d’erreur à toutes celles qu’on rencontre déjà en opérant sur une statue parfaitement immobile. Malgré ce désavantage, les mille mesures groupées par rangs de grandeur procéderaient cependant encore d’une manière très régulière. La ligne qui les représenterait, serait toujours la courbe de possibilité, mais dilatée dans le sens horizontal, proportionnellement à l’erreur probable. Modifions encore notre hypothèse, et supposons qu’on ait employé un millier de statuaires pour copier le gladiateur avec tout le soin imaginable. Votre Altesse ne pense certainement pas que les mille copies qui auront été faites, reproduiront chacune exactement le modèle, et qu’en les mesurant successivement, les mille mesures que j’obtiendrais seraient aussi concordantes que si je les avais prises toutes sur la statue du gladiateur même. Aux premières chances d’erreur viendraient se joindre les inexactitudes des copistes ; en sorte que l’erreur probable serait peut-être très grande. Malgré cela, si les copistes n’ont pas travaillé avec des idées préconçues, en exagérant ou en diminuant certaines proportions d’après des préjugés d’école, et si leurs inexactitudes ne sont qu’accidentelles, les mille mesures, groupées par ordre de grandeur, présenteront encore une régularité remarquable et se succéderont dans l’ordre que leur assigne la loi des possibilités. Je vois sourire Votre Altesse ; elle me dira sans doute que de pareilles assertions ne me compromettront pas, attendu qu’on ne sera pas disposé 111

Histoires de « milieu » et de son entourage

à tenter l’expérience. Et pourquoi pas ? Je vais peut-être bien l’étonner, en disant que l’expérience est toute faite. Oui vraiment, on a mesuré plus d’un millier de copies d’une statue que je n’assurerai pas être celle du gladiateur, mais qui, en tout cas, s’en éloigne peu : ces copies étaient même vivantes, en sorte que les mesures ont été prises avec toutes les chances d’erreur possible : j’ajouterai de plus que les copies ont pu se déformer par une foule de causes accidentelles. On doit donc s’attendre ici, à trouver une erreur probable très sensible. J’en viens au fait. On trouve dans le 13e volume du journal médical d’Édimbourg, les résultats de 5 738 mesures prises sur les poitrines des soldats des différents régiments écossais. Ces mesures sont exprimées en pouces anglais et groupées par ordre de grandeur, en procédant par différences de 1 pouce. La plus petite mesure est de 33 pouces environ, et la plus grande de 48 ; la moyenne de toutes les mesures donne un peu plus de 40 pouces pour circonférence de la poitrine d’un soldat écossais : c’est aussi le nombre qui correspond au plus grand groupe de mesures ; et, comme la théorie l’indique, les autres groupes diminuent de grandeur à mesure qu’ils s’éloignent de celui-ci ; l’écart probable est de 1 pouce,312 ou 33 mm,34. Je prie Votre Altesse de ne pas perdre de vue cette valeur. Je demande maintenant si ce serait exagérer que de parier 1 contre 1 qu’une personne peu exercée à prendre des mesures sur le corps humain, va se tromper de 33 millimètres environ, en mesurant une poitrine de plus d’un mètre de circonférence ? Eh bien, en admettant cette erreur probable, 5  738 mesures prises sur une même personne ne se grouperaient certainement pas avec plus de régularité, quant à l’ordre de grandeur, que les 5 738 mesures prises sur les soldats écossais. Et si l’on nous donnait les deux séries de mesures sans les avoir désignées d’une manière particulière, nous serions très embarrassés de dire quelle série a été prise sur 5 738 soldats différents, et quelle série a été obtenue sur une seule et même personne, avec moins d’habitude et des moyens d’appréciation plus grossiers. L’exemple que je viens de citer mérite, je crois, toute notre attention : il nous montre que les choses se passent absolument comme si les 112

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Histoires de « milieu » et de son entourage

poitrines qui ont été mesurées avaient été modelées sur un même type, sur un même individu, idéal si l’on veut, mais dont nous pouvons saisir les proportions par une expérience suffisamment prolongée. Si telle n’était pas la loi de la nature, les mesures ne se grouperaient pas, malgré leurs défectuosités, avec l’étonnante symétrie que leur assigne la loi des possibilités. Parmi les admirables lois que la nature attache à la conservation de l’espèce, je crois pouvoir mettre en première ligne celle de la conservation du type. Dans mon travail sur la physique sociale, j’avais déjà cherché à déterminer ce type, par la connaissance de l’homme moyen. Mais, si je ne me fais illusion, ce que l’expérience et le raisonnement m’avaient fait reconnaître, prend ici le caractère d’une vérité mathématique. Le type humain pour les hommes d’une même race et d’un même âge, se trouve si bien établi, que les écarts entre les résultats de l’observation et ceux du calcul, malgré les nombreuses causes accidentelles qui peuvent les provoquer et les exagérer, ne dépassent guère ceux que les maladresses pourraient produire dans une série de mesures prises sur un même individu. Si l’on m’objecte que l’on rejette des régiments les hommes qui sont déformés par un excès d’embonpoint ou de maigreur, je répondrai qu’en les admettant tous, on ne ferait qu’élargir les limites de l’erreur probable, sans altérer la loi qui préside à l’assemblage des nombres. Je pourrais citer des exemples à l’appui de cette assertion, et rapporter les résultats des mesures que j’ai prises moi-même sur un grand nombre d’individus, sans choix préalable ; mais j’ai cru ne devoir employer, autant que possible, que des nombres réunis par des mains étrangères. S’il n’existait aucune loi qui présidât au développement de l’homme, si tout se faisait au hasard, je demanderais à mon tour combien on n’aurait pas à parier contre un, que 5 738 mesures prises sur autant de poitrines, se rangeraient dans un ordre tout différent de celui qui est déterminé par la loi de possibilité. » *** 113

Histoires de « milieu » et de son entourage

Nous sommes en 1846, à l’Observatoire de Bruxelles. Son directeur est un homme que l’on respecte et que l’on admire. Il a cinquante ans et s’appelle Adolphe Quetelet. Il vient de publier un nouvel ouvrage, très original par sa forme, intitulé : Lettres à S.A.R. Le Duc Règnant de Saxe-Cobourg et Gotha sur la théorie des probabilités appliquées aux sciences morales et politiques. Il n’est pas peu fier de son contenu : 46 chapitres sont tous écrits sous la forme d’une lettre. Nous avons reproduit intégralement la vingtième ci-dessus. Il regarde le livre posé sur son bureau et des images lui viennent à l’esprit, lui rappelant le parcours qu’il a suivi jusque-là. Il se rappelle les heures enthousiasmantes de sa jeunesse, quand il était élève au lycée de Gand, sa ville natale. Il revoit ses professeurs, des poètes, des musiciens, des artistes qui lui ont donné le goût du beau, et ses amis. Il retrouve cette journée du 24 juillet 1819 et la défense publique de sa thèse de doctorat en Sciences dont le titre lui rappelle qu’il préféra en fin de compte les mathématiques aux études littéraires : Dissertatio mathematica inauguralis de quibusdam locis geometricis nec non de curva Focali. Il se remémore son arrivée à Bruxelles, en 1819, et le visage de certains élèves de l’établissement qui l’a accueilli comme professeur de mathématiques. D’autres images se succèdent rapidement : son admission à l’Académie des Sciences de Bruxelles, encore auréolé de la renommée que lui a donné sa « focale » dont il a traité dans sa thèse, la décision d’Anton Falck, le ministre de l’Instruction publique de l’époque, qui l’a envoyé à Paris en 1823 dans le but de promouvoir la construction d’un observatoire à Bruxelles et ses rencontres à Paris, avec Laplace, Fourier, Arago… qui lui ont ouvert les portes de la statistique et des probabilités. Ses pensées vont aussi vers Cécile, la femme qu’il a épousée le 20 septembre 1824 et qui lui a donné dans les deux années suivantes deux enfants qu’il aime, Ernest et Isaure. Il revoit sa première leçon publique au Musée des sciences et des lettres pour un public d’adultes qui a soif de connaissances, et puis ces voyages, à partir de 1827, 114

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Histoires de « milieu » et de son entourage

pour équiper le futur Observatoire de Bruxelles, en Angleterre, en Allemagne et plus tard en France, en Suisse et en Italie, là où il se trouve quand éclate en 1830 la révolution belge, lui donnant des craintes pour sa famille. Et puis il y a ce nouveau pays, la Belgique, où tout va très vite pour lui : sa confirmation comme directeur de l’Observatoire le 8 décembre 1830, ses études statistiques en 1831, le début des observations météorologiques dans « son » observatoire, en 1833, sa nomination comme Secrétaire perpétuel de l’Académie l’année suivante et la première édition de sa Physique sociale, à Paris, en 1835… En feuilletant le livre qu’il a devant lui, il se remémore la première leçon qu’il donne en 1836 aux princes Ernest et Albert de SaxeCobourg et Gotha, fils légitimes du duc Ernest Ier de Saxe-Cobourg et Gotha. Albert fut malheureusement vite absorbé par ses activités, mais son mariage, en 1840, avec la reine Victoria ne l’empêcha pas de garder de bons contacts avec lui. Quant à Ernest, il a aussi quitté Bruxelles pour succéder à son père en 1844. C’est la raison pour laquelle il a décidé de poursuivre ses leçons par écrit à travers ce nouveau livre dédié à Ernest. Quetelet est à présent le premier président de la Commission centrale de Statistique mise en place en 1841 dans le royaume de Belgique. Il le restera jusqu’à son décès, en 1874. En cette année 1846, il a décidé d’organiser le premier recensement général de la population, de l’agriculture et de l’industrie. Et sa carrière est loin d’être finie… La lettre reproduite ci-dessus nous montre clairement quelques conceptions qui ont cours au milieu du xixe siècle. La loi des erreurs, devenue loi des possibilités dans le langage de Quetelet. Il l’a extraite du monde des astronomes pour en faire la loi de référence dans l’étude des populations, qu’il s’agisse de caractéristiques physiques ou morales. La moyenne est au centre de ses préoccupations et ses attributs lui permettent d’en distinguer de différentes natures, en utilisant des raisonnements théoriques mais aussi des données 115

Histoires de « milieu » et de son entourage

recueillies sur le terrain43. Dans ce contexte, l’homme moyen est au zénith, mais il connaîtra une érosion certaine dans la deuxième partie du siècle.

5.2 ÊTES-VOUS GÉNIAL ? Il n’y a pas que la moyenne qui soit intéressante à calculer. La façon dont les données se répartissent autour d’elle est tout aussi importante. Si la lettre de Quetelet lui permet d’affiner le concept de moyenne, il est une autre histoire, plus étonnante encore. Dans la deuxième partie du xixe siècle, les défenseurs britanniques de l’eugénisme sont davantage captivés par ce qui se passe autour de la moyenne, surtout au-dessus d’elle.

L’hérédité est au centre de tout en cette deuxième partie du xixe siècle ! Comment peut-elle permettre la transmission des qualités humaines, qu’elles soient physiques, psychiques ou mentales ? Comment caractériser dans ce contexte l’évolution de la « race humaine » et mesurer les variations héréditaires ? Francis Galton (1822-1911), cousin de Darwin, tente de répondre à ce type de questions dans un ouvrage-clé publié en 1869 et intitulé Hereditary Genius. Pour lui, l’égalité entre les hommes n’a pas de sens et, en particulier, si un homme est intelligent, c’est essentiellement pour des raisons héréditaires. Pour tenter de valider ses hypothèses, il commence par porter son attention sur les génies, ces hommes éminents qui ont imprégné le monde de leur capacité intellectuelle. Il recourt à plusieurs enquêtes auprès de ses contemporains pour identifier ces personnages qui font l’honneur d’une nation. Pour connaître leur importance numérique

43.  Voir à ce sujet Armatte (1995) ou Armatte et Droesbeke (1997). 116

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Histoires de « milieu » et de son entourage

et la manière dont se répartissent les autres hommes par rapport à eux, il se tourne vers la statistique. Comme pour Quetelet, la loi de répartition des caractéristiques des hommes ne peut être, pour Galton, que « normale », cette courbe en cloche symétrique que nous avons déjà rencontrée. Mais ce n’est pas le centre qui l’intéresse, ce sont les extrêmes, ceux qui sont loin du centre, à une grande « distance » de cette moyenne. Pour Galton, la loi des possibilités de Quetelet est avant tout une loi de déviation. Il la rebaptise normale en 1889 tant il est convaincu que « …la distribution de qualités et facilités humaines très différentes est approximativement normale ». Il s’interroge sur la manière d’établir une échelle de mesure des aptitudes humaines, pour y placer les génies… et les autres. Pour y arriver, il utilise une « classification sociale » mise au point par Charles Booth (1840-1916) dans les années 1870, dans le cadre de l’application de la « loi sur les pauvres » permettant d’assister ces derniers. Galton étend l’échelle de Booth en définissant seize positions qu’il code ainsi : xgfedcbaABCDEFGX Les hommes illustres se trouvent en X, les génies en G ; les idiots et les imbéciles se trouvent à l’autre bout de l’échelle. Au centre se trouvent les médiocres44. Il suffit à Galton de connaître la proportion de X (1 pour un million) et de G (14 pour un million) – grâce à des enquêtes – et de postuler le caractère « normal » de la distribution de la population sur cette échelle, pour obtenir la répartition contenue dans le tableau 3.

44.  Notons en passant que ce terme vient du latin mediocris, « moyen », dérivé de medius, « qui est du milieu », dont nous avons déjà parlé. 117

Histoires de « milieu » et de son entourage

Tableau 3 | Répartition par classes d’intelligence (Galton, 1869)

Échelons d’aptitude naturelle

Nombres d’hommes

Sous la moyenne

Au-dessus de la moyenne

Par tranche (un million de même âge)

Proportion (un sur…)

a

A

256 791

4

b

B

161 279

6

c

C

63 563

16

d

D

15 696

64

e

E

2 423

413

f

F

233

4 300

g

G

14

79 000

x

X

1

1 000 000

Galton utilise une démarche analogue pour publier un peu plus tard, en 1909, une courbe de valeur civique équivalente à une courbe de valeurs génétiques. Dans cette démarche, il assimile l’étude de variables mesurables comme la taille d’un individu à celle d’autres variables décrivant des aptitudes ou des niveaux sociaux qui ne demandent qu’à être, elles aussi, mesurées. Cette démarche est emblématique des travaux qui débuteront au début du xxe siècle avec la mesure de l’intelligence générale de Spearman et qui conduiront à d’autres mesures comme celle du quotient intellectuel45. Pour Galton, la position sur l’échelle est un caractère héréditaire et seuls les génies et les hommes illustres sont dignes d’intérêt. Mais l’usage d’appeler normale sa loi de déviation a introduit une ambiguïté dans le langage qui perdure encore aujourd’hui. C’est pourquoi nous utiliserons dans la suite l’expression « loi de Laplace-Gauss » qui a l’avantage de citer les noms de deux personnages qui ont joué un rôle essentiel dans l’histoire de cette loi, même s’ils n’en sont pas les « inventeurs », Abraham de Moivre (1667-1754) étant déjà passé par là. 45.  Voir Desrosieres (1993). 118

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Histoires de « milieu » et de son entourage

5.3 Y A-T-IL DES DONNÉES NORMALES ? La loi des erreurs est appelée par Quetelet loi des possibilités et reçoit un nouveau qualificatif durant la dernière partie du xixe siècle : celui d’être « normale ». Cela semble sous-entendre que tout autre comportement est « anormal », ce qui s’est avéré faux par la suite. Il faut reconnaître que l’usage du terme « normalité » est assez malvenu. Il peut encore se montrer abusif à notre époque à propos des données numériques.

Que peut-on penser, en effet, de l’usage du mot normal quand on parle d’une donnée ? Étymologiquement, ce terme français est emprunté au latin normalis, de norma. Ce mot relatif à l’usage de l’équerre – les mathématiciens parleront d’ailleurs de droite normale à une autre droite quand elle lui est perpendiculaire – qualifie ensuite « ce qui sert de règle, de modèle, d’unité de mesure, de point de comparaison » (dictionnaire Le Robert). Est considéré comme normal ce qui 119

Histoires de « milieu » et de son entourage

est dépourvu de tout caractère exceptionnel, ce qui se produit selon l’habitude ou de façon régulière, courante, voire correcte et honnête. Mais peut-on qualifier une donnée de « normale » ? Prenons par exemple la taille d’un adulte. Si elle est comprise entre 1 m 40 et 1 m 90, personne ne prendra le risque de dire que « ce n’est pas normal ». Si votre taille se situe en dessous de la première limite, on trouvera que vous êtes petit(e), voire très petit(e). Au-dessus de l’autre limite, on dira que vous êtes grand(e), voire très grand(e). On ne vous dira pas, nous l’espérons, que « vous n’êtes pas normal(e) ». Il vaut mieux s’abstenir d’utiliser cet adjectif et préférer reconnaître que vous appartenez aux « 5 % de la population dont la taille fait partie des plus petites » ou aux « 5 % de la population dont la taille fait partie des plus grandes ».

Figure 22 | Températures moyennes mensuelles à Uccle (1981-2010)

Un autre exemple est intéressant. Il concerne la normale saisonnière quand on parle de température. La figure 22 représente la température moyenne mensuelle à Uccle, commune de l’agglomération bruxelloise, sur trente années consécutives (source : Institut royal météorologique d’Uccle). Cette valeur moyenne est habituellement qualifiée de « normale saisonnière » dans les bulletins météorologiques préparés par les spécialistes du domaine. 120

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Histoires de « milieu » et de son entourage

Il est cependant évident qu’avoir un ou deux degrés de plus ou de moins que la moyenne n’est pas « moins normal » que d’avoir la valeur moyenne ! Ici aussi, un changement de terminologie serait plus transparent. Prenons le cas d’une variable, comme la taille ou la température, dont la distribution des valeurs possibles a la forme de la figure 23 (distribution de Laplace-Gauss). Dans ce cas, la moyenne est un indicateur très utile car elle concerne la valeur la plus probable, et elle est en même temps le milieu des températures possibles. Mais rien ne dit qu’une valeur extrême ne peut pas être observée, même si elle est très peu probable. Il est alors utile d’accompagner l’information moyenne par celle d’un indicateur de dispersion, par exemple l’écart-type, dont l’intérêt dans ce cas-là est que 95 % des valeurs possibles, par exemple, se situent dans l’intervalle obtenu en retranchant et en ajoutant deux fois cet écart-type à la moyenne. Si vous avez une température qui sort de cette fourchette, alors vous pourrez la qualifier d’« exceptionnelle » ou d’« extrême », mais certainement pas d’« anormale » !

Figure 23 | Distribution de Laplace-Gauss, de moyenne μ et d’écart-type σ

De nombreuses études considèrent que moyenne est synonyme de normale. Cela devient franchement critiquable quand la répartition des valeurs d’une variable n’a pas l’allure de la figure 23. Nous allons le constater bientôt. 121

Histoires de « milieu » et de son entourage

La normalité, cela se « vérifie », cela demande circonspection et prudence dans l’usage de ce mot. Ce n’est pas parce que le taux de suicide dans une entreprise est à moins de deux écarts-type du taux de suicide moyen en France – et donc qu’on est dans la « normalité » des choses au sens statistique du terme – qu’on peut qualifier cette entreprise ou la donnée qui la concerne de « normale »46. Il est des phrases qui valent la peine de ne pas être écrites.

5.4 IL Y A MILIEU ET MILIEU Il a fallu beaucoup (trop) de temps pour s’apercevoir qu’un autre milieu, la médiane, est aussi digne d’intérêt que la moyenne.

Trop souvent de nos jours, des médias, comme d’ailleurs certaines publications scientifiques, nous assomment de moyennes mais ignorent la médiane et le concept de dispersion. Il faut changer cette habitude, comme dans la tranche de vie que nous vous proposons, qui concerne le choix d’un « bon » milieu47. Cela se passe dans le petit village de Saimochin, au fin fond des Ardennes. Ce petit bourg détient le record du nombre annuel de jours où il pleut. De plus, la couleur grise de ses maisons ne contribue pas à améliorer le moral de ses habitants. Cela n’a pas empêché Jean Vœu de reprendre la direction d’une entreprise située sur le territoire de Saimochin depuis longtemps. Vous imaginez combien ce « procureur d’embauches » est apprécié dans la région ! Depuis que Jean a repris la direction de cette entreprise de cinq cents salariés, il y a trois ans, tout se passe bien. Ou presque… Dès le départ, il s’est forgé une image autour d’un slogan fétiche : « Moi, je veux la clarté dans un paysage d’efficacité et de responsabilité  ! ». 46.  Voir Du Roy (2014). 47.  Cet exemple est tiré de Droesbeke et Vermandele (2016). 122

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Histoires de « milieu » et de son entourage

On peut dire qu’ils ont été impressionnés, les employés, eux qui ne connaissaient que la manière de faire « à la bon-papa » du directeur précédent. Mais ce ton leur a plu, surtout à Jacques Huse, le « meneur de la tribu syndicale », comme l’appelle Jean avec une certaine sympathie. « C’est un homme moderne, Monsieur Jean. Aucune décision n’est prise sans recourir à des chiffres. Moi j’aime ça ! », clame Jacques à ses troupes. La conséquence est limpide : pas de mouvements de grève depuis trois ans et une ambiance du tonnerre. Les commandes sont là, les bénéfices augmentent : tout va bien ! « Il faut que les employés en profitent », a affirmé Jean au dernier conseil d’entreprise, provoquant une salve d’applaudissements unanime. Oui, mais… Comment partager le gâteau ? Jean en a parlé à son comité de direction dont la plupart des membres lui ont dit : « C’est simple, puisqu’on est prêt à donner une prime globale à la fin de l’année de cinquante mille euros, soit 4,75 % de la masse salariale mensuelle payée par l’entreprise, donnons à chacun une prime équivalente à 4,75 % de son salaire ! ». Jean, devant cette unanimité implacable, s’est empressé de transmettre, la semaine dernière, cette proposition aux syndicats. Quelle ne fut sa surprise quand, le lendemain, Jacques vint lui proposer une autre formule : « Vous voulez donner une prime globale de cinquante mille euros. Nous sommes cinq cents dans l’entreprise : donnez donc cent euros à chacun. Les prix des cadeaux de fin d’année sont les mêmes pour tout le monde ! ». En son for intérieur, Jean trouve que cette logique se tient aussi, même si ses adjoints ne semblent pas le suivre dans cette voie. Ce matin, Jean a rendez-vous à dix heures avec Jacques pour lui faire part des réticences de son comité de direction et discuter avec lui de la situation créée par sa contre-proposition. « C’est le moment d’utiliser mon slogan à bon escient », se dit-il, en rassemblant les documents qu’il a préparés la veille. Le premier d’entre eux est la liste des salaires, que son comptable a rangés par ordre croissant, arrondis à l’entier le plus proche, en omettant de mentionner les noms des salariés (il vaut mieux éviter des personnalisations toujours 123

Histoires de « milieu » et de son entourage

désagréables !) – nous la reproduisons dans le tableau 4. Il sait que ce document est confidentiel et ne doit pas être diffusé publiquement. Jean note dans la marge que les salaires varient entre 853 € et 9 513 €. Il y a peu de salaires identiques même s’il s’agit de « salaires arrondis ». Il relève un dernier détail au bas de ce document, qui n’est pas sans importance : la masse salariale mensuelle totale vaut 1 052 603 €. Tableau 4 | Série ordonnée des salaires

853

925

950

984

999 1 025 1 047 1 053 1 068 1 089

1 104 1 107 1 115 1 120 1 126 1 131 1 131 1 136 1 137 1 138 1 140 1 143 1 164 1 165 1 171 1 171 1 173 1 173 1 180 1 184 1 186 1 194 1 195 1 212 1 217 1 229 1 231 1 232 1 237 1 240 1 248 1 252 1 258 1 269 1 272 1 272 1 272 1 284 1 293 1 297 1 299 1 307 1 309 1 316 1 317 1 322 1 329 1 333 1 342 1 342 1 347 1 350 1 352 1 360 1 365 1 368 1 370 1 372 1 381 1 384 1 386 1 390 1 398 1 400 1 402 1 412 1 413 1 417 1 418 1 421 1 424 1 425 1 427 1 431 1 432 1 434 1 438 1 440 1 445 1 447 1 451 1 451 1 453 1 454 1 456 1 457 1 458 1 463 1 464 1 466 1 466 1 468 1 468 1 469 1 471 1 477 1 477 1 479 1 485 1 487 1 489 1 491 1 494 1 495 1 501 1 502 1 508 1 508 1 518 1 518 1 520 1 524 1 526 1 527 1 528 1 544 1 545 1 551 1 553 1 556 1 557 1 560 1 561 1 562 1 563 1 566 1 567 1 570 1 570 1 571 1 574 1 574 1 576 1 578 1 578 1 580 1 580 1 581 1 581 1 584 1 585 1 586 1 589 1 591 1 594 1 595 1 595 1 601 1 601 1 602 1 605 1 605 1 606 1 607 1 612 1 613 1 624 1 625 1 627 1 631 1 634 1 637 1 641 1 642 1 650 1 653 1 659 1 660 1 660 1 664 1 666 1 668 1 672 1 672 1 679 1 679 1 682 1 684 1 684 1 685 1 686 1 692 1 694 1 695 1 699 1 699 1 703 1 710 1 712 1 712 1 714 1 717 1 721 1 723 1 724 1 725 1 729 1 730 1 731 1 735 1 737 1 737 1 740 1 742 1 747 1 751 1 756 1 756 1 760 1 767 1 768 1 776 1 777 1 784 1 785 1 785 1 787 1 788 1 790 1 793

124

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Histoires de « milieu » et de son entourage

Tableau 4 (suite) | Série ordonnée des salaires

1 794 1 794 1 795 1 795 1 795 1 798 1 802 1 803 1 804 1 808 1 808 1 808 1 811 1 815 1 815 1 826 1 827 1 828 1 829 1 830 1 834 1 850 1 850 1 852 1 854 1 854 1 856 1 858 1 864 1 864 1 865 1 870 1 870 1 872 1 872 1 877 1 880 1 886 1 891 1 892 1 892 1 894 1 900 1 910 1 917 1 925 1 929 1 930 1 931 1 937 1 942 1 948 1 948 1 948 1 948 1 954 1 961 1 971 1 977 1 978 1 983 1 986 1 988 1 989 1 992 1 994 1 996 1 997 1 997 1 997 1 997 1 999 2 010 2 012 2 015 2 016 2 026 2 031 2 032 2 036 2 036 2 037 2 039 2 040 2 045 2 057 2 058 2 058 2 060 2 064 2 064 2 065 2 073 2 082 2 095 2 105 2 107 2 112 2 114 2 146 2 150 2 151 2 151 2 156 2 156 2 163 2 190 2 196 2 197 2 204 2 208 2 210 2 222 2 225 2 225 2 232 2 233 2 239 2 244 2 246 2 250 2 251 2 251 2 252 2 253 2 257 2 260 2 262 2 268 2 268 2 271 2 272 2 273 2 273 2 282 2 291 2 291 2 297 2 299 2 306 2 316 2 346 2 349 2 355 2 368 2 384 2 407 2 409 2 418 2 419 2 424 2 426 2 427 2 437 2 452 2 462 2 472 2 479 2 489 2 490 2 494 2 495 2 496 2 498 2 509 2 513 2 518 2 522 2 529 2 530 2 533 2 533 2 551 2 564 2 565 2 569 2 580 2 580 2 581 2 589 2 595 2 602 2 610 2 615 2 622 2 632 2 644 2 648 2 674 2 679 2 688 2 689 2 713 2 717 2 732 2 778 2 802 2 804 2 808 2 826 2 833 2 850 2 851 2 870 2 876 2 884 2 900 2 960 2 967 2 975 2 995 3 001 3 002 3 033 3 049 3 054 3 116 3 117 3 129 3 141 3 145 3 155 3 180 3 251 3 252 3 285 3 286 3 401 3 401 3 442 3 447 3 467 3 479 3 489 3 499 3 502 3 528 3 536 3 553 3 681 3 717 3 721 3 793 3 818 3 831 3 853 3 928 3 963 3 987 4 021 4 278 4 303 4 327 4 358 4 525 4 528 4 643 4 772 4 874 4 980 5 070 5 242 5 315 5 523 5 863 6 364 6 840 7 780 7 974 9 513 Total : 1 052 603

Jean met aussi sur son bureau un autre document, fourni généralement à l’extérieur de l’entreprise : la distribution groupée des salaires (voir le tableau 5). Elle résulte d’un regroupement des 125

Histoires de « milieu » et de son entourage

salaires en classes. Jean ne connaît pas la manière dont le choix des classes a été effectué. Cela a pu résulter d’un choix raisonné du comptable, d’un souci de facilité, peut-être même d’âpres discussions entre le directeur précédent et les syndicats ! La seule chose qu’il voit, c’est que les classes ont été choisies de même longueur (300  €). La notation utilisée dans ce tableau est celle d’un spécialiste des tableaux statistiques : la limite inférieure de la classe en est exclue (usage de la parenthèse), contrairement à la limite supérieure (usage du crochet). Ainsi, par exemple, la classe (800 – 1 100] est celle des salaires strictement supérieurs à 800 € et inférieurs ou égaux à 1 100 €. Tableau 5 | Distribution groupée des salaires

Classes de salaires

Effectifs

Classes de salaires

(800 – 1 100]

10

(5 300 – 5 600]

2

(1 100 – 1 400]

64

(5 600 – 5 900]

1

(1 400 – 1 700]

122

(5 900 – 6 200]

0

(1 700 – 2 000]

106

(6 200 – 6 500]

1

(2 000 – 2 300]

67

(6 500 – 6 800]

0

(2 300 – 2 600]

42

(6 800 – 7 100]

1

(2 600 – 2 900]

26

(7 100 – 7 400]

0

(2 900 – 3 200]

16

(7 400 – 7 700]

0

(3 200 – 3 500]

12

(7 700 – 8 000]

2

(3 500 – 3 800]

8

(8 000 – 8 300]

0

(3 800 – 4 100]

7

(8 300 – 8 600]

0

(4 100 – 4 400]

4

(8 600 – 8 900]

0

(4 400 – 4 700]

3

(8 900 – 9 200]

0

(4 700 – 5 000]

3

(9 200 – 9 500]

0

(5 000 – 5 300]

2

(9 500 – 9 800]

1

Total

126

Effectifs

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

500

Histoires de « milieu » et de son entourage

En regardant ce tableau, Jean se dit qu’il aurait préféré que les dernières classes eussent été plus larges pour éviter d’avoir des classes dont l’effectif – le nombre de salaires contenus dans chaque classe – soit nul. Mais il connaît les dangers de manipuler des classes de longueur variable48, alors il se contente du tableau 5. Il sait aussi qu’un tableau, c’est parfois aride à lire ! C’est pourquoi il met à côté de ce tableau la figure 24, plus facile à utiliser dans une discussion. Il sait que Jacques a aussi suivi une formation statistique de qualité et qu’il sait lire un graphique ! Il aura donc certainement noté, lui aussi, que la classe des salaires la plus nombreuse – qu’on appelle la classe modale – concerne ceux qui varient entre 1 400 et 1 700 euros. Par ailleurs, il existe quelques salaires très élevés – Jacques n’hésitera pas à le lui rappeler – mais en petit nombre seulement, ce qui procure à ce graphique son allure dissymétrique « à gauche ».

Figure 24 | Histogramme des salaires mensuels (en euros) des 500 employés

Un dernier détail lui a été fourni par son comptable : le salaire moyen vaut 2 105 €. Il refait le calcul pour être sûr du résultat : 48.  Voir, par exemple, Dehon et al. (2015) ou Droesbeke et Vermandele (2016). 127

Histoires de « milieu » et de son entourage

1 052 603 € divisé par 500, cela fait bien 2 105 €. « Ne mettons pas des décimales inutiles puisque ma liste ne contient que des salaires en nombres entiers », se dit-il, en se remémorant les conseils de bonne pratique. « Cette valeur moyenne peut toujours servir », ajoute-t-il, sans savoir ce qui allait se passer… Dix minutes plus tard, Jean accueille Jacques avec un grand sourire et lui propose une tasse de café. L’ambiance est bonne et le soleil qui brille à travers la fenêtre du bureau semble annoncer une entrevue détendue. D’une voix paisible mais ferme, Jacques aborde le sujet sans préalable : « Monsieur le Directeur, vous savez combien votre manière de gérer l’entreprise nous convient. C’est pourquoi j’irai directement au cœur du problème. Donner une prime égale à 4,75 % du salaire favoriserait trop les gros revenus. Je vois que vous avez devant vous la liste des salaires. Vous avez eu la bonne idée de les ranger par ordre croissant : je reconnais bien là vos qualités de gestionnaire. Prenez le cas de celui qui reçoit le plus petit salaire : 853 €. Appelons-le A… puisque vous semblez vouloir éviter de donner des noms. Appliquez-lui votre taux, vous aurez une prime de 41 € (853 fois 4,75 %), en arrondissant comme vous le résultat du calcul à l’entier le plus proche. Prenez par ailleurs le plus gros salaire, 9 513 €, qui concerne… appelons-le Z. La prime donnée à ce dernier serait égale à 452 € (9 513 fois 4,75 %). Trouvez-vous vraiment raisonnable de donner à Z une prime qui vaudrait près de onze fois celle de A ? Par contre, donner à chacun 100 €, montant qui n’est rien d’autre que 4,75 % du salaire moyen, serait certainement plus équitable : A bondirait de joie et Z n’en a certainement pas beaucoup besoin. » Jean s’attendait bien sûr à ce discours mais il ne peut quand même pas s’empêcher d’être perturbé. Jacques s’en rend compte mais ne fait pas de commentaires. Il sait qu’il va falloir négocier et qu’il a intérêt à trouver avec Jean – et surtout avec son comité de direction – une solution qui ne soit pas synonyme de capitulation. Jean va certainement 128

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Histoires de « milieu » et de son entourage

lui faire une nouvelle proposition car un petit sourire est apparu sur son visage. « Mon cher Jacques, je crois que vous avez une bonne formation en statistique. Il ne vous aura certainement pas échappé que les propriétés des moyennes vont à l’encontre de votre proposition. Regardez bien la distribution des salaires – il lui montre la figure 24 – : trouvez-vous qu’elle ressemble à la belle courbe de Laplace et de Gauss ? Non, évidemment. Vous savez bien que dans ce cas, la moyenne est un mauvais milieu et qu’il vaut mieux prendre la médiane. Je vous rappelle, si c’est bien nécessaire, que celle-ci a pour fonction de séparer l’ensemble des 500 salaires ordonnés de ce document – le tableau 4 – en deux « paquets » de 250 valeurs chacun. Regardez ici : la 250e observation vaut 1 830 €. La suivante est 1 834 €. Comme le nombre de salaires est pair, nous savons qu’on obtient la médiane en calculant la moyenne de ces deux valeurs successives : (1 830 + 1 834)/2 = 1 832 €. Voilà un vrai milieu ; 50 % des salaires se situent en dessous d’elle, 50 % au-dessus. D’ailleurs, cherchez dans le tableau 4 l’endroit où se trouve la moyenne 2 105 €. Vous l’avez ? Un petit décompte vous montrera vite qu’il y a 326 observations plus petites ou égales à cette moyenne, soit un peu plus de 65 % des 500 salaires de l’entreprise ! Non, mon cher Jacques. Travailler avec la moyenne, n’est pas sérieux ! » « Palsembleu ! », éructe Jacques en son for intérieur. « Tout le monde sait bien que si cette situation existe, c’est parce que la présence des hauts salaires, même peu nombreux, comme vous dites, attire la moyenne vers le haut, mettant en péril son interprétation de valeur centrale. Voyons un peu ce qu’il va me proposer. » Jean adresse à ce moment à Jacques un sourire de vainqueur et lui propose ceci : « Supposons, je dis bien “supposons”, qu’on prenne comme principe de base une prime fixe pour tout le monde basée sur un taux fixé de commun accord, pourquoi pas 4,75 % par exemple. Mais au lieu de 129

Histoires de « milieu » et de son entourage

partir de la moyenne, voyons un peu ce qui se passe avec la médiane, bien meilleur paramètre, avons-nous vu ! 4,75 % de 1 832 € est égal à 87 €. Si on donne ce montant à chacun – je répète : pour l’instant ce n’est qu’une hypothèse – la prime globale sera égale à 500 fois 87 €, c’est-à-dire 43 500 €. Il nous resterait alors une somme de 50 000 € moins 43 500, soit 6 500 € de disponible. Dans cette hypothèse, car ce n’est toujours qu’une hypothèse, la question serait de savoir ce qu’on ferait de ce montant. » Jacques réfléchit ! L’idée n’est pas idiote ! Tout le monde reçoit la même prime et la médiane lui a toujours été plus sympathique que la moyenne ! Un sourire lui vient même aux lèvres, faisant penser à Jean que la discussion est presque finie. En réalité, Jacques vient de se rappeler une ancienne demande de moderniser la crèche de l’entreprise dont les travaux coûtent à peu près ce montant. « Vous ne perdez rien pour attendre, Monsieur le Directeur », pense en lui-même notre compère…

130

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Histoires de « milieu » et de son entourage

Cette année-là, tout le monde fut content, y compris le responsable de la crèche. Mais en d’autres lieux, cela aurait pu se terminer de façon bien différente, surtout si les « équivalents » de Jean et Jacques n’avaient pas eu connaissance des propriétés respectives d’une moyenne et d’une médiane ou n’avaient pas eu la même probité que nos deux compères !

131

6 Tout est relatif

« Rien n’égale en longueur les boiteuses journées, Quand sous les lourds flocons des neigeuses années L’ennui, fruit de la morne incuriosité, Prend les proportions de l’immortalité. » Charles Baudelaire (1821-1867) Spleen : J’ai plus de souvenirs que si j’avais mille ans

Ce sixième chapitre a pour but d’illustrer les sujets suivants : – On ne doit pas calculer des proportions à tout bout de champ et pour n’importe quoi. – La simplicité d’un concept ne nous met pas à l’abri de surprises. – Des comparaisons basées sur des proportions sont parfois périlleuses. – Des données de gains au loto ne valent pas un calcul de probabilités. – Une probabilité est plus difficile à interpréter qu’une fréquence.

133

Tout est relatif

6.1 DES PROPORTIONS SUPERFLUES Tous les médias vous le diront : les proportions, les taux et les pourcentages font partie intégrante du langage de notre époque. On en trouve à tous les coins d’articles et dans tous les commentaires ! Les sondages nous bombardent de pourcentages d’intentions de votes en période électorale. Nul n’ignore quelles proportions d’hommes et de femmes préfèrent le camembert au fromage de chèvre frais, la bière belge au scotch ale écossais, les vacances à la mer plutôt qu’à la montagne. Les pages économiques n’en finissent pas de nous informer sur les taux d’inflation, les taux de chômage… Bref ! On devrait tous être des spécialistes de la proportion tant on en voit. Et pourtant, on n’arrête pas d’en faire n’importe quoi ! On oublie trop souvent qu’une différence et une division, cela ne se permute pas !

Au risque de vous agacer, rappelons tout d’abord qu’une proportion correspond à un rapport entre une caractéristique (nombre d’éléments, aire…) d’une partie d’un ensemble et la même caractéristique observée au niveau de la totalité de cet ensemble. Tableau 6 | Population française au 1/1/2016

Hommes

Femmes

Ensemble

Population totale

32 291 287

34 336 315

66 627 602

Moins de 20 ans

8 391 583

8 003 875

16 395 458

De 20 à 64 ans

18 550 750

19 161 177

37 711 927

65 ans ou plus

5 348 954

7 171 263

12 520 217

Prenons un exemple. Nous avons trouvé sur le site de l’INSEE (http://www.insee.fr/), au moment où cette rubrique était rédigée, le tableau 6 qui décrit la population totale par sexe et âge de la France – y compris Mayotte – au 1er janvier 2016. La source de cette information est bien précisée, comme il se doit : « Insee, estimations de population (résultats provisoires arrêtés à fin 2015) ». 134

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Tout est relatif

Le tableau est abrupt et mérite d’être complété pour répondre à d’éventuelles questions qui peuvent se poser : quelle est l’importance des moins de vingt ans dans la population ? Est-il vrai que les femmes sont plus nombreuses que les hommes parmi les 65 ans ou plus ?… On peut bien sûr comparer les nombres contenus dans le tableau 6 : il y a 16 395 458 jeunes de moins de vingt ans sur les 66 627 602 personnes que contient cette population ; par ailleurs, parmi les 12 520 217 personnes qui ont 65 ans ou plus, on dénombre 7 171 263 femmes. L’usage de proportions permet d’affiner l’analyse. Mais avant de nous lancer dans leur calcul, faisons une petite remarque. Notre pratique de l’univers des données numériques nous rappelle chaque jour que l’erreur est humaine, y compris dans leur diffusion. C’est pourquoi, par habitude, nous avons d’abord rapidement contrôlé que chacun des nombres de la première ligne était bien égal à la somme des trois nombres qui se trouvent en dessous de lui dans chaque colonne. De même, nous avons vérifié que chaque nombre de la dernière colonne est bien la somme des deux nombres situés à sa gauche, ligne par ligne. Cette vérification avait peut-être presque « 100 % de chances » d’être correcte – nous reviendrons sur cette expression plus tard – vu le professionnalisme de l’organisme à l’origine de cette information, mais vous ne pouvez pas imaginer le nombre de surprises en la matière que l’on trouve dans la vie courante ! Avec les objectifs présentés ci-dessus, il est normal de proposer des commentaires du type : « Les moins de vingt ans représentent 24,61 % de la population totale », ou encore « Parmi les 65 ans ou plus, on trouve 57,28 % de femmes ». Ces résultats sont très faciles à vérifier : 16 395 458 = 0,2461 (ou 24,61 %) ; 7 171 263 = 0,5728 (ou 57,28 %). 66 627 602 12 520 217   C’est parce que ces vérifications sont aisées à faire qu’il ne faut pas s’en priver. Cela peut (parfois) « rapporter gros ».

135

Tout est relatif

Sauf si l’usage de ces résultats le requiert, rien ne vous empêche d’être moins précis, en arrondissant les valeurs de ces rapports. À titre d’exemple, on peut ne conserver que les deux premières décimales qu’elles contiennent. Dans notre vie quotidienne, on se contente souvent de les exprimer par des phrases du type « Près d’un quart de la population française concerne les moins de vingt ans » ou bien « Un peu plus de 57 % des 65 ans ou plus sont des femmes ». Si la caractéristique qui vous intéresse s’exprime selon une unité précise (mètre, pour une taille, kilo pour un poids…), numérateur et dénominateur s’expriment dans les mêmes unités. Leur rapport ne dépend donc plus de ces dernières. Une proportion est dès lors un nombre sans dimension, compris entre 0 et 1. En outre, pour faciliter son usage, on l’exprime souvent en pourcents. Tout cela semble simple et pourtant, la pratique des proportions réserve parfois des surprises dans leur usage. Citons-en quelques-unes parmi les plus fréquentes. « La proportion de 100 % est exclue à tout jamais de la terminologie scientifique », écrit Amélie Nothomb dans Péplum. On comprend bien ce qu’elle veut dire par là. Mais si vous lisez une étude sur un sujet quelconque, ce type de commentaire ne peut que vous inciter à poser une question : « 100 % de quoi ? ». Il s’agit bien là d’un défaut courant : la quantité située au dénominateur de la fraction qui a fourni une proportion n’est pas toujours bien identifiée. Le nombre de Parisiens, le nombre de chômeurs, le nombre de personnes satisfaites… doit être défini avec précision pour éviter toute ambiguïté ! Et c’est trop rarement le cas. Par ailleurs, si – comme cela nous est arrivé – vous trouvez dans un rapport que « 30,77 % des jeunes interrogés ont déjà consommé de la drogue », n’hésitez pas à faire un commentaire quand vous vous apercevrez que les individus concernés étaient au nombre de 4 sur un total de 13 jeunes interrogés ! Méfiez-vous des pourcentages valant 20 %, 25 %, 33,33 %, 50 %, 66,67 % ou 75 %. Ils correspondent à des fractions bien connues : 1/5, 1/4, 1/3, 1/2, 2/3, 3/4. Allez vite voir quel est le nombre total d’observations concernées. À quoi sert le recours à des 136

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Tout est relatif

pourcentages – qui, par définition, nécessite de découper le tout en cent parties – si on s’adresse à un petit nombre de valeurs ? Des pourcentages comme ceux que nous venons de citer se présentent nécessairement quand vous ne disposez que de deux, trois, quatre ou cinq observations ! Et pourquoi ne pas calculer un pourcentage à partir d’une observation, tant qu’on y est ? Vous êtes alors certain d’obtenir 0 % ou 100 % !

Les proportions sont utilisées dans de nombreux domaines. Elles sont simples à calculer ; cela ne justifie pas d’en calculer à tout bout de champs. Ce n’est pas pour rien que le jury du Prix Ig Nobel – dont nous avons déjà parlé – a primé, en 2003, John Trikaus, de la Zicklin School of Business à New York, « pour avoir méticuleusement rassemblé des données et édité plus de 80 rapports détaillés sur différents sujets tels que le pourcentage de jeunes qui portent des casquettes de baseball avec les visières à l’arrière plutôt qu’à l’avant, […] le pourcentage de nageurs qui boivent la tasse du côté peu profond d’une piscine plutôt que du côté profond, […], le pourcentage d’étudiants qui détestent le goût des choux de Bruxelles ». 137

Tout est relatif

6.2 MON FILS TRAVAILLE-T-IL MIEUX À L’ÉCOLE ? Une autre façon de « faire n’importe quoi » est liée à l’usage que l’on fait fréquemment du concept d’accroissement.

On n’insiste jamais assez sur l’importance de toujours mentionner le dénominateur de la fraction qui permet de calculer une proportion. Quand on calcule un accroissement, il est indispensable d’avoir en tête le niveau dont on part. La petite histoire désolante qui suit montre le bien-fondé de cette nécessité. «  Mon fils Martin a une orthographe déplorable ! La semaine dernière, sa dictée lui a rapporté un honteux 2/20. Cette semaine, il s’est enfin amélioré… Ouf ! Il a doublé son résultat : il a eu 4/20 ! », nous disait hier un de nos voisins. Analysons d’un peu plus près cette amélioration. Le gamin a obtenu 2 points de plus : nous parlerons d’un accroissement absolu de 4 (points) – 2 (points) = 2 (points). Tout comme son père, nous avons constaté qu’il a doublé son résultat : cette affirmation découle du calcul du taux d’accroissement égal à : 4 (points) = 2 = 200 %. 2 (points) Si on désire quantifier l’importance de l’évolution tout en tenant compte explicitement du résultat initial, on peut aussi calculer le rapport entre l’accroissement absolu – qui vaut 2 (points) – et le résultat initial – qui valait 2 points. On obtient alors l’accroissement relatif, égal ici à : (4 - 2) = 2 = 1 = 100 %. 2 2 Martin a amélioré ses performances de 100 %. Mais cet accroissement est particulièrement utile si vous voulez comparer les prouesses de Martin à celles de sa sœur Juliette. Celle-ci avait obtenu, pour les mêmes dictées, respectivement 16/20 et 18/20. Qualitativement, elle est donc bien meilleure que Martin – tout le monde sait, d’ailleurs, que « les filles réussissent mieux à l’école 138

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Tout est relatif

que les garçons »49. Son accroissement absolu est le même que celui de Martin (deux points) mais son accroissement relatif est plus faible : 2 (points) = 0,125 = 12,5 %. 16 (points) Vous l’avez compris. On monte relativement plus vite quand on part de bas que quand on part de haut. Il faut s’en souvenir quand on veut interpréter un accroissement relatif ! Trop de publications ou de commentaires ont tendance à occulter cette situation. À moins que l’auteur de l’analyse basée sur les pourcentages n’ait sciemment décidé de vous mener par le bout du nez. Si, si ! Cela existe !

Une dernière remarque, si vous le voulez bien. Cela se corse encore quand vous voulez comparer des pourcentages entre eux. Prenons l’exemple suivant50. Le taux de chômage d’un pays est passé de 8,4 % à 9 % entre deux périodes, que nous désignons par les nombres 1 et 2. Comment 49.  Voir, par exemple, Droesbeke et al. (2001) et Droesbeke et al. (2008). 50.  Cet exemple est tiré de Droesbeke et Vermandele (2016). 139

Tout est relatif

décrire cette évolution ? L’accroissement absolu du taux de chômage est égal à 9 % − 8,4 % = 0,6 %. Mais ce pourcentage ne se rapporte pas à une référence précise comme dans une proportion. Ne dites surtout pas que le taux s’est accru de 0,6 % ! Pour arriver à cette constatation, il eut fallu que le taux de chômage passe de 8,4 % à 8,4 % plus 0,6 % de ce taux – ce qui équivaut à 0,05 % – c’est-à-dire 8,45 % et non 9 % ! Le risque de tomber dans ce piège provient du fait que l’accroissement absolu de 0,6 % est exprimé… en pourcents. Pour éviter toute ambiguïté avec l’interprétation normale d’un pourcentage, il vaut mieux dire que le taux de chômage a augmenté de 0,6 point (ou point de pourcents), soulignant par un mot spécifique le fait qu’il s’agit d’un accroissement absolu. Il est vivement conseillé de n’utiliser le terme « pourcent » que pour des quantités correspondant au rapport de deux nombres51. Dans cet exemple, l’accroissement relatif s’élève de son côté à 0,6 %/8,4 % = 0,071, soit encore à 7,1 % : la différence entre les deux taux de chômage observés représente 7,1 % du taux de chômage initial. Quant au taux d’accroissement, il est égal à 9 %/8,4 % = 1,071 = 107,1 % : le taux de chômage en la période 2 est 1,071 fois plus élevé que celui en vigueur à la période 1 et représente ainsi 107,1 % du taux de chômage initial. Relisez tout une fois ! Restons optimistes ! L’usage de proportions est périlleux mais il est souvent correct. C’est normal, direz-vous, ce concept est tellement simple ! Mais cela n’empêche pas de constater que simplicité n’est pas nécessairement synonyme de l’expression « sans surprises ». 6.3 SIMPLICITÉ, SYNONYME DE « SANS SURPRISE » ? Ce n’est pas parce que la proportion est un outil élémentaire qu’elle ne conduit pas à des situations parfois surprenantes. 51.  Voir Fine (2012). 140

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Tout est relatif

Dans l’entreprise dirigée par Jean Vœu, dont nous avons déjà parlé, le règlement du comité de direction prévoit la présence de cinq représentants syndicaux. L’histoire de l’entreprise est telle que trois syndicats se sont constitués au début de son fonctionnement en prenant des noms qui permettent d’imaginer dans quel état d’esprit cela s’est fait. Le premier s’appelle Gagnant, le deuxième Contre et le dernier Dégoût. Le plus étonnant est que ces appellations sont encore d’actualité malgré le changement d’atmosphère. Mais pour en diminuer l’impact lors des élections syndicales, on a pris l’habitude de les désigner par leurs initiales G, C et D. Nous ferons de même dans ce qui suit en les rangeant par ordre alphabétique, par souci de neutralité. La règle retenue par le règlement électoral est la règle de proportionnalité. Elle consiste à désigner les cinq délégués proportionnellement aux nombres de voix qui se sont portées sur chaque syndicat. Actuellement, deux cents salariés sont syndiqués. Traditionnellement, ils votent tous, sans jamais s’abstenir (c’est beau, la démocratie !). Prenons un petit exemple, si cela s’avère nécessaire, pour expliciter cette règle. Si C a obtenu 120 voix, D 40 voix et G 40 voix, on calcule les proportions de suffrages obtenus par chaque syndicat : elles valent respectivement 60 %, 20 % et 20 % (des deux cents votes exprimés). Appliqués au nombre total de cinq délégués à désigner, ces pourcentages permettent d’affirmer que C obtient trois délégués (60 % de cinq), D en obtient un (20 % de cinq) et G de même. La réalité est cependant souvent plus complexe que ce petit exemple parfait ! En ce soir de scrutin, après une journée paisible d’élection et un dépouillement rapide, les résultats des votes sont affichés : 126 voix pour C, 20 pour D et 54 pour G. Nous les avons repris dans le tableau 7 (colonne 2 du tableau) et en avons déduit la proportion (notée p, avec pour indice le nom du syndicat) des suffrages exprimés par rapport au nombre total d’électeurs (colonne 3). La règle de la représentation proportionnelle impose de donner à chaque syndicat S un nombre de 141

Tout est relatif

délégués égal au pourcentage du nombre total de postes à attribuer (qui vaut 5, rappelons-le) donné par ces proportions : nC = pC × 5 = 3,15 ; nD = pD × 5 = 0,50 ; nG = pG × 5 = 1,35. Ces valeurs sont reprises dans la quatrième colonne du tableau 7. Comme c’est généralement le cas, elles n’ont a priori aucune raison d’être des nombres entiers ! Tableau 7 | Résultats des votes… et ce qu’on en fait !

Syndi- Nom- Propor- Nomcats bres de tions bres S voix pS nS

Attri- Restes butions n *S

rS

Attributions Résultat suppléfinal mentaires

C

126

63 %

3,15

3

0,15

0

3

D

20

10 %

0,50

0

0,50

1

1

G

54

27 %

1,35

1

0,35

0

1

Totaux

200

100 %

5

4

1

1

5

Comme le règlement électoral ne prévoit pas qu’on puisse couper des élus en morceaux, il faut décider de la façon dont on se sort de ce piège tendu par les proportions. Plusieurs propositions ont été faites dans la réalité. La plus simple est appelée la règle des plus grands restes, encore appelée la règle des plus forts restes ou la règle d’HamiltonIX. Elle consiste à attribuer dans un premier temps à chaque syndicat un nombre de postes égal respectivement à la partie entière de nC = 3,15 (trois postes pour C), nD = 0,50 (aucun pour D) et nG = 1,35 (un pour G). Nous pouvons donc compléter le tableau 7 avec une colonne de n*s , partie entière des ns : il s’agit du nombre de sièges auquel chaque syndicat a droit sans contestation possible. Quatre postes sont donc actuellement attribués au total : trois à C et un à G. À qui va-t-on donner le dernier poste à pourvoir ? Les restes rs , résultats de la différence entre les effectifs ns et leur partie entières n*s, sont indiqués dans la colonne suivante ; rangeons-les par ordre décroissant, du 142

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Tout est relatif

plus grand au plus petit : 0,50 pour D, 0,35 pour G et 0,15 pour C. La règle des plus grands restes permet alors d’attribuer le dernier siège vacant à D. Cette façon de faire est simple mais peut présenter des surprises. Imaginons que, pour une raison particulière – que nous ne dévoilerons pas ici parce que cela ne nous regarde pas, même si on a envie de savoir ! – les électeurs soient rappelés aux urnes peu de temps après. Le soir de cette nouvelle élection, les résultats sont à nouveau affichés (voir le tableau 8). Le syndicat C se mord les doigts : il a perdu des plumes dans l’aventure (18 voix en moins), mais « la règle » lui permet de conserver ses trois postes (Ouf !). D devrait être content (5 voix de plus, soit un accroissement relatif – nous en avons parlé ci-dessus – égal à 5/20 = 25 %) de même que G qui reçoit 13 voix supplémentaires (soit 13/54 = 24 % d’augmentation). Mais si G se réjouit en définitive d’avoir un siège en plus grâce à la règle des plus grands restes, celle-ci fait hurler D qui a perdu son délégué malgré un accroissement des voix (de 25 %, chère Madame, cher Monsieur !). La « règle » est peut-être très simple, voire démocratique, mais pas sans surprise52. Tableau 8 | Résultats des votes… et ce qu’on en fait – deuxième version

Syndi- Nom- Propor- Nom- Attri- Restes cats bres de tions bres butions n *S S voix pS nS rS 54 %

Attributions supplémentaires

Résultat final

C

108

2,70

2

0,70

1

3

D

25

12,5 % 0,625

0

0,625

0

0

G

67

33,5 % 1,675

1

0,675

1

2

Totaux

200

100 %

3

2

2

5

5

52.  D’autres règles ont été proposées. Nous ne les présenterons pas ici pour ne pas trop nous étendre sur cette question (voir, par exemple, Gassner, 2000). 143

Tout est relatif

6.4 COMMENT FAIRE DISPARAÎTRE MES CALCULS RÉNAUX ? Il est des situations qui peuvent sembler parfois inextricables ! En tout cas, elles apparaissent comme telles au premier abord. Lisez cette petite histoire où les proportions jouent un rôle prépondérant53. Elle illustre le célèbre paradoxe de Simpson.

C’est une mauvaise journée pour Anissa : on vient de lui découvrir des calculs rénaux. Le médecin lui présente deux traitements possibles : le premier (appelons-le « traitement A ») consiste en une chirurgie ouverte ; le second (le « traitement B ») fait appel à une chirurgie moins invasive (on perce de petits trous au travers de la peau). Soucieuse de choisir un traitement de manière raisonnée, Anissa demande au médecin les statistiques de succès des deux traitements. Le médecin lui explique alors que chacun des deux traitements a été testé sur 350 patients : le traitement A a donné satisfaction dans 273 cas et le traitement B chez 289 patients. Elle calcule rapidement les pourcentages de guérisons associés aux deux traitements : 78 % pour le traitement A (273 divisé par 350) contre 83 % pour le traitement B (289 divisé par 350). « Pas besoin d’ajouter des décimales à ces pourcentages », se dit-elle, « ce n’est pas nécessaire ». Le choix lui semble donc simple (d’autant plus qu’elle n’est pas très tentée par la chirurgie ouverte)… mais son entourage la pousse malgré tout à demander l’avis d’un deuxième spécialiste (deux avis valent mieux qu’un !), qui fait à nouveau référence aux résultats des tests cliniques… mais les lui détaille davantage et dresse ainsi le tableau 9. Parmi les 350 patients soumis au traitement A, 87 souffraient de calculs de petite taille et 81 d’entre eux ont été guéris ; ce même traitement A a permis de guérir 192 des 263 autres patients qui 53.  Nous adaptons ici librement un exemple réel provenant d’une étude médicale sur le succès de deux traitements contre les calculs rénaux : voir Julious et Mullee (1994). 144

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Tout est relatif

Tableau 9 | Résultats des tests cliniques pour les deux traitements des calculs rénaux

Proportions de guérisons

Traitement A

Traitement B

Petits calculs (2 cm ou moins)

81/87 93 %

234/270 87 %

Gros calculs (plus de 2 cm)

192/263 73 %

55/80 69 %

Total

273/350 78 %

289/350 83 %

présentaient de « gros » calculs. Ainsi, le traitement A a conduit à 93 % de guérisons lorsque les calculs étaient de petite taille et à 73 % de guérisons lorsque les calculs étaient gros. Quant au traitement B, il s’est montré efficace pour 234 des 270 patients souffrant de petits calculs (87 % de guérisons) et pour 55 des 80 patients qui avaient de gros calculs (69 % de guérisons). Anissa remarque ainsi que le traitement A s’avère en réalité le plus efficace aussi bien en présence de petits calculs que de gros calculs… mais que la situation tourne à l’avantage du traitement B lorsqu’on ne fait plus la distinction entre les deux catégories de calculs rénaux. Elle a beau compter et recompter : la ligne « Total » contient bien les mêmes chiffres que ceux présentés par le premier médecin… C’est à n’y plus rien comprendre ! Mais Anissa est fine mouche et découvre rapidement que cette contradiction apparente des résultats a une explication parfaitement rationnelle. Voyons son raisonnement. Le fait que la proportion de guérisons soit supérieure avec le traitement B résulte de l’effet conjoint des deux causes suivantes : 1) les deux traitements se montrent moins efficaces face à de gros calculs ; 2) le traitement B a été majoritairement appliqué en présence de petits calculs (plus faciles à éradiquer), alors que le traitement A, au contraire, a été plus fréquemment appliqué en présence de gros calculs (plus difficiles à soigner). 145

Tout est relatif

Cette petite histoire que nous venons de conter illustre le célèbre paradoxe de Simpson, décrit par le statisticien Edward Simpson en 1951. Ce paradoxe mathématique, dans lequel le succès de plusieurs groupes semble s’effacer ou s’inverser lorsque les groupes sont combinés, n’est pas une simple curiosité intellectuelle. Il se rencontre fréquemment dans la réalité, en particulier dans les sciences sociales et les sciences médicales, dès qu’on travaille avec des données agrégées et sa bonne compréhension s’avère essentielle pour prendre les bonnes décisions ! L’important est de se rappeler que ce paradoxe se produit quand il existe une variable cachée fortement influente (la grosseur des calculs rénaux…) et que l’échantillon – appelons ainsi l’ensemble des personnes concernées par cette étude – est très inégalement réparti dans les différentes modalités de cette variable. Il faut donc toujours porter un œil critique sur les proportions qui sont présentées et se montrer particulièrement méfiants quand celles-ci sont issues de données associées à un échantillon dont on ne connaît pas (bien) la composition. L’usage de profils permet d’éviter ce piège54, mais cela, c’est une autre histoire…

6.5 FAUT-IL JOUER AU LOTO ? Cette question est évidemment très personnelle. Et pourtant, une presse spécialisée vous fournit toutes les données nécessaires pour affiner votre stratégie : le nombre de gagnants hebdomadaires, le nombre de fois que chaque numéro est sorti au cours des derniers mois, des dernières années. Ces données peuvent-elles vous être d’une quelconque utilité pour vous inciter à jouer ? La réponse peut être fournie en tentant de maîtriser le concept de probabilité.

Entre nous, si vous aimez donner de l’argent à l’État avec le sourire, allez-y, jouez au loto (un don à une institution scientifique ou à une 54.  Voir, par exemple, Dehon et al. (2015) ou Droesbeke et Vermandele (2016). 146

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Tout est relatif

ONG humanitaire est préférable à nos yeux, mais chacun a ses préférences). Par contre, pour rembourser une dette dans les jours qui viennent, ce n’est certainement pas le plus efficace. Voyons pourquoi. Commençons par le cas de la Belgique – pays dans lequel le loto s’écrit avec deux t (lotto), contrairement à la France qui a préféré n’en mettre qu’un, mais cela ne change rien à l’histoire. Ce cas est plus simple que celui de la France. Chaque mercredi et chaque samedi, six numéros (et un numéro bonus dont nous ne parlerons pas ici) sont tirés au sort les uns après les autres parmi une série de numéros allant de 1 à 45, au moyen d’un mécanisme dont on vous assure qu’il fournit à tous les numéros la même chance d’être choisis. On dit, dans le jargon scientifique, qu’ils ont la même probabilité d’être sélectionnés. Dans les jours qui précèdent, les joueurs doivent essayer de deviner quels numéros sortiront du tambour en simulant ce tirage sur des grilles pré-imprimées. Nous nous bornerons ici aux grilles de base destinées à recevoir six numéros joués. La règle du jeu est simple : si vous avez coché les six numéros exacts, vous gagnez le Jackpot d’au moins 1 000 000 €. Youppi ! Mais, avant de jouer, la question qui vous intéresse est évidemment : Quelle est la probabilité de gagner le gros lot ? Ah ! Cette probabilité ! Vous êtes nombreux à honnir ce concept. Et pourtant, cela ressemble tellement à une fréquence, cette proportion qui indique, en termes relatifs, le nombre de fois qu’un événement est advenu. Prenons un exemple classique. Vous avez une pièce de monnaie avec « pile » d’un côté et « face » de l’autre. Vous la lancez dix fois de suite. Quatre de ces lancers vous donnent « pile » : la fréquence observée de piles vaut donc 4/10. C’est simple, non ? Eh bien, la probabilité, c’est comme une fréquence, sauf qu’au lieu d’être observée, elle est théorique. C’est un modèle de fréquence qui permet d’apprécier comment un événement qui ne s’est pas encore produit ou dont vous ne connaissez pas l’histoire, est susceptible de se comporter. Si votre pièce est bien équilibrée, vous avez une chance sur deux d’avoir « pile » à chaque lancer qui suit. 147

Tout est relatif

Deux nombres interviennent dans cette affirmation : le nombre de cas favorables à l’arrivée de l’événement qui vous intéresse – avec le lancer d’une pièce, il n’y a qu’une seule façon d’avoir « pile » – est divisé par le nombre de cas possibles – on dit même « également » possibles pour signifier que la pièce est supposée être bien équilibrée – qui, nous le savons, est égal à deux : on peut obtenir soit « pile », soit « face ». Mais attention ! Ce n’est pas parce que vous avez une chance sur deux d’avoir pile que vous aurez nécessairement 50 % de piles quand vous lancez votre pièce bien équilibrée plusieurs fois de suite, surtout si vous ne répétez le lancement de la pièce qu’un petit nombre de fois. Qui n’a jamais eu cinq ou six piles d’affilée ? Par contre, si vous avez la patience de lancer votre pièce de monnaie sans discontinuer durant quelques semaines tout en mettant à jour le pourcentage de piles obtenu, vous avez de fortes chances que ce dernier soit proche de ½. C’est ce qu’on appelle la loi des grands nombres, dont la première expression fut proposée par Jacques Bernoulli (1655-1705). La probabilité n’est que l’idéalisation d’une fréquence, comme le centre de la cible pour un lanceur de fléchette : il le rate souvent ! Au loto, c’est la même chose, ou presque. La difficulté est de calculer ces deux nombres, surtout le second. Pour vous préparer à cet effort inhabituel, commençons par imaginer un « loto familial » au sein de la famille Vessel. Elle est classiquement composée d’un couple et de leurs deux enfants, une fille et un garçon. Pour faciliter l’écriture de notre histoire, nous désignerons ces derniers par F (pour la fille) et G (pour le garçon). Utilisons la lettre M pour leur mère et P pour leur père. Une caractéristique de la famille est qu’aucun de ses membres n’aime faire la vaisselle et que, par souci d’économie, elle ne possède pas de lave-vaisselle. Qui va assumer la corvée ? Un loto est organisé chaque soir à cet effet. Une boîte contient quatre jetons semblables, portant chacun une des quatre lettres F, G, M et P. Deux jetons sont tirés au hasard chaque soir pour désigner les heureux laveurs de vaisselle : voilà la règle acceptée par tous ! Quelle est la probabilité d’échapper à la corvée pour chacun ? 148

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Tout est relatif

Ils sont tous conscients qu’ils ont tous les mêmes chances de gagner… et de perdre ! Quels sont les duos susceptibles de faire équipe pour la séance de nettoyage ? Il y en a six : la fille et le garçon, la fille et la mère, la fille et le père, le garçon et la mère, le garçon et le père, la mère et le père. En utilisant les conventions de notation présentées ci-dessus, voici la liste : FG, FM, FP, GM, GP, MP.   Ce nombre représente le nombre de façons de choisir deux personnes parmi quatre, ce que les mathématiciens appellent un nombre de combinaisons, qu’ils représentent actuellement par la notation55 4 . Dans cette parenthèse, on indique en premier lieu le nombre de 2 membres de la famille et juste en dessous, le nombre de laveurs de vaisselleX. Nous venons de voir que ce nombre de cas possibles vaut 6. Quelle est la probabilité que les deux enfants, F et G, se paient une séance de vaisselle ? Ce duo représente un cas « favorable » sur les six cas « possibles » et ce que nous venons de voir nous indique que le duo (F, G) a une chance sur six de se retrouver devant l’évier familial. N’en tirez surtout pas comme conclusion qu’ils ne se verront plus ensemble devant l’égouttoir les cinq fois qui succèdent à celle qui leur permet d’assurer la corvée en commun ! Revenons au « vrai » loto, celui qui est censé vous apporter la fortune, et appliquons-lui le même raisonnement. Pour connaître la probabilité de gagner le gros lot, il suffit de diviser le nombre de grilles gagnantes (il n’y en a qu’une, avec les six bons numéros) par le nombre de tirages de six numéros parmi les 45 boules de l’urne. Ce 56 dernier est obtenu en calculant la valeur de 45 6 , égale à 8 145 060. C’est pas mal, non ? Vous avez donc à peu près une chance sur huit millions de gagner le Jackpot. Si vous préférez lire cette fraction sous

()

( )

55.  Les lectrices et les lecteurs qui ont fait des études il y a longtemps ont probablement utilisé une notation plus ancienne de 42 à savoir C24 .

()

( )

45 × 44 × 43 × 42 × 41 × 40 = 8 145 060. 56.  45 6 = 6×5×4×3×2×1 149

Tout est relatif

forme décimale, ce nombre s’écrit 0,00000012. Un événement qui se produit avec une probabilité aussi faible est généralement appelé un événement rare ! Notez qu’avoir une probabilité de gagner ce Jackpot égale à 1/8 145 060, signifie que vous avez aussi 8 145 059 chances sur 8 145 060 de ne pas le gagner. Quelle chance ! À vous d’en tirer les conséquences.

En est-il de même en France ? Le loto français est actuellement composé57 de deux grilles : –– Il faut choisir cinq numéros parmi les nombres entiers allant de 1 à 49 dans la première grille, ce qui nous donne un total de 49 = 1 906 884 combinaisons possibles. 5 –– Il faut aussi choisir un « numéro Chance » parmi les dix premiers nombres entiers, ce qui nous donne un total de dix possibilités.

( )

57.  Si la Française des Jeux décide de changer le règlement du loto avant que vous lisiez cette phrase, nous vous invitons à adapter vous-même cette partie du texte. 150

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Tout est relatif

Comme ces deux choix sont indépendants l’un de l’autre, le nombre total de combinaisons jouables avec cinq bons numéros et le numéro Chance est donc de 1 906 884 × 10 = 19 068 840 combinaisons possibles, en vertu de la « règle du produit » vue plus haut à propos des cent mille milliards de poèmes de Queneau. Vous avez donc une chance sur 19 068 840 de gagner le Jackpot – cela peut encore s’écrire 0,00000005, ce qui ne fait pas grand-chose non plus, reconnaissons-le – et, par conséquent, vous avez 19 068 839 chances sur 19 068 840 de le rater. « Il y a cependant des gagnants », nous direz-vous ! En effet, si vous avez 19 068 839 grilles distinctes remplies de six chiffres, vous pouvez vous attendre à en avoir une gagnante, même si ce n’est pas certain. Vu le nombre de grilles jouées à chaque fois, il n’est donc pas étonnant de voir de temps en temps un heureux gagnant, mais on parle moins des malheureux perdants dans la presse. Il y a aussi des gagnants avec moins de six numéros gagnants, mais ils gagnent moins. Vous avez compris qu’après le bénéfice plantureux prélevé par l’État, la participation au paiement des salaires des employés et dirigeants de la Française des Jeux et la rétribution de ceux qui organisent les tirages, le gain des « grands gagnants heureux » peut encore être important : il est payé par les très nombreux « perdants malheureux ». De toute façon, vous avez compris que les données publiées dans la presse spécialisée sur les succès passés n’ont pas d’influence sur ce qui peut arriver demain. Là aussi, vous pouvez vous épargner de dépenser le coût de ces magazines. Comme le disait Albert Camus dans L’Homme révolté, « Ni le réel n’est entièrement rationnel ni le rationnel tout à fait réel ». Pour l’être humain, le réel c’est le présent et le passé, ce qui n’est pas toujours enthousiasmant pour certains. La facture qu’ils acceptent de payer leur apporte le rêve de gagner. Le domaine du réel est celui des proportions, pas celui des probabilités qui leur ressemblent, certes, mais qui concernent le virtuel, le futur, le monde imaginé. « Probabilité » 151

Tout est relatif

ne rime pas souvent pour le commun des mortels avec « rationalité », elle ne s’entend pas bien, non plus, avec « intuition » !

6.6 COMBIEN DE FOIS PEUT SE PRODUIRE UN ÉVÉNEMENT RARE ? Un événement rare a, par définition, très peu de chances de se produire mais on remarque que si cet événement concerne un grand nombre d’individus, il n’est pas étonnant qu’il se produise une ou deux fois. Est-ce vraiment possible ? Nous vous proposons une petite histoire, racontée par Schneps et Colmez (2015), qui illustre parfaitement ce qui peut arriver.

Le 12 octobre 2003, John Puckett est arrêté par la police de San Francisco. Il a soixante-dix-sept ans et se déplace en fauteuil roulant. Il est accusé du meurtre d’une infirmière, Diana, qui a été violentée et assassinée trente-et-un ans plus tôt. À l’époque, l’affaire fut classée car 152

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Tout est relatif

on ne put prouver la culpabilité du présumé coupable, Robert Baker, malgré les présomptions retenues contre lui. Ce dernier mourut en 1978 et l’affaire fut classée dans les dossiers « non résolus ». En 1997, le Federal Bureau of Investigation (FBI) proposa une nouvelle structure d’identification d’une personne, dénommée CODIS (voir figure 25), basée sur des examens d’ADN (acide désoxyribonucléique). Il s’agissait d’utiliser l’information contenue dans des empreintes génétiques fournies par une petite quantité de tissus biologiques (cheveux, sang, salive, sperme). Le système CODIS58 est basé sur treize caractéristiques particulières d’un chromosome humain, appelées locus.

Figure 25 | Les treize locus du CODIS américain (source : Wikipédia)

En 2003, le département de police de San Francisco eut la possibilité d’utiliser ces nouvelles techniques d’analyse génétique pour traiter d’anciens dossiers contenant des échantillons d’ADN jamais 58. Voir, par exemple, https://fr.wikipedia.org/wiki/Combined_DNA_index_ system. 153

Tout est relatif

exploités auparavant. Il s’agissait de confronter ces échantillons avec une grande base de données d’accusés californiens contenant des échantillons d’ADN. Le sperme relevé sur le corps de Diana était fort dégradé et seul une partie du profil ADN était lisible : sur les treize locus CODIS, seuls cinq étaient visibles. Néanmoins, en confrontant cet échantillon avec la base de données disponible, un seul personnage possédait ces cinq locus : John Puckett. Pourquoi ce dernier se trouvait-il dans la base de données du FBI ? Quelques années après le meurtre de Diana, Puckett avait été suspecté de viols, usant d’une technique d’agression proche de celle du tueur de l’infirmière. Condamné à l’époque, Puckett resta en prison jusqu’en 1985. Il vécut ensuite sans problème avec sa femme dans un mobil home où la police l’arrêta en 2003, malgré ses dénégations. Après interrogatoire, Pucket fut accusé du meurtre de Diana. Est-il possible d’avoir une identification fiable si on ne dispose que d’une partie des treize locus ? Pour répondre à cette question, le FBI a proposé de calculer une probabilité de concordance aléatoire (RMP), définie comme la probabilité pour que deux personnes choisies au hasard dans le monde partagent un certain nombre de locus. Pour la totalité des treize locus, cette probabilité vaut environ un sur quatre cent mille milliards. Comme notre Terre compte moins de dix milliards d’habitants… Les valeurs calculées par le FBI permettaient d’estimer, à l’époque, qu’en moyenne, une personne sur treize possède chaque configuration d’un locus particulier. Comme les locus semblent indépendants les uns des autres, la proportion théorique de la population qui possède une configuration particulière sur deux locus est égale au carré de 1/13, soit environ une personne sur 170. Pour cinq locus, 1 5 cette probabilité tombe à 13 = 0,0000027 (une personne sur 370 1 9 mille environ) et pour neuf locus, cette probabilité vaut 13 , soit approximativement 0,0000000001 (une personne sur dix milliards). Reconnaissons-le : il s’agit bien d’événements rares !

( )

154

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

( )

Tout est relatif

Pourquoi avoir pris le cas de neuf locus ? Parce qu’en 2001, une employée de l’État de l’Arizona, Kathryn Troyer, avait réalisé une grande enquête statistique et possédait un peu plus de dix mille profils génétiques. Elle nota que deux individus partageaient neuf locus génétiques, ce qui était beaucoup comparé aux estimations du FBI. En 2005, elle trouva 122 paires d’individus se partageant neuf locus dans sa base de données qui comportaient alors 65 mille profils. Aux yeux de ceux qui assurèrent la défense de Puckett, il ne pouvait y avoir de doutes : les calculs du FBI étaient faux ! Le problème est qu’il ne faut pas confondre personnes et paires de personnes ! Si vous avez une base de données de dix mille personnes, le nombre de paires possibles vaut, d’après ce que nous avons vu plus haut, la moitié de 10 000 × 9 999, soit 49 millions 995 mille. Comme il y a 715 façons59 de choisir neuf locus parmi treize, on peut constituer 715 × 49 995 000 = 35 746 425 000 paires. Avec une probabilité de concordance aléatoire de un sur dix milliards, avoir deux profils identiques sur neuf locus devient alors normal. Avec une base de données de 65 mille personnes, on peut constituer 1 510 414 262 500 paires (si, si ! Vous pouvez compter !), et dans ce cas aussi, les 122 paires trouvées par Kathryn Troyer étaient tout à fait « normales ». La base de données du FBI dans laquelle on avait repéré le nom de Puckett comportait trois cent trente-huit mille personnes ; nous avons vu qu’avec cinq locus, une personne sur trois cent soixante-dix mille pouvait avoir la configuration relevée sur le corps de Diana. La défense avait à sa disposition un argument mathématique de poids. Le juge, cependant, écarta ces arguments sous prétexte que les calculs étaient trop déroutants : ils ne furent jamais présentés au Jury ! En avril 2008, après de très longues délibérations, John Puckett fut condamné à la prison à vie. Le lecteur pourra trouver dans le très bon livre de Schneps et Colmez (2015) plus de détails sur cette affaire mais une chose est

( )

13 × 12 × 11 × 10 × 9 × 8 × 7 × 6 × 5 59.  13 9 = 9 × 8 × 7 × 6 × 5 × 4 × 3 × 2 × 1 = 715. 155

Tout est relatif

sûre : l’argument probabiliste est très difficile à utiliser par le commun des mortels. Son usage au tribunal en est une preuve qui peut être douloureuse.

6.7 CELA PEUT PARAÎTRE PARADOXAL Nous terminerons cette incursion dans le monde du probable en ouvrant la porte des paradoxes. Celui de Simpson cité ci-dessus n’est pas véritablement si paradoxal que cela. Il en est d’autres qui le sont davantage dès qu’on touche au hasard.

Le hasard est un élément clé de notre existence. On ne peut que tenter de le comprendre, le mesurer, le réduire… Les efforts pour y arriver constituent la trame d’une histoire captivante. Les scientifiques en ont fait un sujet de recherche, d’explication, de modélisation… Les littéraires l’ont aussi intégré de diverses façons. Les mathématiciens

156

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Tout est relatif

en ont fait une discipline, la théorie des probabilités, dont la rigueur et le vocabulaire spécifique hérissent parfois mais dont l’importance est essentielle. Les paradoxes60 y jouent aussi un rôle important comme nous allons l’illustrer ci-dessous. Plusieurs catégories de paradoxes existent sur le marché. Vous avez tout d’abord les plus connus : ils énoncent des propositions qui sont à la fois vraies et fausses. Il en est ainsi du paradoxe du menteur – encore appelé paradoxe d’Épiménide – dont nous prendrons la forme simplifiée suivante : « Je mens au moment où je vous parle ». Si je dis vrai, c’est que je mens et réciproquement. Un autre exemple célèbre est le paradoxe hétérologique de Grelling. Est hétérologique un mot qui ne se décrit pas lui-même. L’exemple souvent cité est l’adjectif « long » qui est hétérologique dans la mesure où il n’est pas long. Mais peut-on dire que le mot « hétérologique » est hétérologique ? Dans le domaine des mathématiques, un paradoxe fréquemment mentionné est la proposition suivante attribuée à Russel : « L’ensemble de tous les ensembles qui ne sont pas membres d’eux-mêmes, est membre de lui-même si et seulement s’il ne l’est pas ». Bien sûr ! Si vous donnez ces exemples dans votre entourage, ne soyez pas étonné de constater qu’on vous regarde de façon bizarre : c’est généralement l’effet d’un paradoxe ! Mais venons-en au domaine des probabilités où le paradoxe est aussi présent. Un des paradoxes les plus anciens est dû à l’un des membres de la famille Bernoulli, prénommé Daniel (1700-1782). Il est appelé le paradoxe de SaintPétersbourg. Nous donnons ici une formulation actualisée de ce problème61. Youmna joue à pile ou face contre Nadia, avec une pièce bien équilibrée. Elle lui donne deux euros si « pile » apparaît lors du premier jeu, quatre euros si cela n’arrive qu’au deuxième jeu, huit euros si 60.  Voir Droesbeke (2005). 61.  Pour plus de détails, voir, par exemple, Droesbeke et Saporta (2014). 157

Tout est relatif

l’occurrence ne se produit qu’au troisième jeu62… À chaque lancer de la pièce de monnaie, la probabilité d’avoir « pile » vaut 1/2, comme celle d’avoir « face ». Les résultats des lancers sont indépendants et, comme de bien entendu, cette pièce est bien équilibrée, ce qui permet de calculer aisément les probabilités de chaque gain : –– la probabilité d’avoir « pile » au premier jeu vaut 1/2 ; –– la probabilité d’avoir « face » au premier jeu et « pile » au deuxième jeu vaut (1/2)(1/2) = 1/4 ; –– la probabilité d’avoir « face » aux premier et deuxième jeux, puis « pile » au troisième jeu vaut (1/2)(1/2)(1/2) = 1/8… Que vaut la moyenne des gains possibles – c’est ce qu’on appelle l’espérance mathématique – de Nadia ? Pour le savoir, il suffit de faire63 la somme des gains multipliés par la probabilité de les recevoir, c’est-à-dire : (2)(1/2) + (4)(1/4) + (8)(1/8) + … = 1 + 1 + 1 +… = ∞. Nadia peut-elle se réjouir de ce calcul et réserver ses places sur un paquebot de luxe pour effectuer un tour du monde onéreux, avant d’affronter Youmna ? Ce résultat si impressionnant en théorie ne doit pas faire oublier que Nadia a de fortes chances de ne gagner qu’un gain réduit. Ainsi, la probabilité d’avoir au maximun trentedeux euros – ce qui ne peut advenir que si « pile » arrive au premier jet de la pièce de monnaie ou à l’un des quatre jets suivants – vaut, d’après la règle d’addition du calcul des probabilités64 1/2 + 1/4 + 1/8 + 1/16 + 1/32 = 31/32. Elle ne peut espérer gagner une grosse somme, par exemple 225 = 33 554 432 €, qu’avec une probabilité proche de 0,00000003, ce qui en fait un événement qu’on peut à nouveau 62.  Les mathématiciens nous disent que le paiement est de 2n euros si pile apparaît pour la première fois au jeu numéro n. 63.  Voir, par exemple, Dehon et al. (2015) Droesbeke et Vermandele (2016) ou encore Saporta (2011). 64.  Voir, par exemple, Dehon et al. (2015). 158

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Tout est relatif

qualifier de rare ! Par ailleurs, il y a peu de chances que l’organisateur du jeu ne fixe pas a priori un plafond du gain possible dans le règlement de ce jeu. De façon générale, on trouve un grand nombre de paradoxes dans le domaine des nombres, certains plus sérieux que d’autres. Mais ces derniers sont parfois plus amusants que les premiers. Vous en voulez la preuve ? Voici un paradoxe « bidon » dont la faille est assez aisée à trouver ; il a été proposé par Lietzmann en 1923 : « Puisque tous les nombres pairs sont divisibles par 2, le seul nombre premier65 pair est 2 lui-même. Ceci veut dire que le nombre des nombres premiers pairs est égal à 1. Mais le nombre total des nombres premiers est infini. Par conséquent, la probabilité pour qu’un nombre premier pris au hasard soit pair vaut zéro – vous vous rappelez certainement que la fraction qui consiste à diviser un par l’infini est égale à zéro. Cette conclusion implique l’impossibilité pour un nombre premier d’être pair. Par conséquent, le nombre premier 2 n’existe pas. »

65.  Rappelons qu’un nombre premier est un nombre entier qui n’est divisible que par lui-même et par 1. 159

7 Regardez les données !

« La plume du poète dessine le contour des choses, et donne à ce qui n’est qu’un rien un nom. » William Shakespeare (1564-1616) Le songe d’une nuit d’été

Ce septième chapitre a pour but d’illustrer les sujets suivants : – Un dessin est toujours un appui précieux. – Il est des artistes en la matière. – Il y en a aussi qui exagèrent. – Il faut tenir compte de nos habitudes.

161

Regardez les données !

7.1 UN BON DESSIN VAUT MIEUX QU’UN LONG DISCOURS Tout le monde sait que, dans la vie courante, il n’y a rien de tel pour aborder un problème que de recourir à l’usage d’un croquis, d’un dessin, d’une représentation graphique, même de façon sommaire. Ils facilitent notre compréhension, notre réflexion, notre désir de convaincre. Aucune discipline n’échappe à ce processus qui nous permet de voir une situation.

Avant d’écrire, on dessine. On dessine ce qu’on voit, on dessine ce qu’on craint, on dessine ce qu’on veut. « S’il vous plaît... dessine-moi un mouton ! » dit le petit Prince à Saint-Exupéry en le réveillant dans le désert du Sahara.

Il est des dessins indispensables comme le plan d’une maison. Il en est de même pour décrire au jardinier votre projet d’aménagement du petit espace vert qui jouxte votre demeure. Il en est d’autres tout 162

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Regardez les données !

simplement utiles. « Jean-Jacques, peux-tu me dire où a lieu le cours de pédagogie active ? ». « Bien sûr, Catherine. Tu sors du bâtiment, tu prends la rue, à droite. Au bout, tu tournes à gauche, puis encore à gauche, tu prends la troisième à droite puis la deuxième à droite… ». Pour donner à Catherine une chance de participer à ce cours, il n’y a rien de tel qu’un petit croquis pour l’aider réellement. Le traitement de données numériques, même peu nombreuses, passe aussi par ce chemin, tout comme la communication des résultats de votre analyse vers l’extérieur. Illustrons cette évidence de tous les jours au moyen d’une petite énigme policière pour nous faire la main66. « Un crime horrible a été commis dans la demeure ancestrale des Baskerville : Conchita, la bonne, a été sauvagement assassinée. Le médecin légiste affirme que l’agression s’est déroulée entre 22 heures et 22 heures 15 et a duré entre 8 et 9 minutes. Le grand détective, Hercule Boitrot, a recueilli les renseignements suivants (tous confirmés) auprès des personnes présentes dans la maison au moment du crime (ces témoignages sont ordonnés, ci-dessous, selon l’âge des témoins) : –– Lady Elisabeth : Vu mon âge avancé, je me couche à 21 heures ; j’ai reçu la visite de mes enfants et petits-enfants entre 22  h et 22 h 15. –– Lord Arthur : Je me trouvais avec mon épouse Lara de 21 h 45 à 22 h, et ai souhaité une bonne nuit à ma belle-mère, Lady Elisabeth, pendant deux ou trois minutes avant de regagner ma chambre. –– Lady Lara : Mon époux est resté dans ma chambre jusqu’à 22 h, heure à laquelle nous sommes allés souhaiter une bonne nuit à Maman ; je suis restée auprès d’elle jusqu’au moment où ce grand cri nous fit tous sortir, à 22 h 15 de nos chambres. –– Sir James : J’ai écouté la radio jusqu’à 22 h 05, moment où le journal parlé se terminait ; traversant le couloir, je suis entré chez ma sœur Sue ; nous avons parlé du dernier film de Stankey 66.  Nous la tirons de Droesbeke et al. (1987). 163

Regardez les données !

Lubrick pendant cinq minutes environ ; ensuite, nous sommes allés ensemble souhaiter la bonne nuit à notre grand-mère, pendant deux ou trois minutes, avant de regagner nos chambres respectives. –– Miss Sue : J’ai écrit à mon fiancé jusqu’à 22 h 05, heure à laquelle mon frère est venu me rejoindre dans ma chambre ; après cinq minutes de discussion passionnée à propos d’un film, nous sommes allés dire bonsoir à notre grand-mère, pendant quelques instants ; j’ai regagné ensuite ma chambre pour me déshabiller ; ma robe étant tachée de confiture, je suis allée frapper à la porte de Conchita pour lui demander de la laver le lendemain. En traversant le couloir, j’ai vu mon père qui revenait du W.C. et se dirigeait vers sa chambre. Ne recevant pas de réponse après avoir frappé à la porte de Conchita, j’ai ouvert celle-ci (la porte), et là, Monsieur Boitrot, j’ai vu… – pour ne pas impressionner les âmes sensibles, nous ne reproduirons pas les propos concernant l’horrible spectacle qui s’est offert aux yeux de cette frêle jeune fille.

Figure 26 | Plan de l’étage

Hercule Boitrot examine le plan de l’étage (voir figure 26) où s’est déroulé ce drame. Il se passe la main dans le peu de cheveux qui lui restent, et prend un morceau de papier sur lequel il dessine rapidement le schéma de la figure 27. C’est un mathématicien dont il a suivi les cours de théorie des graphes dans sa jeunesse qui lui a inculqué 164

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Regardez les données !

ce principe de base : « Rien de tel qu’un petit dessin à main levée pour débroussailler un problème ». Il y recourt fréquemment et cela lui a déjà permis de résoudre des énigmes.

Figure 27 | Schéma dessiné par Hercule Boitrot

En se remémorant les cours de ce mathématicien, Hercule se souvient qu’un graphe est défini à partir d’un ensemble de points appelés sommets (ou parfois nœuds) reliés par des segments orientés (qui s’appellent des arcs) ou non (on parle alors d’arêtes) et que de nombreux problèmes peuvent être représentés par un graphe et résolus au moyen d’algorithmes, ces suites finies et non ambiguës d’opérations ou d’instructions permettant de résoudre un problème ou d’obtenir un résultat. Une idée lui jaillit à l’esprit. Il reprend sa feuille de papier et, avec sa minutie légendaire, prend une latte et un compas de petite taille, puis dessine la figure 28. Il trace autant de petits cercles qu’il y a de personnes concernées par ce drame. Il y insère les initiales de leurs prénoms : A, E, J, L et S. Pris d’une inspiration soudaine, il se dit, en lissant sa moustache : « Chaque fois que deux personnes n’ont pas 165

Regardez les données !

été en contact l’une avec l’autre ou ne se sont pas vues, entre 22  h et 22 h 15, durant un laps de temps supérieur à neuf minutes – la durée de l’agression – je les relie par une arête ». Il lui suffit de regarder quelques instants le graphe de la figure 28 pour s’écrier « Mais c’est bien sûr ! ». Avez-vous compris comment ce graphe lui a donné la clé du mystèreXI  ?

E A

J S

L

Figure 28 | Graphe d’Hercule Boitrot

Cette petite histoire est là pour nous détendre mais sachez que beaucoup de problèmes peuvent être éclaircis en recourant à cette pratique. Il est de nombreux exemples qui témoignent de l’intérêt d’aborder des données numériques en recourant à une visualisation ou à une autre. Un bon conseil : mettez vos données en dessins, c’est toujours utile ! Le recours à des représentations graphiques engendre de multiples questions. Quelle est la plus utile pour étudier un problème particulier ? Qu’est-ce qu’un bon graphique ? Comment le perçoit-on ? Transmet-il le bon message ? En fait-on toujours un bon usage ? Nous n’avons pas l’intention de répondre à chacune d’elle mais d’en évoquer par quelques exemples l’une ou l’autre.

166

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Regardez les données !

7.2 IL Y A DES ARTISTES… L’histoire de la construction des graphiques est variée et passionnante. Elle nous montre comment l’être humain a pris conscience de leur importance jusqu’à en faire un outil essentiel d’analyse et de communication à notre époque67.

Les dessins et les figures géométriques apparaissent très tôt dans l’histoire humaine pour résoudre des problèmes pratiques. Un des premiers moyens proposés pour représenter des données d’observation est la cartographie, qui trouve aussi ses racines dans l’Antiquité. Des tablettes d’argile retrouvées en Mésopotamie témoignent de ce souci. Les plus anciennes connues à ce jour datent de 3 800 ans avant notre ère. Le xviie siècle a vu une amélioration significative de la fiabilité des cartes élaborées pour représenter la géographie des pays, notamment grâce à la triangulation (voir plus haut). Représenter un point dans un plan ne pose plus (trop) de problème à notre époque. On apprend très tôt aux écoliers, à partir d’une origine, à définir deux axes, l’un horizontal et l’autre vertical, munis chacun d’une unité. Tout point du plan est représenté dans ce « repère cartésien » par une abscisse et une ordonnée. Ces termes font partie du vocabulaire quotidien actuel de beaucoup de scientifiques. Cette façon de représenter des points est aussi très ancienne et remonte à l’Antiquité68. L’usage des techniques de représentation a joué un rôle essentiel au Moyen Âge lors de la construction des cathédrales. À la Renaissance, les peintres l’utilisèrent pour perfectionner leur art. Pour eux, le tableau était l’intersection d’un cône visuel – défini par les rayons de lumière joignant l’œil à l’objet du tableau – et le plan du tableau. 67.Voir, par exemple, Palsky (1996) ou encore Droesbeke et Vermandele (2016). 68.  Voir Beniger et Robyn (1978). 167

Regardez les données !

Le xixe siècle est crucial dans l’histoire des graphiques. Ils deviennent des instruments d’analyse et de communication appréciés et contribuent à transmettre des informations numériques de plus en plus nombreuses. Le premier qui recourt intensivement à des graphiques pour représenter des séries de données numériques est William Playfair (17591823). Ce personnage s’est adonné à des activités bien diverses dans son existence : ingénieur, comptable, économiste, marchand, publiciste, banquier… mais aussi journaliste, pamphlétaire, éditeur ou maître chanteur ! Partagé entre l’Angleterre et la France, il habite le quartier Saint-Antoine à Paris quand la Bastille est assaillie, en 1789. Trois ans plus tôt, il a publié en 1786 un Commercial and Political Atlas qui comporte quarante-quatre graphiques. Quarante-trois d’entre eux concernent des séries chronologiques, montrant l’évolution d’un ou de plusieurs phénomènes en fonction du temps. Nous

Figure 29 | Exportations et importations anglaises avec le Danemark et la Norvège, de 1700 à 1780 (source : Tufte, 2001)

168

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Regardez les données !

reproduisons l’un d’eux dans la figure 29. Il décrit l’importance des exportations et des importations anglaises avec le Danemark et la Norvège, de 1700 à 1780. La présentation de ce graphique est très compréhensible, les indications précises. Les commentaires qui y sont mentionnés sont bienvenus. L’original est en couleurs, choisies par Playfair avec soin dans tous ses graphiques, afin de mettre en évidence la position privilégiée de l’Angleterre à l’époque où il les propose. Un tableau de chiffres serait peut-être plus précis mais certainement plus indigeste ! Le quarante-quatrième graphique est un diagramme en barres décrivant les exportations et les importations de l’Écosse « vers » et « de » différents pays, entre Noël 1780 et Noël 1781 (figure 30).

Figure 30 | Exportations et importations de l’Écosse « vers » et « de » différents pays (source : Tufte, 2001)

La qualité des graphiques de Playfair a entouré les données dont il disposait d’un éclat remarquable. Mais d’autres personnages ont aussi donné aux graphiques du xixe siècle leurs lettres de noblesse. S’il fallait n’en citer que trois, nous opterions d’abord pour Léon Louis 169

Regardez les données !

Chrétien Lalanne (1811-1892), polytechnicien entré à vingt ans aux Ponts et Chaussées, dont les courbes « d’égale excentricité » – traduisez « d’égale valeur », où la valeur peut être une température moyenne, une altitude… – sont encore d’actualité. Un deuxième personnage est tout aussi remarquable : Étienne-Jules Maray (1830-1904). Ce médecin et physiologiste français, nommé membre de l’Académie des Sciences en 1878, se fit aussi connaître par ses travaux en photographie et en représentation graphique. Auteur d’une Méthode graphique dans les sciences expérimentales en 1878, ses innovations furent aussi importantes pour la science que pratiques. Un témoignage est fourni par la figure 31 dont la lecture permettait facilement de connaître toutes les données numériques d’un trajet en train entre Paris et Lyon à cette époque.

Figure 31 | Graphique de la marche des trains entre Paris et Lyon (source : Tufte, 2001)

Le dernier personnage que nous citerons est un champion de la communication. Il s’agit de Charles-Joseph Minard (1781-1870), issu de l’École polytechnique et de l’École nationale des Ponts et Chaussées dont il sera directeur de 1830 à 1836. Parmi les représentations graphiques qu’il nous a transmises, celles consacrées aux flux sont particulièrement remarquables. L’une des plus célèbres d’entre elles est 170

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Regardez les données !

consacrée à la campagne de Russie par Napoléon (voir figure 32). Cette carte est superbe ! On peut suivre cette campagne comme si on y était : la taille de son armée, représentée par la largeur du « trait », qui diminue au cours du temps (de 422 000 au départ, elle tomba à 10 000), le chemin parcouru, l’évolution de la température… C’est brutal et impressionnant.

Figure 32 | La campagne de Russie par Minard (source : Tufte, 2001)

D’autres noms pourraient encore être cités : l’Anglais Harness, le Belge Belpaire… L’histoire de ces hommes est enthousiasmante car leurs découvertes ont amélioré de façon éclatante la communication de données numériques (mais pas seulement) et leurs interprétations. Un certain nombre de graphiques de base que nous utilisons aujourd’hui datent du xixe siècle. D’autres, inventés aussi à cette époque, ont disparu ou sont d’usage peu fréquent. Le xxe siècle a proposé de nouveaux types de graphiques pour aborder des données, accompagner des résultats d’analyse ou les diffuser. Mais si les deux siècles passés ont vu éclore des talents en la matière, certains graphiques passés et présents ne sont pas exempts de reproches à des degrés divers. Car même à notre époque, on réalise des graphiques inacceptables. Nous vous proposons de nous en rendre compte avec quelques petits exemples que vous avez peut-être déjà rencontrés… 171

Regardez les données !

7.3 … ET D’AUTRES À BLÂMER  Il est des graphiques qu’il vaut mieux éviter d’utiliser et d’autres qui ne jouent par leur rôle. Comment savoir si un graphique est bon ou mauvais ?

On trouve dans la littérature des conseils pour construire un excellent graphique. Il s’agit avant tout de montrer des données ! Le but est de permettre au lecteur de réfléchir au problème pour lequel elles ont été produites. S’agit-il d’un premier contact avec ces données ? Êtes-vous celui qui est chargé de les analyser ? Est-il destiné à un large public ou à un groupe de spécialistes ? Les figures 29 à 32 étaient clairement destinées à décrire une situation, une évolution. Celui qui les consulte est censé y trouver son intérêt et les réponses aux questions qu’il se pose. Encore faut-il que le graphiste ait travaillé correctement. Prenons par exemple la figure 33. Elle est censée nous informer sur le nombre de nuitées hôtelières d’une région d’Auvergne – nombre de nuits passées dans les hôtels dans les trois mois qui précèdent le relevé – en 2015. Que pensez-vous de ce graphique ? Les vaches ont une bonne tête, le temps semble beau dans la région… C’est tout ? Prenons aussi un deuxième graphique, celui de la figure 34. Il nous montre l’évolution du nombre hebdomadaire moyen d’entrées au cinéma dans une région donnée. Il fait penser à un paysage de montagnes. Mais cela n’est pas un défaut ! Que peut-on lui reprocher ?

Figure 33 | Un graphique d’amateur

172

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Figure 34 | Une évolution tronquée

Regardez les données !

Pour vous aider à répondre à ces deux questions, reportons-nous à la figure 35 qui présente les « douze commandements du mauvais graphiste », préconisés par Wainer, en 1984. Nous pensons en effet comme lui que la meilleure façon de construire un graphique est de savoir… ce qu’il vaut mieux éviter de faire !

1) Moins les données apparaissent sur le graphique, mieux c’est (Show as Few Data as Possible - Minimize the Data Density) 2) Cachez au maximum les données dans le graphique (Hide What Data You Do Show – Minimize the DataInk Ratio) 3) Ne faites pas attention à respecter visuellement les données (Ignore the Visual Metaphor Altogether) 4) Seul l’ordre importe (Only Order Matters) 5) Ne tenez pas compte du contexte (Graph Data Out of Context) 6) Changez d’échelle au milieu des axes (Change Scales in Mid-Axis) 7) Insistez sur ce qui est trivial, ignorez l’important (Emphasize the Trivial – Ignore the Important) 8) Mettez ensemble des quantités d’ordre de grandeur très différent (Jiggle the Baseline) 9) L’ordre alphabétique est primordial (Austria First) 10) N’hésitez pas à utiliser des légendes illisibles, incomplètes, incorrectes et même ambiguës (Label (a) Illegibly, (b) Incompletely, (c) Incorrectly, and (d) Ambiguously) 11) Utilisez le maximum de décimales et de dimensions (More is Murkier: (a) More Decimal Places and (b) More Dimensions) 12) Ce n’est pas parce que vous avez bien travaillé dans le passé, qu’il faut continuer à le faire (If it has been Done Well in the Past, Think of Another Way to Do it).

Figure 35 | Les douze commandements du mauvais graphiste (Wainer)

173

Regardez les données !

Mettez cette liste à côté de vous et regardez d’abord la figure 33. Avez-vous trouvé les commandements qu’elle respecte (c’est-à-dire ses défauts) ? Il y a tout d’abord ceux qui sont flagrants : –– le graphique aurait pu être meilleur car il faut de bons yeux pour aller chercher l’information (premier commandement) ; –– la partie intéressante du graphique est réduite par rapport à l’image totale (deuxième commandement) ; –– on aurait pu indiquer l’année et mieux expliciter l’échelle des ordonnées (dixième commandement). On ne peut rien affirmer pour les autres reproches possibles, sauf pour les commandements 4, 6, 8 et 9 dont on peut dire qu’ils ne sont pas concernés. Prenez maintenant la figure 34. Les reproches à faire concernent certainement les commandements 1, 6 et 10 : les valeurs de la variable n’apparaissent pas, l’échelle du temps en abscisse est annuelle jusqu’en 2015 et trimestrielle ensuite. Encore faut-il arriver à la lire ! Faites la même expérience avec quelques graphiques trouvés dans la presse ou sur un panneau publicitaire, et vous adopterez vite un œil critique bien utile pour déceler les bons des mauvais graphiques. Il peut bien sûr arriver que ces derniers soient proposés par ignorance et de bonne foi, surtout quand « on a l’habitude » de faire ainsi depuis longtemps. C’est le cas du camembert que l’on rencontre (trop) fréquemment.

7.4 DES CAMEMBERTS DONT ON POURRAIT SE PASSER Il n’est pas un jour sans qu’on rencontre un graphique qu’on appelle, dans le langage courant, un camembert. Est-il aussi utile que son usage le fait penser ?

Les qualités d’un camembert sont en réalité assez faibles. Nous ne parlons pas évidemment de celui qui peut être dégusté à la fin d’un 174

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Regardez les données !

bon repas ! Celui dont il s’agit consiste à représenter la distribution observée des valeurs d’une variable par un cercle partagé en secteurs dont la surface est proportionnelle au pourcentage observé – appelé fréquence – de la valeur représentée par chacun d’eux. La figure 36 vous en donne un exemple : elle décrit la répartition des recettes d’une commune dont nous tairons le nom.

Figure 36 | Recettes d’une commune (source : Wikipedia)

Pourquoi ce camembert est-il d’une utilité très relative ? L’œil est en réalité incapable d’apprécier à sa juste valeur la surface réelle d’un secteur d’un cercle et les comparaisons entre surfaces de deux secteurs distincts sont malaisées, surtout quand ces derniers ne sont pas situés l’un à côté de l’autre. On peut bien sûr constater qu’il y a des grands secteurs, des moyens et des petits mais sans l’aide du tableau des fréquences, on ne peut pas faire grand-chose de plus. En outre, l’habitude de décaler vers l’extérieur des morceaux pour attirer le regard sur une partie du gâteau – comme c’est le cas dans la figure 36 – ne facilite pas les comparaisons non plus. Si vous ajoutez à cela que pour faire « beau », on a utilisé une troisième dimension 175

Regardez les données !

tout à fait inutile « pour donner du volume », vous aurez compris qu’il y a moyen de faire mieux ! Insistons sur ce point. Il est très difficile d’apprécier visuellement une surface censée représenter une proportion qu’on donne souvent avec une précision parfois exagérée. Une preuve nous en est fournie par la figure 37 qui présente les résultats du premier tour des élections législatives françaises publiés en première page du Monde du 12 juin 2012. Les pourcentages de voix obtenus par les partis sont représentés graphiquement par des cercles dont la surface leur est, en principe, proportionnelle.

Figure 37 | En première page du Monde du 12 juin 2012

Combien de personnes se sont-elles rendu compte de la fausseté de cette figure ? Très peu, probablement, y compris les responsables du journal. La vraie représentation qui allie correctement donnée et surface est contenue dans la figure 38 qui diffère sensiblement de la précédente (nous remercions Jean-Pierre Raoult de nous avoir transmis cet exemple erroné et sa correction). Imaginez alors ce qui peut se passer quand l’objet représentatif de la fréquence n’est pas aussi «  régulier » qu’un cercle ou un quartier de cercle, comme dans la figure 39. 176

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Regardez les données !

Figure 38 | Représentation correcte

Figure 39 | Des poules plus dodues (source : Wikipedia)

Cette figure que l’on peut trouver sur le site http://www.huffingtonpost.fr/2014/10/03/le-poulet-delevage-a-plus-que-quadruple-devolume-ces-50-dernie/ rend compte d’une étude parue dans la revue Poultry Science selon laquelle le poids moyen des volailles d’élevage a plus que quadruplé depuis les années 50/60. Nous sommes persuadés que vous n’avez probablement pas remarqué tout de suite que la 177

Regardez les données !

poule de droite est 4,64 fois plus grosse que celle de gauche, où 4,64 est le résultat de la division du poids moyen des poules en 2005 (4 202 grammes) par celui de 1957 (905 grammes) ! Il faudra encore longtemps pour que de telles habitudes ne se produisent plus, même si on dispose d’une alternative plus efficace que le camembert qui s’appelle un diagramme en barres. Nous préférons de loin la figure 40 à la figure 36 pour présenter la répartition des recettes. La comparaison entre les différentes modalités est bien plus facile.

Figure 40 | Un diagramme en barres plus efficace

178

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

8 La manipulation par des données

« Est fanatique celui qui est sûr de posséder la vérité. Il est définitivement enfermé dans cette certitude ; il ne peut donc plus participer aux échanges ; il perd l’essentiel de sa personne. Il n’est plus qu’un objet prêt à être manipulé. » Albert Jacquard (1925-2013)

Ce huitième chapitre a pour but d’illustrer les sujets suivants : – Il y a plusieurs façons de manipuler des données. – Il est des causalités douteuses et des sondages inutiles.

179

La manipulation par des données

8.1 IL Y A MANIPULATION ET MANIPULATION La manipulation qui nous intéresse ici est bien sûr l’action d’orienter la conduite de quelqu’un dans le sens que l’on désire et, généralement, sans qu’il s’en rende compte. Et la plupart du temps, ce sens n’est pas le plus honnête ! Pour atteindre ses objectifs, un manipulateur utilise des moyens divers. Il peut aussi s’appuyer sur des données numériques.

Le monde de la manipulation est vaste. Pour s’en convaincre, il suffit de consulter la littérature consacrée à ce sujet69. Pour atteindre ses objectifs, le manipulateur utilise des mots, des arguments, des gestes, des postures, des stratégies… Il peut aussi s’appuyer sur des nombres, au travers de données numériques et de leurs représentations graphiques. Ces manipulations peuvent parfois être mineures, voire inconscientes et même faire sourire quand on se laisse guider par un prestidigitateur avide de sensations. Malheureusement, elles peuvent aussi résulter d’impostures de plus ou moins grande ampleur. Rappelons que les données proviennent généralement d’un dénombrement, d’une mesure, d’une quantification ou d’une nombrification. Pour chacun de ces cas, elles peuvent aussi résulter d’une transformation ou d’une opération d’ordre statistique pour faciliter leur usage (calcul d’un pourcentage, calcul d’une moyenne…). Une manipulation de données brutes ou calculées peut se produire à tout moment. Elle peut consister à ne pas corriger une erreur d’observation ou de calcul, omettre ou supprimer volontairement un ensemble de données existantes, modifier la valeur de certaines d’entre elles ou fabriquer de « fausses » données. Les premières manipulations que nous vous proposons d’examiner reposent sur l’omission. Oseriez-vous affirmer, qu’enfant ou jeune adolescent(e), vous n’avez jamais été tenté(e) d’occulter un 5 sur 20 obtenu lors d’une interrogation de mathématiques ? Bon d’accord, ce n’était peut-être pas vous, 69.  Voir, par exemple, Joule et Beauvois (2014) ou encore Mieilczareck (2016). 180

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

La manipulation par des données

mais plutôt votre copain ou votre copine de l’époque. Il s’agit là d’une « manipulation par omission » dont l’importance peut varier d’une situation à l’autre. Pour le gamin ou la fillette dont on vient de parler, une bonne réprimande suffit souvent à rectifier (plus ou moins) le tir. Nous connaissons un enseignant, président d’un jury de délibération, qui vérifiait avant chaque réunion de ce dernier si une omission de transmission de note ou une erreur flagrante de calcul de moyenne n’apparaissait pas dans son tableau de résultats. Si l’élève ou l’étudiant était lésé, l’erreur était corrigée et signalée à son auteur. Dans le cas contraire, si cette erreur était légère et qu’elle pouvait « encourager l’étudiant à affronter les difficultés ultérieures », notre responsable oubliait parfois de relever cette erreur. Est-ce grave, docteur ? Nous ne nous souvenons pas que l’enseignant ait été critiqué pour cette « omission » par ceux qui l’ont appris. Malheureusement, il existe des cas où des individus omettent de corriger une erreur quand ils s’en rendent compte, dans un but moins louable. Une donnée peut être fausse « sans intention de la falsifier » pour diverses raisons : en raison d’une faute de frappe lors de sa saisie, parce qu’on a oublié de transcrire les décimales qu’elle comporte, parce qu’elle résulte d’une mesure effectuée avec un instrument de mesure déficient… Normalement, une telle fausseté se doit de n’être que temporaire et corrigée dès qu’on s’en aperçoit. Une manipulation « frauduleuse » consiste donc à ne pas rectifier sciemment une erreur pour permettre à son auteur d’en retirer un bénéfice qu’il juge important pour lui. Il n’est pas toujours facile d’identifier une manipulation de ce genre car celui qui est accusé de la commettre peut avoir agi de bonne foi. Ce n’est souvent que si elle est détectée par autrui ou avouée qu’elle est dévoilée. En voici un exemple parmi beaucoup d’autres. Une longue enquête70 parue dans le journal Jama Internal Medicine, « démontre que l’industrie du sucre a, depuis un demi-siècle, 70.  Voir l’article de Soumois Fr. intitulé L’industrie du sucre a corrompu la science depuis un demi-siècle, et parue dans le quotidien Le Soir, le 16/9/2016, à Bruxelles. 181

La manipulation par des données

corrompu la science officielle pour que l’impact de son produit sur la santé soit minimisé, exactement à l’instar de ce qu’a réalisé l’industrie du tabac durant les mêmes années… ». Deux grands nutritionnistes ont volontairement, contre « rémunération », « écarté des études qui mettent le sucre en cause » dans un article publié en 1967 dans le New England Journal of Medicine, détournant ainsi l’attention des spécialistes vers les graisses plutôt que vers le sucre à propos de la prévention des maladies cardiaques. Ici, nous sommes au centre de la manipulation. Il est bien trop fréquent que des données soient « oubliées » pendant un temps plus ou moins long, ou même supprimées, dans un but peu louable. La chasse à ce type de manipulation est essentielle surtout quand l’existence ou la santé d’individus est en jeu. Un autre type d’omission frauduleuse existe, tout particulièrement dans le monde scientifique. Il consiste à « oublier » de mentionner le nom de celui ou de celle qui a engendré ou obtenu des données et d’utiliser celles-ci comme si on en était le producteur. Cela s’appelle du plagiat. Il est des cas célèbres, dont celui-ci qui est assez étonnant71. L’histoire débute en décembre 1822. Louis naît dans le Jura. Son père est tanneur et sa famille habite près d’une boucherie qui leur fournit les peaux de bêtes nécessaires au métier de son père. Les odeurs putrides dont il est entouré développent en lui le « dégoût du sale », écrit Orsenna en 2015, ce qui explique probablement en grande partie sa quête de l’hygiène pendant son existence. Élève brillant, il étudie à l’École normale supérieure de la rue d’Ulm, à Paris, obtient son doctorat en chimie à l’âge de 25 ans et enseigne à Strasbourg puis à Lille où ses travaux de recherche l’amènent à l’Académie des Sciences en 1862. Il a alors juste 40 ans. Trois ans plus tard, Louis Pasteur – car c’est bien de lui qu’il s’agit – dépose un brevet pour la « pasteurisation » du vin et tout le monde a entendu parler du premier vaccin contre la rage inoculé en 1885 qui le rend définitivement 71.  Voir Harpoutian (2016). 182

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

La manipulation par des données

célèbre. Trois ans plus tard, il inaugure un institut qui porte encore son nom aujourd’hui. Il décède en 1895, auréolé de gloire et jouissant d’une reconnaissance universelle que nous avons appris à partager dès notre enfance. Mais le 18 février 1988 a terni cette belle image. Que s’est-il passé ce jour-là ? Depuis 1735, l’Académie des Sciences prévoit la possibilité pour un chercheur de déposer en son sein un pli confidentiel fermé qui ne sera ouvert que cent ans plus tard – sauf décision de son auteur – auquel il faut ajouter vingt ans pour tenir compte des années de guerre72. Entre 1735 et 1983, plus de seize mille plis cachetés ont été déposés par de nombreuses personnes pratiquement inconnues mais aussi par des personnalités comme Claude Bernard, Henri Becquerel, Charles Cros, Wolgang Doeblin, Antoine Laurent de Lavoisier… et Louis Pasteur. Le 26 juillet 1869, vingt-six ans avant son décès, ce dernier dépose un pliXII qui ne sera ouvert que près de cent vingt ans plus tard. Il porte le numéro 2504. Que contient cette enveloppe scellée ? Des carnets rédigés par Pasteur parlant de son activité de chercheur, de ses échanges de courrier, de ses rencontres à propos des vers à soie. Pasteur travaille sur les vers à soie depuis 1865, à la demande des autorités de l’époque qui veulent endiguer leurs méfaits, tout particulièrement dans le Sud de la France. Un événement provoque le dépôt précipité de son pli à l’Académie : une équipe autrichienne dirigée par Friedrich Haberlandt « risque » d’être considérée comme la première équipe savante à avoir résolu le problème. Pour consolider les « preuves » dont il fait état dans son pli, Pasteur publie quelques mois plus tard un ouvrage intitulé Études sur la maladie des vers à soie. L’examen des Cahiers de Laboratoire sur les vers à soie, qui ont servi de base à cette publication, fait apparaître que les travaux préparatoires ont été rédigés par un proche collaborateur de Pasteur, Émile Duclaux. Pasteur transcrit le texte de son adjoint « presque mot 72.  Voir Carosella et Buser (2013). 183

La manipulation par des données

à mot, le « je » de l’auteur étant remplacé assez souvent par « on » […] et la plupart des expériences citées par Pasteur sont des copies directes du cahier », comme le souligne Richard Moreau73. Il ressort de la confrontation entre la réalité du personnage et l’image qu’il s’était créée « un Pasteur paradoxal, terrible de vanité, manipulateur, prêt à tous les mensonges pour alimenter sa légende, tout en demeurant un grand scientifique qui se voue totalement à ses recherches… », comme l’écrit Harpoutian en 2016. Selon lui, il apparaît que plusieurs autres savants se sont fait déposséder de leurs résultats par Pasteur. Si le génie de ce dernier a résidé dans sa capacité à clarifier des découvertes et d’en faire des synthèses brillantes – Géminien Luppi dira de lui, dans son dictionnaire de séricologie, qu’il « tendait à vulgariser les idées de ses devanciers, quoique venu le dernier » – il semble que sa soif maladive de reconnaissance ait empêché de nombreux scientifiques de son temps d’être appréciés à leur juste valeur. Et pourtant, Pasteur n’a-t-il pas écrit « qu’il ne suffit pas de connaître la vérité, il faut encore la proclamer » ? Encore est-il nécessaire de le faire correctement. Omettre de faire quelque chose ne demande pas d’intervention matérielle, contrairement à la modification qui implique une action de la part de celui ou de celle qui la réalise…

8.2 CHANGEZ DE DÉFINITION Si l’omission est une technique de manipulation qui peut avoir des conséquences plus ou moins graves, la modification et la suppression en sont deux autres.

73.  Dans « Le dernier pli cachet de Louis Pasteur à l’Académie des sciences », La Vie des Sciences, Comptes rendus, série générale, 6, n° 5, page 421. 184

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

La manipulation par des données

Commençons par un petit souvenir. Vous avez peut-être participé à des travaux pratiques de physique au cours desquels vous deviez retrouver expérimentalement l’accélération de la pesanteur à la surface de la Terre qui vaut – c’était écrit dans votre manuel – g = 9,80665 mètres par seconde au carré. Vous souvenez-vous de la tentation de votre condisciple – à moins que ce soit vous ou quelqu’un d’autre ? – de changer ses résultats expérimentaux afin de se rapprocher de cette valeur ? Modifier une donnée présente souvent un caractère frauduleux, en dehors de la correction d’une donnée dont on s’est rendu compte qu’elle était fausse, bien entendu. De nombreux exemples existent malheureusement, dans des bilans comptables ou des déclarations fiscales. C’est aussi le cas pour des séries de données numériques, que ce soit dans des publications scientifiques ou non. Le but est souvent le même : modifier des données par intérêt, pour permettre de faire passer des idées, pour convaincre son interlocuteur. Un exemple de ce type de manipulation par modification est fourni par l’« affaire Georgiou » à propos de la publication des chiffres du déficit par le gouvernement grec en 2009 (voir à ce propos le dossier publié par la revue Statistique et Société de la Société Française de Statistique en 2018). Il est une façon subtile de manipuler des données relevées à des époques distinctes, qui consiste à changer leur définition au cours du temps. Cela peut peut-être se réaliser pour de très bonnes raisons, mais est-ce bien toujours le cas ? Tout le monde connaît l’indice des prix à la consommation (IPC). Rappelons qu’un indice est le rapport entre la valeur d’une grandeur au cours d’une période courante et sa valeur au cours d’une période de base. Ainsi, un article qui coûte 10 € en juillet 2015 (période de base) et 12 € un an plus tard (période courante) engendre un indice de prix égal à 12/10 = 1,20. Un tel indice est souvent exprimé en % (120 dans notre exemple), ce qui permet de dire qu’en un an, le prix s’est accru de 20 %. L’indice des prix à la consommation concerne un 185

La manipulation par des données

« panier de produits ou de services consommés par les ménages » et a pour ambition de comparer une valeur synthétique de ce panier entre deux périodes données. Il permet d’estimer, entre ces dernières, la variation moyenne des prix de ces produits et services. C’est donc une mesure synthétique de l’évolution des prix des éléments de ce panier. Prenons le cas de la France. Le suivi de l’évolution de tous les prix n’étant pas possible, il s’agit de relever chaque mois le prix de produits et services choisis de telle manière que leur évolution est censée représenter l’évolution de l’inflation du pays. Chaque mois, l’INSEE suit deux cent mille prix des éléments d’un panier de biens et services, pondérés par leur importance dans la consommation. L’observation des prix se fait par enquête et échantillonnage permanents. L’indice des prix à la consommation74 sert notamment à indexer de nombreux contrats privés, des pensions alimentaires… et le salaire minimum interprofessionnel de croissance dénommé SMIC75. L’histoire de cet indice n’est pas exempte de manipulation comme on va s’en rendre compte76. Calculé pour la première fois à Paris et publié régulièrement dès 1913, l’indice des prix de détail des produits de consommation courante – il y en a treize cette année-là – est, au départ, censé « apaiser la colère des ménagères qui s’insurgeaient contre la vie chère… ». Pour avoir un indice plus précis, on passe à trente-quatre produits dans les années 1930, tout en restant à Paris. Ce nouvel indice est calculé pour les familles d’ouvriers et d’employés aux revenus modestes, composées de deux enfants. Une première salve de critiques s’abat sur les experts de la Statistique générale de France77 (SGF) – ce service 74.  Voir https://www.insee.fr/fr/metadonnees/definition/c1557. 75.  Plus précisément, l’indice retenu pour le SMIC est celui des « ménages urbains dont le chef est ouvrier ou employé, hors tabac ». 76.  Ce résumé est basé sur l’article de Touchelay (2015). 77. En 1940, la SGF fusionne avec le Service d’observation économique (créé en 1937), l’Institut de conjoncture (créé en 1938) et le Service de la démographie pour devenir le Service national des statistiques (SNS). Ce dernier sera remplacé par l’INSEE en avril 1946. 186

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

La manipulation par des données

ministériel chargé de collecter et d’analyser des statistiques pour le gouvernement français – quand on constate l’écart qui se creuse entre les prix de gros et les prix de détail, les seconds augmentant plus vite que les premiers. Pas de doute, il faut changer le système ! En 1949, l’Institut national de la statistique et des études économiques (INSEE) relève les prix de deux cent-treize produits. « L’indice bénéficie de la formation de solides équipes d’enquêteurs implantées dans les dix-huit directions régionales et des progrès du traitement mécanographique des données. Son calcul est ancré sur des pondérations issues de dépenses réellement constatées et non plus sur des budgets types normatifs et négociés, les relevés de prix sont plus nombreux et ils ne sont plus exclusivement parisiens »78. C’est un progrès certain mais vulnérable, car il repose sur la clause de l’échelle mobile, appelée aussi indexation. La loi du 18 septembre 1952 stipule que le salaire minimum interprofessionnel garanti (SMIG) est indexé sur cet indice. Très vite, des pressions sont exercées par le gouvernement, présidé à l’époque par Antoine Pinay, et par les professionnels qui veulent connaître la manière dont l’indice fonctionne. Elles sont d’autant plus fortes que l’on s’approche du seuil qui déclenche l’augmentation du SMIG. L’indice tient le coup jusqu’à la formation du gouvernement Mollet, le 30 janvier 1956. Francis-Louis Closon, directeur de l’INSEE à l’époque, proclame que « l’indice des 213 articles est devenu un objet de dérision qui dégrade le crédit de la statistique dans l’opinion ». Au début 1956, le gouvernement donne son accord pour que l’indice soit construit à partir de 230 articles. Établi à partir des prix moyens de 1955, il prend en compte les ménages de toutes tailles (célibataires exclus) de la région parisienne dont le « chef » est ouvrier ou employé. L’examen des valeurs de ce nouvel indice pousse le gouvernement à demander qu’on passe à 250 articles en incluant les fruits et légumes frais mais les mois s’écoulent sans que 78.  Voir Touchelay (2015). 187

La manipulation par des données

rien ne change. Exaspéré, le gouvernement oblige l’INSEE à calculer un indice « technique » de 179 articles dont il dicte la composition malgré les réticences de l’institution statistique : on le désigne encore de nos jours comme étant « l’indice défini par le décret du 17  septembre 1957 ». Un indice basé sur deux cent cinquante articles entre enfin en vigueur fin 1957. Il tient jusqu’en 1971, année où apparaît un nouvel indice de deux cent quatre-vingt quinze postes. Celui-ci fait lui aussi l’objet d’une contestation virulente de la part des syndicats qui lui reprochent de sous-estimer l’évolution des prix. La CGT publie en parallèle un indice spécifique qui ne quantifie pas la même chose que l’indice officiel. Une nouvelle pression gouvernementale conduit l’INSEE, dirigé alors par Edmond Malinvaud, à publier deux indices : le premier « sans tabac » sert aux nécessités de l’indexation, le second, « avec tabac », fournit davantage une information économique. Ils sont remplacés en 1993 par un nouvel indice qui crée un nouveau malaise : l’inflation « mesurée » par l’INSEE ne correspond pas à l’inflation ressentie par la population. L’entrée en vigueur de l’euro en 2002 ajoute un bécarre à cette partition. L’histoire mouvementée de l’indice des prix à la consommation s’est donc trouvée confrontée à des manipulations diverses. Elle montre combien il est difficile de quantifier des objets dont la pertinence n’est pas toujours ressentie. Cette histoire montre en outre que se baser sur un seul indicateur pour décrire un phénomène dont les aspects économiques sont multiples n’est pas la voie la plus simple à suivre. Il a fallu un certain temps pour en tirer les leçons.

8.3 NE NOUS LAISSEZ PAS SUCCOMBER À LA TENTATION… On peut non seulement modifier des données existantes, mais en fabriquer de nouvelles, et même les mélanger à des données fiables pour rendre ces dernières plus crédibles.

188

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

La manipulation par des données

Il y a de nombreux exemples de manipulations de ce genre. L’une des plus célèbres est certainement le cas de l’homme de Piltdown. Nous sommes au début du xxe siècle. Un avocat britannique, Charles Dawnson (1864-1916), archéologue, paléontologue et géologue amateur, annonce en 1912 à Arthur Smith Woodward (18641944), alors président de la Société de géologie de Londres, qu’il a « découvert » un crâne humain particulièrement intéressant. Peu après, ces deux personnages présentent le crâne de l’Eoanthropus, semblable à celui d’un homme actuel mais dont la mandibule est exactement celle d’un singe aux dents bien usées : « le chaînon manquant prouvant la filiation entre le singe et l’homme a été trouvé  ! », proclame-t-on. Cinquante ans plus tard, en 1952, un scientifique du nom de Marston établit que les dents appartiennent en fait à un orang-outan et que l’âge du crâne a au plus quarante mille ans. Les ossements sont datés en 1959 au carbone 14 et le verdict est implacable : on a adjoint à un crâne du Moyen Âge une mandibule de près de cinq cents ans79. Qui a commis cette imposture ? Les acteurs ne sont malheureusement plus là pour le dire. Et si on ajoute qu’Arthur Conan Doyle travaille à l’époque à son roman Le Monde Perdu, qu’il habite près de Piltdown et qu’il fréquente Dawnson, vous imaginez les conclusions qui fusent à la suite de cette révélation ! Cela fait aussi partie d’un processus de manipulation ! Remarquez que cette histoire aurait pu être un canular, comme ce fut le cas du géant de Cardiff, un homme de pierre, gisant sur le dos, dont la taille vaut trois mètres et seize centimètres, et qui est découvert en 1869 dans ce petit village des États-Unis. Contribuant à l’idée que l’on détient la preuve de l’existence des géants cités dans l’histoire biblique, cette découverte provoque un engouement sans nom du public et incite le célèbre promoteur de cirque Barnum à faire une copie de ce géant pour en tirer profit. Traîné devant le 79. Voir https://fr.wikipedia.org/wiki/Homme_de_Piltdown ou encore Thomas (2002). 189

La manipulation par des données

tribunal pour copie d’une statue aussi importante, Barnum est aussi surpris que les autres personnes présentes à l’audience, d’entendre l’auteur de cette manipulation, un certain George Hull, avouer qu’il s’agit d’un canular destiné à rabattre le caquet des religieux qui vantent les mérites de ces géants. Barnum fut relaxé car, comme le souligne Harpoutian, en 2016, « un faux de faux ne peut être juridiquement faux lui-même ». L’histoire des données manipulées ne se restreint malheureusement pas aux seuls canulars. Elle concerne aussi des personnages aux allures plus sérieuses comme cet archéologue, autodidacte mais beaucoup plus professionnel que Dawnson, du nom de Shinichi Fujimura. Né en 1950, ce dernier s’est fait une réputation en participant à près de cent quatre-vingt fouilles archéologiques dans tout le Japon. En octobre 2000, il annonce une découverte importante sur le site de Kamitakamori : des pièces mises à jour dateraient de 570 000 ans ! Malheureusement, quelques jours plus tard, un quotidien publie des photos de notre personnage… en train d’enterrer des objets qui faisaient partie des « découvertes ». Fujimura reconnait les faits le jour même – il a enfoui soixante et une pièces des soixante-cinq découvertes dans la suite – mais cet ajout de « données » jette un voile bien sombre sur toutes les fouilles auxquelles ce personnage a participé au cours de sa carrière80. On possède à notre époque de nouveaux moyens de vérifier ce type de fraude scientifique, mais il en est probablement qui passent encore à travers les mailles du filet. Quand de telles fraudes sont éventées, cela se traduit souvent par une rétroaction des publications des auteurs de ces malversations. Si le tableau 10, proposé par Harpoutian – il date de 2012 – est bien conforme à la réalité, il est tout à fait édifiant. Avouez que subir cent quatre-vingt-trois rétroactions d’articles publiés entre 1980 et 2011, est un record peu enviable ! Ce tableau souligne l’importance de la médecine, de la physique et de la chimie 80.  Voir Harpoutian (2016). 190

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

La manipulation par des données

dans les domaines concernés par ce problème, mais l’économie et la psychologie le sont aussi. Cette dernière discipline a d’ailleurs connu une autre manipulation devenue célèbre. Connaissez-vous Cyril Burt (1883-1971) ? Ce psychologue anglais s’est illustré dans la quantification de l’intelligence humaine dont il a soutenu qu’elle était héréditaire, se plaçant ainsi dans la lignée de Galton et de l’eugénisme dont nous avons parlé plus haut. Tableau 10 | Hit-parade des fraudes scientifiques

Classement Fraudes

Chercheur

Pays

Domaine

Année

1

183

Y. F.

Japon

Anesthésie

2012

2

94

J. B.

Allemagne

Anesthésie

2011

3

60

P. C.

Taïwan/ Chine

Chimie

2009

4

58

D. S.

Pays-Bas

Psycho. sociale

2011

5

48

A. M.

États-Unis

Électronique

2007

6

41

H. Z.

Chine

Chimie

2010

7

36

S. K.

Japon

Endocrinologie

2014

8

36

J. S.

États-Unis/ Allemagne

Physique

2002

9

35

H. M.

Japon

Chimie

2010

10

32,5

J. H.

États-Unis

Éco/gestion

2012

11

32

N. M.

Japon

Virologie

2012

12

29

T. L.

Chine

Chimie

2010

Cet amateur de mesures psychométriques et de tests mentaux s’est notamment illustré par ses études sur les jumeaux avec une idée en tête : l’environnement n’influe que peu sur le développement intellectuel d’un enfant. Au moment de sa mort, Burt est considéré comme un spécialiste de la psychologie de l’enfant et son influence sur la politique scolaire britannique de son temps est certaine. Pour arriver 191

La manipulation par des données

à ses fins, il s’est basé sur des données diverses qu’il a soumises à des traitements. Parmi ceux-ci, la recherche de corrélations « significatives » occupe une place importante. Il faut qu’un psychologue du nom de Kamin se penche sur les écrits de Burt et de ses homologues à propos des jumeaux pour que le processus s’enclenche81. Deux scientifiques, Ann Clarke et Jane Conway publient dans le British Journal of Psychology une étude sur les corrélations entre le quotient intellectuel (QI) des parents et celui des enfants. Cette étude met en évidence un fait étonnant : les résultats de Burt sont frauduleux. Il a même imaginé une équipe de collaboratrices dont il s’est avéré qu’elles n’existaient pas. Dans son obsession de trouver des données qui lui permettent de « prouver » ses idées préconçues, il n’a même pas hésité à « retrouver » la même valeur du coefficient de corrélation, exprimé avec trois décimales, à partir de données distinctes à des époques différentes. L’une de ses anciennes étudiantes, Leslie Hearnshaw, écrit en 1979 une biographie de son ancien professeur « afin de laver son honneur » : Cyril Burt, Psychologist. Elle ne peut, contre son gré, que confirmer les faits. Dans un autre domaine, le dernier chapitre de l’ouvrage publié en 2009 sous le pseudonyme Lorraine Data par un collectif de fonctionnaires issus de la statistique et de la recherche publiques, s’intitule Comment fabriquer les bons chiffres de la délinquance ? On y apprend qu’il suffit de « demander aux policiers et aux gendarmes d’obtenir les résultats demandés à l’avance par le ministre… », et le tour est joué. Dans cet ouvrage, quatre techniques pour « accommoder les statistiques à la sauce gouvernementale » sont illustrées : ne retenir que ce qui arrange, utiliser un indicateur « écran », changer la façon de compter en gardant apparemment le même indicateur et faire dire à un chiffre ce qu’il ne dit pas. Dans le même esprit, un autre ouvrage, édité en 2014 par Isabelle Bruno, Emmanuel Didier et Julien Prévieux, mérite d’être lu. Avis aux amateurs… 81.  Voir Harpoutian (2016). 192

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

La manipulation par des données

Supprimer des données, en modifier la valeur ou les fabriquer à des fins mercantiles ou carriéristes est évidemment un comportement à éviter. Tout autant que de s’adonner à des plagiats sans utiliser les guillemets indispensables ou sans citer les sources utilisées. Ces histoires nous prouvent que la politique et le publish or perish n’ont pas que de beaux côtés.

8.4 CAUSALITÉS DOUTEUSES ET SONDAGES INUTILES Il est parfois difficile de distinguer « erreur de bonne foi » et manipulation. Les deux domaines repris ici sont souvent concernés.

L’omission de données numériques, leur modification, leur suppression et la fabrication de données fictives constituent les manipulations les plus courantes. Elles peuvent aussi concerner l’usage de pourcentages, de moyennes et de représentations graphiques. Il faut aussi ajouter une situation encore trop fréquente : la confusion entre corrélation et causalité, qui peut, parfois, être assimilée à une manipulation. «  Ex nihilo nihil fit — de rien, rien ne se fait », affirmait René Descartes (1596-1650). Cette assertion est à la base du principe de causalité, principe qui a joué un rôle majeur dans notre histoire humaine. Ce principe se comprend comme une relation de cause à effet, permettant notamment de formuler des explications et des prédictions. La causalité est rattachée à un désir de savoir, de connaître, de comprendre. Aristote (–385 à –322), dans sa Métaphysique, proclame que le savoir est voulu par tous les hommes. C’est surtout dans la Physique qu’il a établi un lien de dépendance entre la connaissance et les causes définies selon divers types dont nous ne parlerons pas ici car ce n’est pas notre propos82. 82.  Voir, par exemple, Droesbeke et Vermandele (2016). 193

La manipulation par des données

Un domaine de la physique, la dynamique, a proposé des liens de dépendance en portant son attention sur le mouvement des corps et les causes qui le produisent. À la fin du xviie siècle, la loi de la gravitation universelle d’Isaac Newton (1643-1727) bouleverse la vision que l’on a du monde et les explications causales qui la sous-tendent inspirent autant les scientifiques que les philosophes. Au xixe siècle, Quetelet et ses contemporains se sont inspirés des lois statistiques des erreurs d’observation pour étudier les caractéristiques des populations humaines. La causalité ne pouvait pas être ignorée dans cette aventure. Dans la foulée de l’évolutionnisme et de l’eugénisme naissant en cette fin de siècle, les relations de causalité sont « remplacées » par d’autres relations construites à partir de données numériques. Elles portent le nom de régressions83. Nous vous proposons d’expliciter ce concept au moyen de l’exemple présenté dans la figure 41. Celle-ci contient les « points observés » définis par vingt appartements de même catégorie et de même âge mis en vente par l’intermédiaire d’une agence immobilière dans une grande ville française84. L’abscisse d’un de ces points (définie par l’échelle apparaissant sur l’axe horizontal) correspond à la surface d’un appartement, exprimée en mètres carrés. Son ordonnée (définie par l’échelle apparaissant sur l’axe vertical) indique son prix, exprimé en milliers d’euros. Pour traduire le fait que le prix d’un appartement dépend de sa surface et compte tenu de ce que le « nuage de points observés » semble se répartir autour d’une droite, il est utile de choisir un critère permettant de calculer l’équation de cette dernière de manière à la faire passer le « plus près possible » des points observés. C’est le « critère des moindres carrés 85», introduit au début du xixe siècle dans un autre contexte, comme nous l’avons vu, qui est privilégié par les 83.  Voir, par exemple, Dehon et al. (2015) ou Droesbeke et Vermandele (2016). 84.  Cet exemple est tiré de Droesbeke et Vermandele (2016). 85.  Il consiste ici à rendre minimum la somme des carrés des écarts pris verticalement entre les points observés et la droite à déterminer. 194

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

La manipulation par des données

Figure 41 | Ajustement de points observés par une droite

biométriciens anglais pour construire ce qu’on appellera une droite de régression à la fin de ce siècle86. L’étude de l’hérédité au xixe siècle sous-entend l’existence d’une relation de causalité liant une variable explicative et une variable expliquée. Mais cette relation peut être forte ou faible. Ainsi, dans le cas de la figure 41, la relation sera dite « forte » si les écarts entre les points observés et la droite qu’on veut construire sont petits ; elle sera dite « faible » dans le cas contraire. Galton, déjà évoqué plus haut, a fourni les éléments qui ont permis de quantifier l’intensité de cette dépendance. Il a proposé de mesurer des co-relations qui sont vite devenues des corrélations. Quelques années plus tard, Karl Pearson (1857-1936) formalise un coefficient de corrélation dont l’usage n’a fait que s’amplifier au cours du temps. Toujours compris entre –1 et +1, ce coefficient est associé à une relation « forte » quand il est proche de + 1 ou de – 1. Il est positif quand les variables explicative et expliquée

86.  Voir, par exemple, Droesbeke et Vermandele (2016). 195

La manipulation par des données

varient conjointement – elles ont tendance à croître ou décroître en même temps – et négatif dans le cas contraire. De nos jours, un coefficient de corrélation sert toujours à mesurer l’intensité d’une dépendance linéaire, mais il est aussi utilisé pour mesurer l’intensité d’une association entre deux variables qui ne sont pas nécessairement liées par une relation de dépendance. Prenons le cas de la figure 41 ; le coefficient de corrélation vaut87 0,90. Sa proximité de 1 nous assure que la dépendance linéaire que nous avons considérée à partir de cette figure est « forte » et son signe positif indique que les deux variables varient dans le même sens : plus la surface de l’appartement augmente, plus le prix est élevé. Il est aussi très utile d’interpréter le coefficient de détermination, égal au carré de ce coefficient de corrélation. Il vaut (0,9)2 = 0,81, ce qui signifie que « 81 % des fluctuations de prix des appartements peuvent être expliquées par des différences de surfaces. Les dix-neuf autres pourcents n’ont pas d’explication basée sur la seule considération du lien entre les deux variables mesurées ». Mais ce n’est pas parce qu’un coefficient de corrélation est proche de 1 ou de –1, qu’il y a nécessairement causalité88. Il suffit de regarder la presse quotidienne ou scientifique pour s’apercevoir que cette confusion est fréquente. «  Le chocolat engendre-t-il des tueurs en série ? » est la question89 posée par Pierre Barthélémy le 21 novembre 2012, suite à la publication par la revue New England Journal of Medicine d’un article informant ses lecteurs qu’une forte corrélation avait été établie entre la consommation de chocolat dans un pays et le nombre de prix Nobel dont le pays avait été honoré. Dans le même esprit, Joseph Klatzmann (1996) proclame « Pour vivre mieux, consommez viande, alcool et tabac ! ». Comme il l’écrit, graphique à l’appui, « …plus on mange de 87.  Voir Droesbeke et Vermandele (2016), page 208. 88.  Il y a d’ailleurs des causalités « non linéaires » pour lesquelles on a proposé d’autres mesures de corrélation (voir, par exemple, Dehon et al., 2015, ou encore Droesbeke et Vermandele, 2016). 89.  Voir http://passeurdesciences.blog.lemonde.fr/2012/11/21/le-chocolatengendre-t-il-des-tueurs-en-serie/. 196

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

La manipulation par des données

viande et plus l’espérance de vie est élevée. On trouverait la même chose en remplaçant la viande par le tabac ou l’alcool ». Bien sûr, il y a une forte corrélation entre l’espérance de vie et ces consommations car ces variables dépendent du niveau de vie des pays concernés, variable dont l’influence permet de la qualifier par l’expression « variable de confusion ». Si vous tombez sur une expression-choc (due également à Klatzmann) comme « moins il y a de médecin, plus on vit vieux », n’hésitez pas à vous poser la question : « Suis-je manipulé, ce journaliste est-il si bête que cela ou s’attend-t-il à ce que j’apprécie son humour ? ». Ne vous laissez jamais manipuler par ceux qui tentent d’utiliser une forte association entre deux variables pour vous convaincre qu’il y a une relation de causalité derrière ce résultat ! Un autre comportement est susceptible d’engendrer une manipulation : celui que l’on peut rencontrer à la lecture des résultats d’un sondage. Illustrons cela au moyen d’un exemple que nous avons traité lors d’un cycle de formation destiné à des journalistes. Il s’agissait de commenter les résultats d’une « enquête mondiale [sur la chirurgie esthétique] menée par […] auprès de 4  065  répondants âgés de 15 à 25  ans (génération  Y) dans 16  pays : États-Unis, Brésil, Russie, Inde, Chine, Royaume-Uni, Allemagne, France, Suède, Danemark, Pologne, Roumanie, Italie, Espagne, Pays-Bas et Belgique ». Cela se passait en 2012. Le communiqué de presse commençait par « Plus de 91 % des jeunes filles […] âgées de 15 à 25 ans changeraient une partie de leur corps si elles pouvaient le faire facilement. Bien que légèrement inférieur, le pourcentage est malgré tout étonnamment élevé chez les garçons (73 %). Les parties du corps dont les jeunes filles sont le moins satisfaites sont… ». Ce communiqué se poursuivait, un peu plus loin, par une présentation des principales « sources de fierté des filles et des garçons » et mettait l’accent sur quelques faits majeurs de l’étude : « Près de six jeunes sur dix se trouvent uniques », « un jeune sur quatre utilise des marques pour se différencier » et « Les jeunes veulent qu’on les considère comme de bons amis sur qui compter », ce qui est tout à fait rassurant. 197

La manipulation par des données

Et d’ajouter : « L’échantillon est représentatif de la génération Y de chaque pays ». Nous ne désirons pas mettre en cause l’intérêt de cette problématique, mais il est symptomatique que les spécialistes qui ont mené cette enquête n’ont pas pris la peine d’indiquer la méthode qu’ils ont utilisée pour réaliser cette enquête par sondage. Était-elle la même dans chaque pays ? Combien de personnes ont-elles été interrogées dans chacun de ces seize pays de tailles si différentes ? Leurs conclusions parlaient « des jeunes », en général, sans s’inquiéter de parler d’une marge d’erreur « éventuelle » des estimations qu’ils avaient en fait réalisées, en supposant qu’elle pouvait elle-même être estimée valablement, ce qui n’était pas vérifiable. Peut-être était-ce pour ne pas allonger le communiqué de presse que cette firme a préféré ne pas parler de tout cela, préférant s’étendre sur ses qualités : « La recette du succès : un enthousiasme incessant, beaucoup de travail, une culture de partage et une innovation permanente dans des méthodes de recherche et un leadership de marketing fort. Et last but not least, des clients positivement surpris chaque jour ». Dans ces conditions, bien sûr… On publie de nos jours des résultats de sondages possédant de multiples faiblesses et échappant à tout contrôle, si petit soit-il, de la lectrice ou du lecteur qui les découvre dans son quotidien. Tant que cela perdurera, il sera difficile de convaincre Monsieur et Madame Toulmonde que les méthodes de sondage constituent une technique de recueil de données tout à fait respectable. Il faut exiger que les conditions de mise en œuvre soient respectées et que des informations claires soient données sur la méthode utilisée pour choisir les individus de l’échantillon interrogés et les mesures de précision des estimations qui sont diffusées. Et si, en plus, vous apprenez que le commanditaire de l’enquête est impliqué dans le thème concerné, vous pouvez, souvent à juste titre, évoquer le terme manipulation.

198

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

La manipulation par des données

De trop nombreuses publications se targuent encore d’utiliser un « échantillon représentatif » pour « justifier » la qualité de leur contenu. Il est bien sûr difficile de s’assurer de la qualité d’une enquête et de ses résultats à la simple lecture d’un article de journal. Pour l’entité chargée de mettre en œuvre un sondage, il n’est pas simple non plus de déceler toutes les erreurs susceptibles d’entacher son étude. Quelles sont les plus courantes d’entre elles ? Il y a d’abord une erreur d’échantillonnage qui introduit une imprécision dans l’estimation d’un paramètre inhérente à la procédure suivie. Si la méthode de sondage est aléatoire90, le calcul d’un indicateur de dispersion d’un estimateur peut permettre d’estimer la valeur de cette erreur et même, dans certains cas, de la prendre en compte, en construisant des fourchettes (intervalles de confiance) dont l’usage est bien connu des spécialistes mais beaucoup moins des autres. Elles sont définies par deux valeurs situées à même distance de l’estimation réalisée et contiennent avec une très grande probabilité la valeur inconnue que la méthode a pour but d’estimer. Ainsi, quand vous lisez dans un quotidien que la proportion de voix susceptibles de se porter sur un candidat vaut 20 % avec une marge d’erreur valant trois points de pourcents – rappelez-vous ce que nous avons vu dans le chapitre consacré aux proportions et à la probabilité –, cela signifie qu’il y a une très grande probabilité (de l’ordre de 0,95) que la fourchette (17 %, 23 %) contienne la proportion traduisant l’intention de vote au moment du sondage… à condition que ce dernier soit aléatoire ou puisse être considéré comme tel. Ce qui n’est pas toujours la réalité. Mais il y a aussi toutes les autres erreurs susceptibles de se produire à chaque étape d’une enquête : une description trop vague des objectifs, une population mal définie, un échéancier irréaliste, une mauvaise organisation de l’enquête. Dans la pratique, deux erreurs 90.  Voir, par exemple, Ardilly (2006), Ardilly et Lavallée (2017), Droesbeke et Vermandele (2016) ou encore Tillé (2001). 199

La manipulation par des données

principales guettent le néophyte : de mauvaises interprétations des concepts visés par l’enquête, un mauvais choix des instruments d’enquête. Ajoutez à cela des possibilités d’une erreur de couverture (la population contient des individus qui n’ont aucune chance d’être inclus dans l’échantillon et/ou celui-ci peut contenir des individus qui n’appartiennent pas à la population-cible), d’une erreur de réponse (la réponse fournie ne correspond pas à la réalité), d’une erreur de mesure (l’instrument de mesure est inadéquat ou est mal appliqué) ou d’une erreur de traitement (les données sont mal utilisées). Toutes ces erreurs sont susceptibles de se produire, même dans les enquêtes les plus sérieuses. Ajoutez encore à tout ceci le problème spécifique que posent la non-réponse et les différentes manières de la traiter, ou encore les populations mal définies91. Vous comprendrez très vite qu’il est illusoire de faire des sondages à tout bout de champ et à propos de n’importe quoi, surtout quand on veut apprécier des intentions plutôt que quantifier des faits. Mais le monde est ainsi fait… Il est absolument nécessaire de disposer d’une information minimale sur la procédure utilisée par l’entreprise chargée de faire l’enquête pour éviter d’être facilement manipulé. De plus, la lecture d’un bon ouvrage sur les sondages peut vous être très utile à ce sujet92.

91.  Voir, par exemple, Ardilly (2006), Ardilly et Lavallée (2017) ou encore Tillé (2001). 92.  Ibidem. 200

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

9 Et voici les données massives !

« Le niveau de la masse dépend de la conscience de l’individu. » Franz Kafka (1883-1924)

Il ne s’agit pas de détailler le traitement de données massives, appelées couramment big data dans le cadre de cet ouvrage, mais plutôt d’évoquer pour la lectrice et le lecteur quelques aspects des questions qu’il soulève. La citoyenne et le citoyen d’aujourd’hui se doivent de s’informer sur la science des données.

Une constatation s’impose dès l’abord. Des données deviennent massives quand leur nombre est trop grand eu égard aux outils qui permettent de les gérer, de les traiter, de les interpréter. Au xviiie siècle, on pouvait être perturbé par la diversité des quelques mesures d’un même phénomène. Au début du xxe siècle, quand les 201

Et voici les données massives !

méthodes inférentielles93 permirent d’estimer la valeur d’un paramètre inconnu ou de tester une hypothèse la concernant – des objectifs pour lesquels les données étaient recueillies – il « suffisait » parfois de trente observations pour les appliquer valablement. Mais actuellement, on dispose de milliards de données et davantage, ce qui modifie fortement le comportement que l’on doit avoir. « C’est la technologie qui fixe les limites », nous dit Gilbert Saporta en 2017, « on parle de Big Data quand les données ne peuvent être stockées sur un seul ordinateur (données réparties) et quand les traitements vont nécessiter plusieurs machines (calculs distribués) ». Comment les données massives sont-elles recueillies ? La plupart du temps, elles résultent de relevés automatiques gérés par des organismes privés et non pas publics ou scientifiques, comme ce fut le cas aux xixe et xxe siècles. Ainsi, chacun d’entre nous engendre des données de cette manière, en utilisant ses cartes de fidélité, en recourant à Google, en écrivant ses commentaires sur Facebook… Et plus on dispose de moyens pour recueillir des données numériques ou autres, plus on en recueille. À l’heure où nous écrivons ces lignes, on met au point un gilet de corps qui permettra bientôt de relever la pression artérielle, le rythme cardiaque… « en continu ». Cela constitue certainement une amélioration dans le contrôle de l’évolution d’un malade qui vient de subir une intervention chirurgicale, mais il est aussi de nombreux exemples qui nous prouvent qu’on peut recueillir tout et n’importe quoi. Et cela peut poser des questions qui ne sont pas numériques. Un des problèmes délicats est de savoir comment les stocker. Il s’agit non seulement de disposer de la place pour le faire, mais aussi de l’effectuer rapidement. Avez-vous remarqué que beaucoup de ces données sont assemblées à notre insu ? Elles sont ensuite traitées, souvent aussi sans qu’on en soit informé. Mais qu’en fait-on généralement ? 93.  Voir Dehon et al. (2015), Droesbeke et Vermandele (2016) ou Saporta (2011). 202

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Et voici les données massives !

En présence de données massives, la statistique a redéfini ses objectifs et élargi ses moyens d’action. « Laissons parler les données », proclament Viktor Mayer-Schönberger et Kenneth Cukier en 2014. C’est ce que disaient déjà les défenseurs de l’analyse exploratoire des données au milieu du siècle dernier. Des calculs de moyennes et de médianes, des mesures de dispersion et leurs représentations graphiques, la construction d’indicateurs multiples sont toujours des démarches utiles dans ce processus. En particulier, les mesures de corrélation ont pris de l’importance et sont sources de réflexions multiples. Dans le traitement des masses de données, elles participent davantage à des processus de prédiction que des relations de causalité – rappelez-vous qu’il ne faut pas confondre les deux – plus difficiles à traiter. « Brassons tout cela, il en sortira bien quelque chose », est un leitmotiv courant, mais il ne faut pas le conjuguer dans le désordre total. Comme il ne faut surtout pas rejeter d’autres méthodes d’analyse qui semblent moins pertinentes aux yeux de certains. Prenons un exemple. Beaucoup de méthodes inférentielles recourent à l’usage de modèles sous-jacents94. Comme nous l’avons déjà souligné, il y a des modèles pour comprendre et des modèles pour prédire95, les premiers facilitant souvent l’usage des seconds. Mais la plupart des données massives ne sont pas recueillies dans ce contexte. Aucun modèle simple n’est en mesure d’être envisagé avec des masses de données. Mais quand on entend des phrases comme « Il n’est plus nécessaire ou même judicieux de recourir à ces méthodes inférentielles qui connurent tant de succès au xxe siècle », il faut s’en offusquer. Elles ne sont pas devenues obsolètes, elles s’appliquent tout simplement à certains problèmes particuliers et pas à tous les traitements de données. Mais cela n’est pas nouveau !

94.  Voir Dehon et al. (2015), Droesbeke et Vermandele (2016) ou Saporta (2011). 95.  Voir Breiman (2001), Donoho (2015) ou Saporta (2017). 203

Et voici les données massives !

La lectrice et le lecteur trouveront de nombreux exemples dans la littérature qui montrent l’intérêt des méthodes développées pour analyser de grandes quantités de données. Que ce soit dans le domaine de la santé, l’organisation des services, la prévention des maladies ou des catastrophes, la connaissance de notre environnement…, il n’est pas un jour qui ne nous fasse découvrir un nouveau problème « résolu », une nouvelle méthode d’analyse. Mais cela ne doit pas se faire à n’importe quel prix…

204

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

10 En guise de conclusion : que faire avec toutes ces données ?

Toutes les histoires de données que nous avons évoquées vont dans le même sens. L’être humain s’est toujours trouvé confronté à un usage des données dans un contexte aux aspects multiples. Au départ, c’est le dénombrement des individus et de leurs biens qui retenait l’attention. La nécessité de commercer efficacement et d’observer notre environnement naturel a ajouté de nouveaux objectifs. La difficulté majeure pour bien agir était de ne pas faire trop d’erreurs. Quand on ne pouvait calculer précisément, il fallait « estimer » sans trop se tromper. Quand on devait mesurer, il fallait le faire avec précision, ce qui dépendait beaucoup des instruments de mesure disponibles. Des erreurs, on en commit beaucoup. Parfois, on avait de la chance. Parfois, l’imagination suppléait aux défauts des données qui, la plupart du temps n’étaient pas très nombreuses. Avec les progrès de la technique et de la science, les données numériques se sont multipliées, apportant un nouveau problème lié 205

En guise de conclusion : que faire avec toutes ces données ?

à la diversité des données censées représenter le même phénomène. Laquelle devait-on conserver ? Fallait-il en déduire une synthèse plus proche de la réalité ? Une nouvelle problématique s’est alors développée. Toutes ces erreurs d’observation ne se comportaient pas n’importe comment. Il devait y avoir des lois naturelles de comportement susceptibles d’être d’autant plus faciles à définir que les données étaient nombreuses. Les astronomes furent des pionniers en la matière, recourant à un concept innovateur : la probabilité. Les juristes et les mathématiciens leur vinrent en aide. Des lois mathématiques furent proposées, qui furent considérées comme valables pour d’autres questionnements, notamment à propos des caractéristiques physiques et morales des individus qui composaient nos sociétés. On commença alors à comprendre l’importance de recueillir des données numériques, les plus nombreuses possible, les plus exactes possible, pour gérer valablement les États, mais aussi les progrès scientifiques. Ces nouvelles perspectives ne purent cependant se protéger totalement d’a priori dont certains étaient religieux, et de manipulations diverses qui menèrent le recueil et le traitement de données dans des voies critiquables. L’approche empirique suivie dès le début a tout naturellement fait place à une démarche plus rigoureuse, créant ainsi une nouvelle discipline scientifique, la statistique, dont chaque nouveau problème pratique rencontré engendrait un nouveau rameau. Les scientifiques en firent un outil de recherche, les gouvernements un outil de gestion. La société se devait de faire de même pour comprendre son fonctionnement. La modélisation des phénomènes devint un outil de compréhension du passé et de prévision de l’avenir. L’informatique et l’usage de moyens de calcul de plus en plus performants ont contribué à ce développement. Leur puissance et leur rapidité ont engendré une nouvelle catégorie de données que l’on a appelée des mégadonnées, ces big data qui prolifèrent chaque jour. Au départ, les données ont été recueillies ou produites pour répondre à des questions formulées a priori et leur traitement a 206

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

En guise de conclusion : que faire avec toutes ces données ?

souvent reposé sur des hypothèses de travail spécifiques. Les développements méthodologiques ont pris en compte un affaiblissement de ces hypothèses, mais aussi de nouveaux défis liés à divers facteurs : le nombre de données disponibles, le nombre de variables considérées simultanément, la complexité des modèles sous-jacents… Le paysage des données a fortement changé ces dernières années. La constitution et l’utilisation de ces immenses bases de données sont laissées de plus en plus au domaine privé, même si les pouvoirs publics nationaux ou internationaux se mobilisent pour intégrer des bases de ce type dans leur stratégie. Chaque jour, des informaticiens proposent des processus de stockage plus performants. Les statisticiens recherchent des méthodes d’analyse plus efficaces. Les mathématiciens se sont joints à ces deux catégories de chercheurs pour développer de nouvelles approches, comme celle qui consiste à améliorer des prédicteurs au fur et à mesure qu’on dispose de nouvelles données (Machine learning). Mais ils ne sont pas les seuls concernés par les données massives. Les défenseurs du respect de la vie privée et du droit à la confidentialité se mobilisent également. Des droits nouveaux sont à la disposition des individus par rapport à leurs données personnelles : « Droit des personnes à être informées sur l’existence d’un traitement de données personnelles la concernant, d’y accéder, de les faire corriger si elles sont inexactes, de les faire supprimer si la durée de conservation correspondant à la finalité du recueil est dépassée. Deux autres droits sont apparus dans la jurisprudence de la Cour de justice de l’Union européenne, et sont inscrits dans le nouveau règlement : le droit à la portabilité de ses données – chaque individu se voit reconnaître une certaine autonomie dans la gestion de ses données personnelles – et le droit au déréférencement – chaque individu a le droit de diminuer la visibilité d’une information qui le concerne »96.

96.  Voir Rochefeld (2017). 207

En guise de conclusion : que faire avec toutes ces données ?

De nouveaux défis nous attendent. Les données numériques sont devenues de nos jours tellement volumineuses dans notre vie quotidienne qu’il faut apprendre à les affronter, à les rendre dociles, à les utiliser à bon escient. Comme le souligne Harari (2017), « Les Sapiens ont utilisé leur avantage dans le traitement des données pour envahir le monde entier […] Grâce à l’écriture et à la monnaie, le champ gravitationnel de la coopération humaine a fini de l’emporter sur les forces centrifuges […] Au fil des soixante-dix mille dernières années, l’humanité a d’abord essaimé, puis s’est séparée en groupes distincts, pour enfin fusionner à nouveau ». Pour lui, la « religion des data », le dataïsme, est en plein développement. Pour tenter de comprendre cette évolution, la femme et l’homme modernes doivent s’ouvrir aux enjeux engendrés par cette arrivée massive de données. De même que l’écriture a ouvert l’horizon de Sapiens, la compréhension du concept de donnée devient indispensable. C’est tout l’enjeu de notre époque.

208

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

BIBLIOGRAPHIE

Académie royale de Belgique (1997), Actualité et universalité de la pensée scientifique d’Adolphe Quetelet, Actes du Colloque des 24 et 25 octobre 1996, textes rassemblés sous la direction scientifique de J.-J. Droesbeke, Mémoire de la Classe des Sciences, 3e série, tome 13. Affichar J. (éd.) (1987), Pour une histoire de la statistique, 1, Paris, Economica, 21-81. Ardilly P. (2006), Les techniques de sondage, Paris, Technip. Ardilly P. et Lavallée P. (2017), Les sondages, pas à pas, Paris, Technip. Armatte M. (1995), Histoire du modèle linéaire. Formes et usages en statistique et en économétrie jusqu’en 1945, Thèse de doctorat, Paris, EHESS. Armatte M. et Droesbeke J.-J. (1997), Quetelet et les probabilités : le sens de la formule, dans Académie royale de Belgique, Actualité et universalité de la pensée scientifique d’Adolphe Quetelet, Mémoire de la classe des Sciences, 13, 107-135. Beniger J.R. et Robyn D.L. (1978), Quantitative Graphics in Statistics: A Brief History, The American Statistician, 32, 1, 1-11. Bertrand Fr., Droesbeke J.-J., Saporta G. et Thomas-Agnan Chr. (éds.) (2017), Model choice and model aggregation, Paris, Technip. 209

BIBLIOGRAPHIE

Breiman L. (2001), Statistical modeling: The two Cultures, Statistical Science, 16, 199-215. Bruno I., Didier E. et Previeux J. (éds.) (2014), Statactivisme. Comment lutter avec des nombres, Paris, La découverte, Zones. Carosella E.D. et Buser P. (2013), Innovations et secrets, les « plis cachetés » de l’Académie des sciences, Pour la Science, 432, octobre, 72-77. Célestin J. (2014), Tous descendants de Charlemagne, Pénombre, Lettre d’information, 59, 14-15. Chambry E. (fin xixe siècle), Traduction, notice et notes sur le Timée de Platon, https://beq.ebooksgratuits.com/Philosophie/PlatonTimee.pdf. Data L. (2009), Le grand truquage. Comment le gouvernement manipule les statistiques, Paris, La Découverte. Dehon C., Droesbeke J.-J. et Vermandele C. (2015), Éléments de statistique, sixième édition corrigée et augmentée, Bruxelles, Éditions de l’Université de Bruxelles, Paris, Ellipses. Desrosieres A. (1993), La politique des grands nombres. Histoire de la raison statistique, Paris, La Découverte. Donoho D. (2015), 50 Years of Data Science, Tukey Centennial Workshop, http://courses.csail.mit.edu/18.337/2015/ docs/50YearsDataScience.pdf Droesbeke J.-J. (2005), Étonnements et paradoxes en probabilité, Les Cahiers de l’IREM, 2, 145-178. Droesbeke J.-J. (2015), La donnée : des tablettes sumériennes aux Big Data, Variances, 53, 16-21. Droesbeke J.-J. (2017), La formation à la statistique des enseignantschercheurs. L’expérience des Journées d’étude en statistique, Statistique et Enseignement, 8, 2, 18 pages. Droesbeke J.-J., Hallin M. et Lefèvre Cl. (1987), Les graphes par l’exemple, Paris, Ellipses. Droesbeke J.-J., Hecquet I. et Wattelar Chr. (éds.) (2001), La population étudiante. Description, évolution, perspectives, Bruxelles, 210

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

BIBLIOGRAPHIE

Éditions de l’Université de Bruxelles, Paris, Ellipses, collection SMA. Droesbeke J.-J., Lecrenier C., Tabutin D. et Vermandele C. (2008), Réussite ou échec à l’université. Trajectoires des étudiants en Belgique francophone, Bruxelles, Éditions de l’Université de Bruxelles, Paris, Ellipses, collection SMA. Droesbeke J.-J. et Saporta G. (2010), Les modèles et leur histoire, dans Droesbeke J.-J. et Saporta G. (éds), Analyse statistique des données longitudinales, Paris, Technip, 1-14. Droesbeke J.-J. et Saporta G. (2014), Risque et probabilité, les premières rencontres, dans Droesbeke J.-J., Maumy-Bertrand M., Saporta G. et Thomas-Agnan C. (éds), Approches statistiques du risque, Paris, Technip, 1-26. Droesbeke J.-J. et Saporta G. et Thomas-Agnan Chr. (éds.) (2015), Méthodes robustes en statistique, Paris, Technip. Droesbeke J.-J., Saporta G. et Thomas-Agnan Chr. (2016), A model selection tale, dans Bertrand F., Droesbeke J.-J., Saporta G. et Thomas-Agnan C. (éds), (2017) Model choice and model aggregation, Paris, Technip, 1-20. Droesbeke J.-J. et Tassi Ph. (2015), Histoire de la statistique, 2e édition corrigée, Paris, Presses Universitaires de France. Droesbeke J.-J. et Vermandele C. (2016), Les nombres au quotidien. Leur histoire, leurs usages, Collection La statistique autrement, Paris, Technip. Durand J. (1961), L’attraction des nombres ronds et ses conséquences économiques, Revue française de sociologie, 2-3, 131-151. Du Roy I. (2014), Peut-on quantifier la souffrance au travail ?, dans Bruno I., Didier E. et Prévieux J. (éds) (2014), Statactivisme. Comment lutter avec des nombres, Paris, La Découverte, Zones, 169-182. Fine J. (2012), Quelle est votre définition de « pourcentage » ? Proposition pour l’enseignement, Statistique et Enseignement, 3, 2, 87-91. 211

BIBLIOGRAPHIE

Friendly M. (2002), Visions and Re-visions of Charles Joseph Minard, Journal of Educational and Behavioral Statistics, 27, 1, 31-51. Galton F. (1869), Hereditary Genius. An Inquiry into its Laws and Consequences, Londres, Macmillan. Galton F. (1889), Natural Inheritance, Londres, Macmillan. Gassner M. (2000), Représentations parlementaires. Méthodes mathématiques biproportionnelles de répartition des sièges, Bruxelles, Éditions de l’Université de Bruxelles, Paris, Ellipses. Gauvrit N. (2007), Statistiques, méfiez-vous, Paris, Ellipses. Hald A. (1998), A History of Mathematical Statistics from 1750 to 1930, New York, Wiley. Harari Y. N. (2017), Homo deus. Une brève histoire de l’avenir, Paris, Albin Michel. Harpoutian G. (2016), La petite histoire des grandes impostures scientifiques, Paris, Chêne. Hecht J. (1987), L’idée de dénombrement jusqu’à la révolution, dans Affichar J. (éd.) (1987), Pour une histoire de la statistique, 1, Paris, Economica, 21-81. Ifrah G. (1994), Histoire universelle des chiffres, 2 volumes, Paris, Robert Laffont, Bouquins. Joule R.-V. et Beauvois J.-L. (2014), Petit traité de manipulation à l’usage des honnêtes gens, 3e édition, Grenoble, Presses universitaires. Julious, S. A. et Mullee, M. A. (1994), Confounding and Simpson’s paradox, http://www.bmj.com/content/309/6967/1480. Kasner E. et Newman J. (1979), Mathematics and the imagination, Harmondsworth, Penguin Books. Klatzmann J. (1996), Attention, statistiques ! Comment en déjouer les pièges, Paris, La Découverte Poche. Koyré A. (1973), Du monde clos à l’univers infini, Paris, Gallimard. Lacombe H. et Costabel P. (éds) (1988), La figure de la terre du xviiie siècle à l’ère spatiale, Académie des sciences, Gauthier-Villars, Paris. 212

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

BIBLIOGRAPHIE

Laumon B. (2016), Insécurité routière : l’apport de l’épidémiologie au débat public, Statistique et société, 4, 1, 21-30. Machu Chr. (2016), Statistique et sécurité routière : pour une meilleure expertise accidentologique, Statistique et société, 4, 1, 31-37. Mayer-Schönberger V. et Cukier K. (2014), Big Data. La révolution des données est en marche, Paris, Robert Laffont. Mielczareck E. (2016), Déjouez les manipulateurs. L’art du mensonge au quotidien, Paris, Nouveau Monde. Mimica J. (1988), Intimitions to infinity. The Mythopoeia of the Iqwaye counting system and Numbers, Oxford, Berg. Moreau R. (1989), Le dernier pli cachet de Louis Pasteur à l’Académie des sciences, La Vie des Sciences, Comptes rendus, série générale, 6, n° 5, 403-434. Muller P. (2015), Compter le nombre de manifestants sur la voie publique : une problématique statistique mais aussi et surtout politique, Statistique et société, 3, 3, 41-48. Orselli J. (2016), Mortalité routière en France : observer les tendances longues plutôt que les fluctuations de court terme, Statistique et société, 4, 1, 11-20. Orsenna E. (2015), La vie, la mort, la vie. Louis Pasteur 1822-1895, Paris, Laffont. Pica P., Lermer C., Izard V. et Dehaene S. (2004), Exact and approximate arithmetic in an amazonian indigene group, Science, 306, 499-503. Platon (± 360 avant notre ère), Timée, Traduction, notices et notes par Émile Chambry, La Bibliothèque électronique du Québec Collection Philosophie Volume 8 : version 1.01, https://beq. ebooksgratuits.com/Philosophie/Platon-Timee.pdf Palsky G. (1996), Des chiffres et des cartes. La cartographie quantitative au 19e siècle, Paris, Comité des travaux historiques et scientifiques, ministère de l’Enseignement supérieur et de la Recherche. Queneau R. (1961), Cent mille milliards de poèmes, Paris, Gallimard. 213

BIBLIOGRAPHIE

Quetelet A. (1846), Lettres à S.A.R. le duc régnant de Saxe-Cobourg et Gotha, sur la théorie des probabilités appliquées aux sciences morales et politiques, Bruxelles, Hayez. Rey A., Tomi M., Horde T. et Tanet Ch. (1993), Dictionnaire historique de la langue française, 2e édition, Paris, Dictionnaire Le Robert. Rey O. (2016), Quand le monde s’est fait nombre, Paris, Stock. Rochefeld J. (2017), Données personnelles : quel nouveaux droits ?, Statistique et société, 5, 1, page 45. Saporta G. (2011), Probabilités, analyse des données et statistique, 3e édition révisée et augmentée, Paris, Technip. Saporta G. (2017), Quelle statistique pour les Big Data ?, entretien avec Gilbert Saporta, Statistique et société, 5, 1, 31-36. Schneps L. et Colmez C. (2015), Les maths au tribunal. Quand les erreurs de calcul font les erreurs judiciaires, Paris, Le Seuil. Soumois Fr. (2016), L’industrie du sucre a corrompu la science depuis un demi-siècle, Le Soir, 16/9/2016, Bruxelles. Stengers J. (2007), Congo. Mythes et réalités ? 2e édition, Bruxelles, Racine. Suesser J. R. (2015), Nombre de manifestants : « information partagée » ou « composante de la confrontation » ?, Statistique et Société, 3, 3, 49-52. Thomas H. (2002), Le mystère de l’homme de Piltdown. Une extraordinaire imposture scientifique, Paris, Belin. Tillé Y. (2001), Théorie des sondages. Échantillonnage et estimation en populations finies, Paris, Dunod. Touchelay B. (2015), La fabuleuse histoire de l’indice des prix de détail en France, Entreprises et histoire, 79, 2, 135-146. Trystram Fl. (2001), Le procès des étoiles. Récit de la prestigieuse expédition de trois savants français en Amérique du Sud, 1735-1771, Paris, Petite Bibliothèque Payot/Voyageurs, 136. Tufte E. R. (1983), The Visual Display of Quantitative Information, Cheshire, Graphics Press. 214

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

BIBLIOGRAPHIE

Vandendriessche E. (2016), Variabilité culturelle de la numératie. Quelques points d’entrée dans la littérature ethnomathématique, Statistique et société, 4, 1, 51-55. Wainer H. (1984), How to Display Data Badly, The American Statistician, 38, 2, 137-153. Westergaard H. (1932), Contributions to the History of Statistics, Londres, King and Sons.

215

NOTES LONGUES

I.  Dans la langue française, le participe passé féminin substantivé du verbe donner a d’abord eu le sens d’« aumône, distribution » (1200). Plus tard, il s’est limité à quelques sens spécialisés en mathématiques (1755) et en psychologie. On l’utilise aussi en informatique et en statistique, traduit de l’anglais data, autre dérivé du latin dare, « donner » (extrait de Rey A., Tomi M., Horde T. et Tanet Ch., 1993). II.  Il est intéressant de remarquer que le mot individu provient du latin individuum, traduction du grec atomos, atome, « qu’on ne peut couper ». Jusqu’au xvie siècle, individuel a donc le sens d’insécable. Ce n’est qu’à partir du xviie siècle, que le terme individu désigne un être humain. Comme le souligne Olivier Rey, « Ce retournement alla de pair avec un changement dans la forme générale de la pensée. Le monde antique et médiéval était formé d’éléments foncièrement hétérogènes. Pour autant, cette coexistence d’éléments hétérogènes n’était pas chaos, ou simple entassement, elle formait au contraire un cosmos, c’est-à-dire, au sens premier du terme, un ensemble bien ordonné, une harmonie. La clé pour pénétrer cet ordre était l’analogie, qui faisait se correspondre les différentes strates de l’être sans les confondre. […] La pensée moderne, elle, est naturaliste. Elle conçoit le monde comme foncièrement homogène. […] Cette nouvelle conception de l’individu entraîne nécessairement un bouleversement dans la façon de penser la vie collective » (voir Rey O., 2016, pages 62 à 64). III.  Platon (± 428 à ± 348 avant notre ère) cite dans son Timée (± 360 avant E.C.) les sept nombres qui ont donné vie à l’univers. Voici ce que dit Émile Chambry (1864-1938) de l’opinion de Platon (https://beq.ebooksgratuits.com/Philosophie/ Platon-Timee.pdf) : « Aussi est-ce au nombre qu’il a recours pour expliquer le monde et l’âme du monde. Il faut se figurer la composition des trois ingrédients qui la constituent comme une bande de matière souple que le démiurge divise en parties exprimées par des nombres qui forment deux progressions géométriques de quatre termes chacune : 1, 2, 4, 8 et 1, 3, 9, 27. Il faut 217

NOTES LONGUES

se représenter ces nombres comme placés sur un seul rang, dans l’ordre : 1, 2, 3, 4, 8, 9, 27. Les intervalles qui séparent ces nombres sont remplis par d’autres nombres jusqu’à ce qu’on arrive à une série composée de notes musicales aux intervalles d’un ton ou d’un demi-ton. La série qui en résulte comprend quatre octaves, plus une sixte majeure et ne va pas plus loin, parce que Platon l’a arrêtée au chiffre 27, cube de 3. »

L’écrivain latin Flavius Macrobius Ambrosius Theodosius (370- ?) a, semble-t-il, disposé les deux progressions géométriques – une progression géométrique est une suite de nombres où chaque élément de la suite est obtenu à partir du précédent en le multipliant par une constante appelée raison – selon le schéma présenté dans la figure ci-dessus. Il faut dire qu’avec un petit dessin, le message de Platon est encore plus clair (voir http://remacle.org/bloodwolf/philosophes/platon/cousin/timee.htm). IV.  Il s’agit, selon Koyré (1973) : « … d’une destruction du monde conçu comme un tout fini et bien ordonné, dans lequel la structure spatiale incarnait une hiérarchie de valeur et de perfection, monde dans lequel « au-dessus » de la Terre lourde et opaque, centre de la région sublunaire du changement et de la corruption, s’« élevaient » les sphères célestes des astres impondérables, incorruptibles et lumineux, et la substitution à celui-ci d’un Univers indéfini, et même infini, ne comportant plus aucune hiérarchie naturelle et uni seulement par l’identité des lois qui le régissent dans toutes ses parties… ». V. « Car comme ce serait un mal que ce monde [le nôtre] n’existe pas, de même […] serait-il non moins mauvais que tout l’espace ne soit pas plein. Et, par conséquent, l’Univers sera de dimension infinie et les mondes seront innombrables ». Son De l’infinito universo et Mondi, d’où est tiré cette citation, fut publié en 1584. VI.  Un homme décrit bien le contexte dans lequel la sphéricité de la Terre et l’organisation du monde sont envisagées à l’époque. Il s’agit de Pline l’ancien (23-79) qui, dans le chapitre LXIV du livre II de son Histoire naturelle, écrit : «  Parmi les crimes de notre ingratitude je compterai aussi notre ignorance de la nature de la terre. […] D’abord, quant à sa figure, le consentement unanime en décide : nous disons le globe de la terre, et nous convenons que la circonférence en est limitée par les pôles. Ce n’est pas, il est vrai, une sphère parfaite ; il y a trop de montagnes élevées et de plaines étendues ; mais si l’on fait passer une courbe par les extrémités des lignes, on décrira de cette façon une surface sphérique régulière. Les lois naturelles veulent qu’elle soit ronde, mais non en vertu des mêmes causes que celles que nous avons rapportées par le ciel […] En effet, le ciel est une sphère creuse qui pèse de toutes parts sur son pivot, c’est-à-dire sur la terre ; celle-ci, solide et condensée, s’arrondit comme par un mouvement de soulèvement, et se développe. Le monde tend vers 218

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

NOTES LONGUES

le centre, la terre tend hors du centre, et le globe immense qu’elle constitue prend la forme d’une sphère, par l’effet de la révolution perpétuelle du monde autour d’elle. » VII.  Nommé professeur d’astronomie au Collège royal en 1655, l’abbé Picard est l’un des 21 premiers membres de l’Académie royale des sciences. Il est l’inventeur de la lunette à visée qui permet de réaliser des nivellements avec une précision de l’ordre d’un centimètre par kilomètre. Les instruments utilisés par Picard n’ont plus rien à voir à ce sujet avec ceux qui ont précédé ! À son époque, l’imprécision de la mesure d’un angle est pratiquement tombée à 15 secondes (1/240e de degré). VIII.  Le principe de triangulation est dû au mathématicien Gemma Frisius (15081555) qui le présente dans son traité intitulé Libellus de locorum describendorum ratione (1533). Imaginons trois lieux visibles les uns à partir des autres et désignonsles par A, B et C.

Supposons que l’on connaisse la distance dAB entre A et B. Désignons par α, β et γ les trois angles du triangle correspondant aux sommets A, B et C. À l’aide d’un théodolite, on peut facilement mesurer chacun de ces angles à partir de chaque sommet (comme dans la figure ci-dessus) et calculer ainsi les valeurs de α et β. Ces dernières, ajoutées à la connaissance de la distance dAB , permettent de calculer les distances dBC entre B et C et dAC entre A et C par des formules de trigonométrie : dBC =

dAB sin α sin (α + β)

; dAC =

dAB sin β sin (α + β)

.

IX. Soit N le nombre de votes exprimés et NS le nombre de voix attribuées au syndicat S. La proportion de votes recueillis par ce dernier est notée pS = NS / N. Si le nombre de sièges à pourvoir est n, la règle de proportionnalité attribue à S un nombre « théorique » d’élus égal à : nS = pS × n. Si les nombres sont tous des nombres entiers, l’attribution est terminée. Dans le cas contraire, on peut appliquer la règle des plus grands restes. Désignons par nS* la partie entière de nS et par rS leur différence que nous qualifierons de reste : rS = nS – nS*. 219

NOTES LONGUES

Rangeons les syndicats par ordre de restes décroissants : le premier est celui qui a le plus grand reste, le dernier possède le plus petit reste. La règle des plus grands restes consiste à donner un délégué aux premiers de la liste ainsi formée, à concurrence du nombre de postes encore à pourvoir. X. La combinatoire, qui traite de cette question de dénombrement, indique que la valeur du nombre 42 est égale au rapport entre le produit du nombre total d’individus (4 dans notre cas) par tous les nombres entiers positifs qui précèdent – c’est-à-dire 4 × 3 × 2 × 1 – et le produit de deux termes : d’une part, le produit du nombre d’individus composant le groupe « privilégié » multiplié par les entiers positifs qui précèdent – c’est-à-dire 2 × 1 – et d’autre part, le produit du nombre d’individus « non privilégiés » – il y en a deux – et des nombres entiers qui précèdent – c’est-àdire 2 × 1 :

()

4×3×2×1 4×3 = = 6. (2 × 1) (2 × 1) 2×1 XI.  Le seul sommet relié à tous les autres est celui d’Arthur. Il est donc coupable ! Les autres se sont disculpés ! XII.  Ce pli est le quatrième déposé par Pasteur à l’Académie des sciences. Il en déposa trois en 1848, suivant ainsi les conseils de son maître Jean-Baptiste Biot pour « dater » ses découvertes, ce qu’il ne fit plus jusqu’en 1869, en raison de sa notoriété. Un mot écrit suffisait pour informer des hommes sûrs, « qui vous apprécient, vous aiment, et qui, au besoin, témoigneraient de votre priorité, en cas de remontre » (lettre de Biot datée du 10 février 1852).

220

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

INDEX

A accroissement 138 accroissement absolu 138 accroissement relatif 138 algèbre booléenne 62 algorithme 165 analyse exploratoire des données 203 Anaximène 90 arc 165 arête 165 Aristote 67, 90 arithmétique politique 40

B Big Data 202 Bolzano, Nepomuk 70 Boole, George 62 Brahé, Tycho 92, 104 Brāhma Siddhanta 55 Bruno, Giordano 69 Buridan, Jean 90 Burt, Cyril 190

C camembert 174

Cantor, Philipp 70 cartographie 167 Cassini, Giovanni Domenico 97 causalité 193 chiffre arabe 55 chiffre indien 55 coefficient de corrélation 195 coefficient de détermination 196 combinatoire 219 Copernic, Nicolas 68, 90 corrélation 193 CSBIGS 14

D Dawnson, Charles 188 de Cues, Nicolas 68 Delambre, Jean-Baptiste 98 d’Élée, Parménide 90 de Milet, Anaximandre 90 dénombrement 36 diagramme en barres 169, 178 Digges, Thomas 69 distribution de Laplace-Gauss 121 distribution groupée 125 donnée numérique 35 donnée massive 201 221

index

E Ératosthène de Cyrène 93 erreur d’échantillonnage 198 erreur de couverture 199 erreur de mesure 199 erreur de réponse 199 erreur de traitement 199 erreur d’observation 93 estimation 81 événement rare 152

F Fernel, Jean-François 95 Fujimura, Shinichi 190

G Galton, Francis 116 Gauss 107 géocentrisme 67 grand nombre 77 graphe 165

H hérédité 116

I indice des prix à la consommation 185 individu 217 infini 66 infini actuel 70 infini potentiel 70 intervalle de confiance 199

J Journal de la Société Française de Statistique 13 Journées d’étude en statistique 14

K Kepler 92 222

HISTOIRE(S) DE(S) DONNÉES NUMÉRIQUES

Koyré 218

L Lalanne, Chrétien 170 Lambert, Johann-Heinrich 105 Laplace, Pierre Simon (marquis de) 107 La statistique autrement 15 Leibniz, Gottfried Wilhelm 70 Le monde des données 15 l’homme de Piltdown 188 loi 104 loi des possibilités 117

M manipulation 180 Maray, Étienne-Jules 170 Méchain, Pierre 98 médiane 122 méthode combinatoire 74 méthode inférentielle 202 milieu 122 Minard, Charles-Joseph 170 modèle 45, 203 modéliser 88, 104 moyenne 105, 122 multiplicateur 41

N Newton, Isaac 100, 193 nœud 165 nombre entier 54 nombre rond 63 non-réponse 200 normale 107, 117 normale saisonnière 120 numération binaire 61

P paradoxe 156 paradoxe de Saint-Pétersbourg 157 paradoxe de Simpson 144

index

paradoxe du menteur 157 paradoxe hétérologique 157 Pearson, Karl 195 Peirce, Charles Sanders 62 Picard, Jean-Félix 95, 219 Platon 90, 217 Playfair, William 168 point de pourcent 140 pourcentage 134 pratique de la statistique 15 prix Ig Nobel 80 probabilité 146 probabilité de concordance aléatoire 154 progression géométrique 218 proportion 134 Ptolémée, Claude 67, 90 Pythagore 56

Q Queneau, Raymond 75 Quetelet, Adolphe 109

S science des données 201 série chronologique 168 Simpson, Thomas 105 sommet 165 Staatkunde 40 Stanley, Henry Morton 84 Statistique et Enseignement 14 Statistique et Société 14 système binaire 54 système de numération 48 système de numération additif 49 système de numération positionnel 50

T taux 134 taux d’accroissement 138 Thalès 89 triangulation 96, 219

R

W

règle de proportionnalité 141 régression 194 repère cartésien 167 représentation graphique 162

Z

Wallis 66

zéro 59

223