Archives par mot-clé : statistique

La justice aveuglée par les coïncidences

En 1999, une jeune femme, Sally Clark, fut condamnée pour le meurtre de ses deux fils, à un an d’écart. Ceux-ci semblaient être décédés de mort subite du nourrisson. L’accusation mit en avant le rapport d’un pédiatre, qui mérite d’être nommé ici, sir Roy Meadow. Selon lui, la probabilité que deux enfants d’un même couple meurent de mort subite du nourrisson était égale à 1 sur 73 millions. D’où vient ce nombre ? Des statistiques, bien sûr. Selon elles, le risque de mort subite d’un nourrisson dans un couple aisé et non-fumeur tel celui de Sally est de 1 sur 8543. On imagine facilement d’où vient ce chiffre : on a fait le rapport entre le nombre de nourrissons morts ainsi et le nombre total de nourrissons dans ce type de couple. Le raisonnement de Roy Meadow est alors similaire à celui qui permet d’affirmer que la probabilité d’obtenir deux 6 en jetant des dés est égale à 1 sur 36. Il affirme donc que, si le risque d’un mort dans un couple est de 1 sur 8543, le risque de deux morts est de 1 sur 85432… ce qui fait bien 1 sur 73 millions environ. Le pédiatre souligna que, comme il y avait 700 000 naissances par an au Royaume-Uni, cette coïncidence ne devait arriver qu’une fois par siècle. Les jurés furent convaincus et condamnèrent Sally Clark à la prison à perpétuité.

L’art de se tromper

Pourtant, les calculs du pédiatre sont grossièrement faux. La première erreur est de ne garder chez le couple Clark que les caractéristiques diminuant le risque : couple aisé et non-fumeur. En revanche, il néglige un facteur aggravant : les enfants étaient des garçons, pour lesquels le risque est double. Enfin, quand un premier enfant est décédé de la mort subite du nourrisson, le risque qu’un second meure de même est dix fois plus élevé. Autrement dit, le calcul correct aurait dû partir de la moyenne nationale, qui est de 1 / 1300 et de le multiplier par 1 / 130. Le calcul donne maintenant un risque de 1 sur 169 000, ce qui est très différent. Le pédiatre aurait dû le savoir puisqu’un ou deux cas de morts de deux enfants d’un même couple de la mort subite du nourrisson se produit chaque année au Royaume-Uni ! Ces erreurs du pédiatre sont doublées d’une erreur fondamentale du système judiciaire : s’il est normal de confier les expertises médicales à des médecins, il devrait être aussi normal de confier les expertises statistiques à des statisticiens. Le plus humble d’entre eux aurait su montrer les erreurs grossières du pédiatre.

Les gagnants du Loto ont-ils tous triché ?

Le risque estimé de morts de deux enfants d’un même couple aisé et non-fumeur de 1 sur 73 millions fait penser à la chance qu’un joueur du Loto a de remporter le gros lot, que l’on estime à 1 sur 14 millions. Prenez le dernier gagnant, disons Candide Toutlemonde. Elle avait 1 chance sur 14 millions de gagner, doit-on en déduire qu’elle a triché ? Fait a posteriori, ce raisonnement n’a aucun sens. Il en aurait eu si, une semaine avant le tirage, vous aviez dit : « Candide va remporter le gros lot ».

Le cas de Sally Clark est similaire puisque les calculs de probabilités sont faits a posteriori. Par ailleurs, le procureur et les jurés semblent avoir interprété les calculs du pédiatre en : la probabilité d’innocence de l’accusé est de 1 sur 73 millions. Pour conclure de cette façon, il aurait fallu comparer toutes les probabilités. Au Royaume-Uni, est-il plus vraisemblable qu’une femme tue son enfant que celui-ci soit victime de la mort subite du nourrisson ? Sur les 700 000 naissances annuelles, 30 sont victimes d’un homicide, soit 1 sur 23 000 contre 1 sur 1300 pour la mort subite. La probabilité d’un double homicide est donc de 1 sur 529 millions, en suivant la logique du pédiatre, celle d’une double mort subite, de 1 sur 169 000, comme nous l’avons vu plus haut. Ce simple calcul montre à quel point l’utilisation des statistiques dans cette affaire fut erronée. Sally Clark fut acquittée en appel, en 2003, mais ne se remit jamais de ses épreuves et décéda en 2007. Plusieurs autres erreurs judiciaires sont liées à une utilisation inappropriée des statistiques. Ainsi, en 1997, Shirley McKie, une enquêtrice de la police écossaise, fut accusée d’un meurtre parce que ses empreintes digitales avaient été « identifiées » sur la scène d’un crime. Les probabilités étaient contre elle en dehors de toute autre preuve. En fait, elles n’étaient que quasiment identiques à celles du véritable meurtrier, ce qui fut prouvé ultérieurement. Ici encore, la vie d’une personne fut brisée par des chiffres.

Dans tous ces cas, le biais dans les calculs précédents est d’évaluer une probabilité par un calcul valable pour un événement qui ne s’est pas encore produit, et de l’appliquer à un événement qui s’est déjà produit. Nous pouvons rapprocher cet argument à l’existence de la vie sur Terre. L’apparition de la vie était un événement de probabilité quasi nulle, pourtant il s’est bel et bien produit puisque vous lisez ce texte écrit par un Terrien, et que vous l’êtes vous-même sans doute. Faut-il en déduire que notre existence est le résultat d’un miracle ?

 

Le paradoxe de Simpson

En 1973, Berkeley, l’université américaine, fut poursuivie pour discrimination envers les filles. L’affaire semblait claire. Parmi les candidates, seule 35 % étaient retenues alors que 44 % des candidatures masculines l’étaient. L’étude a été précisée sur les six départements les plus importants, que nous notons ici de A à F.

Détails des admissions.

 

Ce tableau ne montre aucune discrimination envers les femmes. Au contraire, le taux d’admission des filles dans le principal département (A) est nettement supérieur à celui des garçons. L’explication vient quand on regarde le nombre de candidatures dans ces départements. Les femmes semblent avoir tendance à postuler en masse à des départements très sélectifs. Dans ceux-ci, leur taux d’admission est à peine plus faible que celui des hommes. Dans les autres, elles sont plus largement sélectionnées que les hommes. Quand on fait la moyenne globale, ce sont les départements sélectifs qui ont plus de poids, puisqu’elles y postulent en masse. Ce paradoxe a été étudié par Edward Simpson (né en 1922). On le retrouve dans de nombreux cas.

Quelle est la taille de la Française moyenne ?

Vous lisez dans la presse que la Française moyenne mesure 1 mètre 63. Si vous rencontrez une Française, quelle est la probabilité qu’elle ait cette taille ?

Moyenne et répartition

En l’absence d’informations supplémentaires, impossible de répondre à cette question. Pour cela, il faut connaître la répartition de la taille des Françaises. De plus, la question est mal formulée : la Française moyenne est un mythe … il est préférable de parler de la taille moyenne des Françaises. En fait, elles se répartissent en 25 % de petites (1 mètre 54 en moyenne), 50 % de moyennes (1 mètre 63 en moyenne) et 25 % de grandes (1 mètre 72 en moyenne). La répartition exacte suit une courbe en forme de cloche comme c’est le cas généralement quand on étudie une population homogène sous un certain critère.

Courbe de répartition de la taille des Françaises. Peu ont la taille moyenne !

Cette courbe ne suffit pas non plus pour répondre à la question, même si elle donne l’idée que la probabilité qu’une femme donnée mesure 1 mètre 63 se situe entre 10 et 20 %. Les données statistiques sont donc à analyser avec prudence.