Paradoxe des anniversaires
En théorie des probabilités, le paradoxe des anniversaires est un résultat mathématique contre-intuitif concernant la probabilité que deux personnes, dans un groupe, aient le même anniversaire.
Il stipule que dans un groupe de 23 personnes, il y a plus d'une chance sur deux que deux personnes partagent le même anniversaire. À partir d'un groupe de 57 personnes, la probabilité dépasse 99 %.
Il s'agit non pas d'un paradoxe au sens logique, mais plutôt d'un résultat qui défie l'intuition : si la question était posée à un groupe de personnes, la plupart des gens donneraient une estimation bien inférieure à la réalité.
L'étude détaillée de cette situation est due à Richard von Mises[1].
Comprendre le problème
modifierPar souci de simplicité, toutes les années sont supposées non bissextiles. On néglige donc la possibilité d'être né un , dont la prise en compte compliquerait les calculs pour une différence de résultat minime.
Explication intuitive
modifierLe problème des anniversaires revient à choisir un nombre n d'éléments dans un ensemble qui en contient N, sans retrait, c'est-à-dire sans retirer les éléments choisis, si bien que certains peuvent être identiques. Le paradoxe des anniversaires est un cas de ce type, car chacun a une date d'anniversaire considérée aléatoire et il n'y a a priori pas de raison autre que le hasard pour que deux dates soient identiques.
Ce problème est analogue à la situation suivante : au cours d'une soirée réunissant n personnes, de petits papiers sur lesquels sont notés les nombres de 1 à N sont placés dans une corbeille. Chacun tire un papier à tour de rôle, lit le nombre qu'il porte, puis le replace dans la corbeille. Il s'agit alors de déterminer les chances pour qu'au moins deux des nombres tirés soient identiques, ou a contrario pour qu'ils soient tous différents.
Pour calculer cette probabilité, il est plus simple de calculer celle où tous les nombres sont différents puis d'utiliser le format afin d'en déduire le résultat. Le point clé qui trompe notre intuition réside dans le fait que nous avons tendance à sous-estimer les chances que deux nombres au moins soient identiques.
Notre intuition est induite en erreur, car nous confondons deux questions différentes : « Quelles sont les chances que n'importe quel élément choisi soit identique à n'importe quel autre ? » et « Quelles sont les chances que n'importe quel élément choisi soit identique à un élément donné ? ».
Le premier énoncé est celui sur lequel nous travaillons, tandis que nous avons naturellement tendance à évaluer le second. Dans le cas des anniversaires, on a tendance à évaluer intuitivement la probabilité pour qu'une personne partage notre date d’anniversaire, au lieu de la probabilité que deux personnes quelconques partagent le même anniversaire[2].
La question de savoir pourquoi l'intuition est ainsi trompée et ne semble pas spontanément capable d'aborder un problème de ce type est du domaine des sciences cognitives.
Démonstration
modifierUne erreur fréquente dans la démonstration est de compter le nombre de paires, on omet alors le fait que les évènements ne sont pas disjoints et que trois personnes peuvent partager la même date de naissance.
Cette démonstration procède par dénombrement, c'est-à-dire en comptant le nombre de cas où personnes ( ) ont des jours d'anniversaires différents puis en divisant par le nombre de possibilités et l'on fait une hypothèse d'équiprobabilité des jours de naissance.
Il y a personnes et 365 jours possibles pour chacune, ce qui signifie que si aucune contrainte n'est fixée, il y a au total 365n possibilités. En ajoutant la contrainte d'avoir des jours différents, nous obtenons un arrangement de parmi 365, soit : On a donc
Il est aussi possible de voir cela comme une multiplication de probabilités d'évènements indépendants, ce qui conduit au même résultat :
Or, l’évènement «chaque personne a un jour d'anniversaire différent» est le complémentaire de « au moins deux personnes ont un jour d'anniversaire identique ». Par conséquent la probabilité recherchée est .
En faisant l'application numérique, on trouve une probabilité de 50,73% pour que deux personnes aient la même date d'anniversaire dans une assemblée de vingt-trois personnes.
n | p(n) |
---|---|
5 | 2,71 % |
10 | 11,69 % |
15 | 25,29 % |
20 | 41,14 % |
23 | 50,73 % |
25 | 56,87 % |
30 | 70,63 % |
40 | 89,12 % |
50 | 97,04 % |
60 | 99,41 % |
80 | 99,99 % |
100 | 99,99997 % |
200 | 99,9999999999999999999999999998 % |
300 | |
350 | |
> 366 | 100 % (par le principe des tiroirs) si on prend en compte la possibilité d'être né le 29 février. |
Problèmes apparentés pouvant expliquer le paradoxe
modifierUne explication possible du « paradoxe » réside dans la confusion intuitive entre le problème des anniversaires et l'un des problèmes suivants[2].
Premier problème
modifierPour un individu qui fait partie du groupe, la probabilité qu'une autre personne du groupe ait la même date d'anniversaire que lui est égale à :
Cela donne pour une probabilité très faible de 5,86 %, et il faut réunir au moins 253 personnes pour que cette probabilité soit supérieure à 50 %[2].
Ce problème est parfois confondu avec le problème classique des anniversaires[3].
Deuxième problème
modifierSi les autres personnes du groupe ont toutes des dates d'anniversaires différentes, la probabilité que l'une d'entre elle ait la même date qu'un individu donné vaut :
Il faut alors qu'il y ait au moins autres personnes pour que cette probabilité soit supérieure à 50% , ce qui est parfois la réponse donnée au problème initial[2].
Généralisation
modifierCe paradoxe des anniversaires se généralise à la situation plus abstraite que l'on peut énoncer sous la forme :
Soit un ensemble fini de cardinal . La probabilité que, parmi éléments de , chaque élément étant tiré uniformément (avec remise) dans tout l'ensemble , deux éléments au moins soient identiques vaut :
Approximation de la probabilité
modifierLa probabilité peut se réécrire sous la forme :
- D'où
Or, on a le développement limité pour x voisin de 0. Cela conduit à l'approximation :
- Posons , on a donc
Or, la somme des entiers de 0 à vaut , ce qui donne finalement :
En revenant à :
Estimation du nombre de tirages pour une probabilité donnée
modifierEn résolvant en l'égalité on obtient une approximation du nombre de personnes nécessaire pour avoir une probabilité donnée d'avoir au moins deux personnes avec le même jour d'anniversaire. On obtient :
Quelques valeurs numériques
modifierLe tableau ci-dessous indique dans le cas originel ( ), pour une probabilité , l'approximation indiquée ci-dessus, puis, sur la même ligne, l'approximation de la probabilité pour l'entier inférieur ou égal à (noté ) et celle de probabilité pour l'entier supérieur ou égal à (noté ). Normalement, la probabilité fixée au départ doit être comprise entre ces deux valeurs. Les entrées ne vérifiant pas cette condition sont signalées en couleur.
0,01
|
2,70864
|
2 | 0,00274 | 3 | 0,00820
|
0,05 | 6,11916 | 6 | 0,04046 | 7 | 0,05624 |
0,1
|
8,77002
|
8 | 0,07434 | 9 | 0,09462
|
0,2
|
12,76302
|
12 | 0,16702 | 13 | 0,19441
|
0,3 | 16,13607 | 16 | 0,28360 | 17 | 0,31501 |
0,5 | 22,49439 | 22 | 0,47570 | 23 | 0,50730 |
0,7 | 29,64625 | 29 | 0,68097 | 30 | 0,70632 |
0,8 | 34,27666 | 34 | 0,79532 | 35 | 0,81438 |
0,9 | 40,99862 | 40 | 0,89123 | 41 | 0,90315 |
0,95 | 46,76414 | 46 | 0,94825 | 47 | 0,95477 |
0,99
|
57,98081
|
57 | 0,99012
|
58 | 0,99166 |
Lien avec la loi de Rayleigh
modifierDans l'expression :
on reconnaît la fonction de répartition de la loi de Rayleigh :
En effet, vu dans le cadre plus général des problèmes d'allocation, le calcul ci-dessus s'interprète comme la convergence d'une fonction de répartition vers une autre, traduisant la convergence en loi d'une suite de variables aléatoires : considérons m boîtes numérotées de 1 à m, m étant, pour l'instant, fixé. Supposons qu'on y alloue des boules, chaque boule étant placée dans une des m boîtes de manière équiprobable, indépendamment des allocations précédentes, et cela indéfiniment. Si m=365, ceci est la situation du problème des anniversaires pour un groupe de personnes qui s'agrandit régulièrement. On note le rang de la première boule qui est allouée dans une boite contenant déjà une autre boule, ce qui correspondrait au rang de la première personne, arrivant dans le groupe, dont la date anniversaire est déjà celle d'un autre membre du groupe (avant son arrivée tous les membres du groupe ont des dates d'anniversaires différentes, après son arrivée ce n'est plus le cas).
Alors :
Et l'approximation ci-dessus peut donc s'écrire :
Cela traduit le fait que la suite de variables aléatoires converge en loi vers la loi de Rayleigh, et, par là même, cela révèle un paradoxe, pour le sens commun : on s'attend probablement à ce que soit du même ordre de grandeur que m, alors que cette convergence en loi révèle que est du même ordre de grandeur que Le phénomène de répétition des anniversaires a donc lieu plus tôt, pour un groupe plus petit qu'on ne s'y attendrait.
Cas non uniforme
modifierDans le calcul précédent, une équipartition des jours de naissance dans l'année a été supposée implicitement. Que se passe-t-il si on ne la suppose plus? La réponse est que cela augmente les chances de réussir le pari que deux personnes soient nées le même jour[4], ce qui renforce encore le paradoxe.
Applications
modifierDans Le Trésor des Paradoxes (Éd Belin, 2007), les auteurs notent que l’informaticien américain Robert McEliece a établi l'intérêt du paradoxe des anniversaires en informatique, pour s’assurer de la fiabilité des mémoires d’ordinateur, grâce à des codes détecteurs d’erreurs, fondés notamment sur les travaux de Richard Hamming aux laboratoires Bell. La stratégie des codes détecteurs d’erreurs s’avère, du point de vue statistique, similaire au paradoxe des anniversaires. Le paradoxe des anniversaires est utilisé en cryptographie pour élaborer des attaques sur les fonctions de hachage. Une des contraintes imposées sur ces fonctions, pour une utilisation cryptographique, est de produire peu de collisions, autrement dit, de rarement prendre la même valeur sur des entrées différentes.
Le paradoxe des anniversaires donne une borne sur le nombre moyen d'éléments nécessaires pour avoir une collision avec une probabilité , à savoir essentiellement la racine carrée du nombre de valeurs possibles pour la fonction de hachage, sous l'hypothèse que cette fonction est uniformément distribuée sur ses valeurs d'arrivée.
Plus concrètement, si une fonction de hachage a une sortie de N bits alors l'ensemble d'arrivée possède éléments et il faut environ hachés d'éléments distincts pour produire une collision avec 50 % de chance ; les sorties de la fonction pouvant être comparées à des personnes avec des anniversaires se répartissant sur valeurs.
Application pratique du paradoxe des anniversaires
modifierSupposons que Martine souhaite forcer Daniel à signer un contrat très défavorable, contrat devant être validé par son empreinte (valeur hachée), celle-ci garantissant que le contrat n'a pas pu être modifié après signature.
Elle prépare un contrat équitable et un contrat défavorable. Elle génère ensuite automatiquement des variantes de chacun des contrats avec des changements cosmétiques (ajouts d'espaces, utilisation de synonymes, réordonnancement des paragraphes, etc). Elle calcule l’empreinte de chaque contrat en recherchant des paires de mêmes empreintes (avec et sans modifications). Dès qu’une collision a été trouvée, elle donne le contrat équitable correspondant à Daniel qui le vérifie, le signe, calcule l'empreinte et l'attache au contrat.
Martine fait de même avec le contrat défavorable, et le présente à Daniel. S'il conteste les termes du contrat qu'il a signé, l'empreinte prouve qu'il est impossible qu'il ait pu être modifié[5]. Il lui sera tout de même possible d'opposer le contrat original à Martine ce qui devrait conduire à la nullité du contrat.
Lien avec l'identification par l'ADN
modifierDans le domaine judiciaire, les probabilités d'identification fournies par la technique d'empreinte génétique sont souvent mal comprises[6]. Ainsi, si la probabilité que deux individus partagent neuf locus est environ d'une sur 13 milliards, on peut s'attendre à ce que dans une base de données de 65 000 personnes, environ 116 paires d'individus aient en commun 9 des 13 locus utilisés à des fins d'identification[6].
Notes et références
modifier- (de) Richard Von Mises, « Über Aufteilungs- und Besetzungswahrscheinlichkeiten », Revue de la faculté des sciences de l'université d'Istanbul, vol. 4, , p. 145-163.
- Jean-Paul Delahaye, « Notre vision du hasard est bien hasardeuse... », Pour la science, no 293, (lire en ligne [PDF]).
- Gérard Lavau, « Les aléas de l'aléatoire », PLOT, no 40, , p. 43-44 (lire en ligne [PDF]).
- William Knight et D. M. Bloom, « E2386 », The American Mathematical Monthly, vol. 80, no 10, , p. 1141 (DOI 10.2307/2318556).
- « Attaque « des anniversaires » », sur hds.utc.fr.
- Leila Schneps et Coralie Colmez (trad. de l'anglais par Coralie Colmez), Les maths au tribunal : les erreurs de calcul font les erreurs judiciaires [« Math on Trial. How Numbers Get Used and Abused in the Courtroom »], Paris, Seuil, coll. « Science ouverte », 280 p. (ISBN 978-2-02-110439-4), chap. 5 (« L'affaire Diana Sylvester : analyse d'un cold hit »).
Annexes
modifierBibliographie
modifier- [Ross 2014] (en) Sheldon Ross, A First Course in Probability, Pearson, , 467 p. (ISBN 978-0-321-79477-2 et 032179477X), chap. 2.
- [Smullyan 1982] (en) Raymond Smullyan, The Lady or the Tiger? [« Le Livre qui rend fou »], , 226 p. (ISBN 0-8129-2117-8).