L’arbre généalogique
Piste noire Le 14 janvier 2013 Voir les commentaires (1)
Il vous est peut-être arrivé qu’un ami ou un inconnu vous propose de gagner de l’argent grâce à un astucieux mécanisme de transmission en chaîne : vous lui envoyez tant d’euros et faites passer le même message à deux ou cinq connaissances qui vous enverront elles aussi chacune tant d’euros ; vous gagnez ainsi tant (ou quatre fois tant) d’euros. Cela ne marche pas, ou pas longtemps. En quelques étapes la terre entière serait concernée : plus de nouveaux destinataires possibles ; il faudrait demander aux mêmes.
Vous avez probablement deux grand-mères, quatre arrière-grand-mères, huit arrière-arrière-grand-mères, seize... Là aussi arrivera un moment où il faudra demander aux mêmes.
La multiplication des ancêtres
Les grandes familles romaines descendaient des Dieux, le roi Richard cœur de Lion de la démone Mélusine (on dit qu’il expliquait ainsi les luttes incessantes agitant sa famille). Les questions de filiation ou d’ascendance ont été, sont, l’objet d’obsessions. On en trouve les traces, abondantes, dans la littérature [1].
Comme on sait, les réponses qu’on apporte à ces questions ont parfois dans la réalité des conséquences très concrètes. En France, sous l’ancien régime, il pouvait être nécessaire, pour être reçu dans un ordre de chevalerie ou bien obtenir quelque privilège, de présenter un arbre généalogique, c’est-à-dire une disposition d’écussons d’armoiries posés sur des figures en forme de branches d’arbres qui partent du tronc. Sur le tronc on plaçait l’écusson du postulant, sur les deux premières branches les deux de ses parents, puis les quatre de ses grands-parents, puis les huit des bisaïeul, les seize des trisaïeux... L’illustration suivante est l’une des planches de l’Encyclopédie de Diderot et d’Alembert [2].
L’arbre peut aussi représenter d’autres généalogies. Par exemple, on peut remplacer la filiation génétique par la filiation mathématique que définirait la relation maître à élève. Cela fait l’objet du site suivant que l’on pourrait qualifier de généalogie mathématique.
Connaître ses origines n’intéresse pas seulement les nobles qui veulent montrer leurs alliances ou faire valoir leurs droits à une charge royale. Aujourd’hui, avec l’outil informatique, établir son arbre généalogique remontant à quelques générations est assez facile. Vous trouverez des gens prêts à le faire pour vous, moyennant rétribution. Différentes présentations sont possibles : complet, agnatique, cognatique, mixte, vertical, horizontal, circulaire... On distingue les arbres généalogiques ascendants (qui donnent la liste des ancêtres d’une personne) et les arbres généalogiques descendants (qui donnent la liste des descendants d’une personne).
L’arbre d’une famille, complet sur quelques générations, est généralement très compliqué [3]. Il n’est pas rare que les arbres généalogiques se contentent de suivre un nom : on oublie ainsi toute information sur les femmes qui apparaissent uniquement comme nécessaires à la procréation et à la transmission du patronyme.
Un tel arbre généalogique est dit agnatique. Qu’un homme n’ait pas de fils et la branche de l’arbre agnatique qui le porte meurt. On retrouve ici des aristocrates... et des mathématiciens : pour essayer de comprendre pourquoi certains noms aristocratiques britanniques disparaissaient (sujet d’inquiétude noble à défaut de noble sujet d’inquiétude) on a inventé et étudié le processus de Galton-Watson [4]. Ce processus est peut-être le premier exemple de ce qu’on appelle en mathématiques un processus de branchement [5].
Si vous êtes vivant vous possédez sans doute une connaissance assez précise de votre arbre descendant.
Pour votre arbre ascendant, si vous décidez de ne pas oublier les femmes, c’est une autre affaire.
En effet, chacun a deux parents, quatre grands-parents, huit arrière-grands-parents, etc... En remontant ainsi k générations, chacun a $2\times 2\times 2...\times 2$ (2 multiplié par lui-même $k$ fois noté $2^k$) ancêtres de kème génération.
Construire un arbre généalogique ascendant complet devient donc rapidement inextricable.
Pour 30 générations, chacun aurait $2^{30}$ ancêtres soit 1 073 741 824 ancêtres. En comptant 25 ans par génération cela signifie que vous auriez un milliard d’ancêtres vivant au 13ème siècle. Or les estimations fournies pour la population mondiale de cette époque sont plutôt de l’ordre du demi-milliard.
Les branches se croisent
Ce qui se passe, évidemment, c’est que les lignes de nos arbres généalogiques se croisent [6] : nos ancêtres se sont mariés entre cousins (plus ou moins) éloignés. À combien de temps, combien de générations, faut-il remonter pour trouver un ancêtre commun aux parents d’une personne donnée ? Autrement formulée : combien de générations avant d’observer un croisement dans les branches de l’arbre généalogique d’une personne ?
Évidemment la réponse est : ça dépend. Donnons quelques exemples irréalistes qui l’illustrent.
Premier exemple : deux personnes font, ensemble, deux enfants qui font, ensemble, deux enfants, etc... Les individus de cette famille (très consanguine) auraient des arbres généalogiques se croisant dès deux générations.
Deuxième exemple : si les humains choisissaient à chaque génération une reine dont seraient issus tous les enfants de la génération suivante, alors deux personnes d’une génération donnée auraient les mêmes ancêtres femmes. Là encore les arbres généalogiques se croisent dès deux générations.
Troisième exemple : à l’opposé, imaginons une société n’autorisant le mariage qu’aux personnes dont l’arbre généalogique ascendant soit sans croisement avant 25 générations, où les mariages entre personnes ayant un ancêtre commun avant 25 générations soient interdits et où tous les enfants naîtraient au sein d’un mariage. Alors les branches des arbres généalogiques des membres de cette société ne se croiseraient pas avant 26 générations. Si un législateur instaurait une telle règle dans son monde, alors le croisement de branches avant 25 générations dans les arbres de tous les nouveaux-nés disparaîtrait. La loi aurait donc un effet qu’on peut qualifier d’immédiat (à l’échelle des générations) sur la structure des arbres généalogiques. Pour les sociétés réelles, elle aurait probablement pour effet immédiat de rendre impossibles les mariages et la procréation. En effet comme nous allons le voir les personnes aux arbres sans croisement avant 25 générations sont certainement très très rares.
Un modèle fictif
Imaginons une population homogène, dans laquelle les mariages sont aléatoires : on associe à chacune des $N$ femmes de la population un homme en le tirant au hasard parmi les $N$ hommes disponibles de la même génération. Chaque femme a exactement deux enfants, un garçon, une fille. Dans ce tirage au sort un homme peut être choisi par plusieurs femmes (auquel cas certains hommes ne sont pas tirés au sort et n’ont pas d’enfant). La population reste de taille et de composition constantes : $N$ femmes, $N$ hommes. Combien de générations faut-il remonter pour que les branches de l’arbre généalogique d’une personne donnée se croisent ? Cela dépend des différents tirages au hasard qui ont présidé à sa conception et à celles de ses ancêtres.
On peut renverser le temps et considérer que l’on tire au hasard l’arbre généalogique d’une personne donnée. Prenons un individu que nous appellerons Jacques. Il a une mère, une ou deux grand-mères, jusqu’à quatre arrière-grand-mères, etc... Autant de grands-pères peut-être. L’arbre généalogique masculin de Jacques est construit de la façon suivante : sa mère a choisi au hasard un homme parmi $N$ dans sa génération, sa (ou ses) grand-mères ont chacune choisi un homme parmi $N$ dans sa (ou leur) génération,...
Notre modèle n’est pas symétrique (toutes les femmes d’une génération ont deux et seulement deux enfants ; le nombre d’enfants des hommes peut varier). Nous allons nous intéresser uniquement aux ancêtres femmes de Jacques.
Les paragraphes qui suivent sont plus ardus...
À chaque génération, numérotons chaque femme de 1 à $N$, chaque homme de 1 à $N$. La règle de transmission des numéros est : chaque enfant porte le numéro de sa mère.
Les ancêtres femmes de Jacques (numéro $J$) sont obtenus de la façon suivante : sa mère est la femme numéro $J$ de la génération 1 et son père un homme tiré au hasard, disons de numéro $K$ dans la même génération, ses grands-parents sont mesdames $J$ et $K$ de génération 2 (avec $K=J$ éventuellement) , et un ou deux grands-pères tirés au hasard parmi $N$ hommes de génération 2, $L$ et $M$ (avec $L=M$ éventuellement). Jacques a deux grand-mères si ses parents ont deux mères différentes c’est-à-dire si $J$ et $K$ sont différents, il a quatre arrière-grand-mères si $J$, $K$, $L$, $M$ sont tous différents. Disons qu’il y a croisement dans l’arbre féminin de Jacques avant la génération $k$ si le nombre de ses ancêtres femmes de génération $k$ est inférieur à $2^{k-1}$. Désignons par $p_k$ la probabilité qu’il n’y ait pas croisement à la génération $k$, par $q_k$ la probabilité qu’il n’y ait pas croisement à la génération $k$ sachant qu’il n’y a pas eu croisement à la génération $k-1$.
Il n’y a pas croisement à la génération 1 : Jacques a une mère ; $p_1=1$.
Il y a croisement à la génération 2 si Jacques n’a qu’une grand-mère (qui est alors madame $J$ de génération $2$ ; ses parents sont frère et soeur), autrement dit si le tirage au sort du mari de sa mère, madame $J$, a désigné monsieur $J$ (son frère). Cela se produit avec probabilité $1/N$. Qu’il n’y ait pas croisement à la génération 2 est l’événement complémentaire ; sa probabilité est $1-1/N=(N-1)/N$. On obtient : $p_2=q_2.p_1=(N-1)/N$.
Il y a croisement à la génération 3 si Jacques n’a pas quatre arrière-grand-mères. Il a quatre arrière-grand-mères si le tirage au sort des maris de ses grand-mères $K$ et $J$ a désigné deux hommes $L$ et $M$ différents et ne portant ni le numéro $J$, ni le numéro $K$ : la grand-mère $J$ choisit $L$ parmi les $N-2$ hommes qui ne sont ni $J$ ni $K$, et la grand-mère $K$ choisit parmi les $N-3$ qui restent (ni $K$, ni $J$, ni $L$), le nombre de tels choix de maris des grand-mères $K$ et $J$ est donc : $(N-2)$ multiplié par $(N-3)$. Le nombre de façons de marier les deux grand-mères sans contrainte est $N\times N=N^2$. La probabilité pour qu’il n’y ait pas croisement à la génération 3 sachant qu’il n’y avait pas eu croisement avant est donc $q_3=(N-2)(N-3)/N^2$. La probabilité pour qu’il n’y ait pas croisement à la génération 3, est donc $p_3=q_3.p_2=(N-1)/N.(N-2)(N-3)/N^2=(N-1)(N-2)(N-3)/N^3$.
Supposons qu’il n’y ait pas eu croisement avant la génération $k-1$ : Jacques a donc $2^{k-2}$ grand-mères de génération $k-1$. Il n’y a pas croisement à la génération $k$ si les grand-mères de Jacques de génération $k$ sont toutes différentes : cela signifie qu’il faut choisir les numéros des maris de la génération $k-1$ tous différents et différents des numéros des femmes. Le nombre de tels choix est $(N-2^{k-2})(N-2^{k-2}-1)\ldots (N-2^{k-1}+1)$. Le nombre total de choix de maris étant ${N^{2^{k-2}}}$, on a
\[
q_k={{(N-2^{k-2})(N-2^{k-2}-1)\ldots (N-2^{k-1}+1)}\over{N^{2^{k-2}}}},
\]
et
\[
p_k=q_k.p_{k-1}={{N(N-1)\ldots (N-2^{k-2}+1)(N-2^{k-2})(N-2^{k-2}-1)\ldots (N-2^{k-1}+1)}\over{N^{2^{k-1}}}}.
\]
Quand le premier croisement a-t-il lieu ?
Si $2^k$ est strictement supérieur à $N$ alors, pas d’échappatoire, au moins deux ancêtres femmes de la génération $(k+1)$ coïncident : dans ce cas la probabilité $p_k$ est nulle (la formule donnée plus haut donne 0 : l’un des facteurs dans le produit est nul). Mais combien de générations faut-il attendre pour que la probabilité $p_k$ soit déjà devenue petite, disons inférieure à 0,1 ?
Il suffit de prendre une calculatrice et de faire les multiplications jusqu’à ce que $p_k$ soit inférieur à 0,1. Mieux vaut le faire faire de manière automatique par une machine. Le programme suivant donne le nombre de générations $c$ qu’il faut attendre pour que la probabilité de croisement soit supérieure à $1-d$ ($d$ est demandé à l’utilisateur).
On trouve ainsi que, pour $N=20$, la probabilité qu’il n’y ait pas eu croisement avant 5 générations est inférieure à 0,01. Pour $N=1\ 000\ 000$ fixé et les valeurs variables de $d$ suivantes, on trouve : pour $d=0,7$, $c=11$ ; pour $d=0,5$, $c=12$ ; pour $d=0,1$, $c=13$ ; pour $d=0,001$, $c=13$ ; pour $d=0,00001$, $c=14$. Le nombre $c$ semble n’augmenter que très lentement lorsque $d$ s’approche de 0. Il ne faut pas attendre beaucoup plus de générations pour avoir croisement avec probabilité supérieure à 0,9999 que pour avoir croisement avec probabilité supérieure à 1/2.
Comment comprendre ce qui se passe ? Remarquons d’abord que $p_{k+1}$ est inférieur à $p_k^2$, car
\[p_{k+1}=q_{k+1}.p_k={{(N-2^{k-1})(N-2^{k-1}-1)\ldots (N-2^{k}+1)}\over{N^{2^{k-1}}}}\times {{N(N-1)\ldots (N-2^{k-1}+1)}\over{N^{2^{k-1}}}} \leq p_k^2. \]
Ainsi, si $p_l\leq 1/{2}$, alors, $p_{l+1}\leq (1/{2})^2=1/4$, $p_{l+2}\leq (p_{l+1})^2\leq(1/4)^2=1/16$, $p_{l+3}\leq (p_{l+2})^2\leq(1/16)^2=1/256$, ainsi de suite. On voit que, dès que $p_l$ est inférieure à $1/2$, en quelques étapes, $p_k$ devient extrêmement petite ; il ne faut que quelques générations pour que les valeurs de $p_k$ passent de (presque) 1 à (presque) 0 : soit $n$ le premier nombre tel que $p_n\leq 0,9$, alors $p_{n+1}\leq 0,9^2=0,81$, $p_{n+2}\leq 0,81^2=0,6561$, $p_{n+3}\leq 0,66^2\leq 0,44$, $p_{n+4}\leq 0,44^2\leq 0,19$, $p_{n+5}\leq 0,2^2=0,04$. Autrement dit, le premier croisement dans l’arbre féminin d’une personne se produit avec une probabilité supérieure à 80% entre des générations de numéros $n$ à $n+5$ pour un certain $n$. Cette concentration a lieu quelle que soit la taille $2N$ de la population : lorsque $N$ augmente il faut attendre plus longtemps en général pour observer un croisement, mais plus de 80% des premiers croisements seront observés sur une plage de générations de longueur 6 (de $n$ à $n+5$ pour un certain $n$ dépendant de $N$).
Notons $C$ le nombre de générations qu’il faut attendre pour observer le premier croisement des branches de l’arbre. C’est ce qu’on appelle en probabilités une variable aléatoire. Ce que nous venons de dire peut s’exprimer de la manière suivante : il existe $n$ tel que la probabilité que $C$ appartienne à $[n,n+5]$ est supérieure à 80% : ${{P}}(C\in[n,n+5])\geq 0,8$. On peut aussi essayer de calculer la moyenne des valeurs de $C$ pondérées par les probabilités de prendre ces valeurs : l’espérance de $C$. La loi des grands nombres affirme que, si l’on construit de nombreux arbres généalogiques au hasard en suivant nos règles, alors la moyenne du nombre de générations comptées avant le premier croisement sera très probablement proche de l’espérance ${{E}}(C)$. Nous avons vu que les valeurs de $C$ sont avec grande probabilité concentrées sur un intervalle de longueur quelques unités : la position de cet intervalle est déterminée par le premier nombre $n$ pour lequel $p_n$ est inférieur à 1/2 par exemple ou bien par ${{E}}(C)$ [7].
Que faire des résultats ?
Imaginons que les règles de filiation en France correspondent à notre modèle. Prenons donc 30 millions pour $N$. Le nombre moyen précédemment calculé est d’environ 14 générations (350 ans si on compte 25 ans par génération). Mais, direz-vous, le nombre de Français a beaucoup augmenté en 350 ans. Soit. Prenons 10 millions pour $N$, on obtient 13 générations. L’augmentation rapide de $2^k$ avec $k$ rend la quantité calculée assez peu sensible à la taille de la population (elle est liée au logarithme de la taille de la population ; si on double la taille de la population on ne fait qu’ajouter un nombre fixe à son logarithme).
Les mariages réels ne se font sûrement pas de la manière aléatoire décrite dans notre modèle fictif. Des lois fixent des interdits stricts, mais pour chaque personne ces interdits ne portent que sur un petit nombre d’individus. On pourrait considérer que le mariage se fait au hasard dans le reste de la population : si $N$ est grand cela ne changerait pas grand-chose (on remplacerait par exemple $(N-1)/N$ par $(N-11)/N$ dans $p_2$ pour tenir compte de l’interdit portant sur 10 mariages).
Les mariages ne se font pas au hasard de manière égale sur de très grandes populations : la proximité géographique ou sociale entre époux est plus probable.
On pourrait essayer de déduire de données réelles la taille de la population $N$ dans laquelle les règles du mariage suivraient celles de notre modèle équiprobable. Par exemple, Sutter et Tabah [8] affirment que le pourcentage de mariage entre cousins germains en France entre 1926 et 1945 est 0,72% [9]. Admettons que sur les 0,72% de mariages entre cousins germains, la moitié soient des mariages de cousins ayant la même grand-mère. La probabilité que les branches d’un arbre se croisent à la génération 3 serait alors $1/2\times 0,72/100=0,0036$. Dans notre modèle cela donne
\[
0,0036=1-p_3=1-(N-1)(N-2)(N-3)/N^3= {{N^3-(N^3-6N^2+11N-6)}\over{N^3}}={{6N^2-11N+6)}\over{N^3}}\simeq {{6}\over{N}}..
\]
On peut en déduire que le nombre $N$ à considérer dans notre modèle serait de l’ordre de quelques milliers. Faisons tourner nos algorithmes : pour $N$ entre 2000 et 10000 le nombre moyen de générations à remonter avant de trouver, avec grande probabilité, une grand-mère commune serait d’environ 7 ou 8. Ce résultat décrit-il la réalité ? Peut-on en déduire que nous avons très probablement un croisement dans nos arbres généalogiques avant 7, 8 ou 9 générations ? Il faudrait pour cela que l’expérience confirme la validité du modèle... ce qui est peu probable tant les règles du mariage du modèle diffèrent de celles de la réalité...
Contentons-nous de dire que le modèle suggère qu’il pourrait ne pas être surprenant que nos arbres généalogiques aient des branches qui se croisent avant 7 ou 8 générations.
La rédaction d’Images des maths et l’auteur, remercient pour leur relecture attentive, les relecteurs suivants : Nadège Arnaud, Julien Melleray, Daniel Massart et Damien Gaboriau.
Notes
[1] Deux citations, invitations à une perspective relativiste : « Vous tenez, dites-vous, vos richesses de vos ancêtres, mais n’est-ce pas par mille hasards que vos ancêtres les ont acquises et qu’ils les ont conservées ? Vous imaginez-vous aussi que ce soit par quelque loi naturelle que ces biens ont passé de vos ancêtres à vous ? Cela n’est pas véritable. Cet ordre n’est fondé que sur la seule volonté des législateurs qui ont pu avoir de bonnes raisons, mais dont aucune n’est prise d’un droit naturel que vous ayez sur ces choses. S’il leur avait plu d’ordonner que ces biens, après avoir été possédés par les pères durant leur vie, retourneraient à la république après leur mort, vous n’auriez aucun sujet de vous en plaindre. » (Pascal in Trois discours sur la condition des grands), « N’en déplaise à Votre Majesté, Velaydomestry désigna d’abord, en Martinique, une lignée d’esclaves, probablement importée après 1854, afin d’y remplacer sur les plantations les nègres affranchis. La servitude certaine des Velaydomestry m’émeut plus, croyez-moi, que la royauté supposée de tes ancêtres caraïbes. » (Étiemble in Blason d’un corps).
[2] On peut feuilleter les illustrations de l’Encyclopédie sur le site de la BNF ; l’image donnée se trouve à la page 70 ici.
[3] On peut avoir un aperçu de celui des Bourbons à l’adresse suivante.
[4] Galton, statisticien renommé, a aussi inventé le mot eugénisme dont il a défendu le principe.
[5] Ces objets mathématiques peuvent aider à comprendre le déroulement d’une réaction en chaîne en physique nucléaire par exemple.
[6] Du point de vue mathématiques les arbres généalogiques ne sont donc pas des arbres, car un arbre mathématique est un graphe sans boucle.
[7] Peu importe ici car la loi de $C$ est essentiellement concentrée sur un intervalle de petite longueur.
[8] Sutter, J., Tabah, L., Fréquence et répartition des mariages consanguins en France, Population, n. 4, 1948, pp. 607-630.
[9] L’article de Sutter et Tabah donne aussi les pourcentages entre cousins issus de germains : 0,83%, entre germain et issu de germains : 0,21% (la grand-mère ou le grand-père du ou de la marié(e) est l’arrière-grand-mère ou l’arrière-grand-père de la ou du marié(e) ; situation qui ne se produit dans notre modèle).
Partager cet article
Pour citer cet article :
Stéphane Le Borgne — «L’arbre généalogique» — Images des Mathématiques, CNRS, 2013
Laisser un commentaire
Actualités des maths
-
14 février 2020Bob Hummer, le mathémagicien fou (Paris, 20/02)
-
24 janvier 2020Maths & mesure – mesurer le monde (Poitiers, 2020)
-
23 janvier 2020Les nouvelles formes d’argent décentralisé : le Bitcoin et les cryptomonnaies (Montpellier, 29/1)
-
22 janvier 2020Topologie en sous-sol (Paris, 28/1)
-
13 janvier 2020Des tas de sable aux pixels, deux siècles et demi de transport optimal depuis Monge (Paris, 15/1, reportée !)
-
10 janvier 2020Rencontre avec Alecos Papadacos, auteur de Logicomix (Lyon, 16/1)
Commentaire sur l'article
L’arbre généalogique
le 13 janvier 2014 à 18:10, par Pellan