Genétique Des Populations
Genétique Des Populations
Genétique Des Populations
Master GGS
Illustration de couverture : Haak et coll, Ancient DNA from European Early Neolithic Farmers Reveals Their Near Eastern Afnities, PLOS Biology (2010)
1 quilibre de Hardy-Weinberg
1.1 Population
Une population est un groupe dindividus qui vivent dans une aire gographique assez restreinte pour que chacun des membres de cette population ait la possibilit de se reproduire avec un autre membre de sexe oppos. Cette dnition est parfois bien adapte aux espces animales : les animaux domestiques dun mme levage forment une population ; un groupe dhirondelles qui se reproduit danne en anne dans la mme petite valle isole galement. Il est souvent ncessaire de diviser une population en sous-populations, en petites units reproductives qui ne sont pas isoles les unes avec les autres. Quand on en vient la gntique humaine, lagrgation en villes, rgions, nations, rend la dnition plus problmatique. Il y a cependant des populations humaines assez isoles, pour des raisons gographiques (les, hauts plateaux ou valles isoles) ou sociale (juifs Ashknazes, Huttrites, Amish).
un individu AA avec probabilit f AA = p 2 un individu Aa avec probabilit f Aa = 2pq un individu aa avec probabilit f aa = q 2
la gnration suivante, les individus AA sont donc en proportion p 2 , les Aa (resp. aa) en proportion 2pq (resp. q 2 ). Dans les gamtes mis par cette nouvelle gnration, les gamtes A sont nouveau prsents en proportion f AA + 1 f Aa = p 2 + pq = p, et les gamtes a en proportion q : la composition de lurne gamtique 2 ne change pas, et les proportions gnotypiques donnes ci-dessus sont donc constantes de gnration en gnration : cest lquilibre de Hardy-Weinberg.
1 quilibre de Hardy-Weinberg Notons quon a bien f AA + f Aa + f aa = p 2 + 2pq + q 2 = (p + q)2 = 1, en vertu dune identit remarquable bien connue ! Revenons au cas dune population ayant une reproduction par accouplement. Cette situation est quivalente au modle de lurne gamtique, deux conditions : le choix du partenaire se fait au hasard (on parle de panmixie ; la population est dite panmictique) et que les gamtes mis par ces partenaires sapparient ensuite au hasard (pangamie). Dans le calcul, il na pas t ncessaire de supposer que les gnotypes des individus de la gnration t taient dans les proportions p 2 , 2pq, q 2 ; ds lors que le modle de lurne gamtique sapplique, ces proportions sont ralises la gnration suivante.
f Ai A j = 2p i p j (avec i = j )
2 f Ai Ai = p i
1.4 Cas des htrosomes La somme de ces frquences vaut bien 1 ; comme dans le cas di-alllique, les valeurs de frquences gnotypiques correspondent au dveloppement du carr (p 1 + + p n )2 . L encore, une gnration dans les conditions de validit du modle suft tablir ses frquences, mme si elles ntaient pas vries la gnration prcdente. On dnit le taux dhtrozygotie en un locus comme tant la frquence des htrozygotes dans la population. Pour un locus di-alllique, cest H = 2pq = 1 p 2 q 2 ; dans le cas gnral cest H = 1
i 2 pi .
et chez les mles de la gnration t + 1, le gnotype A a pour frquence p m,t +1 = p f ,t et le gnotype a a pour frquence q m,t +1 . Une femelle de la gnration t + 1 reoit un X de chacun de ses parents, donc 1 p f ,t +1 = (p m,t + p f ,t ), 2 (1.2)
et chez les femelles de la gnration t + 1, le gnotype AA a pour frquence p m t p f ,t , le gnotype Aa a pour frquence p m t q f ,t + q m t p f ,t et le gnotype aa q m t q f ,t .
1 2
(p f ,0 p m,0 ),
2p f ,0 + p m,0 .
1 quilibre de Hardy-Weinberg
1.0
frquences de A
0.6
0.8
mles femelles
q q q q q q q q q q
0.0
0.2
0.4
3 gnrations
TABLE 1.1: Dterminisme des groupes sanguins MN Un autre exemple est donn par la couleur de certaines eurs, dtermine par un gne di-alllique A/a, o les eurs AA sont blanches, les eurs Aa sont roses, et les aa sont rouges. Pour dautres gnes, un allle est dominant sur lautre : cest le cas de la drpanocytose, ou anmie falciforme (en anglais : drepanocytosis ou sickle cell disease), une maladie du sang due une mutation du gne de la -globine, un des constituants de lhmoglobine 2 . On considrera deux allles de la -globine, S et A . La drpanocytose est une maladie rcessive : les individus atteints sont tous de gnotype S S . Chez les individus atteints, la -globine cre de longues chanes de polymre, donnant aux globules rouges une forme caractristique de faucille ; les symptmes principaux sont une anmie chronique et des crises vaso-occlusives (obstruction des vaisseaux sanguins capillaires par les globules rouges anormaux). Les htrozygotes S A ne prsentent pas les symptmes de la maladie, la majorit de leurs globules rouges tant normaux. Cependant lobservation du sang des htorygotes au microscope met en vidence la prsence de quelques globules rouges en faucille. On parle dans ce cas de phnotype SA (en anglais, sickle cell trait ou sicklemia). Ainsi, selon la manire dont on dcide dobserver le phnotype, on a dominance de A sur S , ou codominance des deux allles.
MN en porte un ; cela fait en tout 2 21 + 60 = 102 allles m, sur un total de 200 allles observs (deux par individu), donc une frquence alllique f m = 102 = 0.51. 200 Cependant, dans le cas dominant ou rcessif, on ne peut plus procder ainsi. Par exemple, dans la table 1.3 on dnombre les cas de mucoviscidose dans un effectif de 25000 personnes. La mucoviscidose est une Phnotype Effectifs Sain 24989 Atteint 11
TABLE 1.3: Effectifs pour la mucoviscidose maladie rcessive, due une mutation du gne CFTR. Si on note A lallle normal et a lallle mutant, tous les individus atteints sont de gnotype aa ; les individus sains sont AA ou Aa. Faute de pouvoir sparer les htrozygotes des homozygotes AA, on ne peut pas compter les allles. On peut obtenir une estimation des frquences allliques en supposant que les frquences gnotypiques sont dans les proportions de Hardy-Weinberg. Cette hypothse parat audacieuse, car le trait est soumis slection ; cela se traduira pas un changement des frquences allliques au l des gnrations. Cependant, il suft que la population soit panmictique pour qu la naissance (avant que la slection nopre) les proportions de Hardy-Weinberg soient respectes. On peut donc estimer les frquences p et q de A et a en supposant que les individus sains sont en proportion p 2 + 2pq et les atteints en proportion q 2 . On a donc q 2 = 11/25000, do on tire q 0.021. Les tables 1.4 et 1.5 donnent des exemples de calculs de frquences des allles morbides (allles causant la maladie) pour quelques maladies dominantes et rcessives.
TABLE 1.4: Maladies rcessives. Les individus atteints sont aa, les individus sains sont AA ou aa. La frquence de AA est q 2 , donc q = f
1 quilibre de Hardy-Weinberg
TABLE 1.5: Maladies dominantes. Les individus atteints sont Aa ou aa, les individus sains sont AA. La frquence de AA est p 2 , donc p = 1 f et p = 1 q = 1 1 f .
Introduction
On se place dans ce chapitre dans le modle de Hardy-Weinberg (panmixie, pangamie, absence de slection, de mutation, de migration, population innie, gnrations spares...). En considrant un locus multialllique A1 , . . . ,An , ce modle permet de montrer que les frquences p 1 , . . . , p n de ces allles sont constantes au l des gnrations ; on montre galement quun individu tir au hasard dans la population est de gnotype 2 Ai A j avec probabilit 2p i p j si i = j , et de gnotype Ai Ai avec probabilit p i .
2.1 Recombinaison
2.1.1 Les lois de Mendel l'preuve
Au dbut du XXe sicle, en soumettant des drosophiles des agents mutagnes, Thomas Hunt Morgan et ses collaborateurs ont obtenu des caractres rcessifs anormaux , gouverns par des allles A/a : le caractre napparat que chez les individus aa. On appelle a lallle mut, et A lallle sauvage (on rencontre parfois ce vocabulaire en gntique humaine). Considrons deux caractres rcessifs, correspondant des locus gntiques distincts, dallles A/a et B/b.
Morgan a ralis lexprience suivante (appele double backcross ) : on croise une souche sauvage AA, BB (individu P1 ) avec un mutant aa, bb (individu P2 ). On obtient un individu I1 dihybride de phnotype normal (sauvage), de gnotype Aa au premier locus et Bb au second.
2 Modle deux locus On croise cet individu avec son parent mutant (do le nom de backcross ) ou tout autre mutant aa, bb (individu I2 ). Quels seront les phnotypes des descendants ? Lindividu I2 nmet que des gamtes ab. Daprs les lois de Mendel, on a sgrgation indpendante des caractres : lindividu I1 doit mettre 4 types de gamtes en quantit gales, des gamtes AB, Ab, ab, et aB. Une autre possibilit, envisageable dans une thorie chromosomique nave , est la co-transmission par I1 des caractres reus de P1 ou P2 ; auquel cas les gamtes mis seront pour moiti AB, et pour moiti ab. Lobservation du phnotype des descendants de I1 et I2 permet de trancher : en fait le phnotype de chacun des descendants de I1 et I2 permet de connatre le type du gamte quil a hrit de I1 . Lexprience donne des rsultats du type de ceux rapports dans la table 2.1. Gamte AB ab Ab aB Total Effectifs 1339 1195 151 154 2839
Que sest-il pass ? Majoritairement, on a des gamtes AB et ab, donc co-transmission des caractres reus de P1 ou P2 ; cependant, quelques 305 descendants ont reu des gamtes Ab ou aB. Ce phnomne est appel recombinaison. On parle galement dindividus ou de gamtes recombinants. Ici on a 308/2839 = 10,7% de recombinants.
a b
A b
A B
A B
a B
a b
Individus diplodes
gamtes haplodes
Ces observations ont contribu faire admettre la thorie chromosomique, selon laquelle les chromosomes sont les supports matriels de lhrdit, tout en mettant en vidence le phnomne de la recombinaison, qui sexplique par lexistence de crossovers lors de la mose.
Une distance dun Morgan en deux locus correspond une moyenne dun crossover par mose entre ces deux locus.
On utilisera le plus souvent le centiMorgan (abrg cM), qui correspond un crossover toutes les 100 moses, en moyenne. Notons que si on suppose que les crossovers sont indpendants les uns des autres, cette dnition conduit une distance additive : pour trois locus polymorphes A/a, B/b et C/c se trouvant dans cet ordre sur le gnome, le nombre moyen de crossovers entre a et c est gal la somme du nombre moyen de crossovers entre a et b, et du nombre moyen de crossovers entre b et c : d (a,c) = d (a,b) + d (b,c).
= P(N = 1) + P(N = 2) + P(N = 5) + d1 d3 d5 + + + e d 1! 3! 5! 1 = e d e d e d 2 1 = 1 e 2d 2 = On en dduit que le taux de recombinaison est bien toujours plus petit que 1 0 . 2
1 2
2 Modle deux locus On peut galement reformuler le lien entre la distance et le taux de recombinaison comme ceci : 1 d (a,b) = log(1 2ab ). 2
Cette expression de la distance entre deux locus en fonction du taux de recombinaison est due JBS Haldane ; on parle de distance de Haldane .
Pour ab petit, on a d (a,b) ab ; une distance dun centiMorgan correspond un cross-over en moyenne toutes les 100 moses, et (environ) un recombinant en moyenne toutes les 100 moses.
La distance gntique est en premire approximation proportionnelle la distance physique : pour le gnome humain, on utilise gnralement un centimorgan un million de paires de bases , soit 1cM 1Mb.
10
Elle est parfois utilise en analyse de liaison, cest--dire quand on cherche localiser des gnes impliqus dans une maladie sur le gnome. Il faut galement signaler que les recombinaisons sont plus frquentes chez les femmes que chez les hommes : en toute rigueur on doit utiliser des cartes diffrentes selon le sexe.
alors on dit quon a quilibre gamtique entre les locus considrs. Dans le cas contraire, on est en prsence dun dsquilibre gamtique. Si on observe sur un gamte, au premier locus, un allle A, alors le second locus porte lallle B avec la probaf bilit fAB . En labsence de dsquilibre gamtique, on voit que cette probabilit est gale f B , la probabilit B a priori quun gamte porte lallle B ; lobservation du premier locus na apport aucune information sur le second. Si au contraire il y a dsquilibre gamtique, lobservation du premier locus apporte une information sur le second. On parlera de dsquilibre maximal quand seulement trois des quatre gamtes possibles sont prsents : par exemple, f ab = 0. Dans ce cas, lobservation de lallle a au premier locus sera toujours accompagne de lobservation de lallle B au second locus ; inversement, lobservation de lallle b au second locus sera toujours accompagne de lobservation de lallle A au premier locus. On parlera de dsquilibre complet quand seulement deux des quatres gamtes possibles sont prsents : par exemple, f Ab = f aB = 0. Dans ce cas, lobservation de lallle prsent un des deux locus suft dterminer entirement lallle prsent lautre locus.
11
2.4.1 Le dsquilibre D
On pose D = f AB f A f B . On a D = 0 si, et seulement si, on a quilibre gamtique. Remarque 1 La dnition de D semble dpendre du choix arbitraire quon a fait pour les allles A/a et B/b. En fait, on a f aB f a f B = D f f A f b = D Ab f ab f a f b = D, donc D est bien dni au signe prs. On notera que cest galement la covariance des variables alatoires X et Y dnies par X = 1 (respectivement X = 0) si le gamte porte lallle A (respectivement lallle a), et Y = 1 (respectivement Y = 0) si le gamte porte lallle B (respectivement lallle b). Remarque 2 On peut galement remarquer que connatre f A , f B et D suft retrouver toutes les frquences gamtiques : on a par exemple f AB = f A f B + D, f Ab = f A f b D = f A (1 f B ) D, etc. Remarque 3 En utilisant f A = f AB + f Ab et f B = f AB + f aB , on obtient galement D = f AB f ab f Ab f aB .
si D 0, si D 0.
Lavantage de D , cest quil prend des valeurs entre 0 et 1 ; il prend la valeur 1 quand le dsquilibre est maximal.
r2 =
Les valeurs prises par r 2 sont galement entre 0 et 1. On a r 2 = 1 quand le dsquilibre est complet.
12
2.5 volution au l du temps Le dsquilibre gamtique entre locus est souvent reprsent dans des diagrammes comme celui de la gure 2.3, o chaque carr reprsente le dsquilibre entre deux locus ; ici la couleur est dautant plus sombre que la valeur de r 2 est leve ; la valeur inscrite est 100 fois la valeur de r 2 . On lit par exemple que le quentre les SNP rs4512434 et rs4740848 on a r 2 = 0,32, entre rs4512434 et rs2274874, r 2 = 0,05, etc. Les carrs noirs correspondent r 2 = 1.
Sur un total de 400 individus, on a observ par exemple 169 individus de gnotype AA parmi lesquels 100 individus de gnotypes AA et BB, etc. Peut-on se servir de ces donnes pour estimer les frquences gamtiques ? Quand on est face ce problme, on parle galement des frquences haplotypiques, un haplotype tant lensemble des allles ports par un chromosome. Si un individu est, par exemple, de gnotypes AA et Bb, il a t form dun gamte AB et dun gamte Ab ; un de ces chromosomes porte lhaplotype AB et lautre lhaplotype Ab. On pourra utiliser la notation abrge : un individu AA, Bb est AB + Ab. Ainsi, les individus AA, BB sont AB + AB, on compte donc 200 haplotypes AB ; les 40 individus Aa, BB sont AB + aB, on compte donc 40 haplotypes AB et 40 haplotypes aB, etc. Si on tente de procder aisni un dnombrement complet des haplotypes, on a un problme avec les doubles htrozygotes Aa, Bb : sontils AB + ab ou Ab + aB ? Cette ambigut rend impossible lestimation des frquences gamtiques et du dsquilibre gamtique par simple comptage : il faut utiliser une estimation par maximum de vraisemblance ; voir dtails en encadr.
13
F IGURE 2.3: Reprsentation du dsquilibre gamtique pour 96 SNP dans le gne GLDC
14
15
Estimation du dsquilibre par maximum de vraisemblance Avec des observations comme celles-ci : BB AA Aa aa 100 40 4 144 Bb 60 112 20 192 bb 9 30 25 64 169 182 49 400
on veut estimer la valeur du dsquilibre, cest--dire en fait les frquences haplotypiques. Notons dabord que f A , f B , f a et f b peuvent tre estims partir des effectifs de chacun des gnotypes : fA fB = =
1 800 (2 169 + 182) = 0,65 1 800 (2 144 + 192) = 0,6
f a = 1 f A = 0,35 f b = 1 f B = 0,4.
On peut maintenant crire la frquence de chacun des haplotypes en fonction du dsquilibre gamtique, qui est un paramtre inconnu que nous noterons ici d : f AB f aB = = f A f B + d = 0,39 + d f a f B d = 0,21 d f Ab = f A f b d = 0,26 d f ab = f a f b + d = 0,14 + d
On utilise lhypothse de panmixie de la population : les proportions gnotypiques sont les proportions de Hardy-Weinberg, et sont donc : BB AA Aa aa
2 f AB
Bb 2 f AB f Ab 2 f AB f ab +2 f aB f Ab 2 f aB f ab
bb
2 f Ab
2 f AB f aB
2 f aB
2 f Ab f ab
2 f ab
2 La vraisemblance dobserver un individu de gnotypes AA, BB est donc f AB , celle dobserver un individu de gnoype AA Bb est 2 f AB f Ab , etc. La vraisemblance de la totalit de nos observations est le produit des vraisemblances de chacune delles ; et la log-vraisemblance est la somme des log-vraisemblances, qui valent 2 log( f AB ), log(2 f AB f Ab ), etc. En reprenant les effectifs qui sont dans notre table dobservations, on crit que la log-vraisemblance est
(d )
= + +
+ + +
+ + +
16
Il reste chercher le maximum de la fonction (d ). Notez quelle nest dnie que pour d ] 0,14; 0,21[. Voici les graphes de la log-vraisemblance (d ) et de la vraisemblance L(d ) = exp (d ).
1000 900
800
1400
1200
l(d)
5.5e325
0.06
0.08
0.10 d
0.12
0.14
Les deux fonctions atteignent leur maximum en d = 0.11. Cette valeur du dsquilibre gamtique permet de calculer les frquences haplotypiques : Haplotype AB Ab aB ab Frquence f A f B + d = 0,50 f A f b d = 0,15 f a f B d = 0,10 f a f b + d = 0,25
On peut galement sintresser la proportion de doubles htrozygotes Aa, Bb qui sont AB + ab ; cest 2 f AB f ab = 0,89. 2 f AB f ab + 2 f Ab f aB Note On pourra vrier que les effectifs gnotypiques prsents dans cet exemple sont parfaitement en accord avec les frquences quon peut calculer partir des frquences haplotypiques calcules ci-dessus ; cest une situation un peu articielle, en pratique bien entendu un petit cart subsistera.
17
2 Modle deux locus cest un gamte AB de la gnration prcdente (probabilit f AB ) qui na pas recombin (probabilit 1 ) ; cest un gamte form aprs une recombinaison (probabilit ) entre un gamte portant dune part lallle A (probabilit f A ) et dautre part lallle B (probabilit f B ). On a donc f AB = (1 ) f AB + f A f B . On en dduit immdiatement que le dsquilibre gamtique la gnration suivante, not D1 , est D1 = = = f AB f A f B (1 )( f AB f A f B ) . (1 )D0
On voit quentre deux locus non lis, cest--dire quand = 1 , le dsquilibre gamtique est divis par 1 = 2 1 chaque gnration. Ainsi, dans une population panmictique, un dsquilibre gamtique qui existerait 2 un moment donn dans la population entre deux locus non lis sestomperait en quelques gnrations. Au contraire, si est petit, par exemple = 0,01 (les locus sont une distance dun centimorgan lun de lautre), le dsquilibre gamtique peut perdurer pendant des gnrations ; on a 0,99110 = 0,33, cest--dire que pour des locus distants dun centimorgan il faut 110 gnrations, et donc environ 2750 ans pour diviser le dsquilibre par 3.
On parle de dsquilibre de liaison (DL), en anglais linkage disequilibrium (LD) quand on a dsquilibre gamtique entre deux locus gntiquement lis.
18
2.6.2 Mutation
Considrons une population dans laquelle existe un polymorphisme di-alllique A/a ; chez un individu donn, en un locus jusqualors monomorphe B, apparat une mutation b. Si cet individu est de gnotype AA au premier locus, il contribuera lurne gamtique par des gamtes AB et Ab. Aucun gamte aB ne sera observ dans lurne gamtique ; on est prsence dun dsquilibre maximal. Ce dsquilibre sestompera nouveau selon la formule Dn = (1 )n D. Notons que lallle mut b pourrait disparatre trs vite, ou du moins rester trs rare ; le mcanisme dcrit sera dautant plus efcace pour crer un dsquilibre que la population sera petite, que lallle b sera soumis slection positive, etc.
19
F IGURE 2.4: Tag SNP pour les premiers SNP du gne GLDC (en rouge)
2.8 Exercices
Exercice 1 On considre deux locus di-alliques A/a et B/b, avec frquences f A = 0,6, f a = 0,4, f B = 0,3, f b = 0,7. En supposant quil y a quilibre gamtique, calculer la frquence des gamtes AB, Ab, aB et ab. Quelle est la valeur minimale que peut prendre le dsquilibre D ? Et la valeur maximale ? Exercice 2 On considre 1000 individus gnotyps en deux locus di-allliques A/a et B/b. On a les effectifs suivants : Gnotype AA Effectifs Aa aa Gnotype BB Bb Effectifs bb
1. Sil y a quilibre gamtique, quelles sont les frquences des gamtes AB, Ab, aB, et ab ? 2. Les frquences gamtiques sont donnes dans la table suivante. Calculer D, D , r 2 . Gamte AB Ab aB ab
Frquences 0,04895 0,49605 0,26105 0,19365 Exercice 3 On considre une population forme par un mlange 50% de la sous-population S 1 et 50% de la sous-population S 2 . On a deux locus di-allliques A/a et B/b, en quilibre gamtique dans les deux sous-populations. Les frquences des allles dans les sous-population sont donnes par la table suivante : Population S1 S2 fA fa fB fb
20
2.8 Exercices 2. La population globale est elle lquilibre gamtique ? Calculez D, D , r 2 . Exercice 4 On considre une petite population et un locus di-alllique A/a, avec f A = 0,6 et f b = 0,4. En un locus pour lequel nexistait quun allbe B, un allle mutant b apparat chez un individu de gnotype AA, qui met donc des gamtes Ab. On suppose que dans lurne gamtique de cette gnration, on a les frquences suivantes :
f AB
f Ab
f aB
f ab
1. Pourquoi ny a-t-il aucun gamte ab dans cette urne ? 2. Calculez les valeurs de D, D et r 2 pour ces deux locus. 3. On suppose que le taux de recombinaison entre les deux locus est = 0,1. Quelle est la valeur de D attendue aprs 5 gnrations ? Quelle sont alors les frquences gamtiques attendues ?
21
Nous allons crire f AA et f aa en fonction de p, q et F. On a p = f AA + 1 f Aa et donc 2 f AA = p 1 f Aa 2 1 = p 2pq 2Fpq 2 = p pq + Fpq = p(1 q) + Fpq = p 2 + Fpq et de mme on a f aa = q 2 + Fpq. Daprs ce qui prcde, si on observe un cart aux proportions de Hardy-Weinberg dans une population, on peut toujours dnir un paramtre F tel que f AA = p 2 + Fpq f Aa = 2pq 2Fpq f aa = q 2 + Fpq
23
3 Consanguinit et populations structures Ainsi les frquences gnotypiques peuvent scrire f AA = (1 F)p 2 + Fp f Aa = (1 F)2pq f aa = (1 F)q 2 + Fq
On appellera F lindice de xation de la population. On dnit galement le taux dhtrozygotie, qui est H = f Aa pour un locus di-alllique. On a H 2pq
F = 1
Cest avec cette dnition que Wright (en 1922) a dabord introduit cet indice.
24
3.2 Consanguinit
3.1.2 Le signe de F
Bien sr F peut tre positif ou ngatif. Dans ce chapitre, nous considrerons des cas o F est positif : on a un dcit dhtrozygotes, qui traduit un appariement prfrentiel entre apparents, ou au sein de souspopulation. Si il y a un appariement prfrentiel entre individus de gnotypes diffrents, ce quon appelle htrogamie, cela se traduira par un excs dhtrozygotes, et par un indice de xation F ngatif.
3.2 Consanguinit
Commenons dabord par considrer le cas des individus consanguins avant de nous pencher sur la notion de consanguinit moyenne de la population. La gure 3.1 montre lexemple de lunion entre cousins germains.
Lenfant I peut avoir reu deux copies dun mme gne anctre ; par exemple, une mme copie dun gne de la grand-mre A peut lui tre transmise travers D et G, ou travers F et H. On parle alors en anglais dIdentity By Descent (IBD) et en franais didentit par descendance 1 . Labrviation IBD est trs largement utilise. Il est important de faire la diffrence entre IBD et IBS, Identity By State, identit par tat : que les deux gnes homologues portent le mme allle (ils sont IBS) nimplique pas quils drivent dun anctre commun. Une diffrence notable est que quand deux individus sont IBD en un locus prcis du gnome, alors ils seront IBD sur tout un segment de chromosome stendant de part et dautre de ce locus (voir galement la gure 3.5).
1. Il sagit dune mauvaise traduction : descent a pour dnition derivation from an ancestor : on traduirait mieux par identique par origine voire par ascendance
25
II =
en effet, deux gnes homologues tirs au hasard chez lindividu I sont, soit le mme gne (proba 1 ), soit les 2 deux copies distinctes portes par lindividu (proba 1 ) qui sont alors IBD avec probabilit f I . 2
F IGURE 3.2: Calcul du coefcient de consanguinit Considrons les transmissions partir de lanctre A. Il y a une probabilit 1 que A transmette un mme gne 2 D et E. Si D et E ont reu le mme gne de A, D le transmet G avec probabilit 1 et E le transmet H avec 2
26
3.2 Consanguinit
1 probabilit 2 . Si enn G et H ont reu de la sorte le mme gne de A (ce qui arrive avec probabilit 1 ), ils le 8 1 1 transmettent I chacun avec probabilit 2 ; I reoit donc un gne IBD de A avec probabilit 32 . 1 Le mme rsultat vaut pour les transmissions partir de B : I reoit un gne IBD de B avec probabilit 32 . Pour nir, I pouvant recevoir ses deux gnes IBD de A ou de B, le coefcient de consanguinit de I vaut 1 1 1 32 + 32 = 16 .
Si A et B sont consanguins, il faut tenir compte du fait que mme sils ont transmis deux gnes diffrents, ces deux gnes peuvent tre IBD. Reprenons la premire boucle de consanguinit , cest--dire les transmissions partir de A. Si A transmet chacune de ses deux copies du gne considr D et E (probabilit 1 2 ), ces deux copies peuvent quand-mme tre IBD avec probabilit f A ; elles sont ensuite transmis I avec 1 1 probabilit 16 . Donc au nal la probabilit pour I davoir un gne IBD reu de A est 32 (1 + f A ). Cest la mme chose pour lautre boucle, et pour nir fI = 1 1 f A + fB 1 (1 + f A ) + (1 + f B ) = + 32 32 16 32
1 2
n A +m A +1
(1 + f A )
o la somme se fait sur toutes les boucles de consanguint, n A et m A sont les nombres de mioses entre dune part le pre de I et lanctre A, et dautre part la mre de I et lanctre A. La longueur totale de la boucle est donc n A + m A + 2. Signalons enn que pour mieux voir les boucles, on dessine souvent les pedigrees ainsi.
La table 3.1 rcapitule quelques coefcients de parent classiques, quand les anctres ne sont ni consanguins, ni apparents entre eux. La vrication de ces valeurs est faire en exercice. Ces valeurs donnent galement les coefcients de consanguinit des enfants ns dunion entre individus ayant cet apparentement. Notez lemploi de germain , qui veut dire frre ou soeur (en anglais : sib ou sibling). On a inclu le coefcient de parent dun indidividu avec lui-mme pour le cas de lautogamie (possible et mme frquentes chez certaines plantes, par exemple les pois chers Mendel).
27
3 Consanguinit et populations structures Relation Identit Parent/enfant Germains Demi-germains Oncle/nice Cousins germains
1 2 1 4 1 4 1 8 1 8 1 16
Et enn, si I et J ne sont pas parent lun de lautre, et si PI , MI , PJ , MJ sont leurs parents respectifs,
IJ =
1 PI J + MI J 2 1 = I PI + I MJ 2 1 = PI PJ + PI MJ + MI PJ + MI MJ 4
Cette dernire relation reste valable si PI = PJ ou MI = MJ ou les deux (auquel cas I et J sont germains). En appliquant ces relations de faon rptitive, on arrive calculer les coefcients de parents entre deux personnes quelconques de larbre, et donc les coefcients de consanguinit. Exemple des cousins germains Reprenons lexemple de la gure 3.2. On a f I = GH ; pour calculer GH , on crit GH = 1 (CE + CF + DE + DF ) 4 1 = DE , 4
28
et enn f I = GH =
1 16
1 + 32 ( f A + f B ).
Exemple et exercice Calculez le coefcient de consanguinit de lindividu A dans le pedigree de la gure 3.4.
I II
1 1 1
1 2
2 3 2 2 3 2 1 1 A 4 3 2 5 4 4
III IV V VI VII
29
Dans le cas particulier o = 1 (autogamie totale), on a Ht +1 = 1 Ht : le taux dhtrozygotie dcrot rapide2 ment et lquilibre, F = 1 et tous les individus sont homozygotes.
30
TABLE 3.2: Mlange de deux populations lquilibre de Hardy-Weinberg On constate que dans la population totale, on nest pas lquilibre de Hardy-Weinberg ; il y a un dcit dhtrozygotes.
Formalisation
On considre n sous-populations S 1 , . . . , S n , en proportion 1 , . . . , n dans la population totale. On suppose que chacune des sous-populations est lquilibre de Hardy-Weinberg, et que lallle A a frquence p i dans la sous-population S i ; on pose q i = 1 p i . On tire un individu au hasard dans la population totale ; la probabilit quil soit pris dans la sous-population 2 i est i . Dans ce cas, son gnotype est AA (resp Aa, aa) avec probabilit p i (resp. 2p i q i , q i2 ). Dans la population totale, la frquence de A est p = On a donc P(AA) =
i 2 i p i i
i p i , et la frquence de a est q = 1 p =
i q i .
P(Aa) =
i
i 2p i q i i q i2
P(aa) =
i
On dnit une variable alatoire qui prend les valeurs p 1 , . . . , p n avec probabilit 1 , . . . , n . Le processus peut tre r-interprt ainsi : on tire dabord une valeur de selon cette loi, puis un gnotype AA, Aa, aa, avec probabilits 2 , 2(1 ), (1 )2 . Lesprance de est la frquence de A dans la population totale : E() = et la variance de est var() = i p i = p
2 i p i p 2 .
31
3 Consanguinit et populations structures La variance de quantie la faon dont la frquence alllique varie entre les sous-populations. Reprenons alors lcriture de P(AA) : P(AA) =
i 2 i p i 2 i p i p 2
= p2 +
i
P(aa) = q 2 + var(). On en dduit enn P(Aa) = 1 P(AA) P(aa) = 1 p 2 q 2 2var() = 2pq 2var(). On peut galement le vrier par un calcul direct, plus compliqu mais peut-tre rassurant : i p i q i =
i i
i p i (1 p i )
2 i (p i p i ) 2 i p i
=
i
=
i
i p i
i
pour retrouver les critures classiques des frquences allliques en fonction des paramtres p, q, FST .
i p i et var() =
2 i p i p 2 = pqFST .
32
3.5 pidmiologie gntique On tire un individu au hasard, on considre son gnotype. On suit la mme dmarche que prcdemment : P(AA) =
i 2 i p i + Fi p i q i IS 2 i p i +
=
i
i p i q i Fi IS i p i q i FIS
i
i p i q i Fi IS
i
i p i q i
Cest un indice de xation moyen. Si tous les Fi sont gaux FIS , alors FIS = FIS . IS Retournons P(AA), en nous souvenant que
i 1 i p i q i = 2 P(Aa) = pq var(), puis que var() = pqFST :
P(AA) = p 2 + var() + pq var() FIS = p 2 + pqFST + pq pqFST FIS = p 2 + pq FST + (1 FST ) FIS On pose FIT = FST + (1 FST ) FIS , de sorte que P(AA) = p 2 + pqFIT Le mme calcul mnera P(aa) = q 2 + pqFIT , et comme prcdemment on en dduit P(Aa) = 2pq 2pqFIT . Lindice de xation global est donc FIT , dni ci-dessus ; de la dnition dcoule une relation plus esthtique, (1 FIT ) = 1 FIS (1 FST )
Signication des indices Les indices qui dcorent les divers indices de xation sont des abrviations : FIS , Individu dans la Sous-population FST , Sous-population dans le Total FIT , Individu dans le Total Cette formule permet de sparer, dans lindice de xation global, ce qui provient de la structure spatiale en sous-population (FST ), et ce qui provient deffets internes propres aux sous-populations (FIS ).
33
3 Consanguinit et populations structures Prenons lexemple de la mucoviscidose, o q = 0,02. Le risque en population est q 2 = 1/2500 ; = calcule q 2 + pq = 1/615, soit une multiplication du risque par 4 environ.
1 16 ,
on
Dans le cas de la phnylctonurie, q = 0,008 et q 2 = 1/16000, et le risque pour un enfant issu de cousins germains est de q 2 + pq = 1/1800, soit un risque multipli par 9. Le risque relatif est q 2 + pq p = 1+ ; q2 q plus q est petit, plus ce risque relatif est important. Dans le cas de certaines maladies trs rares, la plupart des atteints seront issus de familles consanguines 2 . Remarque Ces considrations remettent naturellement en cause le calcul des frquences allliques sur la seule base des prvalences, en supposant lquilibre de Hardy-Weinberg ; il faudrait distinguer les enfants issus dune union entre apparent des autres enfants, et disposer dune estimation de la frquence des unions entre apparents dans la population.
F IGURE 3.5: Calcul du coefcient de consanguinit On voit que lindividu a reu deux allles IBD au locus 3, et sur tout un segment de chromosome. Ceci peut permettre de localiser un gne impliqu dans une maladie rcessive rare, qui sera essentiellement prsente chez des individus consanguins, lindividu ayant reu deux allles morbides du gne impliqus dun anctre commun. Ce gne se trouve donc dans une rgion IBD du gnome. On gnotype les atteints en une famille de marqueurs couvrant le gnome ; les segments IBD sont dtectables car tous les marqueurs dans ces rgions sont homozygotes. Une longue srie de marqueurs homozygotes (un run of homozygosity) est donc lindice dune rgion IBD. Cette mthode appele homozygosity mapping a t propose par Lander et Botstein en 1987 ; elle fait encore lobjet de dveloppements mthodologiques aujourdhui.
2. Garrod avait dj remarqu en 1902 que ctait le cas pour les enfants atteints de phnylctonurie
34
4 Drive gntique
Dans ce chapitre nous examinons les consquences de labandon dune des hypothses du modle de HardyWeinberg : la taille innie de la population. Les frquences gnotypiques observes la cration dune nouvelle gnration ne sont alors plus gales leur esprance ; il y a une petite uctuation, une uctuation dchantillonage , au l des gnrations. Supposons quon prenne, dans des conditions contrles (en laboratoire), une centaine de populations compose chacune de 16 drosophiles htrozygotes Aa ; des expriences de ce type ont t menes notament par Buri en 1956, et avant lui par Kerr et Wright en 1954. Les allles A et a sont choisis codominants, de faon ce quon puisse dterminer les effectifs allliques partir des phnotypes 1 . La frquence de A, note p, vaut donc p = 0,5 au dbut de lexprience. On les laisse se reproduire de gnration en gnration, en maintenant la taille gale 16 individus. Aprs une vingtaine de gnrations, dans 5 1 certaines populations la frquence de A vaut p = 0, dans dautres p = 1, et enn dans dautres p = 32 , 32 , 21 , 32 etc. Ainsi, la frquence a vari avec le temps, et elle na pas vari de la mme faon dans toutes les populations ; ceci met en vidence le rle jou par le hasard.
35
4 Drive gntique
200
200
150
150
10 populations, 2N = 1000
10 populations, 2N = 100
10 populations, 2N = 20
gnrations
gnrations
150 0 0.0 0.2 frquence alllique 0.4 0.6 0.8 1.0 50 gnrations 100
100
50
F IGURE 4.1: 10 trajectoires typiques de la frquence alllique au l du temps dans des populations de taille de plus en plus grande (2N = 20, 2N = 100 et 2N = 1000). Plus la population est grande, moins les variations de frquences sont rapides.
36
50
100
200
0.0
0.2
frquence alllique
0.4
0.6
0.8
1.0
0.0
0.2
frquence alllique
0.4
0.6
0.8
1.0
F IGURE 4.2: volution de la probabilit que X t = k dans une population de 10 individus, avec k entre 0 et 20 et t variant de 1 15, et X 0 = 10. Pour t = 1, on a une distribution binomiale Bin(20, 0,5) ; plus t grandit, plus cette distribution stale, et on voit trs vite crotre la probabilit que X t = 0 (disparition de A) et celle que X t = 20 (xation de A).
37
4 Drive gntique Hypothses implicites du modle Le modle suppose une population dindividus diplodes et hermaphrodites. Pour une population dindividus sexes spars, il faudrait distinguer la taille de la population masculine et celle de la population fminine ; cela sera fait plus tard. On peut expliciter les probabilits conditionnelles P(X t +1 = |X t = k) : P(X t +1 = |X t = k) = = p t (1 p t )2N k 2N 1 k 2N
2N
2N 2N
En utilisant de faon itrative ces relations (et avec laide de la formule des probabilits totales, voir la parenthse technique ci-dessous) on peut calculer les P(X t = k) pour tout t et tout k. Voir la gure 4.2 pour un reprsentation de ces valeurs pour N = 10, k allant de 0 20 et t de 1 15. Parenthse technique Si on note T = [t k ] R(2N+1)(2N+1) la matrice des probabilits de transition t k = P(X t +1 = |X t = k)
(t et (t ) = ((t ) , . . . , (t ) ) le vecteur (ligne) des k ) = P(X t = k), on peut crire 0 2N+1
(t +1) = P(X t +1 = ) =
k
P(X t +1 = |X t = k)P(X t = k)
(t k ) t k
=
k
et donc, en notation matricielle, (t +1) = (t ) T. Ceci permet dobtenir de proche en proche de faon trs simple toutes les valeurs des P(X t = k). tats absorbants On remarque facilement que si X t = 0, lallle A a disparu, et ne peut rapparatre : P(X t +1 = 0|X t = 0) = 1 ; on dit alors que lallle a sest x (A a disparu). De mme, P(X t +1 = 2N|X t = 2N) = 1, et lallle A sest x (a a disparu). Dans ce modle, tous les allles se xent, tt ou tard.
Le calcul de la variance par cette mthode est plus complexe. Il aboutit au rsultat suivant : 1 2N
t
var(p t ) = p 0 q 0 1 1
p 0 q 0 1 exp
t 2N
38
Calcul de la variance de p t
2 On commence par calculer E(p t ). On a toujours E(X 2 ) = var(X) + E(X)2 , donc on crit 2 E(p t +1 |p t ) = var(p t +1 |p t ) + E(p t +1 |p t )2
1 2 var(X t +1 |p t ) + (p t )2 2N 1 2 = p t (1 p t ) + p t 2N 1 1 pt + 1 p2 = 2N 2N t = Donc
2 E(p t +1 ) =
x=
1 1 x p0 + 1 2N 2N
1 1 2 p0 + 1 E(p t ) p 0 2N 2N 1 2 = 1 E(p t ) p 0 2N
Do
2 E(p t ) p 0 = 1
1 2N 1 2N 1 2N
2 E(p 0 ) p 0 2 p0 p0
= 1 = 1
p 0 (p 0 1)
t
1 2N
p 0 q0
= p0 1
1 2N
2 p 0 q0 p 0 t
= p 0 q0 1 et pour nir
1 2N
p 0 q0
var(p t ) = p 0 q 0 1 1
1 2N
39
4 Drive gntique Le calcul est prsent en encadr. Nous verrons plus loin comment retrouver ce rsultat plus simplement (section 4.1.5). On remarque donc que quand t grandit, var(p t ) sapproche de p 0 q 0 .
Ht = E(2p t q t )
2 = 2E(p t p t ) 2 = 2 E(p t ) E(p t )
= 2 p 0 var(p t ) E(p t )2 = 2 p 0 p 0 q0 1 1 1 2N
t 2 p0
= 2 p 0 q0 p 0 q0 + p 0 q0 1 = 2p 0 q 0 1 1 2N
t
1 2N
t 2N
On peut dnir une demi-priode , cest--dire un nombre T de gnrations aprs lequel le taux dhtT rozygotie sera (en moyenne) divis par 2 : il suft de rsoudre lquation exp 2N = 1 dont la solution est 2 T = 2N log(2) 2N 0,7. On en dduit quaprs un temps assez long, il y a toujours xation dun des allles. On a E(p t ) = p 0 , et aprs xation on a p t = 0 ou p t = 1, donc la valeur 1 est prise avec probabilit p 0 et la valeur 0 avec probabilit 1 p 0 = q0 .
Aprs un temps assez long, il y a toujours xation dun des deux allles ; cela sera lallle A avec probabilit p 0 et lallle a avec probabilit q 0 .
(il suft de permuter p 0 et q 0 , la disparition de A tant quivalente la xation de a). On a enn le temps moyen de persistence, cest--dire le temps moyen avant xation dun allle ou lautre : t (p 0 ) = p 0 t 1 (p 0 ) + q 0 t 0 (p 0 ) = 4N p 0 log p 0 + q 0 log q 0
40
4.1 Modle de Wright-Fisher La variance des temps de persistence, de xation ou de disparition est importante, comme lillustrent les histogrammes des gures 4.3 et 4.4, obtenus en simulant lvolution de 100 000 populations de taille N = 50.
persistence
0.000 0.002 0.004 0.006
Density
100
200
300 t
400
500
600
disparition
0.005
fixation
0.020
0.025
0.015
0.020
Density
Density
0.015
0.010
0.005
0.010
0.000
0.000
0.005
50
100 t
150
200
0.000
0.001
0.002
0.003
0.004
100
200
300 t
400
500
600
F IGURE 4.4: Distribution des temps de persistence, de xation et de disparition (N = 50, p 0 = 0.9)
41
4 Drive gntique
F IGURE 4.5: On ne reprsente que les 2N = 10 allles, de gnration en gnration. Les points reprsentent les allles, et les segments la transmission dun allle dune gnration lautre ; certains allles nont pas de descendant tandis que dautres en on un ou deux. gauche, la gnration 15, tous les allles prsents descendent du mme anctre (ils sont IBD). droite, si on suppose qu la gnration 0 tous les allles A ont un anctre commun, alors ds la gnration 10 tous les allles prsents sont IBD.
42
4.1 Modle de Wright-Fisher On pourrait raisonner plus rigoureusement sur A t : lesprance de A t +1 , sachant A t , est prenant lesprance de cette expression on retrouve lquation ci-dessus. On trouve la limite de Ft en rsolvant lquation x = ensuite Ft +1 1 en fonction de Ft 1. On a
1 2N 1 2N + 1 1 2N A t , et en
Ft +1 1 = 1 do Ft 1 = 1
1 (Ft 1) 2N
t
1 2N
(F0 1)
et donc si on a choisi F0 = 0, Ft = 1 1 Ft et si F0 = 1 2p 0 q 0 , Ft = 1 2p 0 q 0 1
1 et on retrouve Ht = 1 Ft = 2p 0 q 0 1 2N t
1 2N
1 exp
t 2N
1 2N
Attention, les Ft calculs par ces formules sont des valeurs moyennes ; la proportion dallles IBD dans une population une gnration donne varie autour de cette valeur, selon les uctuations dchantillonage. La gure 4.6 illustre ces variations.
10 populations, 2N = 100
1.0 consanguinit moyenne 0.0 0.2 0.4 0.6 0.8
50
100 gnrations
150
200
F IGURE 4.6: Proportion dindividus portant deux allles IBD dans 10 populations de taille N = 50
Contrairement ce qui se passe dans une population scartant du rgime panmictique, on ne doit pas constater dcart important lquilibre de Hardy-Weinberg dans une petite population ; le dcit en htrozygotes est par rapport aux frquences dans la population dorigine, au temps t = 0, mais dans une population donne il saccompagne dune modication des frquences allliques. Il est plus facile dinterprter Ft comme un FST de structure : si on divise une population homogne en un grand nombre de (petites) sous-populations quon isole les unes des autres, et quon les laisse se reproduire pendant plusieurs gnrations, alors Ft est le FST attendu pour la population totale.
43
4 Drive gntique
GP
GM
I
F IGURE 4.7: Flux des gnes dans une population sexes spars Les grands-parents sont considrs comme pris au hasard dans la population t 2. Les deux gnes prsents chez lindividu I peuvent provenir : de ses deux grands-pres avec probabilit
1 4
1 Nm
quand cest le cas, la probabilit que I soit HBD est (le grand-pre peuvant tre HBD avec probabilit Ft 2 ) ; 1 dune mme grand-mre avec probabilit 1 N , auquel cas I est HBD avec probabilit 1 (1 + Ft 2 ) ; 4 2
f
1 1 de grands-parents diffrents avec probabilit 1 4Nm 4N , auquel cas I est HBD avec probabilit t 2 = f Ft 1 .
On a donc Ft =
1 1 1 1 (1 + Ft 2 ) + (1 + Ft 2 ) + 1 Ft 1 8Nm 8N f 4Nm 4N f
Ft =
Ft 1
o on a dni la taille efcace de la population Ne comme la moyenne harmonique de 2Nm et 2N f , cest-dire que Ne vrie lgalit suivante : 1 1 1 1 = + Ne 2 2Nm 2N f
44
Ainsi, la taille efcace (ou effectif efcace) de la population est la taille dune population idale dindividus hermaphrodites dans laquelle la drive est de mme ampleur que celle observe dans la population relle. Nm N f 1 5 50 100 Ne
1 (F0 1) 2N0
1 2Ne
= 1
1 1 1 2Nt 1 2N1
1 2N , on obtient
(4.2)
Enn, si la population est divise en sous-populations entre lesquelles subsiste une migration non nulle, on peut galement dnir un effectif efcace, qui sera plus grand que leffectif total de la population ; en effet, lisolement relatif des sous-populations rend plus difcile la disparition dun allle, car la drive peut aller dans des directions diffrentes selon les sous-populations.
45
4 Drive gntique
4.3 Coalescence
Le modle de Wright-Fisher est une faon de penser les petites populations en allant de lavant , en modlisant la faon dont une gnration engendre la suivante. La thorie de la coalescence prend le parti pris oppos de remonter le temps , en sintressant aux anctres des allles pris dans une gnration donne, et en supposant incidemment la population trs ancienne (et mme inniment ancienne). Dans une telle population, tous les allles sont IBD ; le seul moyen de conserver de la diversit est de considrer des modles avec mutation (ce que nous ne ferons pas ici).
P(T2 = t + 1) =
1 On reconnat une loi gomtrique de paramtre p = 2N . Son esprance est E(T2 ) = 2N et sa variance var(T2 ) = 2 2 2 4N 2N 4N = E(T2 ) . On peut galement faire lapproximation par une loi exponentielle, P(T2 = t + 1) 1 t 2N exp 2N .
46
E(T)
4N 1
Il faut donc en esprance environ 4N gnrations avant que tous les allles aient un anctre unique, ce qui est tonnamment peu ; et la moiti de ce temps est d T2 , le temps pour faire coalescer les deux derniers anctres (cf gure 4.8).
47
4 Drive gntique Un autre cas est celui de leffet fondateur, quand une petit population stablit dans un nouvel habitat et y reste isole (cas de la population qubecoise, des Amish, des Huttrites, etc). Cela peut avoir pour consquence que la drive favorise des allles morbides, et que certaines maladies gntiques soient beaucoup plus frquentes dans ces populations que dans la population humaine gnrale ; cest le cas par exemple de la rtinite pigmentaire Tristan Da Cunha, ou des mutations BRCA1 et BRCA2 chez les juifs ashknazes.
48
5 Mutation et migration
5.1 Mutation
Ici on abandonne une autre des hypothses du modle de Hardy-Weinberg : labsence de mutation. Nous ne considrerons quun modle trs simple, un seul locus. On considre un gne dialllique dallles A et a, et on suppose quune mutation puisse transformer un allle en lautre : A
tant la probabilit quun allle A mute vers a, et la probabilit quun allle a mute vers A. On notera p t la frquence de lallle A la gnration t .
49
5 Mutation et migration
5.2 Migration
Nous nenvisagerons que le modle une le : une petite population (sur lle) reoit, via un processus de migration, un ux de gnes dune trs grande population (sur le continent). La trs grande population est suppose lquilibre de Hardy-Weinberg. On considre donc un locus di-alllique A/a, et on note p t et q t leur frquence la gnration t . On note p c et q c leur frquence sur le continent, et m le taux de migration, cest--dire la probabilit quun allle une gnration donne vienne du continent. Un allle de la gnration t + 1 peut venir de lle (probabilit 1 m), il est alors A avec probabilit p t ; il peut venir du continent (probabilit m) il est alors A avec probabilit p c . On a p t +1 = (1 m)p t + mp c , do p t +1 p c = (1 m)(p t p c ), et pour nir p t = p c + (1 m)t (p 0 p c )
50
5.2 Migration lquilibre, les frquences allliques sont devenues gales celles du continent ; la vitesse du processus est log 2 donne par le terme (1 m)t , do une demi-priode T = m = 0,7 . m Dans ce modle, les consquences de la migration sont comparables celles de la mutation ; cependant, les taux de migration peuvent tre beaucoup plus importants que les taux de mutation.
51
6 Slection
Introduction
On va sintresser ici aux consquences de labandon de lhypothse dabsence de slection dans le modle de Hardy-Weinberg. On conserve les autres hypothses, notament la panmixie, labsence de slection gamtique, les gnrations spares, et la population de taille innie. On ne sintresse donc quau cas o les individus qui composent une gnration donnes ont des chances ingales de transmettre leurs gamtes la gnration suivante ; ceci peut tre d des diffrences de mortalit avant lge reproductif, ou encore une fcondit rduite.
6.1 Modle
6.1.1 Valeur slective
On considre un locus diallllique dallles A et a, soumis slection, cest--dire que la fcondit des individus dpend de leur gnotype en ce locus. On notera p t la frquence de lallle A la gnration t (pour pallier toute ambigut due la possibilit dune mortalit dpendant du gnotype, on conviendra quil sagit de la frquence la naissance, voire la formation des zygotes). On note q t = 1 p t la frquence de lallle a. Notons r, s et t les valeurs slectives des trois gnotypes : Gnotype : Valeur slective : AA u Aa v aa w
On pourrait dnir les valeurs slectives comme la probabilit quun gamte mis par un individu de gnotype donn soit prsent la gnration suivante ; en fait, il suft que u, v et w soient proportionnels ce nombre ; seules les valeurs slectives relatives importent, cest--dire les proportions u : v : w. En labsence de slection, on a u = v = w.
53
6 Slection Si ces galits ne sont pas intuitives, on peut les obtenir par une probabilit conditionnelle : P(AA|reprod.) = = P(reprod.|AA)P(AA) P(reprod.|AA)P(AA) + P(reprod.|Aa)P(Aa) + P(reprod.|aa)P(aa)
2 u pt 2 u p t + v 2p t q t 2 + w qt
La probabilit quun tel gamte soit A est 1 quand lindividu est AA, 1 quand il est Aa, et 0 quand il est aa. 2 Finalement, la probabilit quun allle tir au hasard soit A, qui est aussi la frquence de A dans la gnration suivante, est p 2u + p t qt v . p t +1 = 2 t 2 p t u + 2p t q t v + q t w Posons f (p) = pour p [0,1]. La frquence de A la te gnration sobtient par la relation p t = f (p t 1 ). Lvolution de cette frquence dpend entirement de f , que nous devons donc tudier. Notons tout dabord quelques rsultats issus de calculs simples. Les points xes de f (cest--dire les valeurs de p pour lesquelles f (p) = p) sont les tats dquilibre du systme. Si p 0 est un tel point xe, ou aura pour tout t , p t = p 0 : la frquence nvolue pas au l du temps. On a les rsultats suivants : v si w = 0, f admet 0 comme point xe, et f (0) = w ; v de mme, si u = 0, f admet 1 comme point xe, et f (1) = u ; f peut admettre un troisime point xe p e : pe = w v , u 2v + w p 2 u + p(1 p)v p 2 u + 2p(1 p)v + (1 p)2 w
si cette quantit est entre 0 et 1. La drive en ce point xe est (v u)(v w) . v 2 uw Au l des sections suivantes, nous allons considrer un un tous les cas possibles. Auparavant, liminons le cas simple o il ny a pas de slection : u = v = w. Il est facile de vrier qualors f (p) = p. La frquence de A reste constante au cours du temps, comme on sy attendait. f (p e ) = 1
u>v w
ou
uv >w
54
0.6
0.8
1.0
0.2
0.4 p
0.6
0.8
1.0
1.0
1.0
q q
0.8
0.8
0.6
f(p)
0.4
pn 0.4
0.6
0.2
0.2
q
0.0
0.0
0.2
0.4 p
0.6
0.8
1.0
0.0
10 n
15
20
55
6 Slection cest--dire que toutes les demi-priodes log(2) log(u) log(v) 0,7 log(u) log(v)
T=
la frquence de lallle a est divise par deux. Le point dquilibre p = 0 est possible, mais il est instable : ds quune petite proportion dallles A apparat (par mutation, migration), la suite des p t va tendre vers 1.
Variante :
u>v
et
w =0
Il sagit du cas o le gnotype aa est ltal (ou encore : les individus aa sont striles). Ce cas est peu diffrent du prcdent, part pour lallure du graphe de f en 0 ; voir gure 6.3.
1.0
1.0
q q
0.8
0.6
0.6
0.8
f(p)
0.4
pn 0.2 0.2
q
0.0
0.0
0.2
0.4 p
0.6
0.8
1.0
0.0
0.4
10 n
15
20
Variante :
u=v
et
w =0
Ici, on a dominance de A, et aa est ltal : cest par exemple le cas de certaines maladies rcessives. Ce cas est donc trs pertinent en pratique. Son traitement mathmatique est peu diffrent du prcdent, part pour lallure du graphe de f en 0 (gure 6.5). Ici la rcurrence prend une forme simple : p t +1 = pt 1 = , p t (p t + 2q t ) 1 + q t
56
1.0
1.0
0.8
0.8
q q q q q
0.6
0.6
f(p)
pn
0.4
0.4
0.2
0.2
q
0.0
0.0
0.2
0.4 p
0.6
0.8
1.0
0.0
10 n
15
20
1.0
1.0
0.8
0.8
q q q
0.6
0.6
f(p)
0.4
pn
0.2
0.2
q
0.0
0.0
0.2
0.4 p
0.6
0.8
1.0
0.0
0.4
10 n
15
20
57
6 Slection et donc q t +1 = 1
1 qt = . 1 + qt 1 + qt
q0 t +q 0 .
u<v w
ou
uv <w
Il suft dchanger les rles de A et a dans la section prcdente ! Pour a, il faut permuter u et w. On aura dans tous les cas xation de lallle favorable a, avec la mme discussion sur les vitesses... La gure 6.6 illustre le cas 0 < u < v < w.
1.0 1.0 0.8 0.6
q
0.6
0.8
f(p)
0.4
pn 0.4
0.2
0.2
0.0
0.0
0.0
0.2
0.4 p
0.6
0.8
1.0
10 n
15
20
u<v >w
Ici, lhtroygote a une meilleur valeur de slection que les deux homozygotes ! On parle de superdominance. Dans ce cas, on a, en plus des points xes ventuels en 0 et 1 (selon que v et w sont nuls ou non), un point xe en w v pe = . u 2v + w La gure 6.7 montre lvolution de p t , selon que p 0 < p e , en bleu, ou p 0 > p e , en vert : Dans tous les cas, p t tend vers cette valeur dquilibre p e . Notons en passant que la pente de f en p e est toujours plus petite que 1, et quon pourrait l encore calculer une demi-priode pour lvolution des frquences ds lors quon est assez proche de lquilibre. Lexemple classique de ce cas est la drpanocytose, ou anmie falciforme. Cette maladie rcessive (dj dcrite au premier chapitre) est due une mutation S du gne de lhmoglobine, dont lallle normal est not A . Les individus S S , porteurs de deux copies de cette mutation ont une maladie trs grave qui diminue considrablement leur esprance de vie. Cependant, les htrozygotes S A ne sont pas touchs par la maladie. De plus, ils sont favoriss par rapport aux homozygotes A A car ils sont moins vulnrables au paludisme une maladie cause par un parasite qui colonise les globules rouges.
58
1.0
1.0
q
0.8
0.8
0.6
0.6
q q
f(p)
pn
q q
q q
q q
0.4
0.4
0.2
0.2
q
0.0
0.0
0.2
0.4 p
0.6
0.8
1.0
0.0
10 n
15
20
Cest cet avantage de lhtrozygote qui explique que lallle a se maintienne une frquence leve (jusqu 20% dans certaines rgions). On a galement voqu un possible avantage de lhtrozygote pour expliquer la frquence leve de la mutation responsable de la mucoviscidose, qui permettrait, selon les auteurs, de mieux rsister au cholra, la tuberculose, etc. Aucune hypothse ne fait lunanimit.
u>v <w
mais cette fois il sagit dun quilibre rpulsif : toute dviation de ce point entraine la frquence vers 0 ou 1. La gure 6.8 montre lvolution de p t , selon que p 0 < p e , en bleu, ou p 0 > p e , en vert.
1.0 1.0
q q
0.8
0.8
0.6
0.6 pn 0.4
f(p) 0.4
0.2
0.2
0.0
0.0
0.0
0.2
0.4 p
0.6
0.8
1.0
10 n
15
20
Cette fois, le processus est divergent ; on parle de slection diversiante. Cela peut conduire des populations spares, issues dune mme population, xer des allles diffrents, ou contribuer couper une popula-
59
6 Slection tion vivant dans une mme aire reproductive en deux sous-populations de phnotypes diffrents. Lexemple classique est celle des diffrences de caryotype. Les individus porteurs dun caryotype quilibr mais hybride mettent en effet une certaine proportion de gamtes dsquilibrs. On pense par exemple quun tel processus a pu tre luvre dans la population ancestrale des humains (46 chromosomes) et des chimpanzs (48 chromosomes). lheure actuelle, des diffrences de caryotypes existent par exemple au sein des populations de porcs, de cercopithques, sans empcher linterfcondit des individus.
1 e 4Ne sp 0 1 e 4Ne s
60
On reprend le raisonnement sur lurne contenant les gamtes mis par la gnration t . La conversion dallle A en allle a conduit modier lquation dvolution en p t +1 =
2 (1 )p t + (1 )p t q t
2 p t + 2p t q t (1 )p t (p t + q t ) = p t (p t + 2q t ) 1 = . 1 + qt
(1 ) p t (1 F)p t + F + (1 F)q t
61
On a montr que la frquence des homozygotes aa est gale . L encore, lincidence de la maladie est gale 2 au taux de mutation : f aa = (1 F)q e + Fq e = . Si on est lquilibre slection-mutation, lincidence dune maladie rcessive ltale est gal au taux de mutation, indpendament de la consanguinit de la population. Il nen reste pas moins vrai que dans une famille donne, la probabilit de voir apparatre une maladie rcessive est plus importante quand les parents sont apparents que quand ils ne le sont pas. Dans ce modle, la consanguinit de la population ne pose pas problme de sant publique. Attention toutefois au cas dune population consanguine qui reoit par immigration un ux de gnes dune population panmictique. On a vu que le taux de migration peut tre peru comme un analogue du taux de mutation, mais quil est gnralement plus lev : cela conduira une incidence leve de la maladie. En effet si la population panmictique est lquilibre slection-mutation, la frquence de lallle morbide a y est gal ; les allles a imports dans la population par immigration, puis soumis un rgime consanguin, sont la cause dune augmentation de lincidence.
62