LV372 Génétique CNED
LV372 Génétique CNED
LV372 Génétique CNED
TÉLÉ-SCIENCES 6
Formation Ouverte et à Distance
[email protected]
01.44.27.62.34
01.44.27.74.57
http://www.telesciences6.upmc.fr
U.E – LV372
Génétique
Polycopié de cours
COURS DE GÉNÉTIQUE
Auteurs : Mr Frédéric DEVAUX
Mr Alexandre ESCARGUEIL
Mme Sophie GARNIER
Mme Emmanuèle MOUCHEL-VIELH
1
Table des matières
Introduction p1-6
1
Chapitre III : Analyse fonctionnelle : utilisation des
systèmes modèles pour étudier la fonction des gènes
p80-130
Introduction : Qu’est-ce que l’analyse fonctionnelle
I- Caractéristiques d’un bon modèle en génétique
II- Exemple de modèle cellulaire : cultures de cellules eucaryotes
(présentation ; exemples d’application)
III- Exemples d’organismes modèles : particularités, méthodes de
transgenèse et de manipulation des génomes, avantages, inconvénients
(la levure Saccharomyces cerevisiae ; la drosophile Drosophila
melanogaster; la souris Mus musculus)
OUVRAGES DE REFERENCES CITES
Avertissement
Ce module LV372 « Biologie moléculaire et Génétique 2 » s’articule autour de 2 cours :
un cours de biologie moléculaire et un cours de génétique, de 4 devoirs répartis sur 2
envois (2 de génétique, 2 de biologie moléculaire) ; 1 examen de 2h.
La note de ce module sur /100 est l’addition de 2 notes :
-‐ celle de contrôle continu sur /40 (moyenne des notes des 4 devoirs, devoir non
rendu = 0)
-‐ celle de l’épreuve finale sur /60 (épreuve écrite de 2h génétique et biologie
moléculaire)
Il est donc essentiel pour un résultat satisfaisant que les devoirs soient faits et renvoyés
en temps et en heure !!
Dans ce cours de génétique, plus que des connaissances, les enseignants souhaitent vous
apprendre des modes de raisonnement dont certains sont spécifiques à cette matière.
Néanmoins il serait illusoire de soutenir qu’un bon raisonnement sans aucune connaissance
est suffisant. Ces connaissances vous permettront en effet d’apprécier la plus ou moins grande
probabilité de certains faits entre lesquels il vous faudra choisir. Une estimation de la
probabilité d’une hypothèse ne peut se faire sans connaissances de base concernant les
mécanismes déjà élucidés, votre premier travail sera donc de les étudier dans le cours.
Ensuite, des exercices autocorrectifs vous sont proposés afin de mesurer la façon dont vous
appliquez ce que vous venez d’acquérir. Ces exercices sont extrêmement importants, ils
doivent être traités comme des devoirs avec un soin particulier apporté à leur mise en forme.
Ces exercices sont basés sur des connaissances du L2, ils vous permettront d’aborder dans les
meilleures conditions les nouvelles notions traitées dans le cours et les devoirs. Les
corrections vous permettent de confronter votre interprétation de résultats expérimentaux avec
celle que peut en donner un généticien averti. Ne passez pas à côté !!!!
Enfin les 2 devoirs de génétique (regroupés avec les devoirs de biologie moléculaire) qui
vous sont proposés sont adaptés aux différents chapitres du cours. Il convient de les
rédiger complètement dans un temps qui ne doit pas excéder 2h. La règle d’or est de
tout justifier en en écrivant de façon claire, précise et concise. Vous recevrez le devoir
corrigé et évalué ainsi qu’une correction standard qu’il n’est pas superflu de lire surtout si le
devoir n’est pas parfait.
En section ordinaire les Travaux Dirigés sont le moment d’obtenir des éclaircissements. Dans
votre cas, il ne faut pas hésiter à mettre par écrit vos questions et à les envoyer à l’enseignant
soit à l’occasion d’un devoir soit seules (pour vous permettre de faire exercices et devoirs).
Lorsque cela est possible il vous est recommandé de ne pas hésiter à prendre contact par
email. Les résultats des examens des années précédentes tendent à montrer qu’un travail
sérieux et régulier augmente notamment vos chances de réussite.
Il ne me reste plus qu’à vous souhaiter une bonne année de travail fructueux et à vous donner
mes coordonnées.
Introduction
Les êtres vivants sont caractérisés par des propriétés intrinsèques qui sont héréditaires. Le
support de cette hérédité est le matériel génétique, constitué d’acides nucléiques (ADN pour
la majorité des êtes vivants), contenant des unités fonctionnelles appelées gènes. Ce matériel
est transmis, au sein d’un organisme, d’une cellule mère à une cellule fille (mitose ou division
bactérienne), ou d’un organisme à l’autre d’une génération à la suivante (méiose et
fécondation). L’ensemble du matériel génétique d’un organisme est appelé génome.
Les propriétés des génomes ainsi que leurs mécanismes de maintien et de transmission ont été
traités dans l’UE LV203 « Biologie Moléculaire et Génétique 1 ». Dans l’UE LV372
« Biologie Moléculaire et génétique 2 » seront étudiés les mécanismes génétiques et
moléculaires impliqués dans l’expression des gènes et des génomes.
Cette introduction a pour but de rappeler un certains nombre de définitions
fondamentales en génétique ainsi que les principes de base de la cartographie génétique,
traités en LV203. Pour de plus amples informations concernant la cartographie
génétique et les analyses de ségrégation, il faut se référer au polycopié de cours et aux
exercices de LV203.
I – Définitions
Locus : Une position précise sur le génome.
Marqueur génétique : Une séquence dont on connait la position précise sur le génome,
utilisée pour établir des cartes génétiques.
Polymorphisme : Différence, entre deux individus de la même espèce, de la séquence
nucléotidique de l’ADN génomique à un locus particulier.
Allèle : Une séquence possible à un locus particulier. Dans une espèce, chaque locus peut
exister sous différentes formes alléliques.
Chez les organismes diploïdes, un individu portant deux allèles identiques à un locus donné
est dit homozygote pour ce locus. S’il porte deux allèles différents, il est dit hétérozygote
pour ce locus.
Génotype : Constitution génétique d’un individu (ploïdie, combinaisons d’allèles).
Phénotype : Caractères exprimés par un individu. Il est fondamental d’éviter la confusion
entre génotype et phénotype. En effet, le phénotype d’un individu est une conséquence de son
1
génotype, mais dépend également d’autres facteurs tels que, par exemple, l’environnement
dans lequel l’individu évolue.
Lorsque deux locus sont sur deux chromosomes différents (indépendance physique), leur
pourcentage de recombinaison est égal à 50%. On dit que ces deux locus sont indépendants
génétiquement (Figure 1). Un pourcentage de recombinaison de 50% (indépendance
génétique) peut également refléter le fait que les deux locus sont sur le même chromosome
(liaison physique) mais très éloignés l’un de l’autre (Figure 2). Par contre, si le pourcentage
de recombinaison est significativement inférieur à 50%, on parle de liaison génétique, ce qui
traduit le fait que les deux locus sont relativement proches sur le même chromosome (liaison
physique) (Figure 2).
2
a+ b+
diploïde
a1 b1
duplication
des
chromatides
a+ b+
a+ b+
a1 b1
cas
1 cas
2
(50%
des
méioses) a1 b1
(50%
des
m éioses)
1ère
division
d e
méiose
a+ b+ a1 b1 a+ b1 a1 b+
a+ b+
ET a+ b1
ET
a1 b1 a1 b+
2ème
division
d e
méiose 2ème
d ivision
de
méiose
Au
Au
ttotal:
otal:
PP1=P2=R1=R2
1
=
P2
=
R1
=
R2
%recombinaison
=
[(R1+R2)/(P1+P2+R1+R2)]x100
=
50%
%recombinaison=[(R1+R2)/(P1+P2+R1+R2)]x100=
50%
Les
gènes
a
et
b
sont
indépendants
génétiquement
Les
gènes
a
et
b
sont
indépendants
génétiquement
3
a+
b +
diploïde
a1
b 1
duplication
des
chromatides
a+
b+
a+
b+
a1
b 1
a1
b1
1
a+b+=1P1 1
a1b+=1R2
1
a+b1=1R1 1
a1b1=1P2
4
Le calcul du pourcentage de recombinaison pose le problème des produits de méiose issus de
crossing-over multiples, qui ont un génotype parental P1 ou P2 et ne sont donc pas
comptabilisés parmi les produits de méiose issus d’une recombinaison (Figure 2). Afin de
comptabiliser tous les évènements de crossing-over, une fonction mathématique a été
développée, qui permet de calculer la distance génétique d : cette distance permet de prendre
en compte tous les produits de crossing-over, même ceux issus de crossing-over multiples, et
se calcule grâce à une fonction non linéaire dépendant de la fréquence des produits de méiose
de génotype recombiné. Son unité est le centimorgan (cM), 1 centimorgan étant l’intervalle
sur un chromosome pour lequel 1 produit de méiose sur 100 est issu d’un évènement de
recombinaison. Le pourcentage de recombinaison est en général une sous-estimation de la
distance génétique, sauf dans le cas de locus relativement proches sur le même chromosome :
dans ce cas, la fréquence des crossing-over multiples étant presque nulle, on peut estimer que
la distance génétique est égale au pourcentage de recombinaison (Figure 3).
d=-50Ln(1-2θ)
avec
θ
= fréquence de recombinaison:
θ
=( R1+R2)/(P1+P2+R1+R2)
Si %recombinaison<10%, on peut
estimer que d=%recombinaison
(droite noire épaisse)
Si %recombinaison>10%,
d>%recombinaison (courbe grise)
5
La cartographie génétique permet de localiser un gène muté responsable d’un phénotype par
rapport à des gènes ou à des marqueurs adjacents déjà localisés. Sur les organismes de
laboratoire tels que la levure Saccharomyces cerevisiae ou la drosophile Drosophila
melanogaster, cette cartographie par analyse de ségrégation est effectuée grâce à la réalisation
de croisements contrôlés entre lignées homozygotes (lignées pures) qui génèrent de nombreux
descendants (voir le polycopié de cours et les exercices de LV203 pour le détail des
analyses de ségrégation sur organismes de laboratoire).
En revanche, en génétique humaine, la localisation des gènes par cartographie génétique est
rendue plus difficile car l’homme n’est pas un animal de laboratoire ! On ne peut pas y créer
de lignées pures par croisements successifs, le nombre de descendants diploïdes par couple est
très faible (ce qui ne donne que de très faibles valeurs statistiques aux mesures), il est très
difficilement envisageable de réaliser des backcross, et les manipulations génotypiques et
phénotypiques sont évidemment très limitées.
Le chapitre I expose les méthodes particulières qui ont été développées pour l’étude des
ségrégations humaines et l’identification des gènes et des mutations impliquées dans les
pathologies humaines.
6
Chapitre I
Génétique humaine : De la cartographie génétique à l’identification de la
mutation causale
Introduction
Dans ce nouveau chapitre nous allons donc nous intéresser à une espèce nettement plus
difficile d’étude, l’homme. L’étude de la ségrégation chez l’homme, qui n’est pas un animal
de laboratoire et pour lequel les croisements et le nombre de descendants ne sont pas
contrôlables, nécessite le développement de méthodes d’études particulières, comme celle du
Lod-Score, pour cartographier les régions chromosomiques contenant les gènes d’intérêt.
Nous verrons ensuite comment restreindre la région chromosomique cartographiée grâce,
entre autre, aux techniques de cartographie physique, de reconstruction d’haplotypes, d’étude
du déséquilibre de liaison, ainsi que par la recherche de régions homozygotes dans les
familles consanguines. Une fois la région contenant le gène restreinte à un petit intervalle, il
faut encore identifier le gène responsable du phénotype ainsi que la mutation causale. Dans
cette dernière partie, nous verrons comment faire la différence entre un polymorphisme neutre
et une mutation causale, ainsi que les différentes techniques permettant de valider un gène
candidat.
Les études de ségrégations permettent de localiser des marqueurs génétiques les uns par
rapport aux autres dans le génome pour établir une carte génétique. Une fois cette carte
dressée, il devient possible de localiser de nouveaux marqueurs ou gènes d’intérêt par rapport
à ces marqueurs, voire de rechercher au sein du génome les régions associées à des marqueurs
phénotypiques ou à des maladies. Ces études de localisation de régions liées à des phénotypes
reposent sur la cartographie génétique (voir cours de LV203 et introduction du cours de
LV372), c’est à dire l’étude de la transmission conjointe du phénotype d’intérêt et des
marqueurs localisés sur la carte. Plus le marqueur génétique et la région (donc le gène)
7
impliquée sont proches, plus ils vont avoir tendance à être transmis conjointement au cours de
la méiose d’une génération à l’autre. L’identification des marqueurs les plus proches de la
région permet ainsi de délimiter la région contenant le gène d’intérêt et de débuter sa
localisation.
Chez l’homme, contrairement aux organismes de laboratoire, on ne peut travailler que sur ce
qui existe naturellement, c'est-à-dire les familles, ou pédigrées. Pour réussir à cartographier
un gène chez l’homme il faut disposer, pour le phénotype étudié, de familles très grandes
avec de multiples générations et/ou consanguines. A défaut de disposer de grandes
familles, on peut étudier le pédigrée de multiples familles dans lesquelles ségrége le
phénotype, de manière à déterminer le mode de transmission (récessif/dominant ;
autosomique/lié au sexe : voir le polycopié de cours de LV203 pour un rappel de ces
notions) et à réaliser les analyses de ségrégation. Il faut ensuite développer des méthodes
statistiques afin de valider les résultats d’analyse de ségrégation dont la valeur statistique est
faible à cause du petit nombre d’individus étudiés. La méthode statistique couramment
employée est celle du LOD Score.
L’arbre génétique de la figure I-1 représente une famille F dans laquelle ségrége un
phénotype et pour laquelle un marqueur génétique A a été génotypé. La question posée est la
suivante: il y a-t-il liaison génétique ou pas entre le marqueur A et le phénotype des individus
de cette famille ? Autrement dit, est-ce que la transmission du phénotype se fait
conjointement à la transmission d’un des allèles de A porté par les individus atteints, ou il y a-
8
t-il indépendance génétique entre ces deux transmissions au sein de la famille ? Bien sûr, ce
n’est là qu’un exemple dans une famille de taille restreinte pour expliquer le modèle, et
aucune étude génétique sérieuse ne pourrait porter sur une seule famille d’aussi petite taille !
Cette famille a été choisie car elle est complètement informative puisque l’on connaît le
génotype des grands parents paternels, ce qui nous permet de savoir quel allèle de A a été
transmis de la grand-mère (I) à la mère (II) conjointement au phénotype noir. On dit que la
phase est connue.
Il est également important de connaître le mode de transmission du phénotype afin d’attribuer
un génotype à tous les membres de la famille pour lesquels on connaît le phénotype. Dans cet
exemple, il y a une transmission sans saut de génération, et la mère de la génération II
transmet le phénotype à des garçons comme à des filles. Le phénotype étudié est donc conféré
par un allèle dominant porté sur un autosome.
On peut alors estimer le génotype des différents individus pour le marqueur et le gène étudié.
Soit m l’allèle responsable du phénotype blanc et M celui responsable du phénotype noir.
Le grand-père est mA1/mA2 et la grand-mère, porteuse du phénotype d’intérêt et avec des
descendants sains, est mA3/MA4 ou mA4/ MA3. On ne connaît pas sa phase, on ne sait pas
quel allèle du marqueur est associé à quel allèle du gène sur les chromosomes qu’elle a reçu
de ses parents.
En 2ème génération, la mère a forcément reçu l’allèle m de son père et M de sa mère, et elle
possède les allèles A1 et A3 du marqueur. Connaissant ses parents, il est forcément
mA1/MA3. Pour elle, on connaît donc la phase des chromosomes. C’est le marqueur A3 qui a
été transmis conjointement à M. Si les deux gènes (A et le gène d’intérêt) sont très liés
génétiquement, la transmission du phénotype noir à sa descendance devrait se faire
conjointement à celle du marqueur A3. Le père de la génération II est quant à lui mA5/mA6.
Quand on regarde les descendants de la génération III on peut évaluer la liaison ou
l’indépendance entre le gène et le marqueur en regardant le taux de co-transmission de l’allèle
A3 et du phénotype dans les gamètes de la mère II.
Ici, sur les 4 enfants présentant le phénotype noir, deux ont reçu l’allèle A3 de la mère, 2
l’allèle A1. De la même manière, si on s’intéresse aux enfants de phénotype blanc, qui ont
reçu l’allèle m de la mère en phase avec l’allèle A1, un enfant a reçu l’allèle A1, l’autre
l’allèle A3.
En se basant sur les résultats des 6 méioses maternelles, 3 enfants sont issus de gamètes non
recombinés et trois de gamètes recombinés. Cela va fortement dans le sens d’une
9
indépendance génétique entre le marqueur A et le gène conférant le phénotype. Le
marqueur étudié et le gène ne sont vraisemblablement pas liés.
Dans le cas de la famille G (Figure I-2), les deux premières générations sont identiques à
celles de la famille F (Figure I-1) mais les génotypes des marqueurs pour les descendants de
la troisième génération ont varié. En gardant le même raisonnement que précédemment, on se
rend compte que dans cette famille tous les individus présentant le phénotype d’intérêt dans la
troisième génération ont reçu l’allèle A3 de la mère de la génération II, et que les deux
individus non porteurs ont reçu l’allèle A1. La formation des 6 gamètes maternels a donc eu
lieu sans événement de recombinaison. Les couples d’allèles A3M et A1m ont toujours été
transmis ensemble. Ceci va dans le sens d’une liaison génétique entre le marqueur et le
gène, même si l’hypothèse d’indépendance ne peut pas être rejetée. On ne parle ici en
effet que de 6 méioses, et la probabilité de transmission conjointe du même allèle du
marqueur avec l’allèle responsable du phénotype d’intérêt par simple hasard reste tout à fait
possible, même si moins probable que l’hypothèse de liaison.
Cette méthode est un test statistique qui repose sur l’estimation du rapport de
vraisemblance (probabilité) entre deux hypothèses : l’hypothèse H0 d’indépendance
génétique entre le marqueur testé et le locus d’intérêt, et l’hypothèse H1 de proximité
physique, et donc de liaison génétique, entre le marqueur et le gène d’intérêt. Cette
estimation est faite à partir d’observations familiales comme présentées dans le paragraphe
10
précédent. Le test du LOD Score est un test paramétrique qui a été développé dès 1955 par
Newton Morton. Paramétrique veut dire que pour pouvoir l’appliquer, il faut avoir une
connaissance exacte du mode de transmission de la maladie (dominant/récessif, autosomal ou
lié à l’X …) car c’est en se basant sur la transmission conjointe du phénotype et des allèles du
marqueur testé que l’on va statuer sur l’existence ou l’absence de liaison. Cette méthode
repose sur la maximisation de la vraisemblance du modèle le plus adapté aux observations
familiales.
Rappelons que l’on note θ la fréquence de recombinaison entre deux locus, θ variant de 0
(liaison génétique maximale) à 0,5 (absence de liaison génétique). On va alors tester les deux
hypothèses suivantes :
• H0 : Indépendance génétique entre le marqueur et le gène conférant le phénotype
d’intérêt (θ = 0,5). La vraisemblance (ou probabilité) de cette hypothèse est appelée
L(θ=0,5).
• H1 : Liaison génétique pour un θ donné (0 ≤ θ < 0,5) entre le marqueur et le gène
conférant le phénotype d’intérêt. La vraisemblance (ou probabilité) de cette hypothèse
est appelée L(θ<0,5).
Pour une valeur de θ donnée, le LOD Score Z(θ) est le logarithme du rapport de
vraisemblance entre les deux hypothèses H0 et H1 :
Z(θ)= log10 [L(θ<0,5)/L(θ=0,5)]
11
La valeur de LOD Score est donc calculée, pour chaque valeur de θ, de la manière suivante :
Z(θ) = log10 [L(θ<0,5)/L(θ=0,5)] = log10 [[θ/2rx[(1-θ)/2]nr]/(0,5/2)nr+r]
Cette formule du LOD Score est établie dans des familles complètement informatives avec
des marqueurs hétérozygotes très polymorphes et pour lesquelles la phase des parents est
connue. Le fait de connaitre cette phase permet en effet, comme expliqué dans le paragraphe
I-1, de déterminer, parmi les descendants, ceux qui sont issus de gamètes recombinés et non
recombinés. Mais assez souvent dans les familles, l’information sur la phase n’est pas
disponible, ce qui complique l’application du LOD Score. La figure I-3 présente un tel
exemple de calcul du LOD Score dans une famille pour laquelle on ne connaît pas la phase de
la mère.
Z(Θ)=
Log[L(Θ)/L(Θ=0,5)]
Figure I-3 : Calcul du LOD Score pour une famille où ségrége un caractère autosomique
dominant avec les allèles d et D, ainsi qu’un marqueur bi-allélique avec les allèles 1 et 2.
La phase de la mère est inconnue.
Dans ce cas là, on ne peut pas a priori choisir quelle phase est la bonne, et on doit donc
calculer les vraisemblances L(θ<0,5) et L (θ=0,5) selon les deux phases. On additionne
ensuite ces 2 probabilités pondérées d’un coefficient ½, qui traduit la probabilité d’être a
priori dans l’une ou l’autre phase. On calcule enfin la valeur de LOD Score finale selon la
formule précédente.
De manière générale, lorsque l’on analyse une famille, on calcule le LOD Score selon la
formule donnée plus haut en faisant varier θ (de 0,001 à 0,45 avec un intervalle de 0,05 par
exemple). La valeur de LOD Score maximale sera obtenue pour la valeur de θ la plus
12
vraisemblable. Pour une valeur de Z(θ) supérieure ou égale à 3, la liaison génétique avec
la valeur θ correspondante est plus de 1000 fois plus probable que l’indépendance
génétique (log10(1000)=3). A l’inverse, pour une valeur de Z(θ) inférieure à -2, la liaison
génétique avec cette valeur de θ est 100 fois moins probable que l’indépendance
génétique (log10(1/100)= -2). Ce sont ces seuils qui ont été fixés pour pouvoir conclure :
pour la valeur maximale de Z(θ) supérieure ou égale à 3, on acceptera l’hypothèse de liaison
génétique avec cette valeur de θ. Si au contraire on obtient une valeur de Z(θ) inférieure à -2,
on exclura toute possibilité de liaison pour un θ inférieur ou égal au θ testé. Pour toute valeur
de Z(θ) comprise entre -2 et +3, on ne peut pas conclure, ce qui est souvent le cas lorsque l’on
travaille sur un nombre de familles ou de descendants trop faible pour avoir une puissance du
test suffisante. C’est là que l’utilité du logarithme se fait sentir : les logarithmes peuvent
s’additionner. Si l’on obtient un LOD Score entre -2 et 3 et que l’on ne peut pas conclure, on
peut analyser de nouvelles familles et ensuite additionner le résultat du nouveau LOD Score à
l’ancien de manière à le faire passer à une valeur permettant son interprétation (soit supérieure
à 3, soit inférieure à -2).
La figure I-4 présente les différentes courbes de LOD Score qu’il est possible d’obtenir.
A C
B D
Figure I-4: Exemples de courbes de LOD Score (d’après Huret et al., Atlas of Genetics and
Cytogenetics in Oncology and Haematology).
13
La courbe A révèle une liaison génétique forte entre le marqueur testé et le gène conférant le
phénotype d’intérêt, puisque la valeur maximale Z(θ) supérieure à 3 est obtenue pour θ=0
(c'est-à-dire 0% de recombinaison). La courbe B révèle une liaison pour tous les θ compris
entre 0,05 à 0,3 (zone dans laquelle Z(θ) est > à 3). La valeur maximale de Z(θ) indique la
valeur la plus probable de θ (ici, environ 0,2, c'est-à-dire 20% de recombinaison). Le gène
d’intérêt et le marqueur utilisé sont donc liés, mais moins fortement que dans le cas A car ils
recombinent. Dans les courbes C et D, on obtient une valeur de LOD Score inférieure à -2
pour un θ de 0,15 environ. Ceci permet d’exclure toute possibilité de liaison génétique entre le
marqueur et le gène pour toutes les valeurs de θ inférieures ou égales à 0,15 (15% de
recombinaison). Pour le reste des valeurs de θ, le LOD Score reste inférieur à 3 et l’on ne peut
conclure. Dans la courbe E enfin, les valeurs de LOD Score varient de -2 à +1, ce qui ne nous
permet pas de conclure. Comme nous y avons fait référence plus haut, c’est dans ce cas de
figure qu’il faut augmenter le nombre de familles étudiées afin d’additionner les valeurs de
LOD Score obtenues pour chaque famille et pouvoir trancher en faveur de la liaison génétique
ou de son exclusion.
Avoir un LOD Score maximum pour une valeur de θ donnée ne veut pas dire que ce θ est
forcément le θ réel. C’est la raison pour laquelle on définit un intervalle de confiance sur la
valeur de θ la plus probable. Ainsi, sur la courbe de la figure I-5, afin de pouvoir estimer la
fourchette la plus probable de θ, on prend la valeur maximale de Z(θ) (ici 3,3 pour θ = 0,12),
on la diminue de 1 (ce qui fait ici 2,3), et on estime entre quelles valeurs de θ le Z(θ) est
supérieur ou égal à cette nouvelle valeur. Ici, Z(θ) est supérieur ou égal à 2,3 pour θ compris
entre 0,08 et 0,32.On en conclut que θ est plus probablement compris entre 0,08 et 0,32.
14
Afin de réaliser ces études de localisation de gènes chez l’Homme, plusieurs équipes
internationales ont entrepris d’obtenir, de la fin des années 1990 au début des années 2000,
des cartes génétiques complètes du génome humain. On peut ainsi citer la carte française du
Généthon, publiée en 1996 (Dib et al., Nature 1996), la carte américaine de Marshfield,
publiée en 1998 (Broman et al., Am. J. Hum. Genet 1998) et la carte de la société islandaise
deCODE Map publiée en 2002 (Kong et al., Nat. Genet. 2002).
Dans les paragraphes précédents, il a été question de la localisation d’un gène d’intérêt par
rapport à un marqueur particulier. On peut aussi réaliser ce genre d’étude en utilisant un
ensemble de marqueurs répartis sur la totalité du génome de manière à localiser le ou les
gènes responsables d’un phénotype sur l’ensemble des chromosomes. C’est ce qu’on appelle
la cartographie pan-génomique.
Cette approche est en particulier utilisée pour localiser les gènes de susceptibilité dans le cas
de maladies complexes, mais aussi les gènes impliqués dans des phénotypes qui varient de
manière continue (taille d’un individu, nombre de grains de blé dans un épi …) : c’est ce
qu’on appelle la recherche de QTL (Quantitative Trait Locus, voir chapitre II).
Une analyse de liaison génétique par LOD Score met en évidence, du fait de l’intervalle de
confiance, des régions étendues allant jusqu’à 10 ou 15 centiMorgan (cM) soit, chez
l’homme, 10 à 15 millions de paires de bases. Dans cette région, des milliers de gènes sont
présents ! Afin d’identifier le gène impliqué dans le phénotype étudié, il faut, par différentes
approches présentées dans ce paragraphe, diminuer la taille de cet intervalle. Suivant les cas
particulier de recherche de gènes, ces différentes approches peuvent être ou non utilisées.
15
II-1- Utilisation de la reconstruction d’haplotypes pour restreindre la région chromosomique
A1
A2
A1
A2
B1
B2
B2
B1
C1
C2
C2
C1
Individu X Individu Y
Génotypes A1/A2 B1/B2 et C1/C2 Génotypes A1/A2 B1/B2 et C1/C2
Haplotypes A1 B1 C1 et A2 B2 C2 Haplotypes A1 B2 C2 et A2 B1 C1
16
d’événements de recombinaison méiotique. Plus les familles seront informatives, c'est-à-dire
avec de nombreux marqueurs polymorphes dans la région d’intérêt, plus la localisation du
gène sera précise.
17
a b c d e
Télomè Centrom
re ère
Figure I-10 : Génotypage des marqueurs a, b, c, d, e, dans une famille dans laquelle
ségrége la forme de cancer héréditaire liée au bras court du chromosome 8.
Les individus ayant développés un cancer sont représentés en noir. Au dessus de la généalogie est représenté
l’ordre des marqueurs a, b, c, d, e sur le chromosome 8. Ces marqueurs sont compris dans un intervalle d’environ
20 centimorgan.
Dans cet exemple, le premier enfant a reçu de son père les allèles (1-2-2-1-4) et de sa mère
les allèles (4-6-11-1 2). Le deuxième enfant a reçu de son père les allèles (3-7-8-6 -12) et de
sa mère les allèles (2-1-3-5-12). Le troisième enfant a reçu de son père les allèles (1-2-2-6-4
ou 12) et de sa mère les allèles (4-1-3-2-4 ou 12). Le quatrième enfant a reçu de son père les
allèles (3-7-2-1-4) et de sa mère les allèles (2-1-3-1-4). Enfin le cinquième enfant a reçu de
son père les allèles (1-2-8-6-12) et de sa mère les allèles (4-6-11-5-12). On peut alors
déterminer les haplotypes paternels et maternels les plus vraisemblables, c'est-à-dire ceux qui
génèrent le plus faible nombre de crossing-over chez les enfants (sur un total de 5 méioses
paternelles et 5 méioses maternelles). Le père est vraisemblablement 1-2-2-1-4 / 3-7-8-6-12 et
la mère 4-6-11-5-12 / 2-1-3-2-4. Avec ces haplotypes, les évènements de crossing-over sont
minimisés : dans l’intervalle a-b, seul 1 enfant sur 5 a subi un crossing-over d’origine
maternel (enfant 3) ; dans l’intervalle b-c, il y a 2 crossing-over sur 5 d’origine maternel
(enfants 4 et 5) ; dans l’intervalle c-d, il y a 1 crossing-over d’origine paternel (enfant 3) et 2
crossing-over d’origine maternel (enfants 1 et 2) ; dans l’intervalle d-e, il n’y a aucun
crossing-over.
18
Cette reconstruction d’haplotypes permet de préciser la position du gène impliqué dans le
cancer dont souffrent les membres de cette famille. C’est la mère qui est malade, donc le gène
impliqué va co-ségréger avec des marqueurs maternels. En étudiant plus en détail les trois
descendants atteints (les enfants 2, 3 et 4), on se rend compte que les seuls marqueurs pour
lesquels ils possèdent des allèles maternels en commun sont les marqueurs b et c avec les
allèles respectifs 1 et 3. Ceci nous indique le gène impliqué dans le cancer héréditaire est
vraisemblablement situé à proximité des marqueurs b et c du chromosome 8 et que chez cette
femme l’allèle mutant est associé à l’haplotype contenant les allèles b1 et b3, donc porté par
le chromosome qui porte ces deux allèles.
2 8 2 2 2 8 2 4 S79
Figure I-11 : Transmission d’un phénotype dans une région chromosomique contenant 6
marqueurs microsatellites (d’après Strachan et al. éd. Garland Sciences).
Les individus présentant le phénotype sont en bleu.
En regardant les individus atteints de la génération II, on se rend compte que trois d’entre eux
(les individus 2, 4 et 7) présentent exactement le même haplotype 6-5-2-6-2-2. Celui-ci est
19
donc très probablement l’haplotype porteur de l’allèle impliqué dans le phénotype. Cet
haplotype provient vraisemblablement de la mère I1 également malade.
Le 4ème individu atteint de la génération II (l’individu 6) porte un haplotype légèrement
différent 2-5-2-6-2-2. Ceci est probablement du à une recombinaison durant la méiose
maternelle entre les marqueurs S84 et S105. Malgré cette recombinaison, l’individu II6 est
tout de même malade. Ceci indique donc que le gène impliqué dans le phénotype se situe
après le point de recombinaison entre S84 et S105.
Si l’on s’intéresse maintenant à la génération III, on remarque que les trois individus atteints
sont également porteurs de l’haplotype ancestral 6-5-2-6-2-2, ce qui ne nous apprend rien de
plus. En revanche l’individu III1 a également reçu une partie de cet haplotype ancestral
puisqu’il porte l’haplotype 2-2-1-6-2-2 vraisemblablement issu d’une recombinaison entre les
marqueurs S234 et S129 chez sa mère II2. Or, malgré la présence d’une partie de l’haplotype
ancestral portant l’allèle impliqué dans le phénotype (des marqueurs S129 à S79), cet individu
n’est pas atteint. Cela veut donc dire que l’allèle responsable du phénotype ne co-ségrége pas
avec les allèles de ces marqueurs. On peut donc restreindre l’intervalle dans lequel peut se
trouver le gène impliqué dans le phénotype entre le point de recombinaison S84/S105 de
l’individu II6 et le point de recombinaison S234/S129 de l’individu III1, donc dans
l’intervalle S105-S129.
Exemple 3 : Reconstruction haplotypique et diagnostic prénatal
Dans cet exemple présenté dans la figure I-12, la reconstruction des haplotypes parentaux va
être utilisée pour réaliser un diagnostique prénatal sur un enfant à naître dans une famille où
ségrége une maladie (frère atteint). Pour cela, 5 marqueurs adjacents notés de L1 à L5 et
localisés dans la région d’intérêt, découverte par une analyse préalable de LOD Score, ont été
utilisés.
20
En étudiant le pédigrée, on repère tout d’abord qu’il y a un enfant atteint dans la fratrie alors
que les deux parents sont sains. L’allèle du gène impliqué dans cette maladie confère donc un
phénotype récessif. Par ailleurs, le génotype du père montre qu’il possède deux allèles de
chaque marqueur. Il est donc exclut que le gène étudié soit sur le chromosome X. Ce
phénotype analysé dans cette famille est donc un phénotype autosomique récessif, et chacun
des deux parents est donc porteur d’un allèle muté. Soit M l’allèle sain de ce gène et m l’allèle
muté. Les deux parents sont donc m/M.
Si l’on regarde le premier enfant atteint de la fratrie, il a forcément reçu les deux haplotypes
parentaux porteurs de l’allèle m puisqu’il est atteint et donc m/m. Pour le marqueur L1 il a les
allèles 7 et 2. Sachant que, pour ce marqueur, son père est 3/7 et sa mère 2/7, cet enfant a
forcément reçu le 2 de sa mère et le 7 de son père. Pour le marqueur L2, les deux parents, et
donc forcément l’enfant, sont 2/2 : on dit que ce marqueur est non informatif. Pour le
marqueur L3, le père est 5/4 et la mère 4/3. Or l’enfant est 5/3. Il a donc forcément reçu le 5
de son père et le 3 de sa mère. Par raisonnement analogue, on remarque que cet enfant à
également reçu les allèles 6 et 2 du père et 4 et 7 de la mère pour les deux derniers marqueurs.
La reconstruction d’haplotype fait donc que cet enfant a reçu l’haplotype 7-2-5-6-1 et l’allèle
m de son père, et l’haplotype 2-2-3-4-7 et l’allèle m de sa mère. La mère est donc sans doute
2-2-3-4-7 associé à m et 7-2-4-1-2 associé à M. Le père est vraisemblablement 7-2-5-6-1
associé m et 3-2-4-3-7 associé à M.
En effectuant le même travail sur la fille non atteinte, on peut dire qu’elle a reçu l’haplotype
7-2-5-6-1 et l’allèle m de son père, et l’haplotype 7-2-4-1-2 et l’allèle M de sa mère. Elle est
bien non malade, car hétérozygote m/M (porteuse saine).
Quant à l’enfant à naître, il a reçu l’haplotype 3-2-4-6-1 de son père et l’haplotype 7-2-4-1-2
de sa mère. L’haplotype d’origine paternel est visiblement le résultat d’une recombinaison
entre les marqueurs L3 et L4, et ne sachant pas au niveau de quel marqueur se situe le gène
impliqué, on ne sait pas si c’est l’allèle m ou M que le père a transmis à cet enfant à naître.
Cependant, il a reçu de sa mère l’haplotype associé à l’allèle M, et a donc de fortes chances
d’être non atteint, soit homozygote M/M, soit hétérozygote m/M.
II-2-1- Principe
21
La cartographie par homozygotie est une technique principalement utilisée pour identifier les
régions chromosomiques associées à des maladies récessives. En effet, pour que ce type de
maladie se développe, il faut que les personnes atteintes aient reçu deux copies de l’allèle
muté, chacune provenant d’un de leurs parents. L’allèle muté est généralement apparu dans un
petit nombre de chromosomes ancestraux, et on espère que toute la région aux alentours de
l’allèle muté, et donc les marqueurs qui y sont situés, sera transmise aux descendants dans un
même « bloc » génomique. Si c’est le cas, cette région où se situe le gène devrait être
complètement homozygote pour tous les marqueurs très proches du gène.
De manière à amplifier encore ce phénomène d’homozygotie, on étudie généralement des
familles consanguines dans lesquelles l’allèle impliqué, et donc les marqueurs adjacents, sont
transmis à partir d’un seul ancêtre porteur. Tous les individus atteints dans ces familles
consanguines devraient donc être non seulement homozygotes mais également complètement
identiques pour les marqueurs autour du gène.
En résumé, dans ce type de cartographie, on va rechercher les régions homozygotes par
descendance (Homozygous By Descent ou HBD) associées au locus morbide, sachant que ces
régions sont héritées d’un ancêtre commun et que l’allèle du gène impliqué ainsi que tous les
marqueurs proches de ce dernier sont transmis de manière homozygote aux individus atteints
(Figure I-13).
Figure I-13 : Illustration de l’homozygotie par descendance (HBD) (d’après Rossignol et al.
éd. Dunod).
L’allèle récessif conférant le phénotype est représenté par un point rouge.
La famille présentée est consanguine avec un mariage entre deux cousins. La région entourant
l’allèle d’intérêt, représenté par un point rouge, est en rose. L’homme en première génération
a transmis à ses deux enfants son allèle muté avec une partie plus ou moins grande de la
région rose l’entourant. Chacun de ses enfants a par la suite transmis à son enfant l’allèle
22
muté et une partie de la région rose qui l’entoure. Ces deux petits enfants du porteur ancestral
ont ensuite eu un enfant ensemble, et chacun a transmis à cet enfant son allèle muté, et la
région rose qui l’entoure. Celui-ci est donc porteur des deux allèles mutés et présentera le
phénotype. Par ailleurs il a reçu de manière identique tous les marqueurs proches de cet allèle
muté. Il est donc homozygote par descendance (HBD) pour toute la région chromosomique
rose qu’il a en double exemplaire.
Même si le principe de région d’homozygotie s’explique très bien par la transmission,
conjointement à l’allèle muté du gène d’intérêt, des blocs haplotypiques qui l’entourent, il est
tout à fait possible, pour deux individus atteints d’une famille consanguine, d’être
homozygote par descendance dans une région uniquement du fait du hasard. D’après la loi de
Mendel, la probabilité que deux descendants aient reçu les mêmes allèles de leurs parents à un
locus donné est de ¼. De ce fait, si l’on analyse une région chromosomique relativement
étendue, plusieurs sous-régions peuvent présenter une homozygotie, mais une seule sera
réellement due à la présence de l’allèle muté. Les autres seront dues au hasard. Afin
d’identifier correctement les régions HBD, on va par conséquent comparer les résultats
obtenus dans différentes familles consanguines pour le phénotype d’intérêt (figure I-14).
La figure I-15 illustre la recherche de ces régions d’homozygotie dans le cas d’une grande
famille consanguine dans laquelle ségrége le phénotype de surdité congénitale. Après une
23
première analyse de liaison, le gène impliqué a été localisé dans une région du chromosome 2.
10 marqueurs microsatellites de cette région ont été génotypés et étudiés dans la famille. On
remarque que tous les individus atteints présentent le même génotype homozygote au niveau
des deux marqueurs AFMa052yb5 et D2S158 (représentés en bleu ciel). Cela signifie que
cette région chromosomique est homozygote par descendance. Le gène impliqué dans la
surdité congénitale de cette famille est donc situé à proximité de ces deux marqueurs.
Gènes à proximité
de ces 2 marqueurs
(intervalle de 2cM)
Figure I-15 : Utilisation de la cartographie par HBD dans le cas du phénotype de surdité
dans une grande famille consanguine (d’après Strachan et al. éd. Garland Sciences).
La cartographie par déséquilibre de liaison est l’une des techniques les plus fréquemment
utilisée pour restreindre l’intervalle chromosomique contenant un gène. Tout comme la
cartographie par recherche de régions homozygotes, elle repose sur l’hypothèse de co-
transmission à la descendance de locus physiquement très proches.
24
p2 et q2 (p2+q2=1). On calcule dans une population les fréquences des gamètes avec les
différentes combinaisons d’allèles. S’il y a association au hasard des allèles de A et B dans
la population gamétique, c'est-à-dire s’il y a indépendance statistique, les fréquences des
4 types de gamètes devraient être égales au produit des fréquences des allèles, soit:
f(A1B1)= f(A1)xf(B1)=p1xp2
f(A1B2)=f(A1)xf(B2)=p1xq2
f(A2B1)=f(A2)xf(B1)=q1xp2
f(A2B2)= f(A2)xf(B2)=q1xq2
S’il n’y a pas indépendance statistique, c'est-à-dire si certaines combinaisons d’allèles
sont plus ou moins fréquentes que ne le voudrait l’association aléatoire, on n’a plus ces
égalités. On dit alors qu’il y a un déséquilibre de liaison (DL) ou déséquilibre gamétique.
La différence obtenue entre la fréquence observée des gamètes et le produit des fréquences
des allèles correspondants est appelée D et quantifie le déséquilibre de liaison. Par exemple :
D=f(A1B1)-[f(A1)xf(B1)]
Cette valeur D peut être soit positive, soit négative. Si D est positif, on dit que les allèles
concernés, qui s’associent plus fréquemment que ne le voudrait le hasard, sont en attraction.
A l’inverse, si D est négatif, les allèles concernés s’associent moins souvent que ne le
voudrait le hasard, on dit qu’ils sont en répulsion.
Différentes causes non exclusives peuvent entraîner l’apparition d’un déséquilibre de liaison
entre deux locus dans une population. Parmi ces causes, on peut citer :
• La migration ou le brassage de population.
• L’existence d’un lien fonctionnel entre deux allèles (Figure I-16 A). Celui-ci peut
avoir comme conséquence qu’une association d’allèle sera soit sélectionnée car
avantageuse pour l’individu (dans ce cas, on observera, pour cette association
d’allèles, une valeur de D positive), soit au contraire contre-sélectionnée car délétère
pour l’individu (dans ce cas on observera, pour cette association d’allèles, une valeur
de D négative).
• La proximité physique et donc la liaison génétique entre les deux locus, qui explique
que la ségrégation des différents allèles ne soit pas indépendante (Figure I-16 B). Plus
25
la distance physique entre les deux locus est faible, plus la probabilité qu’ils soient
séparés par crossing-over au moment des méioses est réduite. Certaines associations
d’allèles seront donc transmises conjointement. Pour ces associations préférentielles,
plus les deux locus sont proches, plus la valeur de D, positive, est élevée.
Dans le cas de la cartographie par déséquilibre de liaison, on cherche à mettre en évidence une
proximité physique entre le gène d’intérêt et certains marqueurs. Les autres mécanismes
pouvant créer un déséquilibre de liaison en l’absence de proximité physique vont générer un
bruit de fond pouvant conduire à de fausses conclusions.
26
d’un phénotype d’intérêt sur plusieurs générations au sein de familles, on analyse
l’association des allèles des marqueurs et du phénotype au niveau d’une seule génération.
On étudie un ensemble de marqueurs répartis uniformément dans toute la région
chromosomique d’intérêt, et ce que l’on recherche, c’est la présence excessive d’un allèle
d’un de ces marqueurs dans une population composée d’individus atteints non apparentés.
Cette sur-représentation reflète en fait la transmission de l’haplotype ancestral portant cet
allèle du marqueur et la mutation conférant le phénotype étudié. Pour la cartographie par DL,
on utilise généralement des marqueurs SNPs (Single Nucleotide Polymorphisms) qui sont très
fréquents et très bien répartis le long des chromosomes.
27
les patients, on s’aperçoit que, pour deux de ces marqueurs, les 11 et 12, l’ensemble des 74
patients possède le même allèle, à savoir l’allèle A. Ceci traduit un déséquilibre de liaison et
signifie que l’allèle responsable de ce syndrome est très certainement localisé à proximité de
ces deux marqueurs.
Une autre façon de restreindre l’intervalle obtenu par cartographie génétique est de
s’intéresser à la cartographie physique de cette région. C’est également le moyen, une fois que
l’intervalle a été réduit par les techniques génétiques, d’identifier les gènes potentiellement
candidats dans cet intervalle. Contrairement à la cartographie génétique qui évalue les
distances approximatives entre marqueurs à partir du taux de recombinaison (unité : le
centiMorgan), la cartographie physique estime les distances physiques réelles entre eux. Elle
permet de localiser précisément les marqueurs, les gènes, les centromères, le long des
chromosomes. L’unité en cartographie physique est la paire de base, pb, et tous les
multiples tels que kilo (103), méga (106) et giga (109) pb.
La corrélation entre distance génétique et distance physique est imparfaite, car la distance
génétique est établie à partir du taux de recombinaison, θ, qui varie le long des chromosomes
(voir la figure 3 de l’introduction). Si θ est très faible au niveau des centromères (où la
formation de chiasmas est difficile), il est en revanche très élevé au niveau des télomères et
des séquences répétées. De plus, ce taux de recombinaison est variable selon les espèces et
également selon le sexe (chez les mammifères, il est généralement plus important dans les
méioses femelles). Grossièrement, chez l’homme, on estime que 1cM correspond à environ
1Mb (106pb).
Plusieurs techniques de cartographie physique de résolution de plus en plus fine ont été
développées au cours des dernières décennies. Ces techniques ont des résolutions variables
(de l’ordre du chromosome jusqu’à la paire de base) (Figure I-6). La cartographie physique
ultime est le séquençage direct des chromosomes qui établit l’enchaînement réel des
nucléotides. Depuis que le séquençage existe, les autres techniques sont devenues assez
obsolètes, et nous n’allons, pour certaines d’entre elles, que les évoquer.
De nos jours, on dispose pour des centaines d’espèces, dont l’homme, d’une carte physique
complète grâce au séquençage et à l’assemblage des séquences de génomes.
28
Figure I-6 : Les différentes méthodes de cartographie physique et leur niveau de
résolution (d’après Rossignol et al. éd. Dunod).
Ces techniques reposent sur les capacités de fusion entre cellules humaines et de rongeurs.
Pour les hybrides somatiques, après fusion, la quasi-totalité des chromosomes humains (sauf
un de manière générale) sont éjectés de l’hybride. On se retrouve alors avec des collections de
cellules hybrides homme/rongeur, chacune contenant un ou quelques chromosomes humains.
Une fois ces collections obtenues, on peut déterminer le contenu de chacun des hybrides
somatiques et localiser des marqueurs, des gènes … les uns par rapport aux autres. Si deux
marqueurs sont présents sur un même chromosome humain et qu’on teste leur présence, les
deux marqueurs vont émettre un signal positif dans les mêmes clones. Si un gène est présent
sur un chromosome donné, dans tous les hybrides contenant ce chromosome il y aura un
signal positif.
La technique des hybrides d’irradiation, de résolution un peu plus fine, permet d’évaluer la
distance physique entre deux locus localisés sur un même chromosome. Il s’agit de
fractionner les chromosomes humains par irradiation aux rayons X avant de procéder à la
fusion avec les cellules de rongeurs. Le principe d’évaluation des distances ressemble alors un
peu à ce que l’on fait en cartographie génétique : plus le rayonnement est fort, plus les
fragments sont petits, et donc seuls des marqueurs très proches les uns des autres vont
ségréger ensemble.
29
II-4-2- Hybridation in Situ en fluorescence (FISH)
La technique du FISH consiste à hybrider, sur des préparations de noyaux métaphasiques, des
sondes fluorescentes complémentaires de séquences chromosomiques, de manière à localiser
ces séquences sur les chromosomes et les unes par rapport aux autres.
Ainsi, dans la figure I-7, deux sondes moléculaires fluorescentes marquant le centromère du
chromosome X et le gène STS ont été utilisées. On peut tirer de cette expériences deux
conclusions: (1) on peut localiser le gène STS sur l’extrémité télomérique du bras court du
chromosome X, puisque la sonde STS se fixe sur le même chromosome que la sonde
spécifique du centromère du chromosome X. (2) on révèle une anomalie chromosomique dans
cette cellule: la délétion du bras court d’un des deux chromosomes X contenant la région STS.
En effet la sonde STS ne se fixe que sur un des chromosomes X. Cela signifie que la région
complémentaire à la sonde STS du 2ème chromosome X a été perdue.
Figure I-7 : Exemple de localisation génique par hybridation fluorescente in situ sur une
cellule métaphasique humaine. Deux sondes fluorescentes, complémentaires du
centromère du chromosome X et du gène STS respectivement, sont utilisées.
II-4-3-Séquençage
30
LV203 ne sera pas reprise ici. Il faut se référer au polycopié de cours de LV203 pour plus
d’informations.
Au cours de ces 30 dernières années, plusieurs avancées technologiques comme le
développement de la synthèse chimique automatisée des oligonucléotides amorces;
l'introduction de nucléotides fluorescents à la place des nucléotides radioactifs, l'utilisation de
séquenceurs automatiques, et l'électrophorèse capillaire et non plus sur gel, ont permis
d’améliorer la technique de séquençage initiale et de développer le séquençage automatisé
(Figure I-8). Le séquençage automatisé consiste à introduire dans le mélange réactionnel non
pas un didésoxynucléotide radiomarqué par expérience, mais les 4 didésoxynucléotides
fluoromarqués dans le même tube. Celui-ci est alors soumis à électrophorèse. En cours de
migration, 4 capteurs (un par longueur d'onde différente correspondant à chaque
didéoxynucléotide) enregistrent la lumière émise par les molécules terminées par un
didéoxynucléotide. Ces quatre graphes sont superposés et un logiciel traduit ce pictogramme
en séquence.
Le séquençage nouvelle génération proposé par les sociétés Applied Biosystem, Roche et
Illumina n’est qu’un perfectionnement des techniques existantes. Ces techniques permettent
de séquencer la totalité d’un génome (préparé en fragments de 200 à 300 nucléotides) en
moins d’un mois.
31
III-Identification du gène par l’approche « gène candidat »
Une fois la région chromosomique d’intérêt restreinte au plus petit intervalle possible, il faut
identifier le gène responsable du phénotype. En effet, même dans un intervalle d’un ou deux
centiMorgan, il y a toujours des dizaines de gènes. On va donc rechercher parmi ces gènes,
celui qui est le meilleur candidat. Une des manières de sélectionner un gène candidat est de
voir si sa fonction peut être en adéquation avec le phénotype observé.
Lorsque l’étiologie (les causes) du phénotype n’est pas évidente, il est difficile de se baser
uniquement sur la fonction des gènes pour choisir les candidats. On doit alors réaliser des
études combinées qui vont utiliser à la fois les informations de cartographie et la stratégie
gènes candidats. On va tout d’abord, par cartographie génétique, identifier la ou les région(s)
candidate(s), généralement très étendues (de 10 à 30 cM). Une fois la taille de ces régions
réduite à de petits intervalles (de l’ordre du cM) par les différentes techniques vues
précédemment, on procède à des choix de gènes candidats.
Le gène impliqué est celui qui, chez des individus atteints, est porteur d’une mutation
responsable du phénotype (mutation causale). Pour identifier celle-ci, il faut comparer la
32
séquence de ce gène candidat chez des individus sains et des individus atteints. Mais cette
entreprise se heurte à deux difficultés majeures :
• Une mutation responsable d’un phénotype peut se produire dans les différentes régions
d’un gène (séquences régulatrices, séquence codante, introns, exons…voir le
paragraphe I du chapitre II). Certains gènes humains étant très grands, avec de
nombreux introns et de grandes régions régulatrices, il est difficile de les séquencer en
totalité. Dans un premier temps, seuls les exons et la séquence codante seront donc
analysés. A l’heure actuelle, les séquenceurs capillaires permettent d’analyser plus de
1500 fragments de 500 pb en moins de 48h de façon quasi-complètement automatisée
et avec un taux de succès avoisinant les 95%. Divers logiciels de lecture de séquences
et d’identification des positions polymorphes (tel PolyPhred développé en 1997 par
Nicjkerson et al.) existent et permettent un premier écrémage de la lecture des
séquences. Le développement récent des outils de séquençage de nouvelle génération
ont permis d’accélérer le débit et d’améliorer le coup de re-séquençage des régions
d’intérêts. En pratique, il n’est pas rare que des chercheurs travaillant sur un gène
particulier se lancent dans le re-séquençage de l’ensemble des exons d’un gène
candidat chez 12 à 24 patients afin de repérer les mutations potentielles.
• Quand on compare la séquence de deux individus, il existe des différences de
séquences, appelées polymorphismes neutre, qui n’ont pas d’effet. Il est donc d’une
importance primordiale de distinguer un simple polymorphisme, sans effet
(polymorphisme neutre), d’une mutation ayant un effet fonctionnel (polymorphisme
sélectionné ou mutation causale).
Les polymorphismes neutres sont des changements dans la séquence nucléotidique qui ne
confèrent aucun avantage ou désavantage sélectif. Il n’y a pas de conséquence phénotypique
particulière selon les allèles possédés par les individus. On rencontre principalement ce type
de polymorphisme dans le cas de mutations synonymes, qui changent un nucléotide de la
séquence génique mais pour lesquelles l’acide aminé codé restera le même, ou pour des
polymorphismes se situant dans des régions non codantes et non régulatrices.
Les fréquences alléliques de ces polymorphismes se fixent de manière aléatoire dans la
population, c’est ce que l’on appelle la dérive génétique. Elles varient d’une génération à
l’autre du fait du tirage aléatoire des allèles qui vont composer les gamètes au sein de la
33
population. Plus la taille de la population est faible et plus un des allèles a de chance de se
fixer (fréquence de 1) tandis que l’autre, ou les autres, tendront à disparaître (fréquence de 0).
Une fois le gène candidat identifié, il reste encore à le valider, autrement dit à vérifier que
c’est bien lui qui est impliqué dans le phénotype. La première validation correspond à
l’identification, par séquençage chez des individus sains et malades, de la mutation causale.
Une autre façon de valider l’implication d’un gène candidat consiste à étudier son niveau
d’expression chez des individus présentant ou non le phénotype étudié. Pour cela, on peut
mesurer le niveau de transcrit par Northern-Blot ou RT-PCR quantitative. On peut aussi
mesurer le niveau de protéine et étudier par exemple la localisation sub-cellulaire de celle-ci
par des expériences de Western-Blot et d’immuno-histochimie. Enfin, on peut aussi utiliser
des modèles cellulaires ou animaux (cultures de cellules, levure, souris, drosophile, voir
chapitre III) afin de tester in vivo l’effet de la mutation causale identifiée.
Pour finir ce chapitre, nous allons présenter, à titre d’exemple, deux démarches
expérimentales ayant conduit à l’identification du gène dans le cas de deux maladies
génétiques. Ces exemples sont à comprendre, mais il est inutile de les apprendre par coeur.
34
IV-1- La mucoviscidose
La mucoviscidose est une maladie monogénique autosomique récessive (Figure I-18). C’est la
maladie génétique la plus fréquente en Europe puisqu’elle concerne environ 1 naissance sur
2000 dans les populations caucasiennes, c’est à dire d’ascendance européenne. De plus, 1
individu sur 20 est hétérozygote porteur d’un allèle muté (porteur sain). Cette maladie affecte
les épithéliums glandulaires de nombreux organes, même si les atteintes respiratoires sont
prédominantes et représentent l'essentiel de la morbidité. La forme clinique la plus fréquente
associe troubles respiratoires, troubles digestifs et troubles de la croissance staturopondérale.
D'évolution chronique et progressive, cette maladie s'exprime souvent dès la petite enfance.
Le gène de la mucoviscidose a été identifié en 1989, c’est le premier gène impliqué dans une
maladie qui a été identifié, avant le séquençage du génome humain, uniquement sur la base
d’analyses de cartographie génétique (analyses de liaison) et physique (FISH, hybrides
somatiques….).
Au moment des premières études génétiques sur des patients, à la fin des années 80, les
chercheurs ont essayé d’adopter une méthodologie « standard » en recherchant chez ces
patients des remaniements chromosomiques importants, afin de localiser grossièrement la
région d’intérêt. Cependant, malgré de nombreuses études, aucun remaniement n’a été
identifié. Pour ajouter aux difficultés, en 1989, aucune carte génétique précise du génome
35
n’était disponible. Les chercheurs ont alors décidé de se lancer dans une cartographie
génétique pan-génomique afin de localiser la (ou les) région(s) co-ségrégeant avec la maladie
dans les familles. En procédant ainsi, ils ont identifiés deux marqueurs de type RFLP
(Restriction Fragment Length Polymorphism) de la région 7q31. Une fois la région 7q31
identifiée, les chercheurs ont isolé dans les banques génomiques les clones d’ADN de cette
région et ont reconstruit par des méthodes de cartographie physique la carte physique de la
région. Les gènes présents dans cette région ont été étudiés par criblage de banque d’ADNc et
par Northern-blot afin d’identifier les gènes dont l’expression était modifiée. Le gène CFTR
(Cystic Fibrosis Conductance Regulator) a ainsi été identifé. Il code un transporteur
transmembranaire d’ion Cl- exprimé dans les cellules épithéliales, en particulier celles qui
bordent les voies respiratoires. L’entrée de chlore s’y fait conjointement à une excrétion d’eau
qui va diluer le mucus des voies respiratoires. Chez les patients atteints, le canal fonctionne
mal et l’excrétion d’eau n’est pas efficace. On a accumulation du mucus dans les voies
respiratoires, ce qui crée de graves difficultés respiratoires et diminue gravement l’espérance
de vie.
La mutation ΔF508, délétion d’un triplet dans le 10ème exon du gène entraînant la perte d’une
phénylalanine dans la protéine, est la plus fréquemment observée chez les patients, mais plus
de 1200 autres mutations avec des effets plus ou moins importants ont été décrites (voir
paragraphe II du chapitre II).
La myopathie centronucléaire, ou CNM, se caractérise chez les individus atteints par une
position anormale, au centre des fibres musculaires au lieu de la périphérie, des noyaux des
cellules musculaires. Les personnes atteintes présentent une faiblesse musculaire généralisée
qui s'installe à un âge précoce. Les CNM touchent moins d'une personne sur 10 000 en France
et se transmettent selon 3 modes, lié au chromosome X, autosomiques récessif ou dominant.
Ceci suggère qu’il existe différents gènes dont les mutations peuvent entrainer l’apparition de
cette maladie. La CNM est donc une maladie génétiquement hétérogène (voir introduction
du chapitre II).
36
Une équipe travaillant sur la forme autosomique dominante a procédé à des études de
cartographie pan-génomique par analyse de LOD Score dans 2 grandes familles avec 8 et 14
individus atteints, respectivement (Figure I-19).
Figure I-19 : Pédigrées de transmission de la CNM au sein des deux familles étudiées
(d’après Bitoun et al. Nature Genetics 2005).
L’étude de ces pédigrées montre un mode de ségrégation autosomique dominant, avec des individus atteints à
chaque génération et des pères et des mères ayant des fils et des filles atteintes. A gauche des arbres sont
indiqués les marqueurs qui co-ségrègent avec le gène impliqué. Les haplotypes pour ces marqueurs ont été
reconstruits pour les individus de ces familles. La mise en évidence d’évènements de recombinaison (symbolisés
par > et <) ont permis de restreindre l’intervalle contenant le gène.
Cette analyse a mis en évidence une liaison du phénotype CNM avec la région 19p13. 4
marqueurs de la région (D19S884, D19S865, D19S226, D19S432) présentent pour de très
faibles valeurs de θ, donc pour des distances physiques faibles, des valeurs de LOD Score
supérieures à 3, ce qui montre l’existence d’une liaison génétique entre ces marqueurs et le
gène impliqué dans la CNM (Figure I-20).
Figure I-20 : Résultats de l’analyse LOD Score menée dans les deux familles de CNM
(d’après Bitoun et al. Nature Genetics 2005).
Les marqueurs présentant une liaison génétique et leurs valeurs de LOD Score sont soulignés en rouge.
37
Une fois ces 4 marqueurs identifiés, la région restait très étendue et contenait de multiples
gènes. Afin de restreindre cet intervalle chromosomique, les chercheurs ont alors recruté de
nouvelles familles de CNM et utilisé de nouveaux marqueurs dans cette région. Ils ont aussi
reconstruit les haplotypes pour ces marqueurs, et identifié un certain nombre d’évènements de
recombinaison. Ils ont ainsi pu identifier un intervalle chromosomique critique dans la région
19p13.2, couvrant 11 Mb et contenant environ 200 gènes. Par approche gène candidat, ils ont
focalisé leur recherche sur un de ces gènes, le gène DNM2. Celui-ci code la dynamine 2, une
protéine qui intervient dans la cohésion des centrosomes. La recherche de mutations dans le
gène DNM2 a alors été entreprise par séquençage des exons et des jonctions exons-introns
chez plusieurs patients de différentes familles. 4 mutations faux-sens indépendantes dans la
région codante du gène ont ainsi pu être mises en évidence (Figure I-21).
Figure I-21 : Carte physique de la région de 11Mb contenant le gène DNM2 (a) et
mutations faux-sens identifiées (b) (d’après Bitoun et al. Nature Genetics 2005).
(a) : La position des différents marqueurs liés au phénotype CNM lors des études de LOD Score est indiquée.
(b) : Identification de mutations faux-sens chez 4 patients CNM non apparentés : par exemple, E368K signifie la
transformation de l’acide aminé E en position 368 par l’acide aminé K.
Différentes approches ont finalement permis de valider définitivement le gène DNM2 comme
responsable de la CNM : des analyses sur cultures cellulaires ont permis de montrer que les
protéines DNM2 présentant certaines mutations identifiées chez des patients étaient mal ou
plus du tout localisées au niveau du centrosome, contrairement à la protéine sauvage. Enfin,
des souris portant l’une de ces mutations dans le gène DNM2 (la mutation R465W) présentent
des atteintes musculaires semblables aux atteintes observées chez les patients CNM.
38
Chapitre II
Relations entre génotype et phénotype :
Rôle des interactions génétiques, de l’environnement et de l’épigénétique
Le chapitre précédent s’est attaché à présenter, sur des exemples de maladies humaines,
comment on peut identifier le gène et la mutation responsables de la maladie. Les exemples
choisis sont des maladies à déterminisme génétique simple ce qui signifie :
(1) Qu’un seul gène est touché, déterminisme monogénique, et que, pour toutes les
familles atteintes, c’est le même gène qui est touché (mais pas forcément avec la
même mutation).
(2) Que tous les individus génotypiquement atteints sont phénotypiquement atteints :
c’est ce qui définit un phénotype à pénétrance complète.
(3) Que la sévérité du phénotype est la même pour tous les individus génotypiquement
atteints : on parle alors d’expressivité constante.
Ces observations, qui ne sont pas spécifiques des maladies mais que l’on peut extrapoler à de
très nombreux phénotypes (ou caractères), traduisent le fait que la majorité des caractères
39
génétiques sont multifactoriels c’est-à-dire que leur déterminisme n’est pas uniquement dû à
la transmission des allèles d’un gène.
De nombreux phénotypes tels que la taille, le poids, certaines maladies…sont en effet
multigéniques, c'est-à-dire dus à l’action de plusieurs gènes. Pour les caractères
monogéniques comme certaines maladies génétiques, le phénotype observé varie aussi selon
la nature et la position de la mutation. Ceci peut alors conduire, au sein d’une population,
d’une famille, ou entre plusieurs familles, à une variabilité de pénétrance ou d’expressivité.
L’effet de la mutation dépend également du fond génétique (c'est-à-dire des allèles d’autres
gènes, qui peuvent moduler le phénotype observé, en l’aggravant ou au contraire en le
diminuant), mais également de l’environnement dans lequel évoluent les individus.
Enfin, certains mécanismes épigénétiques, tels que la régulation de la structure de la
chromatine, peuvent également moduler les phénotypes.
Dans ce chapitre, nous allons définir et illustrer, à l’aide d’exemples, ces différents points.
Suivant sa nature et sa localisation, une mutation peut induire un phénotype plus ou moins
fort. De manière générale, les polymorphismes (ou mutations) présents dans les génomes se
classent dans différentes catégories suivant leur nature et leur effet, ce dernier dépendant de
la nature, mais aussi de la position du polymorphisme dans le génome. La plupart des
notions présentées dans ce paragraphe ont déjà été abordées dans l’UE LV203 « Biologie
Moléculaire et Génétique 1 ». Il faut se référer au polycopié de cours de cette UE pour plus de
précisions.
40
spermatozoïdes), elles seront donc transmises à la descendance. Certaines de ces mutations
sont à l’origine, chez l’homme, de maladies héréditaires. (2) D’autres mutations, appelées
mutations somatiques, se produisent dans des cellules somatiques (d’un organe ou d’un tissu
déjà différencié ou en cours de différenciation). Ces cellules mutantes vont se diviser par
mitose, et donner des cellules filles mutantes qui coexisteront, au sein de l’organe ou du tissu
concerné, avec des cellules non mutantes. Elles ne seront pas transmises à la descendance.
Elles peuvent être impliquées, notamment chez l’homme, dans l’apparition de certaines
maladies telles que des cancers (qui résultent de la dérégulation du fonctionnement d’une
catégorie de cellules).
41
conduisent à la formation de gamètes qui, pour certains chromosomes, ont, à la place
d’un exemplaire du chromosome donné, soit deux exemplaires, soit aucun. Quand ces
gamètes fusionnent avec un gamète normal, il y a formation d’un zygote qui a soit
trois exemplaires de ce chromosome (polysomie de type trisomie), soit un seul
exemplaire de ce chromosome (monosomie).
Figure II-1 : Schéma de la structure d’un gène eucaryote codant une protéine.
42
La figure II-1 schématise la structure d’un gène eucaryote qui code une protéine. On peut y
distinguer plusieurs régions :
• Des séquences non transcrites (et donc non traduites), qui sont impliqués dans la
régulation de la transcription du gène : il s’agit du promoteur de transcription avec
les boîtes CAAT et TATA, localisé en amont du site d’initiation de la transcription
(TSS : « Transcription Start Site »). Le promoteur permet la fixation et le démarrage
de l’ARN polymérase. En 5’du promoteur, mais également parfois à la fin du gène ou
dans des introns, il existe des séquences de régulation spécifiques qui permettent soit
d’augmenter le niveau de transcription basal du promoteur (séquence « enhancer »)
soit de le diminuer (séquence « silencer »). Ces régulations sont dues à la fixation, sur
ces séquences, de protéines régulatrices qui peuvent être présentes seulement dans
certains tissus ou à certains stades de développement. Ce sont ces protéines qui
assurent la spécificité de fonctionnement de ces séquences, contrairement au
promoteur de transcription qui est actif dans tous les tissus.
• Des séquences transcrites et non traduites : elles sont localisées en 5’ et en 3’ du
gène (séquence 5’et 3’UTR =UnTranslated Region),, et dans le gène (introns). La
séquence 5’UTR joue un rôle dans la stabilisation de l’ARN par ajout de la coiffe, et
également dans la régulation de sa traduction. La région 3’UTR contient le signal de
terminaison de la transcription (symbolisé par T sur la figure II-1). C’est également
dans cette région qu’on trouve chez les eucaryotes le site de clivage de l’ARNm en 3’
(symbolisé par C sur la figure II-1) et le signal de polyadénylation (polyA) qui permet
l’addition d’une queue polyA à l’extrémité de l’ARN. La séquence 3’UTR régule
également la stabilité de l’ARN.
• Une séquence transcrite et traduite : elle correspond à la région centrale de l’ARNm
(après excision des introns), et est bordée par les régions 5’UTR et 3’ UTR. Elle est
appelée séquence codante ou CDS. Une CDS est bornée en 5’ par un codon
d’initiation de la traduction (codon AUG, qui correspond à l’incorporation d’une
méthionine à l’extrémité N-terminale de la protéine) et en 3’ par un codon STOP
(UAA/UAG/UGA) qui induit un décrochement des ribosomes et donc l’arrêt de la
traduction. Entre ces codon AUG et STOP, il y a un nombre multiple de trois de paires
de bases qui, lues en triplets ou codons, permettent l’incorporation successive d’acides
aminés et donc la synthèse d’un polypeptide.
43
Dans le noyau, le gène est transcrit en ARN pré-messager par l’ARN polymerase II. Cet ARN
prémessager, après ajout d’une coiffe en 5’ et d’une queue polyA en 3’, est transformé en
ARN messager par excision/épissage des introns. L’ARN messager est ensuite transféré dans
le cytoplasme où il sera traduit en protéine Par la suite cette protéine pourra subir une
maturation (clivage, modifications post-traductionnelles d’acides aminés).
La synthèse d’une protéine comporte donc de très nombreuses étapes et niveaux de
régulation. La moindre modification d’un de ces processus peut avoir un effet sur le produit
d’expression du gène et donc sur le phénotype de l’individu.
I-2-3-Effets possibles des mutations suivant leur nature : exemple des mutations dans
la séquence codante
Une mutation de type substitution de base dans la séquence codante pourra avoir différentes
conséquences suivant sa localisation, la nature de la base touchée et de la base qui la
remplace :
• Si la substitution induit le remplacement d’un codon par un codon synonyme (codant
le même acide aminé), elle sera silencieuse.
• Si la mutation induit le remplacement d’un codon par un codon codant un autre acide
aminé (mutation faux-sens), la séquence protéique sera changée. L’effet éventuel de
ce changement sur l’activité et le fonctionnement de la protéine dépendra de la nature
et position de l’acide aminé touché et de la nature de l’acide aminé qui le remplace.
44
• Si la mutation induit le remplacement d’un codon par un codon STOP (mutation non-
sens), la protéine sera tronquée. Ceci entraine souvent une perte d’activité de la
protéine.
Une mutation de type délétion ou addition de quelques bases dans la séquence codante
induira, si la délétion ou l’addition concerne un nombre de nucléotides qui n’est pas un
multiple de 3, un décalage de cadre de lecture (« frameshift ») au cours de la traduction de
l’ARN messager. La conséquence la plus fréquente est une protéine dont la séquence change
à partir du point de la mutation, et qui est très souvent tronquée par apparition prématurée
d’un codon STOP.
En conclusion, les mutations dans un gène, suivant leur nature et leur localisation, pourront ou
non avoir un effet sur la quantité de protéine synthétisée (par une modification de son
expression ou de sa stabilité), mais aussi sur son activité (par une modification de sa
séquence). De ce fait, deux individus porteurs d’une mutation dans le même gène peuvent
avoir, en fonction de la mutation, un phénotype très différent. De plus, chez les individus
diploïdes, les deux allèles d’un gène interagissent pour conférer le phénotype final de
l’individu. Le fait que plusieurs mutations différentes puissent exister au sein du même gène
constitue la notion de série allélique.
45
II- Notion de série allélique ; interactions entre allèles d’un même gène ; caractérisation
des allèles
II-1-Définitions
II-1-1-Série allélique
On appelle série allélique l’ensemble des allèles d’un gène. Dans une population, l’allèle le
plus fréquemment rencontré dans la nature (ou allèle « sauvage ») est généralement noté +
tandis que les autres sont numérotés (exemple : soit le gène a, et ses allèles a+, a1, a2, a3 …).
Pour un gène donné, le nombre d’allèles pouvant exister est a priori infini.
Les organismes haploïdes n’ont qu’un seul exemplaire de chaque gène, donc un seul allèle, et
c’est par conséquent l’expression de celui-ci qui détermine le phénotype de l’individu. Les
organismes diploïdes, en revanche, possèdent deux exemplaires de chaque gène, et donc deux
allèles. Ceux-ci vont interagir ce qui va déterminer le phénotype de l’individu. Plusieurs cas
de figure sont alors possibles:
• Un allèle a1 peut conférer un phénotype qui va masquer le phénotype de l’autre allèle
a2 : on dit que le phénotype conféré par a1 est dominant par rapport au phénotype
conféré par a2. On peut également dire que le phénotype conféré par a2 est récessif
par rapport au phénotype conféré par a1. De ce fait, un individu hétérozygote a1/a2
aura le même phénotype qu’un individu homozygote a1/a1.
• Deux allèles peuvent conférer des phénotypes co-dominants. Dans ce cas, le
phénotype d’un individu hétérozygote a1/a2 sera intermédiaire entre celui d’un
individu a1/a1 et celui d’un individu a1/a2.
Suivant leur effet sur le produit du gène concerné, on peut classer les allèles dans différentes
catégories :
• Allèle neutre ou silencieux : pas d’effet.
46
• Allèle perte de fonction totale, ou allèle amorphe, ou allèle nul : mutation qui abolit
complètement la fonction du produit du gène. Ce produit est soit absent, soit présent
mais complètement inactif.
• Allèle perte de fonction partielle ou allèle hypomorphe : avec ce type de mutation,
le produit du gène est présent, mais il est soit synthétisé en moins grande quantité, soit
moins actif que le produit sauvage.
En général, les allèles perte-de fonction totale sont de phénotype récessif par rapport à
l’allèle sauvage. En effet, dans de très nombreux processus, il suffit d’une demi-dose
de produit pour que la fonction physiologique soit assurée correctement. Il existe
cependant certains gènes qui sont sensibles à l’effet de dose. C’est le cas par exemple
des protéines agissant en complexe, pour lesquelles la stoechiométrie par rapport aux
autres constituants du complexe joue un rôle fondamental. Pour ces gènes, on constate
que les allèles perte-de-fonction totale présentent un phénotype dominant. On qualifie
ces allèles d’haplo-insuffisants, ce qui veut dire qu’une demi-dose de produit sauvage
n’est pas suffisante pour assurer la fonction physiologique.
• Allèle gain de fonction: induit soit une augmentation de la quantité du produit du
gène, soit une augmentation de l’activité de celui-ci.
• Allèle néomorphe: induit une modification de la fonction du produit du gène,
résultant en une nouvelle fonction.
• Allèle dominant négatif ou antimorphe: le produit fabriqué à partir de l’allèle mutant
a une fonction antagoniste de celle du produit sauvage, ou bloque l’action de celui-ci.
Pour un allèle de ce type, un individu hétérozygote allèle mutant/allèle sauvage aura
un phénotype mutant, d’où le terme d’allèle dominant négatif.
• Allèle conditionnel : mutation dont le phénotype ne s’exprime que dans certaines
conditions. Les plus fréquents sont les allèles thermosensibles, qui confèrent un
phénotype sauvage à basse température (température permissive), et un phénotype
mutant quand on augmente la température (température restrictive). D’un point de
vue moléculaire, ces allèles sont des mutations faux-sens qui diminuent la stabilité de
la conformation de la protéine en condition de dénaturation thermique par élévation
de température.
• Allèle à effet pléiotrope : mutation qui confère plusieurs phénotypes mutants. La
pléiotropie traduit le fait que le produit du gène touché intervient dans une voie
commune à plusieurs processus.
47
II-1-4-Deux mutations sont-elles allèles du même gène : le test de complémentation
fonctionnelle (rappel de LV203)
De très nombreux phénotypes étant multigéniques, des mutations dans des gènes différents
peuvent être à l’origine de phénotypes identiques ou très similaires. Prenons l’exemple, chez
un organisme haploïde, d’une voie de biosynthèse aboutissant à la production d’un produit X
à partir d’un précurseur P et faisant intervenir plusieurs intermédiaires réactionnels (I1 à I3) et
plusieurs réactions enzymatiques catalysées par différentes enzymes (Figure II-2).
Une cellule portant une mutation perte de fonction du gène b (allèle b1) ne synthétisera pas de
produit X car l’enzyme enz2 sera absente ou inactive. Il en sera de même pour une cellule
portant une mutation perte de fonction du gène c (allèle c1), et dans ce cas c’est l’enzyme
enz3 qui fera défaut. Ces deux mutations b1 et c1 touchent donc deux gènes différents, mais
confère le même phénotype, c'est-à-dire l’incapacité à synthétiser X à partir de P.
Afin de savoir si deux mutations conférant le même phénotype ou des phénotypes très
similaires affectent le même gène ou deux gènes différents, il faut réaliser un test de
complémentation fonctionnelle. Celui-ci consiste à fabriquer une cellule hétérozygote avec un
exemplaire de chacun des deux allèles, et à étudier son phénotype. Ce test ne peut s’appliquer
qu’à des allèles conférant un phénotype récessif. Le test de complémentation fonctionnelle
est traité de façon très détaillée dans l’UE LV203 « Biologie Moléculaire et Génétique
1 ». Il faut se référer au polycopié de cours de cette UE pour plus de précisions.
48
II-2-Exemples
II-2-1-La mucoviscidose
Comme décrit dans le chapitre I, la mucoviscidose est une maladie monogénique à mode de
transmission autosomique récessif qui affecte les épithéliums glandulaires de nombreux
organes (pancréas, intestin, poumons) même si les atteintes respiratoires sont prédominantes.
On peut donc dire de la mucoviscidose qu’elle a un phénotype pléiotrope, puisque plusieurs
organes sont affectés. Cette maladie est due à la mutation du gène CFTR, qui code un
transporteur transmembranaire d’ions Cl- présent dans les cellules épithéliales, en particulier
celles qui bordent les voies respiratoires. Le gène CFTR couvre environ 230kb et est
constitué de 27 exons. Plus de 1200 mutations différentes ont été identifiées chez des patients
atteints de mucoviscidose, la plus fréquemment rencontrée en Europe étant la mutation ΔF508
qui induit la délétion d’un acide aminé (une phénylalanine) en position 508. Elles sont
localisées partout dans le gène et sont de natures moléculaires variées (faux-sens, non sens,
décalage de cadre de lecture, mutation d’épissage…) (Figure II-3). L’ensemble de ces
mutations constitue donc une série allélique.
faux-‐sens
délétion
d’un
acide
aminé
non-‐sens
décalage
de
cadre
d e
lecture
défaut
d ’épissage
faux-‐sens
TOTAL
Figure II-3 : Mutations identifiées dans le gène CFTR (d’après Tsui, Trends in Genetics 1992).
La structure exons-introns du gène est schématisée en haut, les rectangles figurant les exons et les traits les
introns. En dessous sont représentées par un trait vertical un certain nombre de mutations identifiées chez des
patients atteints de mucoviscidose, avec leur nature moléculaire. La dernière ligne représente les domaines
fonctionnels identifiés dans la protéine CFTR (membrane spanning : domaine transmembranaire ; ATP binding :
domaine de fixation à l’ATP).
49
Ces mutations affectent différemment le produit du gène CFTR, et conduisent donc à des
différences d’expressivité du phénotype entre les patients. Par exemple, les mutations les plus
sévères, dont la mutation ΔF508, bloquent totalement la production de protéine CFTR ou
empêchent sa localisation correcte à la membrane cellulaire. Ce sont des mutations perte de
fonction totale. Les individus homozygotes pour ces mutations présentent donc toujours le
phénotype le plus grave à savoir, en plus de problèmes respiratoires sévères dus à une atteinte
pulmonaire, une insuffisance pancréatique. En revanche, d’autres mutations perte de fonction
partielle, telles que certaines mutations faux-sens, conduisent à la formation de canaux Cl-
correctement localisés mais qui répondent faiblement à l’ATP et ne restent donc pas ouvert
aussi longtemps qu’ils le devraient. Les patients portant ces mutations présentent donc un
phénotype plus atténué avec une atteinte pulmonaire moins grave et pas d’insuffisance
pancréatique.
La couleur des yeux de drosophile est un phénotype sur lequel ont beaucoup travaillé les
premiers généticiens de la drosophile au début du XXème siècle, en particulier Morgan. De
nombreux mutants de pigmentation ont été isolés, qui ont ensuite permis de disséquer de
manière fine les mécanismes moléculaires sous-jacents. Les drosophiles sauvages ont les yeux
rouges foncés à cause de la présence de deux types de pigments synthétisés dans les cellules
pigmentaires de l’œil : un pigment brun et des pigments rouges (Figure II-4). La biosynthèse
de ces deux types de pigments est initiée à partir de deux précurseurs distincts : la guanine
pour les pigments rouges et le tryptophane pour le pigment brun. Des chaînes métaboliques
impliquant différentes enzymes permettent la synthèse des pigments matures à partir de ces
précurseurs. Ces réactions métaboliques démarrent dans le cytosol des cellules pigmentaires,
et se poursuivent ensuite à l’intérieur de vésicules spécifiques dérivées de l’appareil de Golgi,
appelées granules pigmentaires. Ces granules pigmentaires sont le lieu où s’achève la
biosynthèse des pigments, et où ces derniers sont stockés. Le transport des intermédiaires
réactionnels dans les granules pigmentaires n’est pas un transport passif, mais nécessite la
présence de transporteurs membranaires spécifiques qui sont des hétérodimères constitués de
deux protéines : les protéines White et Brown pour la voie des pigments rouges, et les
protéines White et Scarlet pour la voie du pigment brun.
50
La protéine White, codée par le gène white, est donc une protéine clé qui intervient dans la
biosynthèse des deux types de pigments. Plus de 300 allèles différents du gène white ont été
isolés, la majorité étant des allèles perte de fonction. Ces allèles confèrent des yeux
diversement colorés entre le blanc et le rouge foncé, ce qui traduit le fait que certains d’entre
eux sont des allèles nuls, tandis que d’autres sont des allèles hypomorphes. Par exemple,
l’allèle nul w1118, qui est une délétion de la totalité du gène, confère des yeux blancs car il y
a absence totale des deux types de pigments. Les mouches portant l’allèle w-apricot (wa) ont
quant à elles des yeux rouge-orange. En effet cette mutation est un allèle hypomorphe qui
diminue le taux de transcription du gène white, il y a donc synthèse d’une quantité moindre de
pigments que chez l’individu sauvage (Figure II-5).
membrane
White
guanine pigments
rouges
Brown
Figure II-5 : Phénotype de drosophiles homozygotes pour certains allèles du gène white.
Pour chaque individu, le génotype est indiqué sous la photo.
51
III- Interactions entre gènes
Comme mentionné dans l’introduction de ce chapitre, l’effet d’une mutation dépend non
seulement de sa nature et de sa localisation, mais également du fond génétique, c'est-à-dire
des allèles d’autres gènes présents chez l’individu qui peuvent moduler le phénotype observé,
soit en l’aggravant, soit en le diminuant. Ceci s’applique à tous les caractères, qu’ils soient
monogéniques ou multigéniques. Ainsi, dans le cas de la mucoviscidose, on a pu mettre en
évidence l’effet de différents gènes, appelés gènes modificateurs, sur la sévérité du phénotype
induit par une mutation délétère dans le gène CFTR. Afin de comprendre comment un
génotype donné permet d’obtenir un phénotype, il est important de rechercher comment les
gènes peuvent interagir les uns avec les autres.
Les interactions génétiques décrites ici concernent des gènes différents (c'est-à-dire deux
mutations non allèles du même gène) et s’appliquent aussi bien aux organismes haploïdes que
diploïdes. L’étude de ces interactions génétiques permet d’établir les relations fonctionnelles
entre les gènes ainsi que leur hiérarchie d’action.
Sur organisme de laboratoire, on étudie ces interactions en comparant le phénotype du double
mutant avec les phénotypes des deux simples mutants pour les gènes étudiés (Figure II-6). En
fonction de ce phénotype, les interactions se classent dans différentes catégories (voir plus
bas). Ce classement ne préjuge pas des mécanismes moléculaires sous-jacents. En effet un
type d’interaction donné peut être le reflet de différents processus moléculaires en fonction de
la nature des produits des gènes étudiés.
Figure II-6: Principe d’analyse d’interaction génétique entre les gènes a et b (allèles am
et bm) sur un organisme diploïde.
52
III-2-Les différents types d’interactions génétiques
Afin d’illustrer ces différents types d’interactions génétiques, plusieurs des exemples
présentés concerneront le phénotype de pigmentation des yeux de drosophile dont le
déterminisme génétique a été présenté dans le paragraphe II-2-2 et sur la figure II-4.
Dans ce cas, le phénotype du double mutant est l’addition des phénotypes des deux simples
mutants. Cette observation traduit le fait que les gènes testés n’interagissent pas entre eux,
et interviennent donc dans des processus totalement indépendants. Par exemple, chez la
drosophile, si M1 a des yeux blancs et M2 des ailes recourbées, le double mutant M3 aura des
yeux blancs et des ailes recourbées (Figure II-7).
M1 a1/ a1;
b+/b+ M2 a+/a+;
b1/ b1 M3 a1/a1;
b1/
b1
[yeux
blancs] [ailes
recourbées] [yeux
blancs,
ailes
recourbées]
Additivité
des
phénotypes,
les
gènes
a
et
b
n’interagissent
pas
Figure II-7: Exemple d’additivité de phénotypes, traduisant une absence d’interaction
génétique.
Quand il n’y a pas d’additivité des phénotypes, il est possible d’observer quatre types
d’interactions génétiques, détaillées dans les paragraphes suivants.
III-2-2- L’épistasie
Ce terme qualifie les interactions pour lesquelles, chez le double mutant, un des deux
phénotypes mutants cache l’autre. On peut également dire qu’un phénotype l’emporte sur
l’autre. L’allèle qui cache les effets de l’autre est dit épistatique sur celui-ci. Ainsi, dans
l’exemple de la figure II-8, l’allèle w1118 est épistatique sur les allèles bw1 et v1. D’un point
de vue moléculaire, cette observation traduit le fait que la protéine White est impliquée dans
la biosynthèse des deux types de pigments brun et rouges.
53
La mise en évidence d’une relation d’épistasie peut être le reflet d’une infinité de mécanismes
et de relations moléculaires entre les produits des gènes testés. Par exemple, comme illustré
dans la figure II-9, on peut observer des relations d’épistasie entre des gènes qui appartiennent
à des cascades fonctionnelles où un gène contrôle l’expression d’un autre gène.
Figure II-8 : Exemple d’épistasie entre gènes impliqués dans la synthèse des pigments
des yeux chez la drosophile.
w1118 : allèle nul du gène white, qui code un transporteur ; bw1 : allèle nul du gène brown, qui code une
enzyme de la chaîne de biosynthèse des pigments rouge. En absence de cette enzyme, il n’y a pas de pigments
rouges synthétisés et les yeux sont bruns ; v1 : allèle nul du gène vermillion qui code une enzyme de la chaîne de
biosynthèse du pigment brun. En absence de cette enzyme, il n’y a pas de pigment brun synthétisé et les yeux
sont rouges vifs.
Figure II-9 : Exemple d’épistasie entre gènes impliqués dans le déterminisme du sexe
chez le nématode Caenorhabditis elegans (d’après Rossignol et al., éd. Dunod).
Chez C. elegans, les individus possédant un seul chromosome X (génotype X0) sont mâles, tandis que ceux qui
en possèdent deux (génotype XX) sont hermaphrodites. L’activité du gène tra1 est nécessaire au développement
en hermaphrodites. Chez des individus sauvages, pour les X0, il y a expression du gène her1 dont le produit
réprime l’expression de tra1. A l’inverse, pour les XX, her1 n’est pas exprimé, ce qui conduit à l’expression de
tra1. Les individus possédant une mutation perte de fonction de her1 se développent en hermaphrodites quel que
soit leur nombre de chromosomes X. A l’inverse, ceux qui sont mutants perte de fonction pour tra1 se
développent en mâles, qu’ils soient X0 ou XX. Les doubles mutants her1 ; tra1 se développent aussi en mâles.
tra1 est donc épistatique sur her1.
54
III-2-3- La création d’un nouveau phénotype
Dans ce cas, le double mutant a un phénotype différent de celui des deux mutations qu’il
associe. Dans le phénotype de pigmentation des yeux chez la drosophile, si l’on reprend
l’exemple des gènes brown et vermillion déjà traité dans la figure II-8, les simples mutants de
ces gènes ont respectivement les yeux bruns et rouges vifs, alors que le double mutant, qui ne
synthétise plus aucun des pigments, a les yeux blancs (Figure II-10).
M1 v+/v+;
bw1/bw1 M2 v1/v1;
bw+/bw+ M3 v1/v1;
bw1/bw1
[yeux
bruns] [yeux
rouge
vifs] [yeux
blancs]
Figure II-10 : Exemple de création d’un nouveau phénotype par interaction entre gènes
impliqués dans la synthèse des pigments des yeux chez la drosophile.
De même, chez la plante crucifère Capsella bursa pastoris, la plupart des variétés ont des
fruits ronds, et on peut obtenir une variété à fruits triangulaires par combinaison de deux
allèles mutants (Figure II-11).
Dans certains cas, le nouveau phénotype qui apparait est une létalité, alors que les deux
simples mutants sont parfaitement viables. Ce phénomène, qualifié de létalité synthétique,
traduit souvent le fait que les deux gènes codent des produits dont la fonction, essentielle pour
la vie de la cellule, est partiellement ou totalement redondante. On appelle ceci la redondance
fonctionnelle. La perte de fonction totale de l’un des gènes n’affecte pas l’organisme car
l’autre peut le remplacer. Par contre, les cellules qui sont mutées dans les deux gènes sont
incapables de vivre. De nombreux cas de redondance fonctionnelle générant des phénotypes
de létalité synthétique sont observés chez la levure Saccharomyces cerevisiae. La figure II-12
illustre ce phénomène pour les gènes URA7 et URA8, qui codent des protéines présentant
55
78% d’identité en acides aminés et qui ont une activité CTP synthétase (synthèse de CTP à
partir de dUTP). Les deux simples mutants sont parfaitement viables, alors que le double
mutant, qui n’a plus cette activité, est létal.
[synthèse de CTP] [synthèse de CTP] [létal] (pas de synthèse de CTP)
Dans ce cas, le phénotype du double mutant est aggravé par rapport au phénotype des deux
simples mutants. La mutation qui aggrave le phénotype est qualifiée de mutation
« enhancer ». D’un point de vue moléculaire, ce phénomène peut, dans certains cas, refléter
le fait que les gènes testés interviennent dans des voies parallèles et partiellement
redondantes. Par exemple, dans le cas de la pigmentation des yeux chez la drosophile, de
nombreux gènes appelés gènes de granule interviennent pour assurer la production et le trafic
des granules pigmentaires (voir figure II-4). Ces gènes forment différents complexes, dont la
fonction dans la formation des granules pigmentaires est partiellement redondante. Ainsi, les
gènes pink et orange appartiennent à deux complexes différents. Une perte de fonction de
pink ou d’orange confère des yeux rouge vif par défaut de stockage d’une fraction des
pigments. Ce phénotype est accentué chez des mouches doubles mutantes pour pink et
orange, qui ont encore moins de pigments et ont les yeux rouges clairs (Figure II-13).
56
gènes dont les produits interagissent physiquement, comme schématisé dans la figure II-14.
Les deux simples mutants conduisent à la synthèse de protéines dont les conformations,
différentes de celles des protéines sauvages, permettent encore une interaction partielle
protéine sauvage-protéine mutante. En revanche, les deux protéines mutantes ne peuvent plus
interagir, ce qui conduit à un phénotype du double mutant aggravé par rapport au phénotype
des simples mutants.
Figure II-14 : Exemple d’aggravation de phénotype entre gènes codant des protéines A
et B qui interagissent ensemble pour intervenir dans une fonction cellulaire (interaction
enzyme/substrat, ligand/récepteur…).
Des aggravations de phénotype peuvent aussi être observées pour des allèles hypomorphes de
gènes dont les produits, tout en intervenant dans la même voie, n’interagissent pas
physiquement.
Dans ce cas, à l’inverse du cas précédent, le double mutant présente un phénotype moins
grave que les simples mutants. La suppression est dite totale si le double mutant récupère un
phénotype sauvage et partielle s’il conserve un phénotype mutant moins sévère que celui des
deux simples mutants. La mutation qui supprime le phénotype mutant est appelée mutation
suppresseur.
Assez fréquemment, l’allèle mutant suppresseur n’a pas de phénotype en soi, mais est décelé
car il supprime le phénotype mutant d’un autre allèle. Afin de mettre en évidence ces
mutations qui n’ont pas de phénotype particulier, on peut réaliser une mutagenèse sur un
57
mutant de phénotype donné, afin de rechercher des cellules ou des individus qui retrouvent
plus ou moins complètement le phénotype sauvage. Ceux-ci sont qualifiés de révertants
phénotypiques. Différents évènements génétiques peuvent être à l’origine de l’apparition de
ces révertants phénotypiques (Figure II-15) :
• Il peut s’agir d’une mutation, appelée mutation inverse, qui touche le gène
initialement muté et restaure la séquence nucléotidique sauvage. Ce cas de réversion
est appelé réversion génotypique ou réversion vraie, et conduit à une restauration
totale du phénotype sauvage puisque le génotype est redevenu sauvage. Ce type de
mutation est cependant relativement peu fréquent.
• Le second type d’évènement est une mutation qui se produit dans le gène initialement
muté mais à un endroit différent de la première mutation. Cette dernière est toujours
présente, et l’ajout d’une seconde mutation modifie les propriétés du produit du gène
concerné et peut, dans certain cas, conduire à une suppression partielle ou totale du
phénotype mutant. On parle dans ce cas de mutation suppresseur intragénique.
• Le troisième type est qualifié de mutation suppresseur extragénique car elle touche
un gène différent du gène initialement muté.
58
Selon leur nature, on peut à leur tour classer les mutations suppresseurs extragéniques dans
deux catégories :
• Les suppresseurs informationnels agissent en modifiant l’un des acteurs de
l’information génétique, au niveau de la transcription ou de la traduction. Ceci aboutit
à la suppression du phénotype induit par la première mutation. Les suppresseurs
informationnels sont spécifiques d’un type particulier de mutation (mutation de type
non-sens, décalage de cadre de lecture..), et peuvent corriger ces mutations dans
n’importe quel gène. Par exemple, les suppresseurs de non-sens sont des mutations
dans des gènes codant des ARN de transfert (ARNt). Ces mutations permettent à
l’ARNt concerné de reconnaitre, sur l’ARNm, un codon STOP, et donc d’incorporer
dans la chaîne polypeptidique un acide aminé. Ces mutations suppriment donc l’effet
de mutations de type non-sens dans n’importe quel gène, en permettant aux ARNm de
ces gènes d’être traduits jusqu’au bout plutôt que de former une protéine tronquée à
cause du codon STOP dû à la mutation (Figure II-16).
sauvage a+Su+
M1 a1Su+
révertant a1Su1
59
• Les suppresseurs fonctionnels sont spécifiques du gène touché par la première
mutation et agissent au niveau de la fonction dans laquelle ce gène intervient. Ils
agissent soit en remplaçant la fonction du gène muté, soit en changeant le contexte de
la cellule ou de l’organisme, de telle sorte que l’effet de la première mutation soit
partiellement ou complètement supprimé. Les principaux mécanismes de suppression
fonctionnelle sont la restauration d’une interaction protéique, la suppression par
activation d’une voie secondaire normalement peu active permettant de remplacer la
voie affectée par la première mutation, ou la suppression par augmentation du niveau
d’expression d’une protéine ayant pour effet de compenser l’effet de la première
mutation par différents mécanismes (stabilisation protéique, activation
transcriptionnelle…) (Figure II-17).
Figure II-17 : Quelques mécanismes de suppresseur fonctionnel (d’après Klug et al., éd.
Pearson Education).
En conclusion, la mise en évidence d’une interaction génétique entre deux allèles mutants
peut refléter, quel que soit le type d’interaction mise en évidence, une infinité de mécanismes
moléculaires. Il peut s’agir d’interactions physiques directes entre les produits des gènes
concernés, de régulation de niveau d’expression (au niveau de la transcription, de la stabilité
60
protéique…), de protéines intervenant dans la même voie métabolique, dans des voies
parallèles, ou des voies redondantes etc…. Par conséquent, la mise en évidence d’une
interaction entre deux gènes ne permet pas, à elle seule, d’identifier de manière précise les
relations fonctionnelles entre les gènes. D’autres approches permettent de préciser ces
relations fonctionnelles et ainsi d’établir des réseaux de gènes qui interviennent dans le même
processus.
Les interactions génétiques évoquées ci-dessus illustrent bien le fait que les dizaines de
milliers de gènes qui composent un génome ne fonctionnent pas indépendamment, mais
forment au contraire un réseau d’interactions fonctionnelles qui déterminent les propriétés des
cellules et des organismes (Figure II-18). C’est la diversité et la combinatoire immense de ces
interactions qui expliquent qu’avec relativement peu de gènes, on puisse former et faire
fonctionner des organismes aussi complexes que les nôtres. La variabilité de ces interactions
explique également que des génomes relativement semblables (90% d’identité de séquences)
puissent former des organismes aussi différents qu’un homme ou une souris.
La difficulté de l’étude des réseaux en biologie tient au fait qu’ils sont composés de dizaines
de milliers d’éléments et que les interactions entre ces éléments (la structure du réseau) varie
en fonction du temps, du type de cellules, des conditions physiologiques, etc… Pour les
étudier efficacement, il faut donc disposer de techniques qui permettent d’analyser à large
échelle les interactions entre les gènes, les protéines, etc… Les séquençages de génomes
complets (voir cours de LV203), en nous donnant accès au contenu total en gènes des
différentes espèces, ont ouvert la porte au développement de techniques dites « haut-débit »
d’analyse du fonctionnement des génomes, marquant ainsi la naissance d’une nouvelle
discipline : la génomique fonctionnelle.
Il existe donc aujourd’hui différentes approches expérimentales permettant de mettre en
évidence, sur une large échelle et en peu de temps, des interactions fonctionnelles entre de
nombreux gènes, ou d’identifier rapidement les gènes qui interviennent dans un même
processus. Certaines sont des méthodes indirectes qui caractérisent des interactions
fonctionnelles mais n’impliquent pas forcément une interaction physique entre les produits
des gènes. D’autres, qu’on peut qualifier de méthodes directes, permettent de détecter une
61
interaction physique directe entre les gènes et leurs produits (interaction protéine-protéine,
protéine-acide nucléiques…). Dans la suite de ce paragraphe, nous allons exposer certaines de
ces approches expérimentales.
Cette démarche repose sur la recherche d’interactions génétiques telles que décrites dans le
paragraphe précédent. Comme dit précédemment, c’est une méthode indirecte qui ne permet
pas d’avoir d’information précise sur le type d’interaction moléculaire impliqué, mais qui
permet d’établir l’existence d’un lien fonctionnel entre les produits des gènes. Pour réaliser
ces cribles génétiques, on effectue des croisements individuels entre des individus portant la
mutation d’intérêt, qui ont un phénotype mutant particulier, et une collection d’individus
présentant chacun une mutation dans un gène différent (Figure II-19). Le but est d’identifier
les croisements qui produisent des descendants ayant un phénotype différent du phénotype
mutant de départ. On peut identifier ainsi des interactions génétiques (suppresseur,
62
« «enhancer », etc…) entre le gène muté et un très grand nombre de gènes. La connaissance
totale des génomes de certains organismes de laboratoire (drosophile, levure, arabette, etc…)
a permis de fabriquer chez ces espèces des collections de mutants pour pratiquement tous les
gènes. On dispose ainsi de collections de mutants contenant des délétions (mutations perte de
fonction) pour chaque gène non essentiel connu (chaque mutant ayant un (et un seul) de ces
gènes inactivé) : on parle alors de crible génétique de perte de fonction. On dispose
également de collections de mutants sur-exprimant un gène particulier, et ce pour tous les
gènes connus : on qualifie ce genre de crible de crible de gain de fonction. Ces expériences
ont contribué à la compréhension de nombreux processus physiologiques et
développementaux (contrôle du cycle cellulaire, mise en place de la segmentation du
corps…). Un des autres intérêts des cribles génétiques concerne l’analyse de mutants de
gènes dont la fonction est inconnue. Les cribles génétiques permettent alors d’identifier des
gènes modificateurs parmi lesquels certains codent des produits dont la fonction moléculaire
est connue. Ceci peut alors donner des indications quant à la fonction moléculaire du produit
du gène affecté dans le mutant testé.
[mutant]
-‐croisements
i ndividuels
-‐analyse
du
phénotypes
des
descendants
Un autre intérêt de ces collections de mutants est de permettre d’effectuer des cribles
phénotypiques à large échelle (on parle de phénome). En soumettant les mutants de la
63
collection à des conditions de vie particulières, on peut ainsi identifier rapidement tous les
gènes dont l’inactivation (perte de fonction) ou la sur-activation (gain de fonction) confère
une résistance ou une sensibilité accrue à un stress environnemental, une molécule toxique ou
un processus développemental particulier. Ces analyses permettent de mettre en évidence des
groupes de gènes potentiellement impliqués dans une même fonction.
Dans le même ordre d’idée, il a été construit chez la levure des collections de mutants
exprimant des protéines fusion entre une protéine cellulaire et une protéine fluorescente, et
ceci pour tous les gènes codant des protéines. Cette collection a permis de déterminer la
localisation cellulaire de presque toutes les protéines chez cet organisme, et ce faisant de
déterminer les gènes dont les produits agissaient au même endroit dans la cellule.
Les puces à ADN permettent d’étudier le contenu en ARN des cellules (transcriptome) et
donc l’expression de l’ensemble des gènes. En réalisant différentes expériences de puces à
ADN au cours du temps ou dans différentes situations physiologiques ou environnementales,
on obtient pour chaque gène un profil d’expression. En comparant ces profils, on peut définir
des groupes de co-expression, c’est à dire des groupes de gènes exprimés aux mêmes
moments de la vie de la cellule (Figure II-20). Cette co-expression suggère fortement que ces
gènes sont régulés de la même façon et que leurs produits collaborent pour remplir une même
fonction. Cette approche (appelée classification de gènes, « gene clustering » en anglais) est
extrêmement utilisée actuellement pour établir des liens fonctionnels indirects entre les gènes.
Par rapport aux cribles génétiques, elle présente l’immense avantage de pouvoir être utilisée
dans n’importe quelle espèce, pourvu que l’on connaisse la séquence de son génome (pré-
requis indispensable à la synthèse des sondes qui composent la puce). Cette limitation est en
train d’être levée du fait du remplacement progressif des puces à ADN par une autre
technologie : le séquençage massif d’ARN (RNA-seq). Le RNA-seq permettra bientôt de
séquencer directement le transcriptome des cellules, et ne nécessitera donc plus de connaître
la séquence du génome au préalable.
64
g1
Groupe 1
g2
g3
g4
Groupe 2
g5
65
Ces approches d’immunoprécipitation d’ARN ou de chromatine sont extrêmement utilisées
pour comprendre la structure et le fonctionnement des réseaux de régulation de l’expression
des gènes. Elles sont utilisables chez tous les organismes, pourvu que l’on dispose d’anticorps
contre les protéines que l’on veut étudier.
IV-2-2-2-Interactions protéines/protéines
La grande majorité des protéines n’agissent pas seules. Elles fonctionnent en interaction avec
d’autres protéines, formant ainsi des complexes multiprotéiques qui peuvent être très stables
(complexes de la chaîne respiratoire mitochondriale par exemple) ou avoir une durée de vie
courte et changer rapidement de composition (certains complexes de régulation de la
transcription par exemple). Il est donc fondamental de pouvoir identifier un maximum de ces
interactions protéines/protéines (on parle d’interactome). Plusieurs techniques permettent de
le faire à large échelle. Nous parlerons de deux d’entre elles : le double hybride et
l’immunoprécipitation de complexes couplée à la spectrométrie de masse.
66
Le double hybride :
La technique du double hybride utilise la levure comme un tube à essai vivant pour tester
l’interaction entre deux protéines X et Y à l’aide d’un système de gène rapporteur (Figure II-
22). On utilise pour cela une levure transgénique qui possède dans son génome un gène
rapporteur (par exemple le gène lacZ codant la beta-galactosidase d’E. coli) sous le contrôle
d’un promoteur transcriptionnel possédant des séquences reconnues par le facteur de
transcription Gal4 (séquences UAS). On introduit dans cette levure deux plasmides. L’un
exprime la protéine X en fusion avec le domaine de fixation à l’ADN du facteur Gal4. Cette
protéine de fusion est capable de se fixer sur le promoteur du gène rapporteur mais pas
d’activer sa transcription. L’autre plasmide exprime la protéine Y en fusion avec le domaine
activateur de la transcription de Gal4. Cette protéine de fusion peut recruter l’ARN
polymérase II mais est incapable de reconnaître l’ADN. L’interaction entre X et Y permet la
reconstitution d’un facteur Gal4 complet et fonctionnel sur le promoteur du gène rapporteur.
Si X et Y interagissent, il y a donc expression du gène rapporteur par les cellules. Cette
expression peut facilement être détectée dans le cas de la beta-galactosidase en utilisant par
exemple un substrat, le X-Gal, qui se colore en bleu lorsque qu’il est métabolisé par cette
enzyme. Il est aujourd’hui possible de construire des collections de plasmides contenant des
fusions Y-Gal4 pour toutes les protéines connues chez un organisme donné. On peut donc
tester rapidement et à large échelle toutes les interactions possibles pour une protéine X
donnée. On parle alors de crible double-hybride.
Cette technique très puissante et très utilisée présente néanmoins plusieurs inconvénients
importants. Tout d’abord, elle a un fort taux de faux positifs. Par exemple, si X est lui même
un activateur de la transcription, le gène rapporteur sera exprimé quelle que soit la protéine Y
testée. Ensuite, elle ne fonctionne que chez la levure. Si on teste des interactions entre des
protéines humaines par exemple, rien ne garantira que ces protéines seront dans les conditions
qu’elles rencontrent naturellement dans une cellule humaine. Enfin, ce système est basé sur
un rapporteur transcriptionnel et ne peut donc s’appliquer qu’à des protéines solubles dans le
nucléoplasme. Il ne permet par exemple pas d’étudier les interactions entre protéines
membranaires. Pour contourner ce dernier problème, des alternatives ont été trouvées en
utilisant des enzymes modulaires à la place de Gal4 : l’interaction entre X et Y provoque dans
ce cas la reconstitution de l’activité enzymatique, qui est révélée par la synthèse d’un produit
fluorescent ou coloré. Cette réaction peut avoir lieu n’importe où dans la cellule et s’applique
donc aux protéines membranaires.
67
X
Gal4 DB
Gène rapporteur (ex: lacZ)
Gal4 UAS
Gal4 AD
X Y
Gal4 DB Interaction X-Y: gène rapporteur exprimé
(= production de beta-galactosidase)
Gal4 UAS Gal4DB-X et Gal4AD-Y
Gal4AD-Y et Gal4DBseul
Détection de la synthèse de
beta-galactosidase par étalement
sur un milieu contenant du X-Gal
L’autre grande méthode pour identifier les partenaires d’une protéine consiste simplement à
immunoprécipiter cette protéine avec des anticorps spécifiques, dans des conditions qui
préservent au mieux les interactions protéines/protéines. Les membres des complexes ainsi
purifiés sont ensuite séparés sur gel dénaturant puis chaque bande de protéines est découpée et
analysée par spectrométrie de masse. Cette technique consiste à digérer la (ou les) protéine(s)
présente(s) dans une bande de gel en peptides grâce à une protéase, puis à vaporiser ces
peptides et à les faire voyager entre plusieurs électrodes. Le temps de vol de chaque peptide
permet de déterminer très précisément sa masse et donc sa composition exacte en acides
aminés. Il suffit ensuite de rechercher les séquences de ces peptides dans des bases de
données pour identifier les protéines présentes dans le complexe. L’obtention d’anticorps
spécifiques à grande échelle étant longue et coûteuse, on fusionne en général la protéine à
étudier avec une étiquette, ou épitope (« tag » en anglais), qui est un petit peptide pour lequel
ont dispose déjà d’anticorps. Par cette astuce, on peut immunoprécipiter spécifiquement
68
quasiment toutes les protéines, pourvu que l’on connaisse leur séquence et que l’organisme
que l’on étudie soit génétiquement manipulable afin de produire les protéines étiquetées. Les
principaux défauts de cette approche sont que, malgré les précautions prises, de nombreuses
interactions protéines/protéines sont perdues lors des différentes étapes de purification des
complexes. On ne détecte donc par cette technique que des interactions stables et majoritaires.
Il faut également que les protéines étudiées soient solubles pour pouvoir les
immunoprécipiter, ce qui est difficile à obtenir pour les protéines membranaires. Enfin, quand
une étiquette est utilisée, il peut arriver qu’elle perturbe le fonctionnement de la protéine à
laquelle elle est fusionnée.
IV-3 Conclusion
Il est aujourd’hui possible d’établir des atlas des interactions génétiques ou physiques entre
les différents constituants de la cellule (Figure II-23). Ces atlas nous donnent une image
fascinante et complexe du fonctionnement cellulaire, basé sur des réseaux qui sont : (1)
fortement interconnectés : toutes les fonctions sont coordonnées entre elles et le « chemin »
moyen entre deux éléments du réseau pris au hasard est court ;( 2) très hétérogènes : le réseau
est constitué de groupes d’éléments très fortement interconnectés (on parle souvent de
modules fonctionnels) reliés entre eux par des interactions plus lâches ; (3) très hiérarchisés :
certains gènes ou certaines protéines ont plus de partenaires que les autres (ce qui suggère des
rôles plus centraux et essentiels).
Figure II-23 : Le réseau des interactions génétiques identifiées chez la levure (d’après
Costanzo et al, Science 2010). Chaque rond représente un gène, chaque trait entre deux ronds représente une
interaction génétique identifiée entre ces gènes.
69
V- Interactions avec l’environnement
Tout comme les gènes n’agissent pas de façon isolée, les individus sont en interaction
constante avec leur environnement. Il est donc évident que cet environnement va fortement
influencer l’expression du génome d’un individu, et donc son phénotype. En d’autres termes,
deux individus présentant des génotypes identiques peuvent très bien avoir des phénotypes
très différents s’ils vivent dans des environnements différents.
L’environnement abiotique influence fortement l’expression des gènes, soit en activant des
mécanismes d’adaptation, soit en agissant en tant que contrainte. Les illustrations de
l’adaptation de l’expression des génomes à l’environnement sont innombrables. Citons par
exemple le fonctionnement de l’opéron lactose, qui est détaillé dans la partie biologie
moléculaire de ce cours. En terme de contrainte, on peut penser à la notion de mutants
conditionnels. Il s’agit d’individus mutants dont la mutation ne s’exprime que dans certaines
conditions environnementales. C’est le cas, chez les organismes de laboratoire, des mutants
dits thermosensibles, qui n’expriment leur phénotype mutant qu’à température élevée. Chez
l’Homme, on peut citer l’exemple de personnes présentant des mutations de l’hémoglobine
qui ne provoquent de syndromes anémiques qu’à haute altitude (à cause de la plus faible
pression d’oxygène).
Les êtres vivants interagissent également fortement entre eux. Ceci est particulièrement bien
illustré par les flores microbiennes que l’on trouve dans différents environnements (sols, eau
de mer…) et qui présentent un fort taux de symbioses, de commensalisme et de parasitisme. Il
n’est ainsi pas rare qu’une voie métabolique active dans ces environnements fasse intervenir
plusieurs espèces qui se partagent le travail. Plus proche de nous, la flore intestinale de
l’Homme (qui représente 80% des cellules de notre organisme et plus d’1/10 de notre poids)
influence fortement notre phénotype et a des rôles démontrés ou fortement suggérés dans la
prédisposition à l’obésité, dans le développement de maladies inflammatoires intestinales
mais aussi dans des traits comportementaux comme l’autisme, l’hyperagressivité ou la
dépression. On peut donc dire que, bien souvent, différents génomes peuvent influencer un
70
phénotype donné. Le niveau auquel les scientifiques doivent travailler dans ce cas n’est plus
celui du gène, ni même du génome d’une espèce, mais celui de la communauté de génomes
présente dans un environnement donné, ce que l’on appelle aujourd’hui le métagénome. La
plupart des espèces de microorganismes n’étant pas cultivables en laboratoire, le séquençage
en masse de l’ADN présent dans un environnement est souvent le seul moyen d’avoir des
informations sur leur mode de vie et leurs propriétés. Cette nouvelle discipline s’appelle la
métagénomique et ses enjeux fondamentaux, industriels et médicaux sont énormes.
Très tôt dans l’histoire de la génétique est apparu un paradoxe : si les caractères des individus
et des cellules sont déterminés par le génome, alors comment expliquer que les cellules de
notre organisme, qui ont des génomes identiques, ne soient pas semblables ? La découverte,
avec l’opéron lactose, des mécanismes d’adaptation de l’expression génétique en réponse à un
stimulus ont fourni un début de réponse : la différentiation cellulaire serait contrôlée par des
facteurs de transcription différentiellement exprimés en fonction du temps et de l’espace.
Néanmoins, ces modèles n’expliquent pas totalement la persistance de cette différentiation
longtemps après la disparition des stimuli environnementaux (effet mémoire), ni sa
transmission à la descendance des cellules en question. Un autre aspect du mystère concerne
la lignée germinale : comment ces cellules différentiées peuvent-elles donner naissance après
fécondation à une cellule totalement indifférenciée et totipotente ? C’est ainsi qu’a commencé
à émerger la notion d’épigénétique. Les modifications épigénétiques ne mettent pas en jeu
des modifications de la séquence du génome et elles sont réversibles, différant en cela des
mutations génétiques. Par ailleurs, les modifications épigénétiques sont héritables
(transmissibles à la descendance mitotique) et ne dépendent pas de la persistance d’un
stimulus environnemental, différant ainsi des mécanismes adaptatifs évoqués dans le chapitre
précédent.
On connaît aujourd’hui les bases moléculaires des mécanismes épigénétiques. Il s’agit
essentiellement de modifications de la chromatine qui vont conduire à l’extinction de
l’expression de certains gènes, de façon stable au cours des divisions cellulaires. Ces
modifications sont soit des modifications chimiques de certains acides aminés des histones
constituant les nucléosomes (méthylations, acétylations, phosphorylations etc…), soit des
modifications chimiques de certaines cytosines dans l’ADN (méthylations). Ces modifications
71
chimiques (aussi appelées marques épigénétiques) sont apposées par des enzymes au sein de
complexes protéiques. Les marques épigénétiques ont un effet sur le niveau de compaction de
la chromatine, sur le recrutement de protéines activatrices ou répressives, sur le recrutement
ou l’activité de l’ARN polymérase, et donc finalement sur le niveau d’expression des gènes.
Les cas de régulations épigénétiques sont très nombreux (différentiation cellulaire chez les
organismes multicellulaires, changements de morphotypes chez les microorganismes, etc…).
Des dérèglements de régulations épigénétiques sont également observés dans de nombreuses
pathologies (cancers, maladies auto-immunes, maladies neurologiques…). Nous allons
illustrer ici l’influence de ces mécanismes sur les phénotypes des individus par deux
exemples : l’empreinte parentale et l’inactivation du chromosome X chez les mammifères.
Chez les organismes diploïdes, la majorité des gènes sont présents en deux exemplaires
exprimés de façon équivalente. L’influence de chacun des deux allèles sur le phénotype
dépend alors des relations de dominance/récessivité qui existent entre eux, et qui peuvent être
très complexes, comme cela a été exposé plus haut. Toutefois, chez les mammifères, un
certain nombre de gènes fonctionnent différemment : un seul allèle s’exprime (on parle donc
d’expression monoallèlique) et l’allèle exprimé dépend de sa provenance maternelle ou
paternelle. C’est ce que l’on appelle l’empreinte parentale, et ces gènes sont dits « soumis à
l’empreinte ». Un gène pour lequel seul l’allèle provenant du père s’exprime est dit soumis à
l’empreinte maternelle (l’allèle transmis par l’ovule est inactif). Réciproquement, on parle
d’empreinte paternelle pour un gène dont seul l’allèle maternel s’exprime (l’allèle transmis
pas le spermatozoïde est inactif). Ainsi, les éleveurs savent depuis longtemps que le
croisement entre une ânesse et un cheval donnera un bardeau, alors que le croisement d’une
jument et d’un âne produit un mulet. Bien qu’issus de croisements entre les mêmes espèces, le
bardeau et le mulet sont des animaux très différents. Ceci démontre l’importance de
l’empreinte parentale dans la détermination des phénotypes.
72
héritable par presque toutes les cellules de l’individu durant toute sa vie. De plus, ce
phénomène est réversible au niveau des gamètes de ces individus : les allèles de A seront
inactivés chez les femelles produisant des ovules, mais pas chez les mâles produisant des
spermatozoïdes. Il s’agit donc bien d’un phénomène épigénétique (stable, réversible,
phénotypes différents mais génotypes identiques).
a1 a+ a1
x [a+]
a1 a+ a+
Deux phénotypes
pour un même
génotype.
a+ a a+
x [a1]
a+ a a1
73
Chez les mammifères, les femelles ont deux chromosomes sexuels X, soit deux fois plus que
les mâles. Ceci pourrait causer un problème de surdosage des gènes présents sur ces
chromosomes mais en réalité, seul un des X exprime ses gènes. L’autre chromosome X se
trouve sous forme de chromatine hypercondensée et est donc totalement inactif. Il est
observable en microscopie sous la forme d’une zone de chromatine très opaque qui a été
baptisée « corpuscule de Barr ». L’expression des gènes du X est donc monoallèlique. Ceci
est apparemment contradictoire avec ce qui est enseigné dans le cours LV203 quant à
l’expression des caractères liés à l’X, qui semble à l’échelle de l’individu se comporter
comme si ils avaient une expression biallèlique chez les femelles. En fait, cette contradiction
n’existe pas. En effet, contrairement à l’empreinte parentale pour laquelle les allèles inactivés
sont les mêmes dans toutes les cellules de l’individu, le choix du X à inactiver se fait
indépendamment et au hasard dans chaque cellule à un stade relativement tardif du
développement. Dans un même tissu, on trouvera donc des cellules exprimant le X d’origine
paternelle et des cellules exprimant le X d’origine maternelle, d’où l’apparence d’une
expression biallèlique à l’échelle de l’individu. Il existe toutefois des cas où l’expression d’un
allèle défectueux dans 50% des cellules va poser problème et provoquer des pathologies.
C’est ce qui se passe chez les femmes atteintes de myopathie de Duchenne (Figure II-26). La
myopathie de Duchenne est due à des mutations récessives dans le gène DMD codant la
74
dystrophine. Comme ce gène se trouve sur le chromosome X, la seule possibilité pour que des
femmes soient atteintes serait que des hommes malades aient des enfants avec des femmes
porteuses d’un allèle défectueux. Or, cette maladie provoque des handicaps graves très tôt
dans la vie de l’individu et les myopathes de Duchenne n’ont en général pas d’enfants.
Pourtant, il existe des cas de femmes atteintes de cette maladie. L’origine génétique de la
myopathie dans ces cas est une translocation réciproque d’une partie du chromosome X sur un
autosome, au niveau du gène DMD, ce qui conduit à inactiver ce gène sur le X ayant subi la
translocation. Les femmes porteuses de cette translocation possèdent également un gène
DMD actif (sur l’autre X non transloqué) et ne devraient donc pas développer la maladie.
C’est là qu’intervient l’inactivation du X. En effet, les cellules qui inactivent le X transloqué
vont posséder deux copies actives de la région transloquée (celle du X « normal » plus la
partie du X transloquée sur un autosome). Ce surdosage d’une partie des gènes présent sur le
X leur est fatal et elles meurent au cours du développement embryonnaire. L’embryon se
développe donc uniquement avec les autres cellules qui ont inactivé le X « normal » et qui
sont parfaitement viables car elles n’expriment qu’une copie des gènes présents sur le X (X
transloqué plus la partie transloquée sur un autosome). Néanmoins, ces cellules n’ont pas de
gène DMD fonctionnel puisqu’elles n’expriment que l’allèle interrompu par la translocation.
Les femmes en question sont donc déficientes pour DMD et développent la myopathie.
75
D’un point de vue moléculaire, l’inactivation d’un des deux X fait intervenir un long ARN
non codant, Xist, et des modifications de la chromatine (modifications des histones,
méthylation de l’ADN). Au stade gastrula tardif, les deux X de chaque cellule vont se
rapprocher dans le noyau. Des mécanismes moléculaires complexes vont permettre le
comptage des X par la cellule et le choix du X à inactiver. Puis les deux chromosomes vont se
séparer. L’un d’entre eux (et un seul) va se mettre à exprimer l’ARN non codant Xist qui va
peu à peu recouvrir l’ensemble du chromosome et entraîner des modifications de la
chromatine à l’origine de sa compaction et de son inactivation.
Contrairement à l’image qui en est souvent véhiculée dans nos cours, les systèmes vivants ne
sont pas des mécaniques parfaitement déterministes chez lesquelles une même cause produit
toujours les mêmes effets. Comme tous les systèmes complexes, ils sont soumis au hasard et
obéissent à la théorie du chaos, à savoir que de petites variations aléatoires microscopiques
peuvent entraîner d’importantes modifications macroscopiques. Ainsi, des cellules ayant le
même génome, les mêmes marques épigénétiques et partageant un même environnement
auront dans la majorité des cas des phénotypes très semblables, mais il y aura toujours des
variations autour de ce phénotype moyen (hétérogénéité cellulaire). Au cours de leur histoire
évolutive, les formes de vie ont appris à composer avec ce hasard, comme avec toutes les
autres contraintes physiques, et il existe aujourd’hui des réseaux de régulation génétique qui
sont capables d’amplifier les effets liés au hasard pour provoquer, au sein de populations de
cellules initialement très homogènes, des modifications spectaculaires de phénotype, sans
modification du génotype ou de l’environnement.
Le poids du hasard (on parle aussi de stochasticité) dans l’expression des gènes a été
élégamment démontré au début du siècle. Elle n’est plus contestée actuellement et est de plus
en plus prise en compte par les biologistes dans leurs modèles du fonctionnement des réseaux
génétiques.
76
VIII- Traits quantitatifs et génétique quantitative
La plupart des traits phénotypiques sont donc déterminés par des interactions entre plusieurs
allèles, plusieurs gènes, sont influencés par l’environnement et font intervenir des
mécanismes épigénétiques. Cette complexité a deux conséquences importantes.
Premièrement, la plupart des traits phénotypiques sont quantitatifs, c’est à dire que les
individus d’une population ne se classent pas dans un nombre limité de catégories
(sains/malades par exemple) mais présentent des variations continues de phénotype. C’est le
cas de la taille chez l’Homme ou de la teneur en saccharose des betteraves (Figure II-27).
Deuxièmement, il est souvent extrêmement difficile d’identifier pour un phénotype donné la
part de la génétique (on parle d’héritabilité) et la part environnementale. La figure II-28
récapitule par exemple tous les paramètres connus pour influer sur le développement de
l’obésité. Ainsi, si environ 1% des cas d’obésité ont un déterminisme exclusivement
génétique et monogénique, dans la majorité des cas cette maladie fait intervenir des facteurs
génétiques complexes (plusieurs gènes, différents selon les ethnies) ainsi que de très
nombreux facteurs environnementaux (biotiques et abiotiques) et sociaux. On parle alors de
caractère multifactoriel. Tout ceci va compliquer l’identification des gènes impliqués dans un
phénotype donné par les techniques de cartographie génétique décrites précédemment.
77
Figure II-28 : Génétique multifactorielle: l’exemple de l’obésité (d’après Mutch et Clément,
Plos Genetics 2006).
La recherche de locus impliqués dans un traits quantitatif (ou QTL pour « Quantitative Trait
Loci ») obéit aux mêmes principes généraux que les analyses de liaison classiques. On va
chercher des marqueurs génétiques dont le polymorphisme est corrélé avec des variations
significatives du trait étudié. La recherche de QTL repose donc sur des analyses de
variance/covariance entre les variations de génotype et de phénotype. Cependant, comme on a
affaire à un phénotype continu, il faudra généralement un très grand nombre d’individus
présentant à la fois un bon éventail de valeurs du trait étudié et de polymorphisme génétique.
Par exemple, une étude récente basée sur l’analyse des génotypes de 180 000 individus a
permis d’identifier 150 locus impliqués dans la détermination de la taille à l’âge adulte chez
l’Homme. Une autre difficulté de l’analyse de QTL consiste à s’affranchir autant que possible
de l’influence de l’environnement, ou au moins de pouvoir quantifier précisément cette
influence pour le trait étudié. Pour cela, il faut pouvoir estimer la variabilité du trait dans des
populations ayant des génotypes identiques mais des environnements différents et/ou
travailler avec des populations ayant des environnements identiques mais des génotypes
différents. Ces conditions peuvent être facilement réunies pour des populations élevées en
laboratoire. Pour l’Homme, c’est évidemment plus difficile à obtenir...
78
La génétique quantitative a donc été longtemps limitée par notre faible capacité à analyser le
génotype d’un très grand nombre d’individus. Ceci est en train de changer grâce aux
nouvelles technologies de séquençage, qui permettent d’avoir accès à l’ensemble de la
séquence d’un génome humain en quelques semaines. La génétique quantitative suscite donc
un regain d’intérêt car elle reste une approche extrêmement puissante pour identifier les
déterminants génétiques de caractères quantitatifs complexes.
79
Chapitre III
Analyse fonctionnelle : utilisation des systèmes modèles pour étudier la
fonction des gènes
Dans les chapitres I et II, nous avons vu comment il est possible d’identifier le ou les gènes
impliqués dans un phénotype, ainsi que de mettre en évidence les interactions entre eux.
Cependant l’identification d’un gène n’est pas une fin en soi, mais une étape pour comprendre
son rôle dans la physiologie de la cellule ou de l’organisme. C’est ce que l’on appelle
l’analyse fonctionnelle. La figure III-1 schématise les différentes étapes de l’analyse
fonctionnelle. Celles-ci nécessitent l’utilisation de systèmes modèles, cellulaires, animaux ou
végétaux. Dans ce chapitre, nous allons présenter un certain nombre de ces systèmes, avec
leurs avantages, inconvénients, et particularités.
80
I- Caractéristiques d’un bon modèle en génétique
Pour cela, une caractéristique importante des modèles génétiques est qu’ils doivent être
génétiquement modifiables afin de permettre:
• l’ insertion de séquences exogènes
• l’ inactivation totale ou partielle de gènes
• la modification du niveau ou du lieu d’expression d’un gène
81
En plus de cette propriété, la puissance d’un modèle dépend également des caractéristiques
suivantes :
• de nombreux outils et souches doivent être disponibles
• la séquence de son génome doit si possible être connue
• son maintien et sa reproduction doivent être possibles en laboratoire
• son cycle de développement ne doit pas être trop long, son entretien facile et pas
trop couteux
• pour les organismes modèles, les croisements doivent pouvoir être contrôlés
Enfin, il n’existe pas de système modèle absolu: le choix du modèle dépend de la question
posée, et chaque modèle présente ses avantages et ses inconvénients. Très souvent, au cours
d’un projet de recherche, les équipes sont amenées à utiliser plusieurs modèles différents pour
étudier un même processus.
82
La lignée cellulaire HeLa, ou plus simplement cellules HeLa, est une lignée cellulaire
cancéreuse classiquement utilisée en recherche fondamentale et médicale. Ces cellules
proviennent d'un prélèvement de métastase effectué sur une patiente atteinte d'un cancer du
col de l'utérus et décédée en 1951, Henrietta Lacks (Figure III-2). Les cellules HeLa forment
la première lignée cellulaire immortelle d'origine humaine jamais créée. Aujourd'hui encore,
soit plus de 60 ans après le décès d’Henrietta Lacks, elles sont d'un usage extrêmement
courant dans les laboratoires de recherche de biologie (plus de 60000 publications de travaux
impliquant l’utilisation de ces cellules). Néanmoins, comme tout modèle, les cellules HeLa
présentent un certain nombre d’inconvénients, dûs en particulier à leur origine cancéreuse :
(1) elles sont infectées par le papillomavirus HPV18 ; (2) elles possèdent entre 60 et 80
chromosomes, à cause d’une forte instabilité génétique ; (3) elles ne peuvent pas être infectées
par le virus VIH (absence du récepteur CD4).
Figure III-2 : A gauche, Henrietta Lacks (et son mari) dont sont issues les cellules HeLa.
A droite : flacon de culture de cellules HeLa.
L’utilisation des modèles cellulaires est multiple. D’un point de vue génétique, on peut citer
par exemple trois utilisations courantes :
L’analyse des sites de fixation d’une protéine sur la chromatine (ChIP) : le principe de la
technique ainsi que son utilisation ont été décrits dans le chapitre II de ce cours.
83
La dissection de promoteurs ou de séquences régulatrices grâce à l’utilisation de gènes
rapporteurs :
A l’image de ce qui peut être fait chez de nombreux autres organismes, en particulier
unicellulaires (bactéries, levures), les cellules de mammifères en culture peuvent être utilisées
pour étudier les régions régulatrices des gènes (Figure III-3). Pour déterminer si une région
génomique est impliquée ou non dans le contrôle de l’expression d’un gène, il est possible de
la placer dans un vecteur (plasmide) en amont d’un gène rapporteur (gène lacZ, gène de la
luciférase…) dont l’expression, après transfection de la construction dans les cellules en
culture, est mesurable au travers de l’activité catalytique de l’enzyme codée par ce gène. Cette
séquence étudiée étant présente sur un vecteur, il est facile de la manipuler moléculairement,
en particulier de la muter par mutagenèse dirigée, dans le but de déterminer les fonctions
régulatrices précises de chaque région dans cette séquence.
84
L’analyse de la fonction d’un gène par diminution de son expression (« knock-down »)
grâce à la technique d’interférence ARN :
L’ARN interférence (ARNi) est un mécanisme naturel qui a initialement été caractérisé chez
les plantes dans les années 1990 et qui consiste à inhiber l’expression de gènes cibles. Ce
mécanisme a été conservé au cours de l’évolution et a été mis en évidence chez les
mammifères en 2001. Ses principales caractéristiques sont sa spécificité et son efficacité.
L’ARN interférence repose sur la capacité de petits ARN double brin (~20pb) à réguler
l’expression des gènes en induisant une dégradation des ARNm cibles ou en bloquant leur
traduction. Dans les cellules, il existe différents types de petits ARN interférents qui se
distinguent par leur taille, leur biogenèse, leur mécanisme de régulation de l’expression des
gènes cibles: pi-ARN, miARN (micro-ARN); endo-siARN (« small interfering » ARN
endogènes). Ces petits ARN interférents interviennent notamment au cours du développement
et de la différentiation. Au laboratoire, l’interférence ARN est utilisée pour diminuer
l’expression d’un gène en produisant dans les cellules des siARN exogènes (synthétiques) qui
ciblent un gène particulier (Figure III-4). Il est possible de transfecter directement ces petits
ARN interférents dans les cellules. Cependant, chez les mammifères, l’introduction de petits
ARN interférents n’induit qu’une suppression transitoire de l’expression, de quelques jours à
deux semaines, en fonction de la quantité d’ARN transfectée et de la prolifération des
cellules. Pour obtenir une suppression plus durable de l’expression, la stratégie la plus simple
est d’utiliser un vecteur d’expression qui produit dans la cellule une molécule en épingle à
cheveux dont la structure est proche de celle d’un petit ARN interférent. Les molécules
d’ARN double brin ainsi produites sont d’abord découpées par une RNAase double brin,
Dicer, qui produit des fragments d’environ 21 nucléotides, les petits ARN interférents. Ceux-
ci sont alors incorporés sous forme simple brin dans un complexe ribonucléoprotéique
dénommé RISC (RNA-induced silencing complex), où ils servent de guide pour la
reconnaissance de la cible. Un appariement parfait avec l’ARNm cible détermine une activité
de nucléase spécifique de séquence du complexe avec la coupure endonucléolytique et la
dégradation des fragments. Un appariement imparfait avec l’ARNm cible détermine une
inhibition de la traduction de l’ARNm cible.
85
Figure III-4 : Mécanisme de l’ARN interférence (d’après Mittal el.al, Nat. Rev. Genet. 2004).
La technique d’ARN interférence est aujourd’hui très utilisée dans les laboratoires de
recherche pour étudier la fonction d’un gène. En effet, plus simple à mettre en œuvre que des
expériences d’inactivation de gènes (voir plus bas la manipulation des cellules souches dans
le modèle souris), elle peut être aussi appliquée à des études globales ou haut-débit. Par
exemple, de telles études sont menées pour identifier des gènes impliqués dans un processus
cellulaire particulier, ou des gènes dont la perte d’expression accroît ou diminue l’activité de
médicaments (Figure III-5).
86
Figure III-5 : Protocole de criblage haut-débit utilisant comme outil l’ARN interférence.
Les cellules sont mises en culture dans des plaques multi-puits puis transfectées dans chaque puits par un siARN
différent issu d’une banque couvrant l’intégralité du génome humain. Les phénotypes des cellules transfectées
sont ensuite étudiés en fonction de la question biologique posée (localisation subcellulaire de protéines d’intérêt,
activation de voies de signalisation spécifiques, survie cellulaire, profil transcriptomique,…).
87
AVANTAGES
• Cultures peu encombrantes pouvant être maintenues en laboratoire
• Temps de génération relativement court et effectifs suffisants pour des analyses statistiques
• Possibilité d’avoir de nombreuses cellules de même génotype, maintenues dans un
environnement constant ou modulable
• Nombreuses lignées disponibles (différents organismes, différents tissus)
• Manipulables expérimentalement, grande facilité d’introduction de séquences exogènes (=
transfection)
• Possibilité de congeler les cellules
INCONVENIENTS
• Lignées immortalisées, parfois polyploïdes
• Absence d’environnement cellulaire
• Nombre limité de phénotypes observables (division, croissance, adhésion, différentiation,
résistance…)
• Tous les types cellulaires ne sont pas cultivables
88
notable à une meilleure compréhension de nombreux aspects de la biologie cellulaire et
moléculaire, notamment par l’approche génétique mise en œuvre par Leland Hartwell (prix
Nobel de Médecine 2001) dès les années 1970 et 1980, qui a permis de mieux comprendre la
régulation du cycle cellulaire. Parmi les autres champs d’investigation pour lesquels S.
cerevisiae constitue un outil de choix, on peut citer les recherches menées sur les
mitochondries, les régulations métaboliques, les ARN et ADN polymérases, et plus
récemment, la génomique.
89
Figure III-7 : Cycle de développement de Saccharomyces cerevisiae.
Les cellules haploïdes se multiplient en bourgeonnant : la cellule mère bourgeonne une cellule fille plus petite
(mitose), mais possédant la même information génétique. Il existe des cellules haploïdes « a » et des cellules
haploïdes « α » qui correspondent à des signes sexuels distincts. Ces deux types de cellules ne se distinguent pas
morphologiquement mais par la phéromone qu'elles produisent : MATa ou MATα. Les phéromones libérées
permettent l'amorce du processus de fécondation en se liant à un récepteur spécifique. Ensuite c'est la fusion
entre une cellule « a » et une « α » qui donne naissance à une cellule diploïde « a/α ». Tant que l'environnement
est favorable, le diploïde se multiplie par mitose. Si les nutriments viennent à manquer, la cellule repasse alors en
phase haploïde par un processus de méiose. On obtient finalement quatre noyaux haploïdes qui sont inclus dans
les spores (ascospores) contenues dans un sac appelé asque. L'enveloppe de l'asque se rompt à maturité et libère
alors deux cellules « a » et deux cellules « α » qui peuvent recommencer le cycle.
Tout comme les modèles cellulaires cités dans le chapitre précédent, l’utilisation de la levure
permet d’analyser la présence de sites de fixation d’une protéine sur la chromatine (ChIP). Sa
manipulation aisée et les faibles distances intergéniques facilitent aussi grandement
l’identification des séquences régulatrices dont la caractérisation peut ensuite se faire par
l’utilisation de gènes rapporteurs. La levure sert aussi d’éprouvette biologique à
l’expérimentateur pour mettre en évidence ou rechercher des interactions protéine-protéine
90
grâce, entre autres, à l’utilisation du système double-hybride (décrit dans le chapitre II de ce
cours).
Néanmoins, la caractéristique majeure qui a fait le succès en génétique de S. cerevisiae est la
facilité avec laquelle il est possible de déléter, muter ou remplacer un gène précis pour ensuite
analyser le phénotype des souches mutantes obtenues. En effet, et contrairement aux modèles
mammifères ou drosophile, le processus de recombinaison homologue est extrêmement
efficace chez S. cerevisiae (Figure III-8). Suite à la publication du génome de S. cerevisiae,
l’inactivation systématique de tous les gènes a été entreprise pour en étudier la fonction. Des
expériences de sauvetage fonctionnel ou de cribles génétiques, peuvent alors être menées pour
identifier par exemple des gènes modificateurs, et construire des réseaux de gènes (voir
chapitre II de ce cours).
Figure III-8 : Inactivation ciblée de gènes chez Saccharomyces cerevisiae (d’après Klug et
al., éd. Pearson Education).
Après une 1ère étape menée in vitro, au cours de laquelle on borme un gène de résistance (KanMX) par des
séquences homologues au gène que l’on souhaite inactiver in vivo (en bleu sur le schéma), l’ADN exogène est
introduit dans des levures diploïdes par transformation. L’utilisation de levures diploïdes à ce stade permet
d’obtenir des clones même si le gène inactivé est essentiel à la survie cellulaire. Après transformation, les levures
diploïdes sont sélectionnées par l’antibiotique G418 puis mises à sporuler sur milieu carencé. L’observation du
phénotype des cellules haploïdes obtenues permet d’appréhender la fonction possible du gène ainsi inactivé.
91
En conclusion, la figure III-9 résume les principaux avantages et inconvénients du système
levure.
AVANTAGES
• Observation directe des produits de méiose
• Recombinaison homologue très efficace: manipulation du génome rapide et facile; modèle
de choix pour la génétique inverse et pour la génomique fonctionnelle
• Utilisée comme « tube à essai vivant» pour le double-hybride
• Nombreuses
espèces
apparentées,
dont
le
génome
est
séquencé,
et
manipulables
en
laboratoire:
modèle
de
choix
pour
l’étude
de
l’évolution
des
génomes
INCONVENIENTS
• Unicellulaire = peu de différentiation et de communication cellules-cellules
• Ne présente pas toutes les fonctions retrouvées chez les eucaryotes supérieurs
• Apoptose rudimentaire
• Pas de méthylation de l’ADN
• A perdu la machinerie pour l’ARN interférence
La drosophile de l’espèce Drosophila melanogaster est l’un des modèles les plus
anciennement utilisés en génétique. Les premiers travaux sur cet organisme ont en effet été
réalisés dès le début du XXème siècle par Thomas Morgan et son équipe. Ces travaux ont
permis de mettre en évidence pour la première fois la recombinaison génétique par crossing-
over, ainsi que de réaliser la première carte génétique et de définir la notion de distance
génétique (dont l’unité a été baptisée centiMorgan). Le modèle drosophile a également permis
de montrer l’existence de chromosomes sexuels et de réaliser la première carte cytogénétique
de chromosomes.
92
La drosophile est aussi depuis longtemps un modèle de choix pour l’étude de la génétique du
développement. Les travaux réalisés en particulier par Edward Lewis, Christiane Nusslein-
Wolhard, Eric Wieschaus, et leurs collaborateurs, dans les années 1940 à 1980, ont permis de
mettre en évidence et de comprendre le fonctionnement de la cascade de gènes impliqués dans
le contrôle génétique du développement précoce de la drosophile. Ces travaux ont été
récompensés par l’attribution d’un prix Nobel en 1995.
Avec l’essor de la biologie moléculaire à partir des années 1970, la drosophile a de nouveau
été un organisme pilote pour la mise au point et l’utilisation de différentes techniques de
génétique moléculaire (clonage, marche sur le chromosome, transgenèse…). C’est également
le premier organisme animal dont le génome a été complètement séquencé et publié en 2000.
La drosophile est une petite mouche d’environ 2mm de long (Figure III-10A) appartenant à
l’ordre des diptères (une seule paire d’ailes). Comme tous les insectes, son corps est
constitué :
• D’une
tête
portant
différents
appendices
(une
paire
d’antenne,
une
paire
d’yeux
composés,
différents
types
d’appendices
buccaux).
• D’un
thorax
constitué
de
trois
segments
:
chacun
d’entre
eux
porte
ventralement
une
paire
de
pattes.
Dorsalement,
le
second
segment
thoracique
porte
une
paire
d’ailes,
et
le
troisième
porte
une
paire
de
balanciers
ou
haltères,
qui
sont
des
rudiments
d’ailes
et
servent
à
l’équilibre
pendant
le
vol.
• D’un
abdomen
constitué
de
huit
segments
dépourvus
d’appendice.
La drosophile est un animal d’élevage très simple et peu couteux en laboratoire. Les adultes
sont élevés dans des petits tubes de 2 cm de diamètre pouvant contenir jusqu’à plusieurs
centaines d’individus. Ces tubes contiennent un milieu nutritif à base de levure, d’agar, de
farine de maïs, et sont placés dans des étuves (de 18°C à 25°C). La totalité du cycle de
développement de la drosophile est réalisée dans le même tube. Les adultes se nourrissent de
du milieu, y pondent leurs œufs, les larves s’y développent jusqu’à l’éclosion de nouveaux
adultes (Figure III-10B).
93
A B
Développement
pupal
5
jours
=jeune
embryon
Embryogenèse
(5j) 1
jour
(2j)
(1j)
Développement (1j)
larvaire
4
jours
94
mois). De plus, le cycle de développement est très rapide pour un animal puisqu’il dure
environ 10 jours à 25°C. Par contre, un de ses gros inconvénients comparé à d’autres
organismes modèles (levure, nématode, souris) est qu’on n’arrive à la congeler à aucun stade
de son développement. Par conséquent, les lignées d’intérêt doivent en permanence être
maintenues vivantes par croisements. Pour pallier partiellement à ce problème, il existe dans
le monde plusieurs laboratoires qui maintiennent vivantes de très nombreuses lignées. Celles-
ci sont disponibles pour l’ensemble de la communauté scientifique.
Les œufs pondus par les femelles sont déjà fécondés. L’embryogenèse, qui dure un jour à
25°C, débute par plusieurs divisions nucléaires rapides (une division toutes les 10 minutes
environ) et synchrones qui se passent sans division cellulaire. Ceci aboutit à la formation d’un
syncitium, ou blastoderme syncitial. Au cours des cycles de division suivants, un certain
nombre de noyaux migrent au pôle postérieur de l’embryon, où ils formeront les cellules
polaires, qui sont les précurseurs des cellules de la lignée germinale. Les autres noyaux
migrent à la périphérie et donneront les cellules somatiques. Les noyaux s’entourent ensuite
d’une membrane cellulaire. Puis l’embryogenèse se poursuit par différents mouvements de
gastrulation. A la fin de l’embryogenèse, il y a éclosion d’une larve de premier stade. C’est le
début de la vie larvaire, qui dure environ quatre jours à 25°C et consiste en une succession de
trois stades larvaires séparés par des mues. Les larves sont très actives, se nourrissent du
milieu et s’y déplacent. A la fin du dernier stade larvaire, la larve s’emballe dans une sorte de
cocon appelé pupe, qu’elle secrète grâce à ses glandes salivaires. C’est à l’intérieur de la pupe
que se déroule, pendant le stade pupal (5 jours à 25°C), la métamorphose. En effet la
drosophile est un insecte holométabole, c'est-à-dire, comme le papillon, à métamorphose
complète. Au cours de la vie pupale, il y a destruction des structures larvaires et mise en place
des structures adultes. Les structures adultes sont issues d’îlots de cellules particuliers,
présents chez la larve, qu’on appelle les disques imaginaux. Au bout de cinq jours, un adulte
qui sera sexuellement mature au bout de quelques heures émerge de la pupe.
III-2-1-3-Constitution génétique
95
chromosomes I, II et III sont grands et contiennent la majorité des gènes. Le chromosome IV,
beaucoup plus petit, est constitué majoritairement d’hétérochromatine (chromatine
condensée) et ne porte que peu de gènes. Une particularité génétique de la drosophile est
l’absence de crossing-over chez le mâle.
Le génome haploïde de la drosophile est constitué de 180 Mb, dont environ 120 Mb
d’euchromatine et 60 Mb d’hétérochromatine. Il contient environ 13000 gènes codant des
protéines, dont la taille moyenne est d’environ 10 kb. Si on compare le génome de la
drosophile avec celui de l’homme, qui comporte 3300 Mb et contient environ 26000 gènes
codant des protéines, on constate que le génome de drosophile est 18 fois plus petit que le
génome humain, mais contient seulement deux fois moins de gènes. Cet apparent paradoxe
est dû aux différences d’organisation de ces deux génomes (taille et organisation des gènes,
taille des régions régulatrices, des régions intergéniques, taille et abondance des séquences
répétées,…). Ces notions ont été traitées de manière détaillée dans le cours de génétique de
l’UE LV203 « Biologie Moléculaire et Génétique I ».
Au cours de la vie larvaire, les chromosomes de drosophile acquièrent dans certains organes
une structure particulière : on parle de chromosomes géants, ou chromosomes polytènes. Les
chromosomes polytènes ne sont pas spécifiques de la drosophile puisqu’ils existent chez
d’autres diptères. Différents organes de la larve sont concernés, dont les glandes salivaires. La
polyténie est due au fait que, dès la fin de l’embryogenèse, l’ADN des cellules de ces organes
larvaires se réplique sans que se produise de séparation des chromatides sœurs et sans division
cellulaire. On appelle ce type de division une endoréplication. Dans les glandes salivaires,
les chromosomes subissent ainsi, au cours de la vie larvaire, 9 cycles d’endoréplication.
Chaque chromosome homologue est donc constitué, en fin de troisième stade larvaire, de
29=512 chromatides appariées. De plus, dans ces cellules, les deux chromosomes homologues
restent appariés l’un à l’autre, aboutissant à la formation d’un chromosome très épais
constitué de 512x2=1024 chromatides. Enfin, les chromosomes polytènes sont moins
condensés que des chromosomes normaux. Ces chromosomes, étant plus épais et moins
condensés que des chromosomes normaux, sont donc beaucoup plus observables en
microscopie.
96
Après dissection des glandes salivaires, les chromosomes polytènes peuvent être étalés sur
lame et colorés avec des colorants de l’ADN. Cette coloration révèle des bandes plus ou
moins sombres, reproductibles, qui résultent d’un niveau de compaction de l’ADN variable
suivant les régions chromosomiques (Figure III-12A). Ce sont ces expériences qui ont permis
à Calvin Bridges d’établir, en 1935, une carte cytologénétique des chromosomes de
drosophile, toujours utilisée aujourd’hui. Une correspondance a pu être établie entre cette
carte et les cartes génétique et physique du génome de la drosophile (Figure III-12B). Les
chromosomes polytènes permettent aussi d’étudier, par immunohistochimie, la fixation de
protéines à la chromatine (Figure III-12C).
A B C
Les chromosomes balanceurs sont des chromosomes remaniés qui portent de nombreuses
inversions, délétions, translocations,…. Ils ont été générés par exposition des drosophiles à de
fortes doses de rayonnements ionisants (rayons X par exemple). Il existe différents
chromosomes balanceurs pour chacun des chromosomes X, II, III, qui sont maintenus dans
des lignées de drosophile. Les remaniements ont inactivé un ou plusieurs gènes essentiels, par
conséquent ces chromosomes sont généralement létaux à l’état homozygote. De plus, tous les
chromosomes balanceurs portent une mutation qui confère un phénotype morphologique
dominant, c'est-à-dire visible à l’état hétérozygote. Ce phénotype peut concerner la forme des
ailes, la taille des soies, la morphologie de l’œil,…. (Figure III-13).
97
A B
chromosome sauvage
chromosome
balanceur
(porteur
d’une
inversion)
appariemment en
méiose
et
crossing-‐over
localisé
entre
C
et
D
98
De plus, la mutation à effet dominant permet de marquer le chromosome balanceur et donc de
le suivre au cours des générations à l’état hétérozygote. Un des intérêts des chromosomes
balanceurs est de pouvoir conserver, à l’état hétérozygote (c'est-à-dire un chromosome normal
face à un chromosome balanceur) des mutations qui sont létales ou stériles à l’état
homozygote, et ceci sans risque de les perdre au cours des générations (Figure III-15).
A: La mutation aL est maintenue face à un chromosome II sauvage portant l’allèle a+
aL/aL [létal]
Femelle
aL/a+
X
Mâle
aL/a+ aL/a+
[viable,
pas
de
phénotype
mutant]
B: La mutation aL est maintenue face à un chromosome II balanceur Cy0 portant l’allèle a+
aL/aL [létal]
Cy0-‐a+/Cy0-‐a+ [létal]
Figure III-15 : Intérêt des chromosomes balanceurs pour conserver une mutation létale
à l’état homozygote.
Soit aL une mutation conférant une létalité à l’état homozygote, et a+ l’allèle sauvage correspondant. Les
drosophiles aL/a+ sont viables, ce qui permet de conserver la mutation aL à l’état hétérozygote, en croisant des
mâles et des femelles. Les hétérozygotes aL/a+ n’ont aucun phénotype qui les distingue des homozygotes a+ /a+.
(A) Si la mutation aL est conservée face à un chromosome normal, à chaque génération on obtient des
descendants a+/aL et a+/a+ qu’on ne peut pas distinguer phénotypiquement. Il y a donc un risque de perdre
l’allèle aL au cours des générations. (B) Si la mutation aL est conservée face à un chromosome balanceur (ici
Cy0, voir figure III-4), les seuls descendants viables sont les hétérozygotes aL/Cy0-a+, facilement
reconnaissables grâce à leur phénotype d’ailes recourbées.
99
années 1980 permet d’insérer dans le génome des séquences exogènes (transgenèse), mais
également d’inactiver des gènes (mutagenèse). Cette méthode est basée sur l’utilisation d’un
transposon de drosophile, l’élément P. Les transposons sont des éléments mobiles capables
de se déplacer dans le génome (voir le polycopié de cours de l’UE LV203 pour plus
d’information sur les transposons).
: répresseur
: transposase
Afin d’utiliser l’élément P comme vecteur de transgenèse, des vecteurs dérivés de celui-ci
sont produits par clonage moléculaire (Figure III-17). Le premier vecteur contient le
transgène que l’on souhaite intégrer dans le génome, entouré des pieds de P. Il contient aussi
un gène marqueur (par exemple l’allèle sauvage du gène white, impliqué dans la
100
pigmentation des yeux : voir chapitre II). Ce gène permettra par la suite d’identifier les
individus transgéniques. La partie d’ADN de ce premier vecteur comprise entre les deux pieds
de P pourra donc s’intégrer dans l’ADN génomique en présence de transposase. Le second
vecteur (appelé plasmide « helper ») contient le gène codant la transposase de P. Par contre,
il contient des pieds tronqués qui ne sont plus reconnus par la transposase. La partie d’ADN
de ce second vecteur comprise entre les deux pieds de P défectueux ne pourra donc pas
s’intégrer dans l’ADN génomique, même en présence de transposase. Ce second vecteur est
en fait utilisé pour assurer la synthèse de transposase permettant au premier vecteur,
portant le transgène, de s’intégrer dans le génome. Une fois intégré dans le génome, ce
premier vecteur ne pourra plus bouger puisque les cellules ne produiront plus de transposase.
En effet, le plasmide « helper » est perdu au cours des divisions cellulaires car il ne peut ni
s’intégrer à l’ADN génomique, ni se répliquer de manière autonome dans les cellules de
drosophile. La séparation du transgène et de la transposase sur deux vecteurs différents
permet dont de s’assurer de la stabilité des insertions du transgène.
Figure III-17 : Structure des vecteurs utilisés pour la transgénèse et première étape du
protocole de transgénèse : injection des embryons et obtention des adultes G0.
En haut : Structure des deux vecteurs utilisés. ORI (origine de réplication) et AmpR (gène de résistance à
l’ampicilline) sont les éléments permettant de produire les plasmides dans des bactéries.
Au milieu : Injection d’un mélange des 2 vecteurs dans les cellules germinales d’embryons muté pour le gène
white (allèle w1118). Le gène white est sur le chromosome X, le génotype de ces embryons est indiqué à gauche.
En bas : Adultes G0 issus des embryons injectés : ils ont tous les yeux blancs. Certains d’entre eux ont pu
intégrer le transgène et le gène marqueur w+ sur l’un des chromosomes de certaines de leurs cellules gerrninales
(génotypes possibles de ces cellules indiqué à droite).
101
Comme le montre la figure III-17, ces deux vecteurs sont mélangés, et injectés dans de très
jeunes embryons non encore cellularisés (stade blastoderme syncitial), au pôle postérieur où
se trouvent les futures cellules germinales. Il faut en effet, afin que le transgène soit transmis
aux descendants et qu’il soit possible de fabriquer une lignée transgénique, que l’insertion ait
lieu dans l’ADN génomique de cellules germinales et pas de cellules somatiques. Ces
embryons portent une mutation perte de fonction totale pour le gène white (allèle w1118). A
l’issue de cette injection, les embryons injectés éclosent en adultes (adultes G0) dont les yeux
sont blancs car leurs cellules somatiques portent l’allèle w1118. Certains de ces adultes
pourront avoir intégré le morceau d’ADN portant le transgène et le gène marqueur w+ dans
l’ADN génomique de certaines de leurs cellules germinales. On dit qu’ils possèdent une
lignée germinale mosaïque. Cette insertion, étant aléatoire, peut avoir eu lieu a priori en
n’importe quel endroit de n’importe quel chromosome. Dans la pratique, on constate
cependant que l’élément P a des sites préférentiels d’insertion, tandis que d’autres locus ne
sont jamais touchés. Ceci est sans doute lié à des structures particulières de la chromatine au
niveau de ces locus (chromatine très condensée).
102
lignée
germinale
Adultes
G0
à
mosaïque
yeux
blancs
x
w1118 x
w1118 x
w1118
[w]
L’élément P permet également d’inactiver les gènes : en effet, s’il s’insère à l’intérieur d’un
gène (dans les régions régulatrices ou codantes), il peut inactiver celui-ci. La technique
permettant de générer, par insertion aléatoire d’élément P, d’éventuels mutants, s’appelle la
mutagenèse à l’élément P. Des collections de lignées, ayant intégré un élément P quelque
part dans le génome, ont ainsi été générées. Pour un certain nombre d’entre elles, cet élément
a été localisé dans le génome, et on peut ainsi savoir quel gène est touché. Grâce à l’existence
de ces lignées disponibles dans la communauté scientifique, les chercheurs travaillant sur des
gènes particuliers disposent de mutants, le plus souvent perte de fonction partielle ou totale
suivant le site d’insertion de l’élément P.
103
génome par transgenèse à l’élément P. La protéine GAL4 est un activateur transcriptionnel de
levure. Elle agit en se fixant à une séquence « enhancer » particulière localisée en amont du
promoteur de transcription, la séquence UAS (« Upstream Activating Sequence »). Chez la
levure, GAL4 permet d’activer l’expression des gènes impliqués dans la dégradation du
galactose.
Les transgènes dont on veut contrôler l’expression sont clonés en aval d’un promoteur
minimal de transcription et d’une séquence UAS (Figure III-19). Dans une lignée contenant
un tel transgène, celui-ci ne s’exprime pas car il n’y a pas de protéine GAL4. Pour déclencher
l’expression du transgène, on croise cette lignée par une seconde lignée transgénique, appelée
lignée pilote (ou « driver »). La lignée pilote contient, quelque part dans son génome, un
transgène possédant le gène codant GAL4 sous contrôle d’un promoteur drosophile
particulier : il existe de très nombreuses lignées pilotes différentes avec GAL4 sous contrôle
de promoteurs ubiquitaires, tissus spécifiques, stade de développement spécifique, inductibles
par choc thermique….Le choix de la lignée pilote utilisée dépend de la question biologique
posée. Les descendants de ce croisement synthétisent, dans certaines cellules ou à certains
stades de développement, la protéine GAL4, qui peut alors se fixer sur la séquence UAS en
amont du transgène et déclencher la transcription de celui-ci. On pourra ainsi étudier chez ces
individus l’effet de l’expression du transgène dans un type cellulaire précis, ou à un stade
particulier du développement (vie embryonnaire, larvaire, pupale, adulte).
104
III-2-4-Conclusion : avantages et inconvénients du modèle drosophile
AVANTAGES
• Cycle de développement court, conditions d’élevage faciles (faible coût, faible
encombrement)
• Possibilité de croisements contrôlés, grandes descendances
• Nombreuses collections de mutants disponibles pour la communauté scientifique
• Nombreux outils de manipulation génétique (transgenèse aléatoire, mutagenèse,
surexpression…)
• Génome compact, bien annoté
• Processus cellulaires et développementaux de base bien conservés entre la Drosophile et
l’homme (67% de conservation entre le protéome de l’homme et celui de la drosophile)
INCONVENIENTS
• Organisme qu’on ne sait congeler à aucun stade de son développement
• Protocoles d’inactivation ciblée de gène par recombinaison homologue difficiles à mettre en
oeuvre et peu efficaces
• Organisme trop éloigné de l’homme concernant l’étude de certains processus
physiologiques
Cet organisme, classiquement utilisé depuis de très nombreuses années par les généticiens
pour étudier les mécanismes de nombreux processus cellulaires et développementaux, est
aujourd’hui de plus en plus souvent utilisé pour développer des modèles d’études de certaines
pathologies humaines.
105
III-3- La souris Mus musculus
Les biologistes se sont intéressés à la souris plutôt qu’à d’autres modèles mammifères pour de
multiples raisons. Tout d’abord, parce qu’il s’agit d’un mammifère de très petit format (25 à
30 grammes à l’âge adulte) facile à élever en captivité. En particulier, la mise au point d’une
formule couvrant l’ensemble de ses besoins nutritionnels ne pose aucun problème et ne coûte
pas très cher. D’autre part, la souris possède un avantage déterminant par rapport à d’autres
modèles mammifères tels que le rat, le lapin ou le porc qui est celui de supporter très bien la
consanguinité. Or, cette caractéristique a permis d’établir et de maintenir des lignées pures
dans lesquelles tous les animaux sont génétiquement identiques. Ces lignées,
génétiquement standardisées, ont été utilisées notamment pour cartographier le génome de la
souris. Enfin, et comme nous le verrons plus loin, la souris présente une extraordinaire
plasticité embryonnaire permettant à l’expérimentateur de modifier à façon son génome
(production de souris transgéniques) : il peut en effet introduire au hasard un fragment d’ADN
exogène (transgénèse classique) ou effectuer une mutagénèse dirigée (transgénèse ciblée) à
l’aide de cellules souches embryonnaires (cellules ES), et choisir le moment et le tissu où la
modification génétique sera opérationnelle.
106
Pour toutes ces raisons, la souris constitue un modèle expérimental de choix pour étudier des
problématiques biologiques variées (physiologie, développement, immunologie, maladies
humaines).
Le génome de Mus musculus est réparti sur 19 paires d’autosomes et une paire de
chromosomes sexuels (XX pour les femelles ou XY pour les mâles).
Le génome haploïde de la souris est constitué d’environ 2,5.109 paires de base et contient
environ 25000 gènes codant des protéines. Il donc est légèrement plus petit que le génome
humain (3.109 paires de bases) mais contient un nombre similaire de gènes. L’organisation de
ces deux génomes est en outre très similaire. 99% des gènes de la souris ont un homologue
dans le génome de l’homme. Cela signifie que seulement 1% des gènes de souris n’ont pas
d’homologues dans la séquence humaine. Ces gènes ont soit été perdus au cours de
l’évolution, soit ont évolué de telle façon qu’ils ne soient plus reconnus par les programmes
d’alignement de séquence. On observe en revanche dans le génome de la souris des dizaines
d’expansions locales de familles de gènes (gènes paralogues, voir chapitre IV) dont la plupart
sont impliqués dans la reproduction, l’immunité et l’olfaction, ce qui suggère que les
systèmes physiologiques impliqués dans ces trois fonctions ont été l’objet d’innovations
spécifiques au cours de l’évolution des rongeurs.
107
III-3-2-Plasticité embryonnaire
Pendant les 4 premiers jours qui suivent la fécondation de l’œuf de la souris, l’embryon est
libre dans l’oviducte puis dans l’utérus. On parle de période préimplantatoire (Figure III-21).
Durant cette période, le volume de l’embryon est identique du stade 1-cellule au stade
blastocyste et les mitoses successives se traduisent par l’apparition de cellules de plus en plus
petites.
108
mâles vasectomisés (stérilisés après section des canaux déférents qui transportent les
spermatozoïdes), accouplement qui a pour conséquence d’induire une pseudo-gestation et de
maintenir la sécrétion de progestérone indispensable à l’implantation de l’embryon dans
l’utérus. Un embryon exogène peut ainsi être transféré dans ces souris pseudo-gestantes qui le
porteront comme si l’embryon était issu de la fécondation d’un de leur propre ovocyte. Il est
important de noter néanmoins que dans ce cas, la constitution génétique de l’embryon est
distincte de celle de la « mère porteuse ».
De même, il est possible d’obtenir après manipulation des embryons de souris chimères
(organismes qui possèdent deux ou plusieurs clones cellulaires aux génotypes distincts) à
partir de l’agrégation d’embryons prélevés au stade 8 cellules (stade au cours duquel toutes
les cellules embryonnaires sont identiques et non différenciées). Les deux embryons à ce
stade peuvent en effet se joindre l’un à l’autre pour ne former, 24 heures plus tard, qu’un seul
amas de cellules embryonnaires. Si, comme dans l’exemple de la figure III- 22B, un embryon
est issu d’un croisement de deux souris de la lignée BALB/c (de génotype TyrC/TyrC,
conférant un phénotype albinos) et l’autre issu d’un croisement de deux souris de la lignée
C57BL/6 (de génotype Tyr+/Tyr+, conférant un phénotype pigmenté), l’amas qui résulte de
l’agrégation des deux embryons comptera en son sein des cellules de génotype TyrC/TyrC et
des cellules de génotype Tyr+/Tyr+. Cet amas peut ensuite être implanté dans le tractus génital
d’une femelle pseudo-gestante, où son développement se poursuivra normalement pour
donner un individu viable et fertile. Cet individu, issu de 4 parents (2 parents BALB/c et 2
parents C57BL/6) et constitué de cellules provenant de deux œufs différents, est appelé
chimère et son génotype est noté (TyrC/TyrC <-> Tyr+/Tyr+). Le chimérisme est dans ce cas
visible puisqu’il se traduit par la cohabitation dans un même individu de cellules conduisant à
l’apparition d’un phénotype albinos et de cellules conduisant à l’apparition d’un phénotype
pigmenté. Le fait que les deux phénotypes soient observables traduit le fait que les deux
génotypes peuvent s’exprimer dans tous les tissus de l’individu chimère, c’est-à-dire que les
cellules de chaque embryon initial peuvent se retrouver dans l’ensemble des tissus de
l’individu final. On dit alors que le développement embryonnaire de la souris est
polyclonal, c’est-à-dire que plusieurs cellules, et non pas une seule, de l’embryon précoce
sont à l’origine de la formation de l’animal et de ses annexes embryonnaires.
109
Figure III- 22 : Plasticité des embryons précoces de souris (d’après Panthier et al. éd. Belin).
(A) Production de 2 souris à partir d’un seul œuf fécondé. (B) Production de souris chimères par agrégation
d’embryons précoces.
Les embryons différenciés au stade blastocyste constituent une source de cellules précieuses
pour les généticiens. En effet, si l’on dépose dans des boites de culture, sur un tapis de
cellules nourricières (fibroblastes), des blastocystes (stade 64 cellules), on observe parfois que
les cellules du trophectoderme s’aplatissent et que les cellules de la masse cellulaire interne
prolifèrent activement pour former des grappes (Figure III- 23). Ces cellules issues de la
masse interne possèdent les 2 caractéristiques majeures des cellules souches : (1) elles sont
capables d’auto-renouvellement pendant des périodes illimitées ; (2) elles peuvent produire
110
des types cellulaires hautement différenciés, lorsqu’elles sont placées dans un environnement
approprié. Pour ces raisons, ces cellules dites totipotentes (= propriété d’une cellule de se
différencier en n’importe quelle cellule spécialisée et de se structurer en formant un être
vivant multicellulaire) sont appelées cellules souches embryonnaires ou cellules ES
(« Embryonic Stem cells »).
Figure III- 23 : Isolement et caractéristiques des cellules ES.
L’intérêt des cellules ES ne se limite pas à leur capacité à se différencier in vitro. En effet, ces
cellules peuvent être manipulées génétiquement in vitro (voir ci-dessous, la partie transgénèse
ciblée), mais surtout elles peuvent être, après isolement et manipulation, ré-introduites dans
un blastocyste hôte pour générer une souris chimère (Figure III- 24). Ces premiers travaux
que l’on doit à l’équipe de Martin J. Evans ont été récompensés par l’obtention du prix Nobel
de physiologie et médecine en 2007.
111
Figure III- 24 : Formation de souris chimères par implantation de cellules ES dans un
blastocyste hôte (d’après Panthier et al. éd. Belin).
(a) Les cellules ES sont issues d’un blastocyste agouti (génotype A/A). Le blastocyste hôte est non-agouti
(génotype a/a). La couleur indique les tissus (ici le pelage) qui ont été colonisés par des cellules ayant pour
origine une cellule ES. (b) Lorsque des cellules issues des cellules ES injectées (A/A) ont colonisé la lignée
germinale de la chimère, le croisement d’un individu a/a permet d’obtenir des souriceaux de génotype A/a qui
comprennent un jeu de chromosomes du géniteur a/a et un jeu de chromosomes issu des cellules ES injectées
dans lesquelles une modification génétique a éventuellement été introduite in vitro (voir section suivante).
Il est important de noter que parmi les blastocystes injectés puis transférés dans l’oviducte
d’une femelle pseudo-gestante, seuls environ 50% se développeront à terme. Parmi les
individus issus des blastocystes injectés, environ 50% seront des individus chimères
constitués, dans des proportions variables, de cellules issues à la fois des cellules du
blastocyste hôte (contenant ses propres cellules ES) et des cellules ES injectées. Pour
caractériser les proportions dans lesquelles les cellules ES ont participé à l’élaboration des
tissus de l’individu chimère, on parle de degré de chimérisme. Le marqueur le plus utilisé
pour évaluer ce degré de chimérisme est la couleur du pelage (Figure III- 24). De manière à
expliciter simplement cette notion, on considère qu’un degré de chimérisme égal à 0 signifie
que les cellules ES injectées dans le blastocyste n’ont pas participé au développement du futur
individu (ce cas de figure apparaît dans environ 50% des cas). Par opposition, un degré de
chimérisme égal à 100 signifie que seules les cellules ES injectées (et non celles déjà
présentes dans le blastocyste injecté) ont participé au développement du futur individu (ce cas
de figure extrême n’apparaît jamais). Sur la figure III- 24, nous voyons que 50% du pelage de
112
la souris chimère est de couleur agouti (génotype A/A) et 50% de couleur non-agouti
(génotype a/a). Le degré de chimérisme est dans ce cas égal à 50. On considère en général que
la même proportion de cellules issues des cellules ES se retrouve dans l’ensemble des tissus
de la souris chimère. En particulier, on considère que la lignée germinale de la souris chimère
est composée à 50% de cellules de génotype A/A et de 50% de cellules de génotype a/a.
Néanmoins, cela est une considération un peu subjective qui permet de caractériser
visuellement les souris d’intérêt, car l’implication exacte des cellules ES injectées ou issues
du blastocyste hôte peut varier en fonction des tissus.
L’essor important ces dernières années et la popularité des modèles génétiques souris sont
aussi dus à la possibilité, contrairement au modèle drosophile, de procéder à la
cryoconservation dans l’azote liquide soit des cellules souches, soit des ovocytes, soit des
spermatozoïdes, soit des embryons de souris eux-mêmes. Cette technique de cryoconservation
permet ainsi de maintenir les lignées de souris intéressantes pour une durée quasi infinie. De
plus, et compte tenu de la physiologie des souris, seules quelques semaines sont nécessaires
entre la décongélation et l’obtention d’un stock d’individus sous une forme « respirante »,
prêt à l’expérimentation.
Un animal transgénique est un animal dont le génome a été modifié suite à une intervention
humaine. Ces modifications doivent être transmissibles d’une génération à l’autre et donc
impliquer une transmission germinale.
113
De nombreux modèles de souris transgéniques ont été développés depuis les années 1990. Ces
modèles ont par exemple servi pour :
• Etudier le rôle pathologique et/ou physiologique d’un gène in vivo.
• Comprendre la fonction de différents gènes dans le contexte complexe d’un organisme
entier.
• Etudier l’expression et la régulation de gènes pour identifier les séquences régulatrices
et caractériser la spécificité éventuelle du promoteur.
• Développer des modèles mammifères de maladies humaines (cancer, obésité,…) pour
confirmer le rôle d’une mutation et tester des stratégies thérapeutiques.
La transgénèse classique par injection d’ADN linéaire a pour objectif en général d’étudier la
fonction d’un gène en le sur-exprimant dans l’organisme modèle. Dans le cas général, le
transgène contient la séquence codante du gène d’intérêt (ADNc), précédée du promoteur
endogène ou bien d’un autre promoteur conférant une expression forte, suivi d’un terminateur
transcriptionnel et d’une séquence de poly-adénylation (Figure III- 25a-b). Alternativement,
ce type de transgénèse peut permettre d’étudier des séquences régulatrices, voire de partir à la
recherche de séquences enhancers. Pour cela, l’ADNc correspondalors à celui d’un gène
rapporteur (Figure III- 25c).
114
Figure III- 25 : Exemples de transgènes.
(a) Le gène d’intérêt est exprimé sous le contrôle d’un promoteur fort ubiquitaire (= exprimé dans tous les
tissus). Ce type de transgène permet de mesurer l’effet de la surexpression d’un gène au niveau d’un organisme
entier. (b) Le gène d’intérêt est exprimé sous le contrôle d’un promoteur qui ne s’exprime que dans certains
tissus et non la totalité de l’organisme. (c) Ce type de transgène permet d’étudier la fonction du promoteur et son
caractère ubiquitaire ou tissu-spécifique en mettant sous son contrôle un gène rapporteur de type bêta-
galactosidase ou GFP (« Green Fluorescent Protein »).
115
Figure III- 26 : Micro-injection des embryons de souris (d’après Panthier et al. éd. Belin).
Les souris transgéniques de première génération (issues des embryons injectés) obtenues puis
sélectionnées selon les critères définis par l’expérimentateur seront dites fondatrices et notées
F0. C’est en effet à partir de cette première génération que seront établies les futures lignées
de souris transgéniques. Pour cela, les souris F0 sont croisées avec des animaux de génotype
sauvage (+/+). Le transgène est alors transmis de façon mendélienne à 50% de la
descendance. Les animaux F1 hémizygotes pour le transgène peuvent alors être croisés entre
eux pour obtenir une lignée pure homozygote (F2). La lignée est alors maintenue en croisant
entre eux des individus Tg/Tg (Tg = Transgène). Comme indiqué précédemment, il est aussi
possible de congeler les embryons transgéniques pour assurer une conservation de longue
durée.
Comme toute technique, la transgénèse classique par injection présente des avantages et des
inconvénients :
Avantages :
• Technique relativement efficace : de nombreux souriceaux transgéniques peuvent être
produits dans une seule expérimentation.
• Technique relativement simple : biologie moléculaire + élevage de souris mères
donneuses pour les zygotes + élevage de souris mères porteuses pour les zygotes
micro-injectés.
• Technique relativement rapide : de 1 an à 1 an et 1/2 pour générer des souris
transgéniques fondatrices.
116
Inconvénients :
• L’insertion aléatoire peut provoquer des artefacts expérimentaux : gène endogène
muté par l’insertion du transgène, insertion du transgène dans une zone conférant un
profil d’expression particulier…
• La surexpression peut renseigner sur la fonction du gène mais son interprétation doit
rester prudente : le gène n’est pas exprimé dans son contexte physiologique.
117
Insertion
d’un
gène
de
résistance
à
Les
séquences
flanquantes sont
un
antibiotique
en
remplacement
conservées
pour
permettre
la
d’exons
fonctionnellement
recombinaison
homologue
importants
Gène cible
neor
Vecteur
Figure III- 27 : Construction d’un transgène utilisé dans une expérience de « knock-
out ».
118
Mise
en
culture
de
cellules
ES Entrée
du
transgène dans
les
Dans
certaines
cellules
ES,
à
partir
de
souris
de
la
lignée cellules
ES recombinaison
homologue
par
électroporation entre
le
transgène et
le
gène
endogène
ciblé
(sur
1
seul
chromosome)
Afin de sélectionner les cellules ES qui ont intégré le transgène, à l’image de ce que l’on fait
chez les bactéries ou les levures, les cellules ES sont étalées, après transfection, sur un milieu
contenant l’antibiotique de sélection. Ainsi, seules les cellules ayant intégré le transgène
survivront. Un problème majeur se pose néanmoins. En effet, contrairement au modèle
levure, le taux de recombinaison homologue observé dans les cellules mammifères est
extrêmement faible. Cela signifie que, majoritairement, l’intégration du transgène dans le
génome de l’hôte ne se fera pas par recombinaison homologue au locus ciblé mais par
intégration aléatoire dans des régions non spécifiques du génome. Pour distinguer entre ces
deux types d’évènement, une étape indispensable de sélection (=criblage) est nécessaire.
119
ont des spécificités de substrats légèrement différentes, ce qui a permis le développement de
molécules antivirales telles que le gancyclovir (GANC), dont l’utilisation beaucoup plus
efficace par les enzymes TK virales entraine la production d’un analogue toxique de la
thymidine. Ainsi, des cellules qui expriment le gène TK viral sont tuées dans un milieu
contenant du gancyclovir tandis que les cellules ne portant que leur propre gène TK survivent.
Comme illustré sur la figure III- 29, cette astuce permet de contre-sélectionner les cellules qui
ont conservé les copies du gène TK viral. Or, cette conservation ne peut se faire que si le
transgène s’est intégré de manière aléatoire et non via la recombinaison homologue entre les
régions d’homologie présentes sur le vecteur et le locus ciblé. Après ce crible, le génotype des
cellules ES ainsi enrichies et qui ont normalement subi un évènement de recombinaison
homologue doit être confirmé par des techniques de biologie moléculaire (PCR, Southern
blot, séquençage). Les clones alors sélectionnés sont ensuite amplifiés en vue d’être injecté
dans les bastocystes qui permettront l’établissement de la lignée transgénique. A cette étape,
les cellules ES sélectionnées peuvent être congelées et donc conservées quasi indéfiniment.
120
Etape 5 : Injection des cellules ES des clones sélectionnés à l’étape 4 dans des
blastocystes, issus de souris sauvages hôtes.
L’objectif de cette étape est d’obtenir des souris chimères comme décrit dans la figure III- 24.
En effet, comme il n’est pas possible d’obtenir un organisme entier juste à partir des cellules
ES mises en culture, il est indispensable de passer par cette étape qui doit permettre d’obtenir
un organisme dont les tissus seront en partie issus des cellules ES modifiées, le but étant que
ces cellules colonisent la lignée germinale de la souris chimère pour ensuite transmettre à leur
descendance le transgène. Pour cela, les cellules ES sélectionnées et vérifiées sont injectées
dans un blastocyste provenant d’une lignée de souris différente de celle dont proviennent les
cellules ES. Dans l’exemple donné dans la figure III-30, les cellules ES qui ont été
génétiquement modifiées in vitro proviennent d’une lignée de souris appelée 129/SV et dont
la couleur de pelage est agouti (≈ brun chiné). Ces cellules ES recombinantes sont ensuite
injectées dans un blastocyste qui, lui, provient du croisement des deux souris de la lignée
Balb/c et dont le pelage est blanc. Les blastocytes chimères ainsi obtenus sont alors transférés
dans des femelles pseudo-gestantes. Si le développement embryonnaire se poursuit, des
souriceaux transgéniques chimères (= mélange de cellules de génotypes différents,
transgéniques et sauvages) seront ainsi obtenus. A l’aide de la couleur du pelage de cette
descendance, on en déduira le degré de chimérisme (voir ci-dessus).
Souris
Balb/c
(pelage
blanc)
Cellules
ES
recombinantes,
issues
de
la
lignée
129/SV
(pelage
agouti
≈
brun
chiné)
Blastocyste
chimère
Transfert
dans
l’utérus
de
femelles
pseudo-‐gestantes
121
Etape 6 : Identification des souris transgéniques de première génération.
Parmi les souriceaux obtenus, on sélectionne ceux qui présentent un degré élevé de
chimérisme, c’est-à-dire dont le pelage présente à la fois des régions de couleur agouti (issues
des cellules ES modifiés) et des régions de couleur blanche (issues des cellules ES déjà
présentes dans le blastocyste) (figure III-30).
122
Etape 8 : Vérification moléculaire du génotype des souris transgéniques
Il faut ensuite vérifier la présence du transgène (par PCR) et l’inactivation du gène endogène
dans les souris transgéniques par des techniques de biologie moléculaires (PCR, Northern
blot).
Mutagénèse dirigée
Etude de promoteur
Localisation
de protéine
Remplacement
Tout comme la transgénèse classique par injection, la transgénèse ciblée par recombinaison
homologue présente des avantages et des inconvénients :
Avantages :
• Technique de choix pour complètement invalider un gène (Knock-Out).
• Technique ciblée.
• Technique “propre” puisque le transgène s’insère par recombinaison homologue.
• Peu de risques d’autres remaniements génétiques délétères pour la souris.
123
Inconvénients :
• Très long : environ 3-4 ans pour obtenir les premières souris 100% transgéniques, non
chimères, exploitables pour l’analyse phénotypique.
• Très lourd : biologie moléculaire + élevage de souris pour obtention et culture de
cellules ES + élevage de souris pour mères donneuses de blastocystes + élevage de
souris mères porteuses.
• Long et lourd… et donc coûteux !
• Si le gène est nécessaire au développement de la souris, son invalidation à l'état
homozygote entraînera une létalité embryonnaire. Il a donc fallu développer des
modèles « Knock-Out » conditionnels pour pallier à ce problème.
Pour pallier à l’éventualité d’une létalité embryonnaire faisant suite à l’inactivation d’un gène
essentiel, des techniques permettant de réaliser des « Knock-out » conditionnels ont été
développées. Leur utilisation peut néanmoins être généralisée à tout autre type de
manipulation tel que le « Knock-in ». Ces méthodes de mutagénèse conditionnelle utilisent
toujours la recombinaison homologue dans les cellules ES pour cibler la mutation sur un locus
précis, mais tirent en plus parti d’un système bactérien, le système Cre/loxP. La recombinase
Cre du bactériophage P1 reconnait en effet une séquence spécifique de 34 pb, normalement
présente dans le génome du bactériophage P1. Cette séquence, appelée loxP, comprend deux
motifs inversés de 13 paires de bases entourant une séquence de 8 paires de bases qui donne
au site loxP son orientation (Figure III-33).
124
La Cre recombinase catalyse la recombinaison conservatrice réciproque entre deux sites loxP.
Cette réaction se traduit par la délétion de tout fragment compris entre deux sites loxP
orientés dans la même direction (Figure III-34a), ou par l’inversion de tout fragment compris
entre deux sites loxP orientés dans la direction inverse (Figure III-34b). Enfin, la Cre
recombinase peut catalyser des translocations chromosomiques réciproques lorsque les sites
loxP sont placés sur des chromosomes distincts (Figure III-34c). Cette enzyme est un outil
très utilisé en biologie puisqu’elle est active dans la quasi-totalité des organismes modèles car
elle ne nécessite pas de co-facteurs bactériens pour être fonctionnelle.
• La seconde lignée exprime la Cre recombinase. Son expression peut se faire sous le
contrôle de promoteurs dits ubiquitaires (actifs dans tous les tissus de l’organisme), de
125
promoteurs actifs seulement dans certains tissus ou à des périodes déterminées du
développement embryonnaire ou enfin de promoteurs dits inductibles (voir ci-après,
les systèmes Tet-on/Tet-off). Cette seconde lignée est généralement fabriquée en
utilisant les méthodes de transgénèse classique (injection de l’ADN dans l’œuf).
Les deux lignées sont ensuite croisées l’une avec l’autre. On obtient alors des souris
hétérozygotes pour l’allèle floxé et pour le transgène codant pour la Cre recombinase.
Ensuite, ces individus hétérozygotes sont croisés avec des souris de la lignée porteuse de
l’allèle floxé à l’état homozygote. 25% des descendants de ce croisement seront alors
homozygotes pour l’allèle floxé et hétérozygotes pour le transgène codant pour la Cre
recombinase. Ce sont les individus qui nous intéressent puisque dans ces individus les
différents tissus présenteront des génotypes variables. En effet, dans les tissus où s’exprime la
Cre recombinase, l’exon cible sera délété (Figure III-35) tandis que dans les tissus où la Cre
recombinase ne s’exprime pas, l’allèle floxé perdurera sous sa forme initiale, donc
fonctionnelle. Cette approche expérimentale permet donc d’obtenir une mutation perte de
fonction conditionnelle. Il est en théorie possible d’examiner ainsi les effets de toute mutation
126
perte de fonction dans n’importe quel tissu à la condition de disposer d’une lignée de souris
transgéniques qui exprime la Cre recombinase dans le tissu en question.
Le changement génétique induit par la Cre recombinase en présence d’un allèle floxé est
irréversible. Or, parfois, lorsque l’on cherche à construire des animaux transgéniques, il peut
être intéressant de disposer d’un système où l’expression du transgène est contrôlée. Cela peut
être vrai pour contrôler l’expression de la Cre recombinase, mais aussi pour tout autre gène
cible dont on souhaite étudier la fonction. Pour cela, on dispose de systèmes qui permettent
d’induire ou de bloquer l’expression d’un transgène chez des animaux transgéniques. Parmi
ceux-ci, on citera ici les systèmes d’expression régulés par la tétracycline et ses dérivés. Ces
systèmes peuvent s’appliquer également à tous les modèles cellulaires. Ils sont fabriqués à
partir de composants naturels de l’opéron tétracycline porté par le transposon Tn10
d’Escherichia coli.
Le système Tet-off :
L’opéron tétracycline porté par le transposon Tn10 de la bactérie Escherichia coli fonctionne
selon le mode de l’opéron lactose. En absence de tétracycline, le répresseur tetR se fixe sur
l’opérateur tetO et bloque la transcription des gènes de l’opéron (Figure III-36a). En présence
de tétracycline, le répresseur fixe l’antibiotique et devient alors incapable de se fixer sur tetO.
La transcription des gènes de l’opéron est alors activée (Figure III-36b).
La transformation de ce système bactérien de régulation négative en un système eucaryote
d’expression conditionnelle tire parti de la spécificité de la protéine tetR pour la séquence
nucléotidique de l’opérateur tetO. Ce système utilise aussi les propriétés d’une protéine du
virus herpes simplex humain (HSV), VP16, dont le domaine C-terminal possède des
propriétés dites de transactivation, c’est-à-dire capable d’activer la transcription une fois
recruté au niveau de l’ADN.
127
Figure III-36 : Fonctionnement de l’opéron TetR du transposon Tn10 de la bactérie
Escherichia coli (d’après Panthier et al. éd. Belin).
128
transgène se poursuivra tant que la tétracycline sera donnée à la souris. Dès l’arrêt de l’ajout
de la tétracycline, l’expression du transgène reprendra.
Figure III-37 : Principe du système Tet-off (d’après Panthier et al. éd. Belin).
Le système Tet-on :
Un système réciproque au système Tet-off, appelé Tet-on, a été développé pour répondre aux
situations où l’on souhaite induire l’expression d’un gène à un moment et dans un tissu
donnés. Pour cela, le gène codant pour la protéine tTA a été muté de manière à ce que le
domaine tetR de la protéine de fusion, maintenant appelée rtTA, ne puisse se fixer sur
l’opérateur tetO qu’en présence cette fois-ci de tétracycline (Figure III-38). Ainsi, ici, le
transgène dont on souhaite étudier la fonction ne sera exprimé qu’en présence de
tétracycline.
Figure III-38 : Principe du système Tet-on (d’après Panthier et al. éd. Belin).
129
III-3-6-Conclusion : avantages et inconvénients du modèle souris
AVANTAGES
INCONVENIENTS
130
Chapitre IV
Evolution des génomes : Mutations et nouveaux phénotypes
Introduction
Alors que les premiers chapitres de ce cours se sont essentiellement concentrés sur les effets à
court terme (moins de quelques générations) des mutations sur le phénotype des individus,
cette dernière partie, va traiter des effets des polymorphismes sur la structure des génomes et
l’apparition de nouveaux gènes, et donc de nouveaux phénotypes. Les échelles de temps
concernées sont évidemment beaucoup plus longues. Nous allons aborder les différents
mécanismes qui ont permis la diversification et l’évolution des génomes des espèces et par là
même l’émergence des espèces actuelles à partir de la dernière espèce ancestrale commune,
LUCA, il y a trois milliards huit cent millions d’années (Figure IV-1). Nous verrons à quel
point la plasticité du génome est importante pour permettre cette évolution et comment ces
études nous renseignent sur l’histoire des génomes actuels.
Figure IV-1 : Emergence de la totalité des espèces actuelles à partir d’un seul et unique
ancêtre commun, LUCA, Last Universal Common Ancestor.
Cet arbre a été réalisé en comparant les séquences d’ARN ribosomiques de multiples espèces.
Ce chapitre est découpé en deux parties. La première traitera des mécanismes permettant
l’évolution des génomes ainsi que leurs conséquences directes pour les espèces en termes de
divergence génétique et d’apparition de nouvelles fonctions. Dans la seconde partie, nous
131
aborderons brièvement le concept d’horloge moléculaire et son utilité dans l’établissement
d’une phylogénie moléculaire. Cette discipline vise à établir les liens de parenté entre les
espèces, déduits non pas de leur ressemblance et/ou divergence phénotypique comme en
phylogénie classique, mais plutôt en fonction du degré de similitude entre leurs séquences
nucléotidiques ou protéiques, en supposant que plus deux espèces sont proches d’un point de
vue évolutif, plus leurs génomes sont semblables.
La plasticité des génomes, c’est-à-dire la variabilité de leur composition avec gain ou perte de
propriétés biologiques, ainsi que les modifications qu’ils subissent, sont à l’origine de leur
évolution. Si l’on peut passer d’un ancêtre commun à plusieurs espèces dérivées, c’est
justement du fait de l’accumulation de polymorphismes indépendants au sein des génomes
d’individus d’une même espèce. Cette accumulation, si elle s’accompagne d’un isolement
reproductif pendant une période longue (séparation géographique en deux sous-populations
par exemple), peut finir par faire diverger les génomes des deux populations au point qu’elles
ne sont plus compatibles génétiquement et ne sont plus interfécondes. Il y a apparition de
deux espèces distinctes. Ce modèle de spéciation par isolement reproductif est également
connu sous le nom de modèle de Dobhzansky-Muller. Les mécanismes à l’origine de cette
divergence des génomes sont les mêmes que ceux étudiés précédemment dans ce cours et
dans le cours LV203, à savoir l’apparition de SNP, les extensions de microsatellites, la
transposition et les modifications chromosomiques et génomiques (translocations, délétions,
duplications totales ou partielles du génome).
132
Les mécanismes moléculaires pouvant provoquer une duplication segmentale sont nombreux.
On peut notamment citer les délétions, les inversions, les duplications et les translocations de
fragments chromosomiques. Comme le montre la figure IV-2, à l’issue de cette duplication, le
fragment chromosomique dupliqué (ici en tandem) se retrouve en deux copies dans le
génome. Une copie est donc superflue au vue de la survie de l’organisme qui vivait très bien
avec une seule copie.
Il n’était pas très facile il y a encore quelques années d’évaluer la proportion du génome issue
d’événements de duplications segmentales. Les études récentes de séquences génomiques
consécutivement à leur séquençage ont révélé que de nombreuses portions de chromosomes
ont des séquences nucléotidiques très similaires. Chez les primates, on évalue à près de 400 le
nombre de segments chromosomiques ayant subi des évènements de duplication intra et inter-
chromosomiques. Certains de ces événements de duplications sont spécifiques à la lignée
humaine chez qui ils représentent près de 5% du génome. Ces régions dupliquées sont de
manière générale sensibles aux réarrangements chromosomiques (cassures, inversions, …) et
localisées à proximité des télomères et centromères. Ces fragments dupliqués sont le plus
souvent transcriptionnellement plus actifs que les régions uniques et ont permis de créer de
nouvelles familles multigéniques spécifiques aux hominoïdes.
I-2-1-Mécanismes
133
levant les pressions de sélection s’exerçant sur les gènes dupliqués. Lorsqu’elle a eu lieu au
cours de l’évolution d’une espèce on parle généralement de paléoploïdisation.
Les duplications complètes du génome ne sont pas toujours viables, mais elles sont toutefois
relativement fréquentes pour de nombreuses espèces végétales qui deviennent ainsi
polyploïdes. Le blé actuel (Triticum aestivum), par exemple, est une espèce hexaploïde, c’est
à dire qu’il possède 6 copies de chaque gène et a évolué par croisements successifs entre des
espèces de blé ancestral diploïdes comme Triticum monococcum.
Deux mécanismes sont à l’origine des duplications génomiques. Il y a d’une part la possibilité
de non-disjonction des chromosomes de la lignée germinale en méiose, ce qui va entraîner
l’apparition de gamètes diploïdes. Si deux gamètes diploïdes fusionnent, cela va donner
naissance à un zygote tétraploïde (à 4n chromosomes). Ce mécanisme s’appelle
l’autopolyploïdisation.
L’autre mécanisme permettant la duplication complète du génome se produit lors de
l’hybridation interspécifique entre 2 espèces possédant 2 lots chromosomiques distincts. Si la
formation d’un hybride F1 est possible, alors le nombre de chromosomes possédé par
l’hybride est la somme des lots chromosomiques des deux espèces parentales. Si cet hybride
est fertile, on a alors création d’une nouvelle espèce. C’est ce que l’on appelle
l’allopolyploïdisation. Un exemple d’allopolyploïdie concerne l’évolution et les relations de
parentés de diverses plantes crucifères du genre Brassica (Figure IV-3).
Exemples de sous-espèces:
Figure IV-3 : Triangle de U : évolution par allopolyploïdie et liens de parentés chez des
espèces Brassica. Cette théorie est appelée le triangle de U et a été publiée en 1935 par Woo Jang-Choon.
Elle stipule que les génomes de trois espèces ancestrales de Brassica (B. nigra, B. rapa et B. oleracea) se sont
combinés pour créer trois des espèces contemporaines de crucifères cultivées par l’homme : B. carinata, la
moutarde d’Ethiopie, B. juncea, dont la sous-espèce juncea est la moutarde brune et B. napus, dont la sous-
espèce napus est le colza. Cette théorie a par la suite été confirmée par des études sur l’ADN et les protéines de
ces espèces.
134
Les événements de duplications génomiques ne sont en général pas stables. A long terme, une
partie des gènes dupliqués va disparaître tandis que d’autres, qui auront acquis de nouvelles
fonctions, seront conservés (voir plus loin la partie sur le devenir des duplications
segmentales). Ceci est bien illustré dans le cas de l’histoire évolutive de certaines levures
(Figure IV-4).
135
Quand les évènements de polyploïdisation sont extrêmement anciens, ils peuvent être très
difficiles à démontrer (voir le cas des vertébrés ci-dessous).
Un nombre très important des plantes connues à l’heure actuelle, de 30 à 70% selon les
embranchements considérés, sont polyploïdes (près de 70% pour les angiospermes). Ceci est
entre autre dû au fait que le changement du nombre de chromosomes y est relativement bien
toléré. Ce pourcentage est par contre beaucoup plus faible chez les vertébrés.
Cette capacité des plantes à multiplier le nombre de copies de leur génome leur confère une
très forte capacité d’évolution. Ainsi, on a pu remarquer une forte corrélation entre
l´explosion du nombre des espèces angiospermes et la duplication complète du génome d´une
plante ancestrale. Des duplications récentes (datant de moins de 150 ans) ont par ailleurs été
identifiées chez certaines espèces connues à l’heure actuelles, et ont permis aux chercheurs de
mieux comprendre les conséquences phénotypiques et génétiques du changement de ploïdie.
On peut par exemple citer l’apparition il y a 80 ans de deux nouvelles espèces de salsifis,
Tagopogon mirus et Tagopogon miscellus, par allotetraploïdie.
Si la fréquence de polyploïdisation est très élevée chez les plantes, elle est en revanche
beaucoup plus faible chez les vertébrés. Les événements de duplication génomique y sont plus
rares car la modification du dosage génique embryonnaire est très souvent associée à la
létalité chez les vertébrés actuels. Si les génomes des vertébrés ont subi des polyploïdisations,
elles ont vraisemblablement eu lieu il y a très longtemps. Les très nombreux remaniements
chomosomiques (translocations, cassures, fusions chromosomiques) qu’ils ont subi depuis
font qu’il n’est pas forcément évident d’y repérer les traces de ces éventuelles duplications
génomiques.
Un chercheur japonais, Susumu Ohno, a cependant émis en 1970 l’hypothèse que les espèces
vertébrées actuelles sont issues de deux événements de paléoploïdisation à partir d’une espèce
vertébrée ancestrale ayant vécu il y a 450 millions d’années. C’est l’hypothèse 2R pour « two
rounds ». Sa théorie s’appuie sur deux constations d’ordre génomique et phylogénique.
L’évidence génétique tient en l’absence de liaison entre des gènes issus de duplications au
sein d’une même espèce (gènes paralogues, voir plus bas). En effet, dans le cas d’une
duplication segmentale en tandem, les gènes dupliqués se retrouvent disposés l’un après
l’autre sur le même chromosome. Ils sont donc génétiquement liés. Au contraire, lors de
136
duplications de génomes, les gènes dupliqués se retrouvent chacun sur une des copies du
chromosome et sont donc sur des chromosomes distincts. Le fait d’avoir observé chez les
vertébrés de nombreux gènes dupliqués non liés est donc l’indication d’une possible
duplication génomique.
L’observation d’ordre phylogénétique concerne les complexes des gènes Hox chez diverses
espèces. Les gènes Hox (ou gènes homéotiques) sont impliqués dans la mise en place du plan
d'organisation des êtres vivants. Ce sont des gènes organisés en complexes, c'est-à-dire
groupés sur le même chromosome. Cette organisation suggère qu’ils sont issus d’événements
de duplication en tandem d’un petit nombre de gènes ancestraux. Par ailleurs, en comparant
de nombreuses espèces, il apparait qu’il n’y a qu’un seul complexe Hox chez les invertébrés
contre au moins quatre pour la plupart des vertébrés. Toujours en se basant sur le nombre de
complexes Hox chez les vertébrés, les estimations du nombre d’événements de duplication
génomique ont ensuite été raffinées avec l’augmentation du nombre d’espèces étudiées. Ainsi
en 1998, certains chercheurs ont parlé de l’hypothèse 3R chez les poissons suite à
l’identification de 7 complexes Hox chez le poisson zèbre Danio rerio. Il y aurait eu en fait un
troisième événement de duplication génomique chez les poissons, d’où 8 complexes Hox,
puis perte d’un de ces complexes lors de l’évolution des espèces. Un peu plus récemment
encore, en 2005, d’autres chercheurs travaillant plus spécifiquement chez les salmonidés
(saumon de l’atlantique, truite arc-en-ciel, …) ont remarqué chez ces espèces la présence de
14 complexes Hox, suggérant l’existence d’une autre duplication génomique spécifique à
cette famille.
A partir de ces observations, une phylogénie des vertébrés, et plus précisément des poissons,
avec la position des éventuels événements de duplication génomique en fonction du nombre
de copies du complexe Hox présents dans les espèces, a été établie (Figure IV-5). Les deux
premiers événements de duplication génomique (1R, 2R) auraient eu lieu très tôt pour une
espèce ancestrale de vertébré, ce qui explique qu’à l’heure actuelle la plupart des vertébrés,
dont l’homme, possèdent 4 copies de ce complexe. Le troisième événement de duplication
(3R) n’aurait eu lieu que chez l’ancêtre commun de certaines espèces de poissons qui seules
possèdent de 7 à 8 copies du complexe. Le quatrième (4R, non représenté sur ce schéma) se
serait produit uniquement dans la lignée évolutive des salmonidés.
137
Figure IV-5 : Phylogénie chez les vertébrés et événements de duplications génomiques
basés sur le nombre de complexe Hox.
Après les évènements de duplications génomiques, les complexes Hox ont subi des évolutions
génomiques indépendantes, telles que la perte d’un gène, des évolutions de séquences de
certains gènes etc…. La figure IV-6 illustre ces évolutions par comparaison des 4 complexes
Hox présents chez l’homme.
Figure IV-6 : Structure des complexes Hox (=paralogons Hox) chez l’homme.
Chaque paralogon, groupe de gènes paralogues, se trouve sur un chromosome différent, et les gènes paralogues
au sein de ces paralogons sont représentés avec le même code graphique.
Ainsi, trois des quatre complexes possèdent deux gènes Dlx. Les 4 complexes portent au
moins un gène de type collagène, et un nombre plus ou moins élevé de gènes Hox.
Comme dit plus haut, la fréquence des événements de polyploïdisation est beaucoup plus
importante chez les plantes que chez les vertébrés. Ceci est illustré dans la figure IV-7 qui
présente les événements de polyploïdisation chez les plantes comparativement à ceux détectés
138
chez les vertébrés et les champignons. Les points rouges indiquent les événements de
paléoploïdie avérés et les jaunes les événements supposés. On peut repérer sur la droite de la
figure les deux événements de paléoploïdie de l’hypothèse 2R ainsi que les 2 événements
potentiels ayant eu lieu chez les poissons. Le nombre de points rouges est beaucoup plus élevé
chez les plantes.
I-3-Duplications géniques
Ce troisième mécanisme évolutif, la duplication de gènes, est sans doute celui qui est le plus
commun, particulièrement chez les vertébrés. Avoir une copie surnuméraire d’un seul gène
est en effet beaucoup moins nocif pour l’individu porteur, et ses chances d’y survivre sont
donc beaucoup plus grandes, que dans le cas de duplications de génomes entiers ou de grands
segments chromosomiques. Cette copie surnuméraire, par nature inutile, peut ensuite subir
des modifications et évoluer pour acquérir de nouvelles fonctions permettant l’évolution de
l’espèce.
139
I-3-1-Mécanismes
I-3-1-1-Rétrotransposition
2 copies du gène A
140
Figure IV-9 : Brassage d’exons par rétrotransposition (d’après Luchetta et al., éd. Dunod). Le
rétrotransposon figuré est de type LINE 1.
141
Comme pour les mécanismes de rétrotransposition, il est possible d’avoir un phénomène de
brassage d’exons lors d’un crossing-over inégal. Dans la figure IV-11 est représenté un gène
A qui comporte 4 exons (1, 2, 3 et 4) codant trois domaines protéiques A, B et C. L’exon 3,
qui code le domaine B, est entouré par des régions répétées. L’appariement inégal de la région
en amont de l’exon 3 sur un chromosome avec la région située en aval sur l’autre
chromosome entraine un crossing-over inégal. Suite à ce crossing-over, l’un des
chromosomes aura un gène A modifié, A’, avec deux exons 3, notés 3 et 3’ et l’autre un gène
A délété de l’exon 3, A’’ (non représenté sur la figure). Au niveau protéique, il y a apparition
de deux nouvelles protéines, l’une avec deux domaines B, l’autre sans domaine B.
Figure IV-11 : Brassage d’exons par crossing-over inégal (d’après Luchetta et al., éd. Dunod).
Les échanges ectopiques peuvent avoir lieu lorsqu’il se produit une cassure double brin sur
l’ADN. La cassure étant présente sur les deux brins, les systèmes de réparation n’ont pas de
brin matrice sur lequel copier pour réparer l’ADN endommagé. La réparation va s’effectuer
via le mécanisme de recombinaison, mais en impliquant un site non homologue. Une fois la
recombinaison effectuée, l’élongation de la molécule d'ADN aura lieu en suivant la matrice
d'ADN recombinante et en recopiant la portion du génome présente en aval de la cassure, ce
qui a pour conséquence l'intégration de cette région dupliquée au site de réparation, et donc un
doublement de cette région sur le génome.
142
I-3-2-Devenir des gènes dupliqués
La duplication d’un gène implique l’apparition dans le génome d’une copie surnuméraire, non
« utile » à l’organisme qui se débrouillait très bien sans avant. Plusieurs cas de figures sont
alors envisageables pour l’évolution de cette copie (Figure IV-12).
I-3-2-1-Pseudogénisation
Il peut y avoir pseudogénisation (Figure IV-12, cas 1), c’est-à-dire que l’une des copies va
accumuler des mutations délétères, perdre sa fonction et ne sera plus exprimée. Dans les cas
extrêmes, la séquence pseudogénique ne sera même plus reconnaissable. Les pseudogènes
peuvent toutefois jouer un rôle important dans l’évolution des génomes en tant que séquences
répétées. Dans certains cas, ils peuvent même être réactivés et acquérir de nouvelles
fonctions.
143
I-3-2-2-Néo-fonctionnalisation
L’ancêtre commun aux singes du nouveau monde, de l’ancien monde et aux hominidés
possédait un gène, EDN, codant la ribonucléase 2. Deux espèces, les platyrrhiniens et
catarrhiniens ont ensuite divergé à partir de cette espèce ancestrale. Chez les catarrhiniens un
événement de duplication génique s’est produit pour le gène EDN, créant deux copies
identiques. Une des copies a ensuite évolué par mutation pour donner un nouveau gène, ECP,
codant la ribonucléase 3. Ainsi, à l’heure actuelle, les singes de l’ancien monde et les hommes
possèdent deux protéines distinctes, les ribonucléases 2 et 3, tandis que les singes du nouveau
monde n’ont que la ribonucléase 2.
I-3-2-3-Sous-fonctionnalisation
Si le gène ancestral possède deux fonctions distinctes (A et B sur la figure IV-12), il peut se
produire une sous-fonctionnalisation (Figure IV-12, cas 3). Chacune des copies du gène
144
dupliqué perd l'une des fonctions. Au final, au niveau de l'organisme, les deux fonctions sont
toujours assurées mais par le biais de deux protéines différentes codées par deux gènes
différents. Les deux copies étant maintenant nécessaires à la survie de l’organisme, elles sont
conservées. La figure IV-14 présente un exemple de néo-fonctionnalisation chez les
hominoïdes.
Les opsines sont des molécules capables de réagir à des signaux lumineux. En s’associant
avec le rétinal, elles forment les pigments photorécepteurs, appelés rhodopsines, qui sont
contenus dans les cellules photoréceptrices des yeux des animaux. L’ancêtre commun aux
hominoïdes possédait deux types d’opsines, captant les longueurs d’ondes bleues d’une part et
rouges et vertes d’autre part. Chez les catharriniens, une duplication suivie d’une sous-
fonctionnalisation du gène codant l’opsine des longueurs d’onde rouges/vertes a permis aux
singes de l’ancien monde et aux hommes d’acquérir une vision trichromatique (séparant les
trois types d’énergie lumineuse bleue, verte et rouge) tandis que les singes du nouveau monde
ont conservé une vision dichromatique.
145
I-3-2-4- Adaptation cellulaire ou tissulaire
Sans que la ou les fonction(s) des gènes dupliqués ne soit altérée(s), il peut se produire une
adaptation cellulaire ou tissulaire. Les deux copies du gène vont garder leur fonction
originelle mais l’une des copies va acquérir une expression spécifique d´un tissu par exemple.
C’est le cas pour le gène du glutamate déshydrogénase qui existe en 2 copies, GLUD1 et
GLUD2. Alors que l’expression de GLUD1 est ubiquitaire, celle de GLUD2 est restreinte au
cerveau. De la même manière, la protéine codée par l’une des copies peut avoir une
localisation cellulaire différente de la protéine ancestrale.
La conséquence directe des différents mécanismes évolutifs qui viennent d’être présentés est
qu’il existe, au sein des génomes, des séquences géniques et/ou chromosomiques très
similaires que l’on qualifie d’apparentées, qui sont issues d’un même gène ancestral.
De manière générale on dit que ces gènes ou ces séquences sont homologues, ce qui veut dire
qu’ils ont une origine commune et donc une similarité de séquences (homologie). On peut
ensuite faire la distinction entre les gènes paralogues, issus d’événements de duplication au
sein d’une espèce, et les gènes orthologues, qui résultent de divergences lors des mécanismes
de spéciation (séparation d’une espèce en deux espèces distinctes). Ces différentes relations
de parenté entre gènes sont présentées sur la figure IV-15.
Les gènes A’ et A’’ issus d’une duplication au sein de la même espèce sont paralogues. Un
événement de spéciation à partir de l’espèce possédant A’ et A’’ fait apparaitre deux espèces
Y et Z apparentées, l’une avec les gènes A’1 et A’’1 (paralogues l’un de l’autre), la seconde
avec les gènes A’2 et A’’2 (paralogues l’un de l’autre). Par contre, les gènes A’1 et A’2 d’une
part, ainsi que les gènes A’’1 et A’’2 d’autre part sont orthologues. De manière générale ces 4
gènes sont dits homologues car ils ont tous une origine commune.
146
Figure IV-15 : Relations de parenté entre gènes au sein d’une espèce et entre espèces
(d’après Luchetta et al., éd. Dunod).
147
I-6-Synténie et évolution
Les génomes des espèces actuelles ayant divergé il y a plus ou moins longtemps des mêmes
ancêtres communs, il est tout à fait logique qu’une partie de leurs génomes soit similaire. Plus
le temps depuis la séparation entre deux espèces est long, plus celles-ci vont accumuler des
divergences tant au niveau de la séquence des gènes (mutations ponctuelles) que de leur
disposition au sein du génome (réarrangements chromosomiques).
Une notion importante dans l’étude de l’évolution des génomes est la synténie, c'est-à-dire la
conservation partielle de l’ordre des gènes le long des chromosomes entre deux espèces. Une
région génomique de deux espèces différentes est dite synténique lorsqu’elle n’a pas subi de
réarrangement depuis le dernier ancêtre commun à ces deux espèces. La rupture de synténie
peut se produire du fait des réarrangements génomiques, chromosomiques et géniques
(duplication, insertion, translocation, fusion …). Ces différents mécanismes et leurs effets sur
les blocs de synténie sont présentés dans la figure IV-16.
148
I-6-2- Exemples de blocs de synténie
La figure IV-17 illustre certains des événements génomiques qui se sont produits depuis
l’ancêtre commun à tous les vertébrés jusqu’aux espèces actuelles, en prenant pour exemple
deux espèces de vertébrés relativement éloignées, l’homme et le tétraodon.
Figure IV-17 : Evolution des génomes et conservation des blocs de synténie chez
l’homme et le tétraodon (tiré du site du Génoscope : http://www.cns.fr/spip/-Tetraodon-nigroviridis-
.html).
L’ancêtre commun à ces deux espèces possédait 12 paires de chromosomes (un seul des
chromosomes de chaque paire étant montré ici), représentés en différentes couleurs. En
analysant les génomes du tétraodon et de l’homme, on remarque tout d’abord qu’ils sont
constitués de 23 et 21 paires de chromosomes respectivement. Cela suggère qu’il y a tout
d’abord eu une duplication génomique chez un ancêtre commun aux deux espèces, créant un
ancêtre possédant 24 paires de chromosomes, puis des pertes et/ou fusion de certains
chromosomes chez l’homme et le tétraodon expliquant la diminution de taille du génome à 23
et 21 paires respectivement. En regardant plus en détail le génome du tétraodon, on se rend
compte par exemple que son chromosome 1 semble être le résultat de la fusion d’une copie
d’un chromosome I et d’une copie d’un chromosome H de l’ancêtre commun. Par ailleurs le
même chromosome H de l’ancêtre se retrouve morcelé sur les chromosomes 1, 3 et 19 chez
l’homme. Il reste toujours de fortes régions de synténie entre l’homme et le tétraodon même
s’ils ont divergé il y a longtemps. Ainsi les 2 copies du chromosome J de l’ancêtre se
retrouvent dans les chromosomes 10 et 14 du tétraodon ainsi que le chromosome 14 et des
149
fragments des chromosomes 2, 6 et 15 chez l’homme. Les chromosomes 14 du tétraodon et de
l’homme partagent donc de fortes homologies sont en grande synténie.
D’une manière similaire, la figure IV-18 présente les relations de synténie entre les 23
chromosomes humains et les chromosomes murins.
Figure IV-18 : Conservation de synténie dans les génomes humains et murins (d’après
Strachan et al., éd. Garland Sciences) . Les chromosomes humains sont représentés par 23 couleurs
différentes, présentées en bas de la figure, et pour représenter les blocs de synténie correspondants dans le
génome murin les mêmes couleurs ont été conservées.
Ainsi, le chromosome 1 murin est en fait constitué d’une fusion entre des fragments présents
sur les chromosomes 1 et 2 humain. Le chromosome X est quasi identique entre les deux
espèces. Par contre, le chromosome 8 murin est constitué de fragments de 5 chromosomes
humains différents. On voit donc bien ici que la conservation de synténie a été très variable
d’un chromosome à l’autre entre ces deux espèces.
La conservation de synténie est parfois retrouvée dans de multiples espèces pour certains
sous-fragments de chromosomes, même si les chromosomes en eux-mêmes sont extrêmement
morcelés. Une hypothèse pour expliquer ces observations est que le maintien strict des
relations de voisinage pour ces gènes serait essentiel à leur bon fonctionnement. C’est par
exemple le cas de gènes ayant une régulation commune de leur expression. Ainsi, la très
grande conservation de synténie entre le chromosome X de l’homme et de la souris (Figure
150
IV-18) est sans doute due à la régulation très particulière de ce chromosome par rapport aux
autres par le mécanisme d’inactivation du chromosome X (voir chapitre II). Ainsi, une rupture
de synténie dans ce chromosome par translocation d’une partie sur un autosome a dû être
fortement contre-sélectionnée. En effet, une telle translocation restaurerait une expression
biallèlique et donc un surdosage des gènes transloqués, qui serait très délétère pour les
individus porteurs de cette mutation.
Dans cette dernière partie, nous allons brièvement aborder la notion d’horloge moléculaire et
la possibilité de réaliser, à partir de cette horloge, des phylogénies moléculaires. Cette
construction de phylogénies repose en fait sur le principe présenté précédemment des
similarités entre génomes reliées à leur temps de divergence. Plus la divergence entre les
espèces étudiées est récente et plus leurs génomes seront semblables. En revanche, pour deux
espèces ayant divergé il y a longtemps, les accumulations de mutations et de remaniements
seront nombreuses, et les génomes seront d’autant plus dissemblables que le temps de
séparation depuis l’ancêtre commun est long.
En phylogénie moléculaire, au lieu de se baser sur les ressemblances globales entre génomes,
on se base sur les accumulations de mutations au sein de gènes orthologues au cours du
temps. C’est le concept d’horloge moléculaire. Ce concept suppose que les mutations
s'accumulent dans les génomes à une vitesse globalement constante, c’est-à-dire que le taux
de substitution dans les séquences des gènes est une fonction linéaire du temps. Une fois cette
vitesse évaluée, il est alors possible, en comparant les séquences géniques de 2 espèces, de
dater le moment de leur séparation. La figure IV-19 illustre cette linéarité en prenant
l’exemple du virus de la grippe. Elle montre bien que le taux de substitution dans le virus de
la grippe a été globalement linéaire en fonction du temps. Par ailleurs, on peut observer que
les mutations synonymes sont bien plus fréquentes que les non-synonymes, celles-ci étant
sans doute contre-sélectionnées.
151
Figure IV-19: Taux de substitution observé sur 30 ans dans le génome du virus de la
grippe (d’après Luchetta et al., éd. Dunod).
En abscisse est représenté le temps depuis la divergence par rapport au génome du virus ancestral, en ordonnée
le taux de substitution dans les séquences génomiques. En rouge sont représentées les mutations synonymes (ne
modifiant pas la composition en acides aminés de la protéine), et en rose les non-synonymes (modifiant cette
composition).
152
Afin de pouvoir utiliser tout de même ce principe d’horloge moléculaire en phylogénie, il faut
calibrer les horloges, en utilisant des fossiles par exemple, et utiliser le plus grand nombre
possible de marqueurs génomiques pour chaque espèce étudiée.
II-2-Phylogénie moléculaire
Les divergences de séquences entre espèces peuvent donc être utilisées pour classer celles-ci
et reconstituer les liens de parentés entre les espèces. C’est la phylogénie moléculaire qui
permet de reconstituer les arbres phylogénétiques de relations entre espèces.
Une autre application de cette méthode est la génomique comparative, qui consiste à
comparer les structures et fonctions des génomes de différentes espèces. Le but de ce genre
d’études est de découvrir, au sein de ces génomes, des gènes et/ou des séquences régulatrices
non identifiées jusque là, en se basant sur le principe de conservation des séquences
fonctionnelles. En effet, si plusieurs espèces ont conservé une séquence génomique identique
sans aucune mutation, c’est sans doute que cette séquence est importante pour l’organisme et
que c’est probablement un gène ou une séquence régulatrice. A contrario, les régions non
codantes intergéniques accumulent des mutations et divergent donc très vite au cours de
l’évolution des espèces.
153
séquence. On comptabilise le nombre de nucléotides qui diffèrent entre les espèces : plus
celui-ci est élevé, plus les espèces sont éloignées.
La Méthode de vraisemblance, beaucoup plus probabiliste, se fonde sur le taux de
substitution observé au cours du temps et estime la vraisemblance de la position et de la
longueur des branches pour les différentes espèces étudiées.
La Méthode de parcimonie quant à elle recherche l'arbre phylogénétique qui va minimiser le
nombre d’événement (mutations, délétions, …) pour passer d'une séquence à l'autre. Cette
méthode suppose néanmoins que les phénomènes de convergence évolutive et de réversibilité
(retour d'un caractère à l'état ancestral) sont rares. En effet, l'arbre présentant le moins d'étapes
évolutives est celui qui minimise l'existence de ces deux phénomènes.
Les figures IV-21 et IV-22 présentent un exemple simple de reconstruction d’arbre
phylogénétique. Seules 5 espèces différentes sont considérées en ne comparant qu’une seule
séquence de 10 nucléotides.
En comparant les séquences des 5 espèces, on peut déjà repérer les bases qui sont
informatives, c’est-à-dire qui diffèrent pour au moins deux espèces. Ici, les seules positions
informatives sont les positions 3, 6, 8 et 10. Ensuite, on regarde pour chaque position
informative les espèces qui sont identiques et différentes. On se rend ainsi compte que les
deux espèces les plus fréquemment associées et divergentes des autres sont les espèces 1 et 2.
Ce sont donc celles qui sont le plus proche phylogénétiquement. Une fois ces deux espèces
regroupées, la plus proche d’elles et la 3. Viennent ensuite les espèces 4 et 5. On peut, à partir
de là, reconstituer l’arbre phylogénétique de ces 5 espèces (Figure IV-22).
154
Figure IV-22 : Construction de l’arbre phylogénétique à partir des ressemblances entre
espèces (d’après Luchetta et al., éd. Dunod).
155
Figure IV-23 : Reconstruction de l’arbre phylogénétique des primates en étudiant les
taux de substitutions de la protéine FOXP2 au sein des espèces (d’après Luchetta et al., éd.
Dunod).
156