LV372 Génétique CNED

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 162

lundi 27 janvier 2014

TÉLÉ-SCIENCES 6
Formation Ouverte et à Distance

[email protected]
 01.44.27.62.34
 01.44.27.74.57
http://www.telesciences6.upmc.fr

Année 2013- 2014

U.E – LV372

Génétique

Polycopié de cours

Madame Stéphanie Barnay-Verdier

Université Pierre et Marie Curie, Télé-Sciences 6


4, place Jussieu
Campus Jussieu, Maison de la pédagogie, 1er étage, couloir B, porte 109 – 114 – 116
Boite courrier 202
75252 Paris cedex 05
 
 
 
Licence de Sciences et Technologies,
Mention "Sciences du Vivant" 3ème année
 
 
UE LV372
« BIOLOGIE MOLÉCULAIRE ET GÉNÉTIQUE 2 »

COURS DE GÉNÉTIQUE
 
Auteurs : Mr Frédéric DEVAUX
Mr Alexandre ESCARGUEIL
Mme Sophie GARNIER
Mme Emmanuèle MOUCHEL-VIELH

Responsable de l’enseignement de génétique de LV372 à distance :


Mme Stéphanie BARNAY-VERDIER

    1  
Table des matières

Introduction p1-6

Chapitre I : Génétique humaine : De la cartographie p7-38


génétique à l’identification de la mutation causale

I- La cartographie génétique chez l’homme (co-transmissions ; méthode


du LOD Score)
II-Réduction de la région chromosomique mise en évidence par
cartographie génétique (reconstruction d’haplotypes ; cartographie par
recherche d’homozygotie ; cartographie par déséquilibre de liaison ;
cartographie physique)
III- Identification du gène par l’approche « gène candidat » (principe ;
identification du gène candidat et de la mutation causale ; validation du
gène candidat)
IV- Exemples d’identification de gènes impliqués dans des pathologies

Chapitre II : Relations entre génotype et phénotype : p39-79


Rôle des interactions génétiques, de l’environnement et
de l’épigénétique

Introduction : du monogénisme au multifactoriel


I- Nature et effet possible des mutations (rappels de LV203)
II- Notion de série allélique ; interactions entre allèles d’un même
gène ; caractérisation des allèles
III-Interactions entre gènes (principe d’analyse des interactions
génétiques ; les différents types d’interactions génétiques)
IV- Les réseaux génétiques : définition et méthodes d’étude (mise en
évidence d’interactions indirectes et directes)
V- Interactions avec l’environnement
VI- Mécanismes épigénétiques (exemple de l’empreinte parentale et de
l’inactivation du chromosome X chez les mammifères)
VII- Effets du hasard sur l’expression des gènes
VIII- Traits quantitatifs et génétique quantitative

    1  
Chapitre III : Analyse fonctionnelle : utilisation des
systèmes modèles pour étudier la fonction des gènes
p80-130
Introduction : Qu’est-ce que l’analyse fonctionnelle
I- Caractéristiques d’un bon modèle en génétique
II- Exemple de modèle cellulaire : cultures de cellules eucaryotes
(présentation ; exemples d’application)
III- Exemples d’organismes modèles : particularités, méthodes de
transgenèse et de manipulation des génomes, avantages, inconvénients
(la levure Saccharomyces cerevisiae ; la drosophile Drosophila
melanogaster; la souris Mus musculus)

Chapitre IV : Evolution des génomes : Mutations et


nouveaux phénotypes p131-155
I- Evolution des génomes (duplications de fragments chromosomiques,
polyploïdisation, duplications de gènes, gènes apparentés, transfert
horizontal, notion de synténie)
II- Horloge moléculaire et phylogénie

 
OUVRAGES DE REFERENCES CITES

Génétique (8ème édition). Klug, Cummings, Spencer. Editions Pearson


Education

Evolution moléculaire. Luchetta, Maurel, Higuet, Vervoort. Editions


Dunod

Génétique : gènes et génomes. Rossignol, Berger, Deutsch, Fellous,


Lamour-Isnard, Ozier-Kalogeropoulos, Picard, deVienne. Editions Dunod

Human molecular genetics. Strachan, Read. Editions Garland Science

Génétique de la souris. Panthier, Montagutelli, Guénet. Editions Belin

 
Avertissement
Ce module LV372 « Biologie moléculaire et Génétique 2 » s’articule autour de 2 cours :
un cours de biologie moléculaire et un cours de génétique, de 4 devoirs répartis sur 2
envois (2 de génétique, 2 de biologie moléculaire) ; 1 examen de 2h.
La note de ce module sur /100 est l’addition de 2 notes :
-­‐ celle de contrôle continu sur /40 (moyenne des notes des 4 devoirs, devoir non
rendu = 0)
-­‐ celle de l’épreuve finale sur /60 (épreuve écrite de 2h génétique et biologie
moléculaire)

Il est donc essentiel pour un résultat satisfaisant que les devoirs soient faits et renvoyés
en temps et en heure !!

Dans ce cours de génétique, plus que des connaissances, les enseignants souhaitent vous
apprendre des modes de raisonnement dont certains sont spécifiques à cette matière.
Néanmoins il serait illusoire de soutenir qu’un bon raisonnement sans aucune connaissance
est suffisant. Ces connaissances vous permettront en effet d’apprécier la plus ou moins grande
probabilité de certains faits entre lesquels il vous faudra choisir. Une estimation de la
probabilité d’une hypothèse ne peut se faire sans connaissances de base concernant les
mécanismes déjà élucidés, votre premier travail sera donc de les étudier dans le cours.
Ensuite, des exercices autocorrectifs vous sont proposés afin de mesurer la façon dont vous
appliquez ce que vous venez d’acquérir. Ces exercices sont extrêmement importants, ils
doivent être traités comme des devoirs avec un soin particulier apporté à leur mise en forme.
Ces exercices sont basés sur des connaissances du L2, ils vous permettront d’aborder dans les
meilleures conditions les nouvelles notions traitées dans le cours et les devoirs. Les
corrections vous permettent de confronter votre interprétation de résultats expérimentaux avec
celle que peut en donner un généticien averti. Ne passez pas à côté !!!!
Enfin les 2 devoirs de génétique (regroupés avec les devoirs de biologie moléculaire) qui
vous sont proposés sont adaptés aux différents chapitres du cours. Il convient de les
rédiger complètement dans un temps qui ne doit pas excéder 2h. La règle d’or est de
tout justifier en en écrivant de façon claire, précise et concise. Vous recevrez le devoir
corrigé et évalué ainsi qu’une correction standard qu’il n’est pas superflu de lire surtout si le
devoir n’est pas parfait.
En section ordinaire les Travaux Dirigés sont le moment d’obtenir des éclaircissements. Dans
votre cas, il ne faut pas hésiter à mettre par écrit vos questions et à les envoyer à l’enseignant
soit à l’occasion d’un devoir soit seules (pour vous permettre de faire exercices et devoirs).

Lorsque cela est possible il vous est recommandé de ne pas hésiter à prendre contact par
email. Les résultats des examens des années précédentes tendent à montrer qu’un travail
sérieux et régulier augmente notamment vos chances de réussite.
Il ne me reste plus qu’à vous souhaiter une bonne année de travail fructueux et à vous donner
mes coordonnées.

Dr Stéphanie Barnay-Verdier, Maître de Conférences Paris VI


[email protected]

 
 

Introduction

Les êtres vivants sont caractérisés par des propriétés intrinsèques qui sont héréditaires. Le
support de cette hérédité est le matériel génétique, constitué d’acides nucléiques (ADN pour
la majorité des êtes vivants), contenant des unités fonctionnelles appelées gènes. Ce matériel
est transmis, au sein d’un organisme, d’une cellule mère à une cellule fille (mitose ou division
bactérienne), ou d’un organisme à l’autre d’une génération à la suivante (méiose et
fécondation). L’ensemble du matériel génétique d’un organisme est appelé génome.
Les propriétés des génomes ainsi que leurs mécanismes de maintien et de transmission ont été
traités dans l’UE LV203 « Biologie Moléculaire et Génétique 1 ». Dans l’UE LV372
« Biologie Moléculaire et génétique 2 » seront étudiés les mécanismes génétiques et
moléculaires impliqués dans l’expression des gènes et des génomes.
Cette introduction a pour but de rappeler un certains nombre de définitions
fondamentales en génétique ainsi que les principes de base de la cartographie génétique,
traités en LV203. Pour de plus amples informations concernant la cartographie
génétique et les analyses de ségrégation, il faut se référer au polycopié de cours et aux
exercices de LV203.

I – Définitions
Locus : Une position précise sur le génome.
Marqueur génétique : Une séquence dont on connait la position précise sur le génome,
utilisée pour établir des cartes génétiques.
Polymorphisme : Différence, entre deux individus de la même espèce, de la séquence
nucléotidique de l’ADN génomique à un locus particulier.
Allèle : Une séquence possible à un locus particulier. Dans une espèce, chaque locus peut
exister sous différentes formes alléliques.
Chez les organismes diploïdes, un individu portant deux allèles identiques à un locus donné
est dit homozygote pour ce locus. S’il porte deux allèles différents, il est dit hétérozygote
pour ce locus.
Génotype : Constitution génétique d’un individu (ploïdie, combinaisons d’allèles).
Phénotype : Caractères exprimés par un individu. Il est fondamental d’éviter la confusion
entre génotype et phénotype. En effet, le phénotype d’un individu est une conséquence de son

    1  
génotype, mais dépend également d’autres facteurs tels que, par exemple, l’environnement
dans lequel l’individu évolue.

II – Rappels de cartographie génétique

La compréhension des processus physiologiques ou pathologiques nécessite d’identifier


l’ensemble des gènes impliqués dans ces processus. Ceci est permis par la cartographie
génétique, qui a pour but de localiser un gène par rapport à des marqueurs, locus dont les
positions sont connues dans le génome. La cartographie génétique repose sur l’analyse de la
ségrégation à la méiose entre les locus étudiés : plus deux locus sont proches, moins il y aura
d’évènements de recombinaison (ou crossing-over ) entre eux ; à l’inverse, pour deux locus
très éloignés sur le même chromosome ou sur deux chromosomes différents, on observera de
nombreux évènements de recombinaison, dus à la fréquence élevée de crossing-over dans le
cas de deux locus sur le même chromosome, ou au brassage interchromosomique dans le cas
de deux locus sur deux chromosomes différents. Le calcul du pourcentage de recombinaison
permet donc d’estimer la position des deux locus l’un par rapport à l’autre. Ce pourcentage est
obtenu en comparant le nombre de produits de méiose (gamètes ou spores) de génotypes non
recombinés (parentaux, P1 et P2) et de génotypes recombinés (R1 et R2).

Pourcentage de recombinaison = [(R1+R2)/(P1+P2+R1+R2)]x100

Lorsque deux locus sont sur deux chromosomes différents (indépendance physique), leur
pourcentage de recombinaison est égal à 50%. On dit que ces deux locus sont indépendants
génétiquement (Figure 1). Un pourcentage de recombinaison de 50% (indépendance
génétique) peut également refléter le fait que les deux locus sont sur le même chromosome
(liaison physique) mais très éloignés l’un de l’autre (Figure 2). Par contre, si le pourcentage
de recombinaison est significativement inférieur à 50%, on parle de liaison génétique, ce qui
traduit le fait que les deux locus sont relativement proches sur le même chromosome (liaison
physique) (Figure 2).

    2  
a+ b+
diploïde
a1 b1

duplication  des  
chromatides
a+ b+
a+ b+
a1 b1
cas  1 cas  2
(50%  des  méioses) a1 b1
(50%  des  m éioses)
1ère  division  d e  méiose
a+ b+ a1 b1 a+ b1 a1 b+
a+ b+
ET a+ b1
ET
a1 b1 a1 b+
2ème  division  d e  méiose 2ème  d ivision  de  méiose

2  a+b+=2P1 2  a1b1=2P2 2  a+b1=2R1 2  a1b+=2R2

Au  
Au  ttotal:  
otal:  PP1=P2=R1=R2
1  =  P2  =  R1  =  R2  
%recombinaison  =  [(R1+R2)/(P1+P2+R1+R2)]x100  =  50%  
%recombinaison=[(R1+R2)/(P1+P2+R1+R2)]x100=   50%
Les  gènes  a  et  b  sont  indépendants  génétiquement  
 
Les  gènes  a  et  b  sont  indépendants  génétiquement

Figure 1 : Ségrégation de deux couples d’allèles à la méiose : cas de 2 locus a et b sur


deux chromosomes différents (allèles a+/a1 et b+/b1) :
Les cas 1 et 2 sont équiprobables et dépendent de la manière dont se disposent les paires de chromosomes
homologues à la première division de méiose (brassage interchromosomique).

    3  
a+              b +
diploïde
a1                b 1    

duplication  des  
chromatides
a+              b+
a+              b+
a1              b 1
a1              b1

1ère  division  d e  méiose


cas  1:méiose cas  3:méiose
sans  crossing-­‐over   avec  2  crossing-­‐over  
entre  a  et  b entre  a  et  b
a+              b+ a1              b 1 a+              b+ a1              b1
ET cas  a ET
a+              b+ a1              b 1 a+              b+ a1              b1
2ème  division  d e  méiose
a+              b1 a1              b+
cas  b ET
a+              b1 a1              b+
2  a+b+=2P1 2  a1b1=2P2
a+              b+ a1              b1
cas  c ET
a+              b 1 a1              b+

cas  2:  m éiose 2ème  d ivision  de  méiose


avec  1  crossing-­‐over  
entre  a  et  b
a+              b + a1              b+
ET P1=P2=R1=R2
a+              b 1 a1              b1

2ème  division  d e  méiose

1  a+b+=1P1 1  a1b+=1R2
1  a+b1=1R1 1  a1b1=1P2  

Figure 2 : Ségrégation de deux couples d’allèles à la méiose : cas de 2 locus a et b sur le


même chromosome (allèles a+/a1 et b+/b1) :
Dans le cas des méioses avec 2 crossing-over, les cas a, b, c dépendent du nombre et de la nature des
chromatides impliquées dans les crossing-over et sont équiprobables.
• si a et b sont proches, la majorité des méioses se fait sans crossing-over (cas 1), et seulement quelques
méioses ont lieu avec 1 crossing-over (cas 2) : globalement, P1+P2>R1+R2 ; %recombinaison<50% ; a
et b sont liés génétiquement
• si a et b sont éloignés, toutes les méioses se font avec 1 ou plusieurs crossing-over (cas 2 et cas 3):
globalement, P1+P2 = R1+R2 ; %recombinaison = 50% ; a et b sont indépendants génétiquement

    4  
Le calcul du pourcentage de recombinaison pose le problème des produits de méiose issus de
crossing-over multiples, qui ont un génotype parental P1 ou P2 et ne sont donc pas
comptabilisés parmi les produits de méiose issus d’une recombinaison (Figure 2). Afin de
comptabiliser tous les évènements de crossing-over, une fonction mathématique a été
développée, qui permet de calculer la distance génétique d : cette distance permet de prendre
en compte tous les produits de crossing-over, même ceux issus de crossing-over multiples, et
se calcule grâce à une fonction non linéaire dépendant de la fréquence des produits de méiose
de génotype recombiné. Son unité est le centimorgan (cM), 1 centimorgan étant l’intervalle
sur un chromosome pour lequel 1 produit de méiose sur 100 est issu d’un évènement de
recombinaison. Le pourcentage de recombinaison est en général une sous-estimation de la
distance génétique, sauf dans le cas de locus relativement proches sur le même chromosome :
dans ce cas, la fréquence des crossing-over multiples étant presque nulle, on peut estimer que
la distance génétique est égale au pourcentage de recombinaison (Figure 3).

d=-50Ln(1-2θ)  
avec  θ  = fréquence de recombinaison:
 θ  =( R1+R2)/(P1+P2+R1+R2)  
 
Si %recombinaison<10%, on peut
estimer que d=%recombinaison
(droite noire épaisse)
Si %recombinaison>10%,
d>%recombinaison (courbe grise)
 
 
 

Figure 3 : Relation entre pourcentage de recombinaison et distance génétique.

    5  
La cartographie génétique permet de localiser un gène muté responsable d’un phénotype par
rapport à des gènes ou à des marqueurs adjacents déjà localisés. Sur les organismes de
laboratoire tels que la levure Saccharomyces cerevisiae ou la drosophile Drosophila
melanogaster, cette cartographie par analyse de ségrégation est effectuée grâce à la réalisation
de croisements contrôlés entre lignées homozygotes (lignées pures) qui génèrent de nombreux
descendants (voir le polycopié de cours et les exercices de LV203 pour le détail des
analyses de ségrégation sur organismes de laboratoire).
En revanche, en génétique humaine, la localisation des gènes par cartographie génétique est
rendue plus difficile car l’homme n’est pas un animal de laboratoire ! On ne peut pas y créer
de lignées pures par croisements successifs, le nombre de descendants diploïdes par couple est
très faible (ce qui ne donne que de très faibles valeurs statistiques aux mesures), il est très
difficilement envisageable de réaliser des backcross, et les manipulations génotypiques et
phénotypiques sont évidemment très limitées.
Le chapitre I expose les méthodes particulières qui ont été développées pour l’étude des
ségrégations humaines et l’identification des gènes et des mutations impliquées dans les
pathologies humaines.

    6  
Chapitre I
Génétique humaine : De la cartographie génétique à l’identification de la
mutation causale

Introduction

Dans ce nouveau chapitre nous allons donc nous intéresser à une espèce nettement plus
difficile d’étude, l’homme. L’étude de la ségrégation chez l’homme, qui n’est pas un animal
de laboratoire et pour lequel les croisements et le nombre de descendants ne sont pas
contrôlables, nécessite le développement de méthodes d’études particulières, comme celle du
Lod-Score, pour cartographier les régions chromosomiques contenant les gènes d’intérêt.
Nous verrons ensuite comment restreindre la région chromosomique cartographiée grâce,
entre autre, aux techniques de cartographie physique, de reconstruction d’haplotypes, d’étude
du déséquilibre de liaison, ainsi que par la recherche de régions homozygotes dans les
familles consanguines. Une fois la région contenant le gène restreinte à un petit intervalle, il
faut encore identifier le gène responsable du phénotype ainsi que la mutation causale. Dans
cette dernière partie, nous verrons comment faire la différence entre un polymorphisme neutre
et une mutation causale, ainsi que les différentes techniques permettant de valider un gène
candidat.

I- La cartographie génétique chez l’homme

I-1- Etude des co-transmissions

Les études de ségrégations permettent de localiser des marqueurs génétiques les uns par
rapport aux autres dans le génome pour établir une carte génétique. Une fois cette carte
dressée, il devient possible de localiser de nouveaux marqueurs ou gènes d’intérêt par rapport
à ces marqueurs, voire de rechercher au sein du génome les régions associées à des marqueurs
phénotypiques ou à des maladies. Ces études de localisation de régions liées à des phénotypes
reposent sur la cartographie génétique (voir cours de LV203 et introduction du cours de
LV372), c’est à dire l’étude de la transmission conjointe du phénotype d’intérêt et des
marqueurs localisés sur la carte. Plus le marqueur génétique et la région (donc le gène)

    7  
impliquée sont proches, plus ils vont avoir tendance à être transmis conjointement au cours de
la méiose d’une génération à l’autre. L’identification des marqueurs les plus proches de la
région permet ainsi de délimiter la région contenant le gène d’intérêt et de débuter sa
localisation.

Chez l’homme, contrairement aux organismes de laboratoire, on ne peut travailler que sur ce
qui existe naturellement, c'est-à-dire les familles, ou pédigrées. Pour réussir à cartographier
un gène chez l’homme il faut disposer, pour le phénotype étudié, de familles très grandes
avec de multiples générations et/ou consanguines. A défaut de disposer de grandes
familles, on peut étudier le pédigrée de multiples familles dans lesquelles ségrége le
phénotype, de manière à déterminer le mode de transmission (récessif/dominant ;
autosomique/lié au sexe : voir le polycopié de cours de LV203 pour un rappel de ces
notions) et à réaliser les analyses de ségrégation. Il faut ensuite développer des méthodes
statistiques afin de valider les résultats d’analyse de ségrégation dont la valeur statistique est
faible à cause du petit nombre d’individus étudiés. La méthode statistique couramment
employée est celle du LOD Score.

Figure I-1 : Arbre génétique de la ségrégation conjointe d’un phénotype et d’un


marqueur A au sein de la famille F.
Les générations sont indiquées par des chiffres romains. En noir, les individus (hommes : carrés ; femmes :
ronds) présentant le phénotype d’intérêt. Les allèles du marqueur A sont numérotés de A1 à A6.

L’arbre génétique de la figure I-1 représente une famille F dans laquelle ségrége un
phénotype et pour laquelle un marqueur génétique A a été génotypé. La question posée est la
suivante: il y a-t-il liaison génétique ou pas entre le marqueur A et le phénotype des individus
de cette famille ? Autrement dit, est-ce que la transmission du phénotype se fait
conjointement à la transmission d’un des allèles de A porté par les individus atteints, ou il y a-

    8  
t-il indépendance génétique entre ces deux transmissions au sein de la famille ? Bien sûr, ce
n’est là qu’un exemple dans une famille de taille restreinte pour expliquer le modèle, et
aucune étude génétique sérieuse ne pourrait porter sur une seule famille d’aussi petite taille !
Cette famille a été choisie car elle est complètement informative puisque l’on connaît le
génotype des grands parents paternels, ce qui nous permet de savoir quel allèle de A a été
transmis de la grand-mère (I) à la mère (II) conjointement au phénotype noir. On dit que la
phase est connue.
Il est également important de connaître le mode de transmission du phénotype afin d’attribuer
un génotype à tous les membres de la famille pour lesquels on connaît le phénotype. Dans cet
exemple, il y a une transmission sans saut de génération, et la mère de la génération II
transmet le phénotype à des garçons comme à des filles. Le phénotype étudié est donc conféré
par un allèle dominant porté sur un autosome.
On peut alors estimer le génotype des différents individus pour le marqueur et le gène étudié.
Soit m l’allèle responsable du phénotype blanc et M celui responsable du phénotype noir.
Le grand-père est mA1/mA2 et la grand-mère, porteuse du phénotype d’intérêt et avec des
descendants sains, est mA3/MA4 ou mA4/ MA3. On ne connaît pas sa phase, on ne sait pas
quel allèle du marqueur est associé à quel allèle du gène sur les chromosomes qu’elle a reçu
de ses parents.
En 2ème génération, la mère a forcément reçu l’allèle m de son père et M de sa mère, et elle
possède les allèles A1 et A3 du marqueur. Connaissant ses parents, il est forcément
mA1/MA3. Pour elle, on connaît donc la phase des chromosomes. C’est le marqueur A3 qui a
été transmis conjointement à M. Si les deux gènes (A et le gène d’intérêt) sont très liés
génétiquement, la transmission du phénotype noir à sa descendance devrait se faire
conjointement à celle du marqueur A3. Le père de la génération II est quant à lui mA5/mA6.
Quand on regarde les descendants de la génération III on peut évaluer la liaison ou
l’indépendance entre le gène et le marqueur en regardant le taux de co-transmission de l’allèle
A3 et du phénotype dans les gamètes de la mère II.
Ici, sur les 4 enfants présentant le phénotype noir, deux ont reçu l’allèle A3 de la mère, 2
l’allèle A1. De la même manière, si on s’intéresse aux enfants de phénotype blanc, qui ont
reçu l’allèle m de la mère en phase avec l’allèle A1, un enfant a reçu l’allèle A1, l’autre
l’allèle A3.
En se basant sur les résultats des 6 méioses maternelles, 3 enfants sont issus de gamètes non
recombinés et trois de gamètes recombinés. Cela va fortement dans le sens d’une

    9  
indépendance génétique entre le marqueur A et le gène conférant le phénotype. Le
marqueur étudié et le gène ne sont vraisemblablement pas liés.

Figure I-2 : Arbre génétique de la ségrégation conjointe d’un phénotype et d’un


marqueur A au sein de la famille G.

Dans le cas de la famille G (Figure I-2), les deux premières générations sont identiques à
celles de la famille F (Figure I-1) mais les génotypes des marqueurs pour les descendants de
la troisième génération ont varié. En gardant le même raisonnement que précédemment, on se
rend compte que dans cette famille tous les individus présentant le phénotype d’intérêt dans la
troisième génération ont reçu l’allèle A3 de la mère de la génération II, et que les deux
individus non porteurs ont reçu l’allèle A1. La formation des 6 gamètes maternels a donc eu
lieu sans événement de recombinaison. Les couples d’allèles A3M et A1m ont toujours été
transmis ensemble. Ceci va dans le sens d’une liaison génétique entre le marqueur et le
gène, même si l’hypothèse d’indépendance ne peut pas être rejetée. On ne parle ici en
effet que de 6 méioses, et la probabilité de transmission conjointe du même allèle du
marqueur avec l’allèle responsable du phénotype d’intérêt par simple hasard reste tout à fait
possible, même si moins probable que l’hypothèse de liaison.

I-2-La méthode du LOD Score

I-2-1-Principe et formule de calcul

Cette méthode est un test statistique qui repose sur l’estimation du rapport de
vraisemblance (probabilité) entre deux hypothèses : l’hypothèse H0 d’indépendance
génétique entre le marqueur testé et le locus d’intérêt, et l’hypothèse H1 de proximité
physique, et donc de liaison génétique, entre le marqueur et le gène d’intérêt. Cette
estimation est faite à partir d’observations familiales comme présentées dans le paragraphe

    10  
précédent. Le test du LOD Score est un test paramétrique qui a été développé dès 1955 par
Newton Morton. Paramétrique veut dire que pour pouvoir l’appliquer, il faut avoir une
connaissance exacte du mode de transmission de la maladie (dominant/récessif, autosomal ou
lié à l’X …) car c’est en se basant sur la transmission conjointe du phénotype et des allèles du
marqueur testé que l’on va statuer sur l’existence ou l’absence de liaison. Cette méthode
repose sur la maximisation de la vraisemblance du modèle le plus adapté aux observations
familiales.
Rappelons que l’on note θ la fréquence de recombinaison entre deux locus, θ variant de 0
(liaison génétique maximale) à 0,5 (absence de liaison génétique). On va alors tester les deux
hypothèses suivantes :
• H0 : Indépendance génétique entre le marqueur et le gène conférant le phénotype
d’intérêt (θ = 0,5). La vraisemblance (ou probabilité) de cette hypothèse est appelée
L(θ=0,5).
• H1 : Liaison génétique pour un θ donné (0 ≤ θ < 0,5) entre le marqueur et le gène
conférant le phénotype d’intérêt. La vraisemblance (ou probabilité) de cette hypothèse
est appelée L(θ<0,5).
Pour une valeur de θ donnée, le LOD Score Z(θ) est le logarithme du rapport de
vraisemblance entre les deux hypothèses H0 et H1 :
Z(θ)= log10 [L(θ<0,5)/L(θ=0,5)]

La vraisemblance de l’hypothèse de liaison, L(θ<0,5), suppose qu’il y a une liaison génétique


entre le marqueur testé et le gène d’intérêt, et que leur séparation résulte d’un événement de
recombinaison méiotique (« crossing-over »), cette recombinaison se produisant avec une
fréquence θ qui est le reflet de la distance entre les deux locus (plus ils sont proches, plus θ est
faible). Si l’on étudie n individus provenant de r gamètes recombinés et de nr gamètes non
recombinés (r+nr=n), chaque gamète recombiné se formant avec une probabilité θ/2 et
chaque gamète non recombinés avec une probabilité (1-θ)/2, la vraisemblance L(θ<0,5) de
l’hypothèse de liaison sera égale à :
L(θ<0,5) =(θ/2)rx[(1-θ)/2]nr
La vraisemblance de l’hypothèse d’indépendance génétique, L(θ=0,5), suppose quant à elle
que l’association des allèles du marqueur avec le gène d’intérêt se fait aléatoirement au
moment de la formation des gamètes. Pour les mêmes n individus que plus haut, la
vraisemblance L(θ=0,5) de l’hypothèse d’indépendance génétique sera égale à :
L(θ=0,5)=(0,5/2)rx(0,5/2)nr = (0,5/2)nr+r

    11  
La valeur de LOD Score est donc calculée, pour chaque valeur de θ, de la manière suivante :
Z(θ) = log10 [L(θ<0,5)/L(θ=0,5)] = log10 [[θ/2rx[(1-θ)/2]nr]/(0,5/2)nr+r]

Cette formule du LOD Score est établie dans des familles complètement informatives avec
des marqueurs hétérozygotes très polymorphes et pour lesquelles la phase des parents est
connue. Le fait de connaitre cette phase permet en effet, comme expliqué dans le paragraphe
I-1, de déterminer, parmi les descendants, ceux qui sont issus de gamètes recombinés et non
recombinés. Mais assez souvent dans les familles, l’information sur la phase n’est pas
disponible, ce qui complique l’application du LOD Score. La figure I-3 présente un tel
exemple de calcul du LOD Score dans une famille pour laquelle on ne connaît pas la phase de
la mère.

Θ:  fréquence  de  recombinaison


probabilité  d’un  génotype  non  recombinant  (NR)  :  (1-­‐Θ)/2    
probabilité  d’un  génotype  recombinant  (R)  :  Θ/2  

Si  phase  1:  L(Θ)ph.1=[(1-­‐ Θ)/2]5x  (Θ/2) L(Θ=0,5) ph.1=  (1/4)6


Si  phase  2:  L(Θ)ph.2=(Θ/2) x  [(1-­‐ Θ)/2]
5 L(Θ=0,5) ph.2=  (1/4)6
L(Θ)=  1/2  L(Θ)ph.1+  1/2  L(Θ)ph.2

Z(Θ)=  Log[L(Θ)/L(Θ=0,5)]
Figure I-3 : Calcul du LOD Score pour une famille où ségrége un caractère autosomique
dominant avec les allèles d et D, ainsi qu’un marqueur bi-allélique avec les allèles 1 et 2.
La phase de la mère est inconnue.
Dans ce cas là, on ne peut pas a priori choisir quelle phase est la bonne, et on doit donc
calculer les vraisemblances L(θ<0,5) et L (θ=0,5) selon les deux phases. On additionne
ensuite ces 2 probabilités pondérées d’un coefficient ½, qui traduit la probabilité d’être a
priori dans l’une ou l’autre phase. On calcule enfin la valeur de LOD Score finale selon la
formule précédente.

De manière générale, lorsque l’on analyse une famille, on calcule le LOD Score selon la
formule donnée plus haut en faisant varier θ (de 0,001 à 0,45 avec un intervalle de 0,05 par
exemple). La valeur de LOD Score maximale sera obtenue pour la valeur de θ la plus

    12  
vraisemblable. Pour une valeur de Z(θ) supérieure ou égale à 3, la liaison génétique avec
la valeur θ correspondante est plus de 1000 fois plus probable que l’indépendance
génétique (log10(1000)=3). A l’inverse, pour une valeur de Z(θ) inférieure à -2, la liaison
génétique avec cette valeur de θ est 100 fois moins probable que l’indépendance
génétique (log10(1/100)= -2). Ce sont ces seuils qui ont été fixés pour pouvoir conclure :
pour la valeur maximale de Z(θ) supérieure ou égale à 3, on acceptera l’hypothèse de liaison
génétique avec cette valeur de θ. Si au contraire on obtient une valeur de Z(θ) inférieure à -2,
on exclura toute possibilité de liaison pour un θ inférieur ou égal au θ testé. Pour toute valeur
de Z(θ) comprise entre -2 et +3, on ne peut pas conclure, ce qui est souvent le cas lorsque l’on
travaille sur un nombre de familles ou de descendants trop faible pour avoir une puissance du
test suffisante. C’est là que l’utilité du logarithme se fait sentir : les logarithmes peuvent
s’additionner. Si l’on obtient un LOD Score entre -2 et 3 et que l’on ne peut pas conclure, on
peut analyser de nouvelles familles et ensuite additionner le résultat du nouveau LOD Score à
l’ancien de manière à le faire passer à une valeur permettant son interprétation (soit supérieure
à 3, soit inférieure à -2).

I-2-2- Les différentes courbes de LOD Score

La figure I-4 présente les différentes courbes de LOD Score qu’il est possible d’obtenir.

A C

B D

Figure I-4: Exemples de courbes de LOD Score (d’après Huret et al., Atlas of Genetics and
Cytogenetics in Oncology and Haematology).

    13  
La courbe A révèle une liaison génétique forte entre le marqueur testé et le gène conférant le
phénotype d’intérêt, puisque la valeur maximale Z(θ) supérieure à 3 est obtenue pour θ=0
(c'est-à-dire 0% de recombinaison). La courbe B révèle une liaison pour tous les θ compris
entre 0,05 à 0,3 (zone dans laquelle Z(θ) est > à 3). La valeur maximale de Z(θ) indique la
valeur la plus probable de θ (ici, environ 0,2, c'est-à-dire 20% de recombinaison). Le gène
d’intérêt et le marqueur utilisé sont donc liés, mais moins fortement que dans le cas A car ils
recombinent. Dans les courbes C et D, on obtient une valeur de LOD Score inférieure à -2
pour un θ de 0,15 environ. Ceci permet d’exclure toute possibilité de liaison génétique entre le
marqueur et le gène pour toutes les valeurs de θ inférieures ou égales à 0,15 (15% de
recombinaison). Pour le reste des valeurs de θ, le LOD Score reste inférieur à 3 et l’on ne peut
conclure. Dans la courbe E enfin, les valeurs de LOD Score varient de -2 à +1, ce qui ne nous
permet pas de conclure. Comme nous y avons fait référence plus haut, c’est dans ce cas de
figure qu’il faut augmenter le nombre de familles étudiées afin d’additionner les valeurs de
LOD Score obtenues pour chaque famille et pouvoir trancher en faveur de la liaison génétique
ou de son exclusion.

Avoir un LOD Score maximum pour une valeur de θ donnée ne veut pas dire que ce θ est
forcément le θ réel. C’est la raison pour laquelle on définit un intervalle de confiance sur la
valeur de θ la plus probable. Ainsi, sur la courbe de la figure I-5, afin de pouvoir estimer la
fourchette la plus probable de θ, on prend la valeur maximale de Z(θ) (ici 3,3 pour θ = 0,12),
on la diminue de 1 (ce qui fait ici 2,3), et on estime entre quelles valeurs de θ le Z(θ) est
supérieur ou égal à cette nouvelle valeur. Ici, Z(θ) est supérieur ou égal à 2,3 pour θ compris
entre 0,08 et 0,32.On en conclut que θ est plus probablement compris entre 0,08 et 0,32.

Figure I-5 : Principe du calcul de l’intervalle de confiance (IC) pour la valeur de θ la


plus probable.

    14  
Afin de réaliser ces études de localisation de gènes chez l’Homme, plusieurs équipes
internationales ont entrepris d’obtenir, de la fin des années 1990 au début des années 2000,
des cartes génétiques complètes du génome humain. On peut ainsi citer la carte française du
Généthon, publiée en 1996 (Dib et al., Nature 1996), la carte américaine de Marshfield,
publiée en 1998 (Broman et al., Am. J. Hum. Genet 1998) et la carte de la société islandaise
deCODE Map publiée en 2002 (Kong et al., Nat. Genet. 2002).

I-2-3- Cartographie pan-génomique

Dans les paragraphes précédents, il a été question de la localisation d’un gène d’intérêt par
rapport à un marqueur particulier. On peut aussi réaliser ce genre d’étude en utilisant un
ensemble de marqueurs répartis sur la totalité du génome de manière à localiser le ou les
gènes responsables d’un phénotype sur l’ensemble des chromosomes. C’est ce qu’on appelle
la cartographie pan-génomique.
Cette approche est en particulier utilisée pour localiser les gènes de susceptibilité dans le cas
de maladies complexes, mais aussi les gènes impliqués dans des phénotypes qui varient de
manière continue (taille d’un individu, nombre de grains de blé dans un épi …) : c’est ce
qu’on appelle la recherche de QTL (Quantitative Trait Locus, voir chapitre II).

II- Réduction de la région chromosomique mise en évidence par cartographie génétique

Une analyse de liaison génétique par LOD Score met en évidence, du fait de l’intervalle de
confiance, des régions étendues allant jusqu’à 10 ou 15 centiMorgan (cM) soit, chez
l’homme, 10 à 15 millions de paires de bases. Dans cette région, des milliers de gènes sont
présents ! Afin d’identifier le gène impliqué dans le phénotype étudié, il faut, par différentes
approches présentées dans ce paragraphe, diminuer la taille de cet intervalle. Suivant les cas
particulier de recherche de gènes, ces différentes approches peuvent être ou non utilisées.

    15  
II-1- Utilisation de la reconstruction d’haplotypes pour restreindre la région chromosomique

II-1-1- Définition de l’haplotype

Un haplotype (en anglais, « Haploïde Genotype ») est une combinaison d’allèles de


différents marqueurs sur un même fragment chromosomique.
Soit trois marqueurs consécutifs A, B et C sur un chromosome, avec les allèles A1-A2 ; B1-
B2 et C1-C2 respectivement (Figure I-9). Un haplotype possible est par exemple A1 B1 C1,
ce qui signifie que ces trois allèles sont présents sur le même chromosome et ont donc été
transmis ensemble à l’individu par l’un de ses parents. Deux individus, tels que les individus
X et Y, peuvent très bien être de même génotype, par exemple hétérozygotes pour ces trois
marqueurs, mais avoir des haplotypes différents.

A1   A2   A1   A2  
B1   B2   B2   B1  
C1   C2   C2   C1  

Individu X Individu Y
Génotypes A1/A2 B1/B2 et C1/C2 Génotypes A1/A2 B1/B2 et C1/C2
Haplotypes A1 B1 C1 et A2 B2 C2 Haplotypes A1 B2 C2 et A2 B1 C1

Figure I-9 : Blocs haplotypiques de deux individus X et Y pour trois marqueurs


consécutifs A, B et C sur un chromosome.
Les individus X et Y sont indiscernables génotypiquement pour chacun des trois marqueurs pris
indépendamment, mais haplotypiquement différents.

II-1-2-Principe et exemples de reconstruction d’haplotypes

La reconstruction des blocs haplotypiques transmis à la descendance permet, tout comme


l’étude de transmission des marqueurs, d’étudier la co-transmission des différents haplotypes
et du gène impliqué dans le phénotype d’intérêt. On va utiliser l’information connue sur
plusieurs marqueurs adjacents pour localiser plus finement le gène dans la région
chromosomique contenant ces marqueurs. Afin de pouvoir étudier cette transmission
conjointe de l’haplotype et du phénotype d’intérêt, on a besoin de familles avec le plus grand
nombre possible de descendants, car ce qui permet d’affiner la région c’est l’observation

    16  
d’événements de recombinaison méiotique. Plus les familles seront informatives, c'est-à-dire
avec de nombreux marqueurs polymorphes dans la région d’intérêt, plus la localisation du
gène sera précise.

Exemple 1 : Exemple de reconstruction d’haplotype et localisation d’un gène impliqué


dans un cancer héréditaire
Ce premier exemple présenté figure I-10 illustre comment des chercheurs ont pu affiner la
localisation d’un gène impliqué dans une forme de cancer héréditaire à mode de transmission
autosomique dominant, en se servant de reconstructions haplotypiques. A l’origine, une étude
de liaison par analyse de LOD Score a permis d’impliquer une région d’environ 20 cM sur le
bras court du chromosome 8. Les chercheurs ont identifié 5 marqueurs microsatellites, a, b, c,
d et e, au sein de cette région. Ces 5 marqueurs sont ordonnés depuis le télomère du bras court
vers le centromère et possèdent de multiples allèles. Ces 5 marqueurs ont été génotypés chez
les parents et les enfants d’une famille dans laquelle ségrége cette forme de cancer héréditaire.
L’ordre des allèles pour chaque marqueur reprend simplement les numéros croissants et ne
présage pas des haplotypes des individus. Le père, par exemple, n’a pas forcément les
haplotypes (1-2-2-1-4) et (3-7-8-6-12). De la même manière les enfants de la fratrie reçoivent
des haplotypes parentaux qu’il va falloir reconstruire.
Pour reconstruire les haplotypes, on regarde, pour chaque enfant, quels allèles sont reçus de
chacun des parents et on associe tous les allèles d’un parent dans un haplotype. On regarde
ensuite la cohérence des résultats pour l’ensemble des enfants afin d’estimer quels sont les
haplotypes parentaux les plus vraisemblables. Quand on reconstruit des haplotypes avec
des marqueurs qui sont génétiquement liés, comme c’est le cas ici avec les marqueurs a à
e (compris dans un intervalle d’environ 20 cM), l’haplotype parental le plus
vraisemblable est celui qui permet d’obtenir le nombre le plus faible d’évènements de
recombinaison (« crossing-over ») chez les enfants. Le principe fondamental d’une
reconstruction d’haplotypes entre marqueurs fortement liés génétiquement est donc de
minimiser les évènements de recombinaison lors de la production des gamètes paternels et
maternels à l’origine des enfants.

    17  
a b c d e
Télomè Centrom
re ère

Figure I-10 : Génotypage des marqueurs a, b, c, d, e, dans une famille dans laquelle
ségrége la forme de cancer héréditaire liée au bras court du chromosome 8.
Les individus ayant développés un cancer sont représentés en noir. Au dessus de la généalogie est représenté
l’ordre des marqueurs a, b, c, d, e sur le chromosome 8. Ces marqueurs sont compris dans un intervalle d’environ
20 centimorgan.

Dans cet exemple, le premier enfant a reçu de son père les allèles (1-2-2-1-4) et de sa mère
les allèles (4-6-11-1 2). Le deuxième enfant a reçu de son père les allèles (3-7-8-6 -12) et de
sa mère les allèles (2-1-3-5-12). Le troisième enfant a reçu de son père les allèles (1-2-2-6-4
ou 12) et de sa mère les allèles (4-1-3-2-4 ou 12). Le quatrième enfant a reçu de son père les
allèles (3-7-2-1-4) et de sa mère les allèles (2-1-3-1-4). Enfin le cinquième enfant a reçu de
son père les allèles (1-2-8-6-12) et de sa mère les allèles (4-6-11-5-12). On peut alors
déterminer les haplotypes paternels et maternels les plus vraisemblables, c'est-à-dire ceux qui
génèrent le plus faible nombre de crossing-over chez les enfants (sur un total de 5 méioses
paternelles et 5 méioses maternelles). Le père est vraisemblablement 1-2-2-1-4 / 3-7-8-6-12 et
la mère 4-6-11-5-12 / 2-1-3-2-4. Avec ces haplotypes, les évènements de crossing-over sont
minimisés : dans l’intervalle a-b, seul 1 enfant sur 5 a subi un crossing-over d’origine
maternel (enfant 3) ; dans l’intervalle b-c, il y a 2 crossing-over sur 5 d’origine maternel
(enfants 4 et 5) ; dans l’intervalle c-d, il y a 1 crossing-over d’origine paternel (enfant 3) et 2
crossing-over d’origine maternel (enfants 1 et 2) ; dans l’intervalle d-e, il n’y a aucun
crossing-over.

    18  
Cette reconstruction d’haplotypes permet de préciser la position du gène impliqué dans le
cancer dont souffrent les membres de cette famille. C’est la mère qui est malade, donc le gène
impliqué va co-ségréger avec des marqueurs maternels. En étudiant plus en détail les trois
descendants atteints (les enfants 2, 3 et 4), on se rend compte que les seuls marqueurs pour
lesquels ils possèdent des allèles maternels en commun sont les marqueurs b et c avec les
allèles respectifs 1 et 3. Ceci nous indique le gène impliqué dans le cancer héréditaire est
vraisemblablement situé à proximité des marqueurs b et c du chromosome 8 et que chez cette
femme l’allèle mutant est associé à l’haplotype contenant les allèles b1 et b3, donc porté par
le chromosome qui porte ces deux allèles.

Exemple 2 : Localisation dans une famille à trois générations


Dans la famille présentée sur la figure I-11, on s’intéresse à un phénotype transmissible au
sein des générations et sur sa co-transmission avec les allèles de 6 marqueurs adjacents (S84,
S105, S234, S129, S354, S79) dans une famille à 3 générations. Les haplotypes des individus
des générations II et III sont déjà reconstruits.

2   8   2   2   2   8   2   4   S79  

Figure I-11 : Transmission d’un phénotype dans une région chromosomique contenant 6
marqueurs microsatellites (d’après Strachan et al. éd. Garland Sciences).
Les individus présentant le phénotype sont en bleu.

En regardant les individus atteints de la génération II, on se rend compte que trois d’entre eux
(les individus 2, 4 et 7) présentent exactement le même haplotype 6-5-2-6-2-2. Celui-ci est

    19  
donc très probablement l’haplotype porteur de l’allèle impliqué dans le phénotype. Cet
haplotype provient vraisemblablement de la mère I1 également malade.
Le 4ème individu atteint de la génération II (l’individu 6) porte un haplotype légèrement
différent 2-5-2-6-2-2. Ceci est probablement du à une recombinaison durant la méiose
maternelle entre les marqueurs S84 et S105. Malgré cette recombinaison, l’individu II6 est
tout de même malade. Ceci indique donc que le gène impliqué dans le phénotype se situe
après le point de recombinaison entre S84 et S105.
Si l’on s’intéresse maintenant à la génération III, on remarque que les trois individus atteints
sont également porteurs de l’haplotype ancestral 6-5-2-6-2-2, ce qui ne nous apprend rien de
plus. En revanche l’individu III1 a également reçu une partie de cet haplotype ancestral
puisqu’il porte l’haplotype 2-2-1-6-2-2 vraisemblablement issu d’une recombinaison entre les
marqueurs S234 et S129 chez sa mère II2. Or, malgré la présence d’une partie de l’haplotype
ancestral portant l’allèle impliqué dans le phénotype (des marqueurs S129 à S79), cet individu
n’est pas atteint. Cela veut donc dire que l’allèle responsable du phénotype ne co-ségrége pas
avec les allèles de ces marqueurs. On peut donc restreindre l’intervalle dans lequel peut se
trouver le gène impliqué dans le phénotype entre le point de recombinaison S84/S105 de
l’individu II6 et le point de recombinaison S234/S129 de l’individu III1, donc dans
l’intervalle S105-S129.
Exemple 3 : Reconstruction haplotypique et diagnostic prénatal
Dans cet exemple présenté dans la figure I-12, la reconstruction des haplotypes parentaux va
être utilisée pour réaliser un diagnostique prénatal sur un enfant à naître dans une famille où
ségrége une maladie (frère atteint). Pour cela, 5 marqueurs adjacents notés de L1 à L5 et
localisés dans la région d’intérêt, découverte par une analyse préalable de LOD Score, ont été
utilisés.

Figure I-12 : Exemple de diagnostic prénatal par reconstruction d’haplotypes.

    20  
En étudiant le pédigrée, on repère tout d’abord qu’il y a un enfant atteint dans la fratrie alors
que les deux parents sont sains. L’allèle du gène impliqué dans cette maladie confère donc un
phénotype récessif. Par ailleurs, le génotype du père montre qu’il possède deux allèles de
chaque marqueur. Il est donc exclut que le gène étudié soit sur le chromosome X. Ce
phénotype analysé dans cette famille est donc un phénotype autosomique récessif, et chacun
des deux parents est donc porteur d’un allèle muté. Soit M l’allèle sain de ce gène et m l’allèle
muté. Les deux parents sont donc m/M.
Si l’on regarde le premier enfant atteint de la fratrie, il a forcément reçu les deux haplotypes
parentaux porteurs de l’allèle m puisqu’il est atteint et donc m/m. Pour le marqueur L1 il a les
allèles 7 et 2. Sachant que, pour ce marqueur, son père est 3/7 et sa mère 2/7, cet enfant a
forcément reçu le 2 de sa mère et le 7 de son père. Pour le marqueur L2, les deux parents, et
donc forcément l’enfant, sont 2/2 : on dit que ce marqueur est non informatif. Pour le
marqueur L3, le père est 5/4 et la mère 4/3. Or l’enfant est 5/3. Il a donc forcément reçu le 5
de son père et le 3 de sa mère. Par raisonnement analogue, on remarque que cet enfant à
également reçu les allèles 6 et 2 du père et 4 et 7 de la mère pour les deux derniers marqueurs.
La reconstruction d’haplotype fait donc que cet enfant a reçu l’haplotype 7-2-5-6-1 et l’allèle
m de son père, et l’haplotype 2-2-3-4-7 et l’allèle m de sa mère. La mère est donc sans doute
2-2-3-4-7 associé à m et 7-2-4-1-2 associé à M. Le père est vraisemblablement 7-2-5-6-1
associé m et 3-2-4-3-7 associé à M.
En effectuant le même travail sur la fille non atteinte, on peut dire qu’elle a reçu l’haplotype
7-2-5-6-1 et l’allèle m de son père, et l’haplotype 7-2-4-1-2 et l’allèle M de sa mère. Elle est
bien non malade, car hétérozygote m/M (porteuse saine).
Quant à l’enfant à naître, il a reçu l’haplotype 3-2-4-6-1 de son père et l’haplotype 7-2-4-1-2
de sa mère. L’haplotype d’origine paternel est visiblement le résultat d’une recombinaison
entre les marqueurs L3 et L4, et ne sachant pas au niveau de quel marqueur se situe le gène
impliqué, on ne sait pas si c’est l’allèle m ou M que le père a transmis à cet enfant à naître.
Cependant, il a reçu de sa mère l’haplotype associé à l’allèle M, et a donc de fortes chances
d’être non atteint, soit homozygote M/M, soit hétérozygote m/M.

II-2-Cartographie par recherche de régions homozygotes

II-2-1- Principe

    21  
La cartographie par homozygotie est une technique principalement utilisée pour identifier les
régions chromosomiques associées à des maladies récessives. En effet, pour que ce type de
maladie se développe, il faut que les personnes atteintes aient reçu deux copies de l’allèle
muté, chacune provenant d’un de leurs parents. L’allèle muté est généralement apparu dans un
petit nombre de chromosomes ancestraux, et on espère que toute la région aux alentours de
l’allèle muté, et donc les marqueurs qui y sont situés, sera transmise aux descendants dans un
même « bloc » génomique. Si c’est le cas, cette région où se situe le gène devrait être
complètement homozygote pour tous les marqueurs très proches du gène.
De manière à amplifier encore ce phénomène d’homozygotie, on étudie généralement des
familles consanguines dans lesquelles l’allèle impliqué, et donc les marqueurs adjacents, sont
transmis à partir d’un seul ancêtre porteur. Tous les individus atteints dans ces familles
consanguines devraient donc être non seulement homozygotes mais également complètement
identiques pour les marqueurs autour du gène.
En résumé, dans ce type de cartographie, on va rechercher les régions homozygotes par
descendance (Homozygous By Descent ou HBD) associées au locus morbide, sachant que ces
régions sont héritées d’un ancêtre commun et que l’allèle du gène impliqué ainsi que tous les
marqueurs proches de ce dernier sont transmis de manière homozygote aux individus atteints
(Figure I-13).

Figure I-13 : Illustration de l’homozygotie par descendance (HBD) (d’après Rossignol et al.
éd. Dunod).
L’allèle récessif conférant le phénotype est représenté par un point rouge.
La famille présentée est consanguine avec un mariage entre deux cousins. La région entourant
l’allèle d’intérêt, représenté par un point rouge, est en rose. L’homme en première génération
a transmis à ses deux enfants son allèle muté avec une partie plus ou moins grande de la
région rose l’entourant. Chacun de ses enfants a par la suite transmis à son enfant l’allèle

    22  
muté et une partie de la région rose qui l’entoure. Ces deux petits enfants du porteur ancestral
ont ensuite eu un enfant ensemble, et chacun a transmis à cet enfant son allèle muté, et la
région rose qui l’entoure. Celui-ci est donc porteur des deux allèles mutés et présentera le
phénotype. Par ailleurs il a reçu de manière identique tous les marqueurs proches de cet allèle
muté. Il est donc homozygote par descendance (HBD) pour toute la région chromosomique
rose qu’il a en double exemplaire.
Même si le principe de région d’homozygotie s’explique très bien par la transmission,
conjointement à l’allèle muté du gène d’intérêt, des blocs haplotypiques qui l’entourent, il est
tout à fait possible, pour deux individus atteints d’une famille consanguine, d’être
homozygote par descendance dans une région uniquement du fait du hasard. D’après la loi de
Mendel, la probabilité que deux descendants aient reçu les mêmes allèles de leurs parents à un
locus donné est de ¼. De ce fait, si l’on analyse une région chromosomique relativement
étendue, plusieurs sous-régions peuvent présenter une homozygotie, mais une seule sera
réellement due à la présence de l’allèle muté. Les autres seront dues au hasard. Afin
d’identifier correctement les régions HBD, on va par conséquent comparer les résultats
obtenus dans différentes familles consanguines pour le phénotype d’intérêt (figure I-14).

Figure I-14 : Comparaison de régions HBD identifiées dans 4 familles consanguines


portant le même phénotype d’intérêt (d’après Rossignol et al. éd. Dunod).
Les nombres 1 à 8 correspondent à des marqueurs. Pour chacune des 4 familles, les régions HBD identifiées sont
représentées par un rond rouge. La seule position HBD commune aux 4 familles est autour du marqueur 2, c’est
donc à proximité de ce marqueur que se situe le gène impliqué dans le phénotype étudié.
II-2-2-Exemple de localisation de gène par cartographie par HBD

La figure I-15 illustre la recherche de ces régions d’homozygotie dans le cas d’une grande
famille consanguine dans laquelle ségrége le phénotype de surdité congénitale. Après une

    23  
première analyse de liaison, le gène impliqué a été localisé dans une région du chromosome 2.
10 marqueurs microsatellites de cette région ont été génotypés et étudiés dans la famille. On
remarque que tous les individus atteints présentent le même génotype homozygote au niveau
des deux marqueurs AFMa052yb5 et D2S158 (représentés en bleu ciel). Cela signifie que
cette région chromosomique est homozygote par descendance. Le gène impliqué dans la
surdité congénitale de cette famille est donc situé à proximité de ces deux marqueurs.

Gènes à proximité
de ces 2 marqueurs
(intervalle de 2cM)

Figure I-15 : Utilisation de la cartographie par HBD dans le cas du phénotype de surdité
dans une grande famille consanguine (d’après Strachan et al. éd. Garland Sciences).

II-3-Cartographie par déséquilibre de liaison

La cartographie par déséquilibre de liaison est l’une des techniques les plus fréquemment
utilisée pour restreindre l’intervalle chromosomique contenant un gène. Tout comme la
cartographie par recherche de régions homozygotes, elle repose sur l’hypothèse de co-
transmission à la descendance de locus physiquement très proches.

II-3-1- Définition du déséquilibre gamétique ou déséquilibre de liaison (DL)

Soit deux marqueurs bialléliques A et B. A1 et A2 sont les deux allèles de A, de fréquence


respective p1 et q1 (p1+q1=1) ; B1 et B2 sont les deux allèles de B, de fréquence respective

    24  
p2 et q2 (p2+q2=1). On calcule dans une population les fréquences des gamètes avec les
différentes combinaisons d’allèles. S’il y a association au hasard des allèles de A et B dans
la population gamétique, c'est-à-dire s’il y a indépendance statistique, les fréquences des
4 types de gamètes devraient être égales au produit des fréquences des allèles, soit:
f(A1B1)= f(A1)xf(B1)=p1xp2
f(A1B2)=f(A1)xf(B2)=p1xq2
f(A2B1)=f(A2)xf(B1)=q1xp2
f(A2B2)= f(A2)xf(B2)=q1xq2
S’il n’y a pas indépendance statistique, c'est-à-dire si certaines combinaisons d’allèles
sont plus ou moins fréquentes que ne le voudrait l’association aléatoire, on n’a plus ces
égalités. On dit alors qu’il y a un déséquilibre de liaison (DL) ou déséquilibre gamétique.
La différence obtenue entre la fréquence observée des gamètes et le produit des fréquences
des allèles correspondants est appelée D et quantifie le déséquilibre de liaison. Par exemple :

D=f(A1B1)-[f(A1)xf(B1)]

Cette valeur D peut être soit positive, soit négative. Si D est positif, on dit que les allèles
concernés, qui s’associent plus fréquemment que ne le voudrait le hasard, sont en attraction.
A l’inverse, si D est négatif, les allèles concernés s’associent moins souvent que ne le
voudrait le hasard, on dit qu’ils sont en répulsion.

II-3-2- Origines possible du déséquilibre de liaison

Différentes causes non exclusives peuvent entraîner l’apparition d’un déséquilibre de liaison
entre deux locus dans une population. Parmi ces causes, on peut citer :
• La migration ou le brassage de population.
• L’existence d’un lien fonctionnel entre deux allèles (Figure I-16 A). Celui-ci peut
avoir comme conséquence qu’une association d’allèle sera soit sélectionnée car
avantageuse pour l’individu (dans ce cas, on observera, pour cette association
d’allèles, une valeur de D positive), soit au contraire contre-sélectionnée car délétère
pour l’individu (dans ce cas on observera, pour cette association d’allèles, une valeur
de D négative).
• La proximité physique et donc la liaison génétique entre les deux locus, qui explique
que la ségrégation des différents allèles ne soit pas indépendante (Figure I-16 B). Plus

    25  
la distance physique entre les deux locus est faible, plus la probabilité qu’ils soient
séparés par crossing-over au moment des méioses est réduite. Certaines associations
d’allèles seront donc transmises conjointement. Pour ces associations préférentielles,
plus les deux locus sont proches, plus la valeur de D, positive, est élevée.

Dans le cas de la cartographie par déséquilibre de liaison, on cherche à mettre en évidence une
proximité physique entre le gène d’intérêt et certains marqueurs. Les autres mécanismes
pouvant créer un déséquilibre de liaison en l’absence de proximité physique vont générer un
bruit de fond pouvant conduire à de fausses conclusions.

A:  Existence  d’un  lien  fonctionnel

Si  l’association  entre    A  2  et  B2  est  létale,


elle  ne  sera  jamais  observée:  
existence  d’un  déséquilibre  de  liaison
(l’association  A2B2  n’est  pas  observée)

B:  Existence  d’une  liaison  génétique

Si  A  et  B  sont  très  proches  et  que  la  


mutation  de  B1  en  B2  est  récente,  il  est  peu  
probable  que  le  brassage  génétique  ait  fait  
ségréger  A1  et  B2:  
existence  d’un  déséquilibre  de  liaison
(l’association  A2B2  n’est  pas  observée)

Figure I-16: Différentes causes pouvant générer du déséquilibre de liaison.


A : Lien fonctionnel : soient deux locus bialléliques A et B ; la combinaison A2B2 étant létale, on n’observera
que trois haplotypes (A1B1, A1B2, A2B1) dans la population.
B : Liaison génétique : soit le locus A avec les allèles A1 et A2 et le locus B avec un seul allèle, B1 ; au cours de
l’évolution, il se produit, chez un individu A1B1, une mutation qui transforme B1 en B2 et fait apparaitre un
nouvel haplotype A1B2 en plus des deux haplotypes ancestraux A1B1 et A2B1. Au cours de l’évolution de cette
population, si les locus A et B sont proches et que la mutation de B1 vers B2 est récente, on n’observera pas ou
très peu d’haplotypes A2B2, car la probabilité d’un crossing-over entre A et B est très faible.
II-3-3 Exemple de cartographie par déséquilibre de liaison

Pour la cartographie par déséquilibre de liaison, on procède un peu comme pour la


cartographie génétique classique, sauf qu’au lieu d’étudier la ségrégation de marqueurs et

    26  
d’un phénotype d’intérêt sur plusieurs générations au sein de familles, on analyse
l’association des allèles des marqueurs et du phénotype au niveau d’une seule génération.
On étudie un ensemble de marqueurs répartis uniformément dans toute la région
chromosomique d’intérêt, et ce que l’on recherche, c’est la présence excessive d’un allèle
d’un de ces marqueurs dans une population composée d’individus atteints non apparentés.
Cette sur-représentation reflète en fait la transmission de l’haplotype ancestral portant cet
allèle du marqueur et la mutation conférant le phénotype étudié. Pour la cartographie par DL,
on utilise généralement des marqueurs SNPs (Single Nucleotide Polymorphisms) qui sont très
fréquents et très bien répartis le long des chromosomes.

La figure I-17 illustre l’utilisation de la cartographie par DL pour localiser finement la


mutation impliquée dans le Syndrome de Nijmegen.

Figure I-17 : Utilisation de la cartographie par DL dans le cas du syndrome de Nijmegen


(d’après Strachan et al. éd. Garland Sciences).
A l’origine, une cartographie génétique par analyse de LOD Score a permis de mettre en
évidence une région chromosomique d’intérêt. Au sein de cette région, 16 marqueurs (en tête
de chaque colonne du tableau), ont été choisis et génotypés chez 74 patients européens non
apparentés (les 74 lignes du tableau). En comparant les allèles de ces marqueurs présents chez

    27  
les patients, on s’aperçoit que, pour deux de ces marqueurs, les 11 et 12, l’ensemble des 74
patients possède le même allèle, à savoir l’allèle A. Ceci traduit un déséquilibre de liaison et
signifie que l’allèle responsable de ce syndrome est très certainement localisé à proximité de
ces deux marqueurs.

II-4- Cartographie physique

Une autre façon de restreindre l’intervalle obtenu par cartographie génétique est de
s’intéresser à la cartographie physique de cette région. C’est également le moyen, une fois que
l’intervalle a été réduit par les techniques génétiques, d’identifier les gènes potentiellement
candidats dans cet intervalle. Contrairement à la cartographie génétique qui évalue les
distances approximatives entre marqueurs à partir du taux de recombinaison (unité : le
centiMorgan), la cartographie physique estime les distances physiques réelles entre eux. Elle
permet de localiser précisément les marqueurs, les gènes, les centromères, le long des
chromosomes. L’unité en cartographie physique est la paire de base, pb, et tous les
multiples tels que kilo (103), méga (106) et giga (109) pb.
La corrélation entre distance génétique et distance physique est imparfaite, car la distance
génétique est établie à partir du taux de recombinaison, θ, qui varie le long des chromosomes
(voir la figure 3 de l’introduction). Si θ est très faible au niveau des centromères (où la
formation de chiasmas est difficile), il est en revanche très élevé au niveau des télomères et
des séquences répétées. De plus, ce taux de recombinaison est variable selon les espèces et
également selon le sexe (chez les mammifères, il est généralement plus important dans les
méioses femelles). Grossièrement, chez l’homme, on estime que 1cM correspond à environ
1Mb (106pb).
Plusieurs techniques de cartographie physique de résolution de plus en plus fine ont été
développées au cours des dernières décennies. Ces techniques ont des résolutions variables
(de l’ordre du chromosome jusqu’à la paire de base) (Figure I-6). La cartographie physique
ultime est le séquençage direct des chromosomes qui établit l’enchaînement réel des
nucléotides. Depuis que le séquençage existe, les autres techniques sont devenues assez
obsolètes, et nous n’allons, pour certaines d’entre elles, que les évoquer.
De nos jours, on dispose pour des centaines d’espèces, dont l’homme, d’une carte physique
complète grâce au séquençage et à l’assemblage des séquences de génomes.

    28  
Figure I-6 : Les différentes méthodes de cartographie physique et leur niveau de
résolution (d’après Rossignol et al. éd. Dunod).

II-4-1- Hybrides cellulaires somatiques et hybrides d’irradiation

Ces techniques reposent sur les capacités de fusion entre cellules humaines et de rongeurs.
Pour les hybrides somatiques, après fusion, la quasi-totalité des chromosomes humains (sauf
un de manière générale) sont éjectés de l’hybride. On se retrouve alors avec des collections de
cellules hybrides homme/rongeur, chacune contenant un ou quelques chromosomes humains.
Une fois ces collections obtenues, on peut déterminer le contenu de chacun des hybrides
somatiques et localiser des marqueurs, des gènes … les uns par rapport aux autres. Si deux
marqueurs sont présents sur un même chromosome humain et qu’on teste leur présence, les
deux marqueurs vont émettre un signal positif dans les mêmes clones. Si un gène est présent
sur un chromosome donné, dans tous les hybrides contenant ce chromosome il y aura un
signal positif.

La technique des hybrides d’irradiation, de résolution un peu plus fine, permet d’évaluer la
distance physique entre deux locus localisés sur un même chromosome. Il s’agit de
fractionner les chromosomes humains par irradiation aux rayons X avant de procéder à la
fusion avec les cellules de rongeurs. Le principe d’évaluation des distances ressemble alors un
peu à ce que l’on fait en cartographie génétique : plus le rayonnement est fort, plus les
fragments sont petits, et donc seuls des marqueurs très proches les uns des autres vont
ségréger ensemble.

    29  
II-4-2- Hybridation in Situ en fluorescence (FISH)

La technique du FISH consiste à hybrider, sur des préparations de noyaux métaphasiques, des
sondes fluorescentes complémentaires de séquences chromosomiques, de manière à localiser
ces séquences sur les chromosomes et les unes par rapport aux autres.
Ainsi, dans la figure I-7, deux sondes moléculaires fluorescentes marquant le centromère du
chromosome X et le gène STS ont été utilisées. On peut tirer de cette expériences deux
conclusions: (1) on peut localiser le gène STS sur l’extrémité télomérique du bras court du
chromosome X, puisque la sonde STS se fixe sur le même chromosome que la sonde
spécifique du centromère du chromosome X. (2) on révèle une anomalie chromosomique dans
cette cellule: la délétion du bras court d’un des deux chromosomes X contenant la région STS.
En effet la sonde STS ne se fixe que sur un des chromosomes X. Cela signifie que la région
complémentaire à la sonde STS du 2ème chromosome X a été perdue.

Figure I-7 : Exemple de localisation génique par hybridation fluorescente in situ sur une
cellule métaphasique humaine. Deux sondes fluorescentes, complémentaires du
centromère du chromosome X et du gène STS respectivement, sont utilisées.

II-4-3-Séquençage

Si le séquençage de l’ADN a beaucoup évolué en termes de taille des fragments séquencés et


de rapidité d’exécution depuis la description de la méthode originale de Sanger à la fin des
années 70, le principe, reposant sur une synthèse enzymatique sélective à partir de
didésoxynucléotides, est resté le même. Cette méthodologie, déjà décrite lors du module

    30  
LV203 ne sera pas reprise ici. Il faut se référer au polycopié de cours de LV203 pour plus
d’informations.
Au cours de ces 30 dernières années, plusieurs avancées technologiques comme le
développement de la synthèse chimique automatisée des oligonucléotides amorces;
l'introduction de nucléotides fluorescents à la place des nucléotides radioactifs, l'utilisation de
séquenceurs automatiques, et l'électrophorèse capillaire et non plus sur gel, ont permis
d’améliorer la technique de séquençage initiale et de développer le séquençage automatisé
(Figure I-8). Le séquençage automatisé consiste à introduire dans le mélange réactionnel non
pas un didésoxynucléotide radiomarqué par expérience, mais les 4 didésoxynucléotides
fluoromarqués dans le même tube. Celui-ci est alors soumis à électrophorèse. En cours de
migration, 4 capteurs (un par longueur d'onde différente correspondant à chaque
didéoxynucléotide) enregistrent la lumière émise par les molécules terminées par un
didéoxynucléotide. Ces quatre graphes sont superposés et un logiciel traduit ce pictogramme
en séquence.

Figure I-8 : Séquençage automatisé et électrophorèse capillaire.

Le séquençage nouvelle génération proposé par les sociétés Applied Biosystem, Roche et
Illumina n’est qu’un perfectionnement des techniques existantes. Ces techniques permettent
de séquencer la totalité d’un génome (préparé en fragments de 200 à 300 nucléotides) en
moins d’un mois.

    31  
III-Identification du gène par l’approche « gène candidat »

Une fois la région chromosomique d’intérêt restreinte au plus petit intervalle possible, il faut
identifier le gène responsable du phénotype. En effet, même dans un intervalle d’un ou deux
centiMorgan, il y a toujours des dizaines de gènes. On va donc rechercher parmi ces gènes,
celui qui est le meilleur candidat. Une des manières de sélectionner un gène candidat est de
voir si sa fonction peut être en adéquation avec le phénotype observé.

III-1-Principe de l’approche « gène candidat »

De manière générale, ce type d’approche ne nécessite pas de localisation préalable d’une


région d’intérêt pour identifier le gène impliqué dans un phénotype. Le gène candidat peut
être sélectionné sans a priori quant à sa localisation, uniquement du fait de sa fonction
potentiellement impliquée dans le phénotype. Il y a cependant près de 30 000 gènes dans le
génome humain, dont un grand nombre de fonction inconnue. Il est donc difficile de choisir
les gènes totalement au hasard et il est utile d’avoir des « pistes » pour guider le choix des
gènes à tester. Afin de faciliter le choix des gènes candidats, il faut avoir une connaissance la
plus parfaite possible du phénotype et des fonctions biologiques impliquées dans son
développement. On appelle cela établir le cadre physiopathologique. Si l’on travaille sur une
maladie inflammatoire, les gènes de la mise en place ou du maintien de l’inflammation seront
des candidats évidents. Si on s’intéresse à un phénotype auto-immun ce sont les gènes des
voies immunitaires qui sont les plus intéressants.

Lorsque l’étiologie (les causes) du phénotype n’est pas évidente, il est difficile de se baser
uniquement sur la fonction des gènes pour choisir les candidats. On doit alors réaliser des
études combinées qui vont utiliser à la fois les informations de cartographie et la stratégie
gènes candidats. On va tout d’abord, par cartographie génétique, identifier la ou les région(s)
candidate(s), généralement très étendues (de 10 à 30 cM). Une fois la taille de ces régions
réduite à de petits intervalles (de l’ordre du cM) par les différentes techniques vues
précédemment, on procède à des choix de gènes candidats.

Le gène impliqué est celui qui, chez des individus atteints, est porteur d’une mutation
responsable du phénotype (mutation causale). Pour identifier celle-ci, il faut comparer la

    32  
séquence de ce gène candidat chez des individus sains et des individus atteints. Mais cette
entreprise se heurte à deux difficultés majeures :
• Une mutation responsable d’un phénotype peut se produire dans les différentes régions
d’un gène (séquences régulatrices, séquence codante, introns, exons…voir le
paragraphe I du chapitre II). Certains gènes humains étant très grands, avec de
nombreux introns et de grandes régions régulatrices, il est difficile de les séquencer en
totalité. Dans un premier temps, seuls les exons et la séquence codante seront donc
analysés. A l’heure actuelle, les séquenceurs capillaires permettent d’analyser plus de
1500 fragments de 500 pb en moins de 48h de façon quasi-complètement automatisée
et avec un taux de succès avoisinant les 95%. Divers logiciels de lecture de séquences
et d’identification des positions polymorphes (tel PolyPhred développé en 1997 par
Nicjkerson et al.) existent et permettent un premier écrémage de la lecture des
séquences. Le développement récent des outils de séquençage de nouvelle génération
ont permis d’accélérer le débit et d’améliorer le coup de re-séquençage des régions
d’intérêts. En pratique, il n’est pas rare que des chercheurs travaillant sur un gène
particulier se lancent dans le re-séquençage de l’ensemble des exons d’un gène
candidat chez 12 à 24 patients afin de repérer les mutations potentielles.
• Quand on compare la séquence de deux individus, il existe des différences de
séquences, appelées polymorphismes neutre, qui n’ont pas d’effet. Il est donc d’une
importance primordiale de distinguer un simple polymorphisme, sans effet
(polymorphisme neutre), d’une mutation ayant un effet fonctionnel (polymorphisme
sélectionné ou mutation causale).

III-2- Polymorphisme neutre et polymorphisme sélectionné (mutation causale)

Les polymorphismes neutres sont des changements dans la séquence nucléotidique qui ne
confèrent aucun avantage ou désavantage sélectif. Il n’y a pas de conséquence phénotypique
particulière selon les allèles possédés par les individus. On rencontre principalement ce type
de polymorphisme dans le cas de mutations synonymes, qui changent un nucléotide de la
séquence génique mais pour lesquelles l’acide aminé codé restera le même, ou pour des
polymorphismes se situant dans des régions non codantes et non régulatrices.
Les fréquences alléliques de ces polymorphismes se fixent de manière aléatoire dans la
population, c’est ce que l’on appelle la dérive génétique. Elles varient d’une génération à
l’autre du fait du tirage aléatoire des allèles qui vont composer les gamètes au sein de la

    33  
population. Plus la taille de la population est faible et plus un des allèles a de chance de se
fixer (fréquence de 1) tandis que l’autre, ou les autres, tendront à disparaître (fréquence de 0).

Dans le cas d’un polymorphisme sélectionné, il y a intervention de la sélection dès


l’apparition des différents allèles. En effet, un allèle confère un avantage ou un désavantage,
aux individus porteurs, et va donc être conservé ou éliminé durant l’évolution de l’espèce. Si
le polymorphisme est amené à disparaître dès son apparition du fait d’une contre-sélection
dans le pool d’allèles, il est dit transitoire. Par contre si le polymorphisme nouvellement
apparu est conservé dans la population du fait de la sélection on parle de polymorphisme
maintenu. D’un point de vu moléculaire, les polymorphismes sélectionnés, ou mutations
causales, affectent différentes régions d’un gène et ont pour conséquence un changement de
niveau d’expression du gène, une perte ou un changement de fonction du produit du gène…
(voir le paragraphe I du chapitre II).

III-3- Validation des gènes candidats

Une fois le gène candidat identifié, il reste encore à le valider, autrement dit à vérifier que
c’est bien lui qui est impliqué dans le phénotype. La première validation correspond à
l’identification, par séquençage chez des individus sains et malades, de la mutation causale.
Une autre façon de valider l’implication d’un gène candidat consiste à étudier son niveau
d’expression chez des individus présentant ou non le phénotype étudié. Pour cela, on peut
mesurer le niveau de transcrit par Northern-Blot ou RT-PCR quantitative. On peut aussi
mesurer le niveau de protéine et étudier par exemple la localisation sub-cellulaire de celle-ci
par des expériences de Western-Blot et d’immuno-histochimie. Enfin, on peut aussi utiliser
des modèles cellulaires ou animaux (cultures de cellules, levure, souris, drosophile, voir
chapitre III) afin de tester in vivo l’effet de la mutation causale identifiée.

IV- Exemples d’identifications de gènes

Pour finir ce chapitre, nous allons présenter, à titre d’exemple, deux démarches
expérimentales ayant conduit à l’identification du gène dans le cas de deux maladies
génétiques. Ces exemples sont à comprendre, mais il est inutile de les apprendre par coeur.

    34  
IV-1- La mucoviscidose

La mucoviscidose est une maladie monogénique autosomique récessive (Figure I-18). C’est la
maladie génétique la plus fréquente en Europe puisqu’elle concerne environ 1 naissance sur
2000 dans les populations caucasiennes, c’est à dire d’ascendance européenne. De plus, 1
individu sur 20 est hétérozygote porteur d’un allèle muté (porteur sain). Cette maladie affecte
les épithéliums glandulaires de nombreux organes, même si les atteintes respiratoires sont
prédominantes et représentent l'essentiel de la morbidité. La forme clinique la plus fréquente
associe troubles respiratoires, troubles digestifs et troubles de la croissance staturopondérale.
D'évolution chronique et progressive, cette maladie s'exprime souvent dès la petite enfance.
Le gène de la mucoviscidose a été identifié en 1989, c’est le premier gène impliqué dans une
maladie qui a été identifié, avant le séquençage du génome humain, uniquement sur la base
d’analyses de cartographie génétique (analyses de liaison) et physique (FISH, hybrides
somatiques….).

Figure I-18 : Ségrégation du phénotype de mucoviscidose au sein d’une famille touchée.


Des parents non atteints ont des descendants atteints. Ces sauts de générations sont typiques d’une maladie
récessive. Des pères non atteints peuvent avoir des fils et des filles atteintes donc le gène impliqué ne se trouve
pas sur un chromosome sexuel.

Au moment des premières études génétiques sur des patients, à la fin des années 80, les
chercheurs ont essayé d’adopter une méthodologie « standard » en recherchant chez ces
patients des remaniements chromosomiques importants, afin de localiser grossièrement la
région d’intérêt. Cependant, malgré de nombreuses études, aucun remaniement n’a été
identifié. Pour ajouter aux difficultés, en 1989, aucune carte génétique précise du génome

    35  
n’était disponible. Les chercheurs ont alors décidé de se lancer dans une cartographie
génétique pan-génomique afin de localiser la (ou les) région(s) co-ségrégeant avec la maladie
dans les familles. En procédant ainsi, ils ont identifiés deux marqueurs de type RFLP
(Restriction Fragment Length Polymorphism) de la région 7q31. Une fois la région 7q31
identifiée, les chercheurs ont isolé dans les banques génomiques les clones d’ADN de cette
région et ont reconstruit par des méthodes de cartographie physique la carte physique de la
région. Les gènes présents dans cette région ont été étudiés par criblage de banque d’ADNc et
par Northern-blot afin d’identifier les gènes dont l’expression était modifiée. Le gène CFTR
(Cystic Fibrosis Conductance Regulator) a ainsi été identifé. Il code un transporteur
transmembranaire d’ion Cl- exprimé dans les cellules épithéliales, en particulier celles qui
bordent les voies respiratoires. L’entrée de chlore s’y fait conjointement à une excrétion d’eau
qui va diluer le mucus des voies respiratoires. Chez les patients atteints, le canal fonctionne
mal et l’excrétion d’eau n’est pas efficace. On a accumulation du mucus dans les voies
respiratoires, ce qui crée de graves difficultés respiratoires et diminue gravement l’espérance
de vie.
La mutation ΔF508, délétion d’un triplet dans le 10ème exon du gène entraînant la perte d’une
phénylalanine dans la protéine, est la plus fréquemment observée chez les patients, mais plus
de 1200 autres mutations avec des effets plus ou moins importants ont été décrites (voir
paragraphe II du chapitre II).

IV-2 La myopathie centronucléaire

La myopathie centronucléaire, ou CNM, se caractérise chez les individus atteints par une
position anormale, au centre des fibres musculaires au lieu de la périphérie, des noyaux des
cellules musculaires. Les personnes atteintes présentent une faiblesse musculaire généralisée
qui s'installe à un âge précoce. Les CNM touchent moins d'une personne sur 10 000 en France
et se transmettent selon 3 modes, lié au chromosome X, autosomiques récessif ou dominant.
Ceci suggère qu’il existe différents gènes dont les mutations peuvent entrainer l’apparition de
cette maladie. La CNM est donc une maladie génétiquement hétérogène (voir introduction
du chapitre II).

    36  
Une équipe travaillant sur la forme autosomique dominante a procédé à des études de
cartographie pan-génomique par analyse de LOD Score dans 2 grandes familles avec 8 et 14
individus atteints, respectivement (Figure I-19).

Figure I-19 : Pédigrées de transmission de la CNM au sein des deux familles étudiées
(d’après Bitoun et al. Nature Genetics 2005).
L’étude de ces pédigrées montre un mode de ségrégation autosomique dominant, avec des individus atteints à
chaque génération et des pères et des mères ayant des fils et des filles atteintes. A gauche des arbres sont
indiqués les marqueurs qui co-ségrègent avec le gène impliqué. Les haplotypes pour ces marqueurs ont été
reconstruits pour les individus de ces familles. La mise en évidence d’évènements de recombinaison (symbolisés
par > et <) ont permis de restreindre l’intervalle contenant le gène.

Cette analyse a mis en évidence une liaison du phénotype CNM avec la région 19p13. 4
marqueurs de la région (D19S884, D19S865, D19S226, D19S432) présentent pour de très
faibles valeurs de θ, donc pour des distances physiques faibles, des valeurs de LOD Score
supérieures à 3, ce qui montre l’existence d’une liaison génétique entre ces marqueurs et le
gène impliqué dans la CNM (Figure I-20).

Figure I-20 : Résultats de l’analyse LOD Score menée dans les deux familles de CNM
(d’après Bitoun et al. Nature Genetics 2005).
Les marqueurs présentant une liaison génétique et leurs valeurs de LOD Score sont soulignés en rouge.

    37  
Une fois ces 4 marqueurs identifiés, la région restait très étendue et contenait de multiples
gènes. Afin de restreindre cet intervalle chromosomique, les chercheurs ont alors recruté de
nouvelles familles de CNM et utilisé de nouveaux marqueurs dans cette région. Ils ont aussi
reconstruit les haplotypes pour ces marqueurs, et identifié un certain nombre d’évènements de
recombinaison. Ils ont ainsi pu identifier un intervalle chromosomique critique dans la région
19p13.2, couvrant 11 Mb et contenant environ 200 gènes. Par approche gène candidat, ils ont
focalisé leur recherche sur un de ces gènes, le gène DNM2. Celui-ci code la dynamine 2, une
protéine qui intervient dans la cohésion des centrosomes. La recherche de mutations dans le
gène DNM2 a alors été entreprise par séquençage des exons et des jonctions exons-introns
chez plusieurs patients de différentes familles. 4 mutations faux-sens indépendantes dans la
région codante du gène ont ainsi pu être mises en évidence (Figure I-21).

Figure I-21 : Carte physique de la région de 11Mb contenant le gène DNM2 (a) et
mutations faux-sens identifiées (b) (d’après Bitoun et al. Nature Genetics 2005).
(a) : La position des différents marqueurs liés au phénotype CNM lors des études de LOD Score est indiquée.
(b) : Identification de mutations faux-sens chez 4 patients CNM non apparentés : par exemple, E368K signifie la
transformation de l’acide aminé E en position 368 par l’acide aminé K.

Différentes approches ont finalement permis de valider définitivement le gène DNM2 comme
responsable de la CNM : des analyses sur cultures cellulaires ont permis de montrer que les
protéines DNM2 présentant certaines mutations identifiées chez des patients étaient mal ou
plus du tout localisées au niveau du centrosome, contrairement à la protéine sauvage. Enfin,
des souris portant l’une de ces mutations dans le gène DNM2 (la mutation R465W) présentent
des atteintes musculaires semblables aux atteintes observées chez les patients CNM.

    38  
Chapitre II
Relations entre génotype et phénotype :
Rôle des interactions génétiques, de l’environnement et de l’épigénétique

Introduction : du monogénisme au multifactoriel

Le chapitre précédent s’est attaché à présenter, sur des exemples de maladies humaines,
comment on peut identifier le gène et la mutation responsables de la maladie. Les exemples
choisis sont des maladies à déterminisme génétique simple ce qui signifie :
(1) Qu’un seul gène est touché, déterminisme monogénique, et que, pour toutes les
familles atteintes, c’est le même gène qui est touché (mais pas forcément avec la
même mutation).
(2) Que tous les individus génotypiquement atteints sont phénotypiquement atteints :
c’est ce qui définit un phénotype à pénétrance complète.

Nombre d’individus phénotypiquement atteints


Pénétrance =
Nombre d’individus génotypiquement atteints

(3) Que la sévérité du phénotype est la même pour tous les individus génotypiquement
atteints : on parle alors d’expressivité constante.

Cependant, pour de très nombreuses maladies humaines, ce n’est pas si simple :


(1) Certaines maladies sont génétiquement hétérogènes, c'est-à-dire qu’elles peuvent
êtres causées par des mutations dans des gènes différents ; de plus, certaines maladies
sont dues à l’apparition de plusieurs mutations dans des gènes différents: on parle
alors de déterminisme multigénique.
(2) Certaines maladies sont à pénétrance incomplète (certains individus
génotypiquement atteints ne sont pas phénotypiquement atteints) et/ou à expressivité
variable (tous les individus génotypiquement atteints ne présentent pas la même
sévérité de symptômes).

Ces observations, qui ne sont pas spécifiques des maladies mais que l’on peut extrapoler à de
très nombreux phénotypes (ou caractères), traduisent le fait que la majorité des caractères

    39  
génétiques sont multifactoriels c’est-à-dire que leur déterminisme n’est pas uniquement dû à
la transmission des allèles d’un gène.
De nombreux phénotypes tels que la taille, le poids, certaines maladies…sont en effet
multigéniques, c'est-à-dire dus à l’action de plusieurs gènes. Pour les caractères
monogéniques comme certaines maladies génétiques, le phénotype observé varie aussi selon
la nature et la position de la mutation. Ceci peut alors conduire, au sein d’une population,
d’une famille, ou entre plusieurs familles, à une variabilité de pénétrance ou d’expressivité.
L’effet de la mutation dépend également du fond génétique (c'est-à-dire des allèles d’autres
gènes, qui peuvent moduler le phénotype observé, en l’aggravant ou au contraire en le
diminuant), mais également de l’environnement dans lequel évoluent les individus.
Enfin, certains mécanismes épigénétiques, tels que la régulation de la structure de la
chromatine, peuvent également moduler les phénotypes.
Dans ce chapitre, nous allons définir et illustrer, à l’aide d’exemples, ces différents points.

I- Nature et effet possible des mutations

Suivant sa nature et sa localisation, une mutation peut induire un phénotype plus ou moins
fort. De manière générale, les polymorphismes (ou mutations) présents dans les génomes se
classent dans différentes catégories suivant leur nature et leur effet, ce dernier dépendant de
la nature, mais aussi de la position du polymorphisme dans le génome. La plupart des
notions présentées dans ce paragraphe ont déjà été abordées dans l’UE LV203 « Biologie
Moléculaire et Génétique 1 ». Il faut se référer au polycopié de cours de cette UE pour plus de
précisions.

I-1- Nature des polymorphismes (rappels de LV203)

I-1-1-Mutations germinales et somatiques

Un polymorphisme, ou mutation, est un changement dans la séquence nucléotidique de


l’ADN. Ce changement, qui se produit initialement dans une cellule, est héritable puisqu’il est
transmis aux cellules filles au cours du processus de réplication de l’ADN. Chez les
eucaryotes supérieurs, on distingue 2 grands types de mutations en fonction du type cellulaire
qu’elles concernent : (1) certaines mutations, appelées mutations germinales, se produisent
dans les cellules de la lignée germinale (cellules à l’origine des ovocytes et des

    40  
spermatozoïdes), elles seront donc transmises à la descendance. Certaines de ces mutations
sont à l’origine, chez l’homme, de maladies héréditaires. (2) D’autres mutations, appelées
mutations somatiques, se produisent dans des cellules somatiques (d’un organe ou d’un tissu
déjà différencié ou en cours de différenciation). Ces cellules mutantes vont se diviser par
mitose, et donner des cellules filles mutantes qui coexisteront, au sein de l’organe ou du tissu
concerné, avec des cellules non mutantes. Elles ne seront pas transmises à la descendance.
Elles peuvent être impliquées, notamment chez l’homme, dans l’apparition de certaines
maladies telles que des cancers (qui résultent de la dérégulation du fonctionnement d’une
catégorie de cellules).

I-1-2-Les différentes natures moléculaires des mutations

Les mutations peuvent avoir différents types de nature moléculaire :


• Les mutations ponctuelles de type substitution de base : on parle de transition
lorsqu’une base purique, adenine ou guanine,est remplacée par une autre base purique
ou lorsqu’une base pyrimidique, cytosine ou thymine,est remplacée par une autre base
pyrimidique ; on parle de transversion lorsqu’une base purique est remplacée par une
base pyrimidique, et vice versa. La plupart des mutations ponctuelles sont dues à des
erreurs de réplication, non réparées, ou à l’exposition à des agents mutagènes
chimiques qui changent les propriétés d’appariement des bases.
• Les additions ou délétion d’une ou quelques bases. Elles peuvent être dues à
l’action de certains agents mutagènes chimiques, mais également à des glissements de
l’ADN polymérase au cours de la réplication. On peut citer dans ce cadre les
expansions de séquences de type microsatellites.
• Les remaniements chromosomiques, qui affectent une grande portion de
chromosome : il peut s’agir de délétions, duplications, inversions, translocations.
Certains de ces remaniements chromosomiques résultent d’évènements de
recombinaisons illégitimes au cours de la méiose. Ils peuvent être aussi induits par
certains agents mutagènes tels que les rayons X ou les rayons gamma, qui créent des
cassures dans l’ADN.
• Les variations du nombre de chromosomes, ou aneuploïdies. Elles résultent
généralement d’anomalies de ségrégations au cours de la méiose. Ces anomalies

    41  
conduisent à la formation de gamètes qui, pour certains chromosomes, ont, à la place
d’un exemplaire du chromosome donné, soit deux exemplaires, soit aucun. Quand ces
gamètes fusionnent avec un gamète normal, il y a formation d’un zygote qui a soit
trois exemplaires de ce chromosome (polysomie de type trisomie), soit un seul
exemplaire de ce chromosome (monosomie).

I-2- Effets possibles des polymorphismes

Les polymorphismes peuvent apparaître n’importe où dans le génome (séquences


intragéniques ou intergéniques ; séquences transcrites ou non transcrites ; séquences codantes
ou non codantes ; séquences uniques ou répétées), et n’ont pas tous un impact sur les
caractéristiques de la cellule ou de l’individu (ce qui explique l’utilisation des deux termes,
polymorphisme, sans effet, et mutation). Certaines mutations ne modifient pas l’expression
des gènes, et sont appelées silencieuses (ou neutres) car elles ne vont avoir aucune incidence
sur les caractéristiques de l’individu. D’autres mutations, non silencieuses, vont modifier
l’expression des gènes, et sont à l’origine des différences de caractères visibles entre deux
individus d’une même espèce. Ceci dépend à la fois de la nature du polymorphisme, mais
également de sa localisation dans le génome. De manière générale, les polymorphismes situés
en dehors des gènes, dans des régions intergéniques sont neutres, ou silencieux. Concernant
les polymorphismes à l’intérieur des gènes, leur effet dépendra de leur localisation et de leur
nature. Le paragraphe suivant rappelle la structure générale et le fonctionnement d’un gène
eucaryote, déjà présentés dans l’UE LV203.

I-2-1-Rappels sur la structure et le fonctionnement d’un gène eucaryote

Figure II-1 : Schéma de la structure d’un gène eucaryote codant une protéine.

    42  
La figure II-1 schématise la structure d’un gène eucaryote qui code une protéine. On peut y
distinguer plusieurs régions :
• Des séquences non transcrites (et donc non traduites), qui sont impliqués dans la
régulation de la transcription du gène : il s’agit du promoteur de transcription avec
les boîtes CAAT et TATA, localisé en amont du site d’initiation de la transcription
(TSS : « Transcription Start Site »). Le promoteur permet la fixation et le démarrage
de l’ARN polymérase. En 5’du promoteur, mais également parfois à la fin du gène ou
dans des introns, il existe des séquences de régulation spécifiques qui permettent soit
d’augmenter le niveau de transcription basal du promoteur (séquence « enhancer »)
soit de le diminuer (séquence « silencer »). Ces régulations sont dues à la fixation, sur
ces séquences, de protéines régulatrices qui peuvent être présentes seulement dans
certains tissus ou à certains stades de développement. Ce sont ces protéines qui
assurent la spécificité de fonctionnement de ces séquences, contrairement au
promoteur de transcription qui est actif dans tous les tissus.
• Des séquences transcrites et non traduites : elles sont localisées en 5’ et en 3’ du
gène (séquence 5’et 3’UTR =UnTranslated Region),, et dans le gène (introns). La
séquence 5’UTR joue un rôle dans la stabilisation de l’ARN par ajout de la coiffe, et
également dans la régulation de sa traduction. La région 3’UTR contient le signal de
terminaison de la transcription (symbolisé par T sur la figure II-1). C’est également
dans cette région qu’on trouve chez les eucaryotes le site de clivage de l’ARNm en 3’
(symbolisé par C sur la figure II-1) et le signal de polyadénylation (polyA) qui permet
l’addition d’une queue polyA à l’extrémité de l’ARN. La séquence 3’UTR régule
également la stabilité de l’ARN.
• Une séquence transcrite et traduite : elle correspond à la région centrale de l’ARNm
(après excision des introns), et est bordée par les régions 5’UTR et 3’ UTR. Elle est
appelée séquence codante ou CDS. Une CDS est bornée en 5’ par un codon
d’initiation de la traduction (codon AUG, qui correspond à l’incorporation d’une
méthionine à l’extrémité N-terminale de la protéine) et en 3’ par un codon STOP
(UAA/UAG/UGA) qui induit un décrochement des ribosomes et donc l’arrêt de la
traduction. Entre ces codon AUG et STOP, il y a un nombre multiple de trois de paires
de bases qui, lues en triplets ou codons, permettent l’incorporation successive d’acides
aminés et donc la synthèse d’un polypeptide.

    43  
Dans le noyau, le gène est transcrit en ARN pré-messager par l’ARN polymerase II. Cet ARN
prémessager, après ajout d’une coiffe en 5’ et d’une queue polyA en 3’, est transformé en
ARN messager par excision/épissage des introns. L’ARN messager est ensuite transféré dans
le cytoplasme où il sera traduit en protéine Par la suite cette protéine pourra subir une
maturation (clivage, modifications post-traductionnelles d’acides aminés).
La synthèse d’une protéine comporte donc de très nombreuses étapes et niveaux de
régulation. La moindre modification d’un de ces processus peut avoir un effet sur le produit
d’expression du gène et donc sur le phénotype de l’individu.

I-2-2-Effets possibles des mutations suivant leur localisation

La conséquence d’une mutation dans un gène varie en fonction de la région concernée :


• Une mutation dans le promoteur, les séquences de régulation, ou dans les régions 5’ ou
3’ UTR pourra éventuellement avoir un effet sur la quantité d’ARNm synthétisé ou
sur sa stabilité.
• Une mutation au niveau des jonctions exons-introns pourra éventuellement induire un
défaut d’épissage, et donc diminuer la quantité d’ARN messager.
• Une mutation dans la séquence codante pourra avoir des conséquences sur la séquence
de la protéine produite, ou pourra conduire à une diminution voire à une absence totale
de protéine.

I-2-3-Effets possibles des mutations suivant leur nature : exemple des mutations dans
la séquence codante

Une mutation de type substitution de base dans la séquence codante pourra avoir différentes
conséquences suivant sa localisation, la nature de la base touchée et de la base qui la
remplace :
• Si la substitution induit le remplacement d’un codon par un codon synonyme (codant
le même acide aminé), elle sera silencieuse.
• Si la mutation induit le remplacement d’un codon par un codon codant un autre acide
aminé (mutation faux-sens), la séquence protéique sera changée. L’effet éventuel de
ce changement sur l’activité et le fonctionnement de la protéine dépendra de la nature
et position de l’acide aminé touché et de la nature de l’acide aminé qui le remplace.

    44  
• Si la mutation induit le remplacement d’un codon par un codon STOP (mutation non-
sens), la protéine sera tronquée. Ceci entraine souvent une perte d’activité de la
protéine.

Une mutation de type délétion ou addition de quelques bases dans la séquence codante
induira, si la délétion ou l’addition concerne un nombre de nucléotides qui n’est pas un
multiple de 3, un décalage de cadre de lecture (« frameshift ») au cours de la traduction de
l’ARN messager. La conséquence la plus fréquente est une protéine dont la séquence change
à partir du point de la mutation, et qui est très souvent tronquée par apparition prématurée
d’un codon STOP.

Quant aux mutations de type remaniements chromosomiques, elles impliquent forcément un


point de cassure. Si celui-ci se produit à l’intérieur d’un gène, la conséquence est
généralement dramatique (arrêt de transcription, ou de traduction). Les remaniements
chromosomiques de type délétions d’un fragment chromosomique plus ou moins grand
sont quant à eux responsable de la perte totale de gènes.

En conclusion, les mutations dans un gène, suivant leur nature et leur localisation, pourront ou
non avoir un effet sur la quantité de protéine synthétisée (par une modification de son
expression ou de sa stabilité), mais aussi sur son activité (par une modification de sa
séquence). De ce fait, deux individus porteurs d’une mutation dans le même gène peuvent
avoir, en fonction de la mutation, un phénotype très différent. De plus, chez les individus
diploïdes, les deux allèles d’un gène interagissent pour conférer le phénotype final de
l’individu. Le fait que plusieurs mutations différentes puissent exister au sein du même gène
constitue la notion de série allélique.

    45  
II- Notion de série allélique ; interactions entre allèles d’un même gène ; caractérisation
des allèles

II-1-Définitions

II-1-1-Série allélique

On appelle série allélique l’ensemble des allèles d’un gène. Dans une population, l’allèle le
plus fréquemment rencontré dans la nature (ou allèle « sauvage ») est généralement noté +
tandis que les autres sont numérotés (exemple : soit le gène a, et ses allèles a+, a1, a2, a3 …).
Pour un gène donné, le nombre d’allèles pouvant exister est a priori infini.

II-1-2-Interactions entre allèles d’un même gène

Les organismes haploïdes n’ont qu’un seul exemplaire de chaque gène, donc un seul allèle, et
c’est par conséquent l’expression de celui-ci qui détermine le phénotype de l’individu. Les
organismes diploïdes, en revanche, possèdent deux exemplaires de chaque gène, et donc deux
allèles. Ceux-ci vont interagir ce qui va déterminer le phénotype de l’individu. Plusieurs cas
de figure sont alors possibles:
• Un allèle a1 peut conférer un phénotype qui va masquer le phénotype de l’autre allèle
a2 : on dit que le phénotype conféré par a1 est dominant par rapport au phénotype
conféré par a2. On peut également dire que le phénotype conféré par a2 est récessif
par rapport au phénotype conféré par a1. De ce fait, un individu hétérozygote a1/a2
aura le même phénotype qu’un individu homozygote a1/a1.
• Deux allèles peuvent conférer des phénotypes co-dominants. Dans ce cas, le
phénotype d’un individu hétérozygote a1/a2 sera intermédiaire entre celui d’un
individu a1/a1 et celui d’un individu a1/a2.

II-1-3-Caractérisation des allèles suivant leur effet

Suivant leur effet sur le produit du gène concerné, on peut classer les allèles dans différentes
catégories :
• Allèle neutre ou silencieux : pas d’effet.

    46  
• Allèle perte de fonction totale, ou allèle amorphe, ou allèle nul : mutation qui abolit
complètement la fonction du produit du gène. Ce produit est soit absent, soit présent
mais complètement inactif.
• Allèle perte de fonction partielle ou allèle hypomorphe : avec ce type de mutation,
le produit du gène est présent, mais il est soit synthétisé en moins grande quantité, soit
moins actif que le produit sauvage.
En général, les allèles perte-de fonction totale sont de phénotype récessif par rapport à
l’allèle sauvage. En effet, dans de très nombreux processus, il suffit d’une demi-dose
de produit pour que la fonction physiologique soit assurée correctement. Il existe
cependant certains gènes qui sont sensibles à l’effet de dose. C’est le cas par exemple
des protéines agissant en complexe, pour lesquelles la stoechiométrie par rapport aux
autres constituants du complexe joue un rôle fondamental. Pour ces gènes, on constate
que les allèles perte-de-fonction totale présentent un phénotype dominant. On qualifie
ces allèles d’haplo-insuffisants, ce qui veut dire qu’une demi-dose de produit sauvage
n’est pas suffisante pour assurer la fonction physiologique.
• Allèle gain de fonction: induit soit une augmentation de la quantité du produit du
gène, soit une augmentation de l’activité de celui-ci.
• Allèle néomorphe: induit une modification de la fonction du produit du gène,
résultant en une nouvelle fonction.
• Allèle dominant négatif ou antimorphe: le produit fabriqué à partir de l’allèle mutant
a une fonction antagoniste de celle du produit sauvage, ou bloque l’action de celui-ci.
Pour un allèle de ce type, un individu hétérozygote allèle mutant/allèle sauvage aura
un phénotype mutant, d’où le terme d’allèle dominant négatif.
• Allèle conditionnel : mutation dont le phénotype ne s’exprime que dans certaines
conditions. Les plus fréquents sont les allèles thermosensibles, qui confèrent un
phénotype sauvage à basse température (température permissive), et un phénotype
mutant quand on augmente la température (température restrictive). D’un point de
vue moléculaire, ces allèles sont des mutations faux-sens qui diminuent la stabilité de
la conformation de la protéine en condition de dénaturation thermique par élévation
de température.
• Allèle à effet pléiotrope : mutation qui confère plusieurs phénotypes mutants. La
pléiotropie traduit le fait que le produit du gène touché intervient dans une voie
commune à plusieurs processus.

    47  
II-1-4-Deux mutations sont-elles allèles du même gène : le test de complémentation
fonctionnelle (rappel de LV203)

De très nombreux phénotypes étant multigéniques, des mutations dans des gènes différents
peuvent être à l’origine de phénotypes identiques ou très similaires. Prenons l’exemple, chez
un organisme haploïde, d’une voie de biosynthèse aboutissant à la production d’un produit X
à partir d’un précurseur P et faisant intervenir plusieurs intermédiaires réactionnels (I1 à I3) et
plusieurs réactions enzymatiques catalysées par différentes enzymes (Figure II-2).

gène  a gène  b gène  c gène  d


allèle  a+ allèle  b+ allèle  c+ allèle  d+

enz1 enz2 enz3 enz4


génotype  a+;  b+;  c+;  d+: P I1 I2 I3 X
synthèse  de  X
gène  a gène  b gène  c gène  d
allèle  a+ allèle  b1 allèle  c+ allèle  d+

enz1 enz2 enz3 enz4


génotype  a+;  b1;  c+;  d+: P I1
pas  de  synthèse  de  X
gène  a gène  b gène  c gène  d
allèle  a+ allèle  b+ allèle  c1 allèle  d+

génotype  a+;  b+;  c1;  d+: enz1 enz2 enz3 enz4


pas  de  synthèse  de  X P I1 I2

Figure II-2 : Plusieurs génotypes différents peuvent conférer le même phénotype :


exemple d’une chaîne de biosynthèse chez un organisme haploïde.

Une cellule portant une mutation perte de fonction du gène b (allèle b1) ne synthétisera pas de
produit X car l’enzyme enz2 sera absente ou inactive. Il en sera de même pour une cellule
portant une mutation perte de fonction du gène c (allèle c1), et dans ce cas c’est l’enzyme
enz3 qui fera défaut. Ces deux mutations b1 et c1 touchent donc deux gènes différents, mais
confère le même phénotype, c'est-à-dire l’incapacité à synthétiser X à partir de P.
Afin de savoir si deux mutations conférant le même phénotype ou des phénotypes très
similaires affectent le même gène ou deux gènes différents, il faut réaliser un test de
complémentation fonctionnelle. Celui-ci consiste à fabriquer une cellule hétérozygote avec un
exemplaire de chacun des deux allèles, et à étudier son phénotype. Ce test ne peut s’appliquer
qu’à des allèles conférant un phénotype récessif. Le test de complémentation fonctionnelle
est traité de façon très détaillée dans l’UE LV203 « Biologie Moléculaire et Génétique
1 ». Il faut se référer au polycopié de cours de cette UE pour plus de précisions.

    48  
II-2-Exemples

II-2-1-La mucoviscidose

Comme décrit dans le chapitre I, la mucoviscidose est une maladie monogénique à mode de
transmission autosomique récessif qui affecte les épithéliums glandulaires de nombreux
organes (pancréas, intestin, poumons) même si les atteintes respiratoires sont prédominantes.
On peut donc dire de la mucoviscidose qu’elle a un phénotype pléiotrope, puisque plusieurs
organes sont affectés. Cette maladie est due à la mutation du gène CFTR, qui code un
transporteur transmembranaire d’ions Cl- présent dans les cellules épithéliales, en particulier
celles qui bordent les voies respiratoires. Le gène CFTR couvre environ 230kb et est
constitué de 27 exons. Plus de 1200 mutations différentes ont été identifiées chez des patients
atteints de mucoviscidose, la plus fréquemment rencontrée en Europe étant la mutation ΔF508
qui induit la délétion d’un acide aminé (une phénylalanine) en position 508. Elles sont
localisées partout dans le gène et sont de natures moléculaires variées (faux-sens, non sens,
décalage de cadre de lecture, mutation d’épissage…) (Figure II-3). L’ensemble de ces
mutations constitue donc une série allélique.

faux-­‐sens
délétion  d’un  acide  aminé
non-­‐sens
décalage  de  cadre  d e  lecture
défaut  d ’épissage
faux-­‐sens
TOTAL

Figure II-3 : Mutations identifiées dans le gène CFTR (d’après Tsui, Trends in Genetics 1992).
La structure exons-introns du gène est schématisée en haut, les rectangles figurant les exons et les traits les
introns. En dessous sont représentées par un trait vertical un certain nombre de mutations identifiées chez des
patients atteints de mucoviscidose, avec leur nature moléculaire. La dernière ligne représente les domaines
fonctionnels identifiés dans la protéine CFTR (membrane spanning : domaine transmembranaire ; ATP binding :
domaine de fixation à l’ATP).

    49  
Ces mutations affectent différemment le produit du gène CFTR, et conduisent donc à des
différences d’expressivité du phénotype entre les patients. Par exemple, les mutations les plus
sévères, dont la mutation ΔF508, bloquent totalement la production de protéine CFTR ou
empêchent sa localisation correcte à la membrane cellulaire. Ce sont des mutations perte de
fonction totale. Les individus homozygotes pour ces mutations présentent donc toujours le
phénotype le plus grave à savoir, en plus de problèmes respiratoires sévères dus à une atteinte
pulmonaire, une insuffisance pancréatique. En revanche, d’autres mutations perte de fonction
partielle, telles que certaines mutations faux-sens, conduisent à la formation de canaux Cl-
correctement localisés mais qui répondent faiblement à l’ATP et ne restent donc pas ouvert
aussi longtemps qu’ils le devraient. Les patients portant ces mutations présentent donc un
phénotype plus atténué avec une atteinte pulmonaire moins grave et pas d’insuffisance
pancréatique.

II-2-2-La pigmentation des yeux chez la drosophile : exemple du gène white

La couleur des yeux de drosophile est un phénotype sur lequel ont beaucoup travaillé les
premiers généticiens de la drosophile au début du XXème siècle, en particulier Morgan. De
nombreux mutants de pigmentation ont été isolés, qui ont ensuite permis de disséquer de
manière fine les mécanismes moléculaires sous-jacents. Les drosophiles sauvages ont les yeux
rouges foncés à cause de la présence de deux types de pigments synthétisés dans les cellules
pigmentaires de l’œil : un pigment brun et des pigments rouges (Figure II-4). La biosynthèse
de ces deux types de pigments est initiée à partir de deux précurseurs distincts : la guanine
pour les pigments rouges et le tryptophane pour le pigment brun. Des chaînes métaboliques
impliquant différentes enzymes permettent la synthèse des pigments matures à partir de ces
précurseurs. Ces réactions métaboliques démarrent dans le cytosol des cellules pigmentaires,
et se poursuivent ensuite à l’intérieur de vésicules spécifiques dérivées de l’appareil de Golgi,
appelées granules pigmentaires. Ces granules pigmentaires sont le lieu où s’achève la
biosynthèse des pigments, et où ces derniers sont stockés. Le transport des intermédiaires
réactionnels dans les granules pigmentaires n’est pas un transport passif, mais nécessite la
présence de transporteurs membranaires spécifiques qui sont des hétérodimères constitués de
deux protéines : les protéines White et Brown pour la voie des pigments rouges, et les
protéines White et Scarlet pour la voie du pigment brun.

    50  
La protéine White, codée par le gène white, est donc une protéine clé qui intervient dans la
biosynthèse des deux types de pigments. Plus de 300 allèles différents du gène white ont été
isolés, la majorité étant des allèles perte de fonction. Ces allèles confèrent des yeux
diversement colorés entre le blanc et le rouge foncé, ce qui traduit le fait que certains d’entre
eux sont des allèles nuls, tandis que d’autres sont des allèles hypomorphes. Par exemple,
l’allèle nul w1118, qui est une délétion de la totalité du gène, confère des yeux blancs car il y
a absence totale des deux types de pigments. Les mouches portant l’allèle w-apricot (wa) ont
quant à elles des yeux rouge-orange. En effet cette mutation est un allèle hypomorphe qui
diminue le taux de transcription du gène white, il y a donc synthèse d’une quantité moindre de
pigments que chez l’individu sauvage (Figure II-5).
membrane

White
guanine pigments  rouges
Brown

yeux  rouge  foncé


(rouge  brique)
White
tryptophane pigment  b run
 
Scarlet
 
  cytosol  des  cellules  pigmentaires granule  pigmentaire

Figure II-4 : Représentation schématique de la biosynthèse des pigments des yeux de


drosophile.
Les flèches symbolisent les réactions enzymatiques. Trois groupes de gènes interviennent dans ce processus : (1)
de nombreux gènes codant les enzymes qui catalysent les réactions enzymatiques ; (2) les trois gènes white,
brown, scarlet, codant les transporteurs ; (3) de nombreux gènes, appelés gènes de granules, permettant la
production et le trafic intracellulaire des granules pigmentaires.

w+/w+ wa/wa w1118/w1118

Figure II-5 : Phénotype de drosophiles homozygotes pour certains allèles du gène white.
Pour chaque individu, le génotype est indiqué sous la photo.

    51  
III- Interactions entre gènes

Comme mentionné dans l’introduction de ce chapitre, l’effet d’une mutation dépend non
seulement de sa nature et de sa localisation, mais également du fond génétique, c'est-à-dire
des allèles d’autres gènes présents chez l’individu qui peuvent moduler le phénotype observé,
soit en l’aggravant, soit en le diminuant. Ceci s’applique à tous les caractères, qu’ils soient
monogéniques ou multigéniques. Ainsi, dans le cas de la mucoviscidose, on a pu mettre en
évidence l’effet de différents gènes, appelés gènes modificateurs, sur la sévérité du phénotype
induit par une mutation délétère dans le gène CFTR. Afin de comprendre comment un
génotype donné permet d’obtenir un phénotype, il est important de rechercher comment les
gènes peuvent interagir les uns avec les autres.

III-1- Principe d’analyse d’une interaction génétique sur organisme de laboratoire

Les interactions génétiques décrites ici concernent des gènes différents (c'est-à-dire deux
mutations non allèles du même gène) et s’appliquent aussi bien aux organismes haploïdes que
diploïdes. L’étude de ces interactions génétiques permet d’établir les relations fonctionnelles
entre les gènes ainsi que leur hiérarchie d’action.
Sur organisme de laboratoire, on étudie ces interactions en comparant le phénotype du double
mutant avec les phénotypes des deux simples mutants pour les gènes étudiés (Figure II-6). En
fonction de ce phénotype, les interactions se classent dans différentes catégories (voir plus
bas). Ce classement ne préjuge pas des mécanismes moléculaires sous-jacents. En effet un
type d’interaction donné peut être le reflet de différents processus moléculaires en fonction de
la nature des produits des gènes étudiés.

M1 a1/  a1;  b+/b+ M2 a+/a+;  b1/  b1 M3 a1/a1;  b1/  b1


phénotype  [A] phénotype  [B] phénotype  ?

Figure II-6: Principe d’analyse d’interaction génétique entre les gènes a et b (allèles am
et bm) sur un organisme diploïde.

    52  
III-2-Les différents types d’interactions génétiques

Afin d’illustrer ces différents types d’interactions génétiques, plusieurs des exemples
présentés concerneront le phénotype de pigmentation des yeux de drosophile dont le
déterminisme génétique a été présenté dans le paragraphe II-2-2 et sur la figure II-4.

III-2-1- L’additivité des phénotypes

Dans ce cas, le phénotype du double mutant est l’addition des phénotypes des deux simples
mutants. Cette observation traduit le fait que les gènes testés n’interagissent pas entre eux,
et interviennent donc dans des processus totalement indépendants. Par exemple, chez la
drosophile, si M1 a des yeux blancs et M2 des ailes recourbées, le double mutant M3 aura des
yeux blancs et des ailes recourbées (Figure II-7).
 
 
M1 a1/ a1;  b+/b+ M2 a+/a+;  b1/ b1 M3 a1/a1;  b1/  b1
 
[yeux  blancs] [ailes  recourbées] [yeux  blancs,  ailes  recourbées]
 
 
Additivité  des  phénotypes,  les  gènes  a  et  b  n’interagissent  pas
 
Figure II-7: Exemple d’additivité de phénotypes, traduisant une absence d’interaction
génétique.
 
Quand il n’y a pas d’additivité des phénotypes, il est possible d’observer quatre types
d’interactions génétiques, détaillées dans les paragraphes suivants.

III-2-2- L’épistasie

Ce terme qualifie les interactions pour lesquelles, chez le double mutant, un des deux
phénotypes mutants cache l’autre. On peut également dire qu’un phénotype l’emporte sur
l’autre. L’allèle qui cache les effets de l’autre est dit épistatique sur celui-ci. Ainsi, dans
l’exemple de la figure II-8, l’allèle w1118 est épistatique sur les allèles bw1 et v1. D’un point
de vue moléculaire, cette observation traduit le fait que la protéine White est impliquée dans
la biosynthèse des deux types de pigments brun et rouges.

    53  
La mise en évidence d’une relation d’épistasie peut être le reflet d’une infinité de mécanismes
et de relations moléculaires entre les produits des gènes testés. Par exemple, comme illustré
dans la figure II-9, on peut observer des relations d’épistasie entre des gènes qui appartiennent
à des cascades fonctionnelles où un gène contrôle l’expression d’un autre gène.

M1 w1118/w1118;  bw+/bw+ [yeux  blancs]


M2 w+/w+;  bw1/bw1 [yeux  bruns]
M2’ w+/w+;  v1/v1 [yeux  rouge  vifs]

M3 w1118/w1118;  bw1/bw1 [yeux  blancs] w1118  est  épistatique  sur  bw1


M3’ w1118/w1118;  v1/v1 [yeux  blancs] w1118  e st  épistatique  sur  v1

Figure II-8 : Exemple d’épistasie entre gènes impliqués dans la synthèse des pigments
des yeux chez la drosophile.
w1118 : allèle nul du gène white, qui code un transporteur ; bw1 : allèle nul du gène brown, qui code une
enzyme de la chaîne de biosynthèse des pigments rouge. En absence de cette enzyme, il n’y a pas de pigments
rouges synthétisés et les yeux sont bruns ; v1 : allèle nul du gène vermillion qui code une enzyme de la chaîne de
biosynthèse du pigment brun. En absence de cette enzyme, il n’y a pas de pigment brun synthétisé et les yeux
sont rouges vifs.

 
 
 
 
 
 
Figure II-9 : Exemple d’épistasie entre gènes impliqués dans le déterminisme du sexe
chez le nématode Caenorhabditis elegans (d’après Rossignol et al., éd. Dunod).
Chez C. elegans, les individus possédant un seul chromosome X (génotype X0) sont mâles, tandis que ceux qui
en possèdent deux (génotype XX) sont hermaphrodites. L’activité du gène tra1 est nécessaire au développement
en hermaphrodites. Chez des individus sauvages, pour les X0, il y a expression du gène her1 dont le produit
réprime l’expression de tra1. A l’inverse, pour les XX, her1 n’est pas exprimé, ce qui conduit à l’expression de
tra1. Les individus possédant une mutation perte de fonction de her1 se développent en hermaphrodites quel que
soit leur nombre de chromosomes X. A l’inverse, ceux qui sont mutants perte de fonction pour tra1 se
développent en mâles, qu’ils soient X0 ou XX. Les doubles mutants her1 ; tra1 se développent aussi en mâles.
tra1 est donc épistatique sur her1.

    54  
III-2-3- La création d’un nouveau phénotype

Dans ce cas, le double mutant a un phénotype différent de celui des deux mutations qu’il
associe. Dans le phénotype de pigmentation des yeux chez la drosophile, si l’on reprend
l’exemple des gènes brown et vermillion déjà traité dans la figure II-8, les simples mutants de
ces gènes ont respectivement les yeux bruns et rouges vifs, alors que le double mutant, qui ne
synthétise plus aucun des pigments, a les yeux blancs (Figure II-10).

 
M1 v+/v+;  bw1/bw1 M2 v1/v1;  bw+/bw+ M3 v1/v1;  bw1/bw1
 
[yeux  bruns] [yeux  rouge  vifs] [yeux  blancs]
 
Figure II-10 : Exemple de création d’un nouveau phénotype par interaction entre gènes
impliqués dans la synthèse des pigments des yeux chez la drosophile.

De même, chez la plante crucifère Capsella bursa pastoris, la plupart des variétés ont des
fruits ronds, et on peut obtenir une variété à fruits triangulaires par combinaison de deux
allèles mutants (Figure II-11).

M1 a1/a1;  b+/b+ M2 a+/a+;  b1/b1 M3 a1/a1;  b1/b1


 
[fruits  ronds] [fruits  ronds] [fruits  triangulaires]
 
Figure II-11 : Exemple de création d’un nouveau phénotype par interaction entre gènes
impliqués dans la forme des fruits chez la capselle.

Dans certains cas, le nouveau phénotype qui apparait est une létalité, alors que les deux
simples mutants sont parfaitement viables. Ce phénomène, qualifié de létalité synthétique,
traduit souvent le fait que les deux gènes codent des produits dont la fonction, essentielle pour
la vie de la cellule, est partiellement ou totalement redondante. On appelle ceci la redondance
fonctionnelle. La perte de fonction totale de l’un des gènes n’affecte pas l’organisme car
l’autre peut le remplacer. Par contre, les cellules qui sont mutées dans les deux gènes sont
incapables de vivre. De nombreux cas de redondance fonctionnelle générant des phénotypes
de létalité synthétique sont observés chez la levure Saccharomyces cerevisiae. La figure II-12
illustre ce phénomène pour les gènes URA7 et URA8, qui codent des protéines présentant

    55  
78% d’identité en acides aminés et qui ont une activité CTP synthétase (synthèse de CTP à
partir de dUTP). Les deux simples mutants sont parfaitement viables, alors que le double
mutant, qui n’a plus cette activité, est létal.

M1 URA7.1;  URA8+ M2 URA7+;  URA8.1 M3 URA7.1;  URA8.1

[synthèse  de  CTP] [synthèse  de  CTP] [létal]  (pas  de  synthèse  de  CTP)

Figure II-12 : Exemple de létalité synthétique chez la levure Saccharomyces cerevisiae.

III-2-4- L’accentuation ou aggravation du phénotype mutant

Dans ce cas, le phénotype du double mutant est aggravé par rapport au phénotype des deux
simples mutants. La mutation qui aggrave le phénotype est qualifiée de mutation
« enhancer ». D’un point de vue moléculaire, ce phénomène peut, dans certains cas, refléter
le fait que les gènes testés interviennent dans des voies parallèles et partiellement
redondantes. Par exemple, dans le cas de la pigmentation des yeux chez la drosophile, de
nombreux gènes appelés gènes de granule interviennent pour assurer la production et le trafic
des granules pigmentaires (voir figure II-4). Ces gènes forment différents complexes, dont la
fonction dans la formation des granules pigmentaires est partiellement redondante. Ainsi, les
gènes pink et orange appartiennent à deux complexes différents. Une perte de fonction de
pink ou d’orange confère des yeux rouge vif par défaut de stockage d’une fraction des
pigments. Ce phénotype est accentué chez des mouches doubles mutantes pour pink et
orange, qui ont encore moins de pigments et ont les yeux rouges clairs (Figure II-13).

M1 p1/p1;  or+/or+ M2 p+/p+;  or1/or1 M3 p1/p1;  or1/or1


  [yeux  r ouges  vifs] [yeux  r ouges  vifs] [yeux  rouges  clairs]
 
Figure II-13 : Exemple d’aggravation de phénotype entre gènes de granules impliqués
dans la synthèse des pigments des yeux chez la drosophile.
p : gène pink ; or : gène orange.
 
On peut aussi observer des cas d’aggravation de phénotype entre mutants de gènes impliqués
dans la même voie, mais seulement dans le cas où les deux simples mutants n’abolissent que
partiellement la fonction de leur produit (allèles hypomorphes). C’est le cas par exemple, de

    56  
gènes dont les produits interagissent physiquement, comme schématisé dans la figure II-14.
Les deux simples mutants conduisent à la synthèse de protéines dont les conformations,
différentes de celles des protéines sauvages, permettent encore une interaction partielle
protéine sauvage-protéine mutante. En revanche, les deux protéines mutantes ne peuvent plus
interagir, ce qui conduit à un phénotype du double mutant aggravé par rapport au phénotype
des simples mutants.

Sauvage a+/  a+;  b+/b+ A+ B+ [fonction+]

M1 a1/  a1;  b+/b+ A1 B+ [fonction+/-­‐]

M2 a+/a+;  b1/  b1 A+ B1 [fonction+/-­‐]

M3 a1/a1;  b1/  b1 A1 B1 [fonction-­‐]

Figure II-14 : Exemple d’aggravation de phénotype entre gènes codant des protéines A
et B qui interagissent ensemble pour intervenir dans une fonction cellulaire (interaction
enzyme/substrat, ligand/récepteur…).

Des aggravations de phénotype peuvent aussi être observées pour des allèles hypomorphes de
gènes dont les produits, tout en intervenant dans la même voie, n’interagissent pas
physiquement.

III-2-5- La suppression du phénotype mutant

Dans ce cas, à l’inverse du cas précédent, le double mutant présente un phénotype moins
grave que les simples mutants. La suppression est dite totale si le double mutant récupère un
phénotype sauvage et partielle s’il conserve un phénotype mutant moins sévère que celui des
deux simples mutants. La mutation qui supprime le phénotype mutant est appelée mutation
suppresseur.

Assez fréquemment, l’allèle mutant suppresseur n’a pas de phénotype en soi, mais est décelé
car il supprime le phénotype mutant d’un autre allèle. Afin de mettre en évidence ces
mutations qui n’ont pas de phénotype particulier, on peut réaliser une mutagenèse sur un

    57  
mutant de phénotype donné, afin de rechercher des cellules ou des individus qui retrouvent
plus ou moins complètement le phénotype sauvage. Ceux-ci sont qualifiés de révertants
phénotypiques. Différents évènements génétiques peuvent être à l’origine de l’apparition de
ces révertants phénotypiques (Figure II-15) :
• Il peut s’agir d’une mutation, appelée mutation inverse, qui touche le gène
initialement muté et restaure la séquence nucléotidique sauvage. Ce cas de réversion
est appelé réversion génotypique ou réversion vraie, et conduit à une restauration
totale du phénotype sauvage puisque le génotype est redevenu sauvage. Ce type de
mutation est cependant relativement peu fréquent.
• Le second type d’évènement est une mutation qui se produit dans le gène initialement
muté mais à un endroit différent de la première mutation. Cette dernière est toujours
présente, et l’ajout d’une seconde mutation modifie les propriétés du produit du gène
concerné et peut, dans certain cas, conduire à une suppression partielle ou totale du
phénotype mutant. On parle dans ce cas de mutation suppresseur intragénique.
• Le troisième type est qualifié de mutation suppresseur extragénique car elle touche
un gène différent du gène initialement muté.

Cellule  sauvage a+Su+ [sauvage]

Cellule  M1 a1Su+ [mutant]

Isolement  de  cellules  [sauvage]:    révertants  phénotypiques


différents  génotypes  possibles

Réversion  vraie: Suppression:


génotype  a+Su+ génotype  a1Su1

Suppression  i ntragénique: Suppression  extragénique:


la  mutation  Su1  est   la  mutation  Su1  est  
dans  l e  gène  a   dans  un  gène  différent  de  a

Figure II-15 : Les différentes natures génétiques des révertants phénotypiques.


Su symbolise le locus de la mutation suppresseur (allèle sauvage Su+, allèle suppresseur Su1), qui peut être
intragénique (dans le gène a) ou extragénique (en dehors du gène a).

    58  
Selon leur nature, on peut à leur tour classer les mutations suppresseurs extragéniques dans
deux catégories :
• Les suppresseurs informationnels agissent en modifiant l’un des acteurs de
l’information génétique, au niveau de la transcription ou de la traduction. Ceci aboutit
à la suppression du phénotype induit par la première mutation. Les suppresseurs
informationnels sont spécifiques d’un type particulier de mutation (mutation de type
non-sens, décalage de cadre de lecture..), et peuvent corriger ces mutations dans
n’importe quel gène. Par exemple, les suppresseurs de non-sens sont des mutations
dans des gènes codant des ARN de transfert (ARNt). Ces mutations permettent à
l’ARNt concerné de reconnaitre, sur l’ARNm, un codon STOP, et donc d’incorporer
dans la chaîne polypeptidique un acide aminé. Ces mutations suppriment donc l’effet
de mutations de type non-sens dans n’importe quel gène, en permettant aux ARNm de
ces gènes d’être traduits jusqu’au bout plutôt que de former une protéine tronquée à
cause du codon STOP dû à la mutation (Figure II-16).

gène  Su:  code  un  ARNt


gène  a chargeant  la  t yrosine

sauvage          a+Su+

M1          a1Su+

révertant        a1Su1

Figure II-16 : Exemple de suppresseur informationnel : les suppresseurs de non-sens


(d’après Rossignol et al., éd. Dunod).
Chez le mutant M1, l’allèle a1 est une substitution qui transforme le codon sens UGG en codon STOP UAG.
Chez ce mutant, la protéine codée par a1 est donc tronquée. La mutation Su1 dans un gène codant un ARN de
transfert permet de supprimer l’effet de a1, car l’ARNt codé par Su1 présente une mutation dans son anticodon
qui devient capable de reconnaitre le codon STOP UAG. Il permet donc d’incorporer une tyrosine dans le
polypeptide codé par a1. La protéine n’est donc plus tronquée, mais diffère seulement de la protéine sauvage par
un acide aminé (une tyrosine à la place d’un tryptophane). Si cet acide aminé ne joue pas un rôle important dans
la fonction de la protéine, celle-ci sera fonctionnelle, ce qui permettra de restaurer un phénotype sauvage.

    59  
• Les suppresseurs fonctionnels sont spécifiques du gène touché par la première
mutation et agissent au niveau de la fonction dans laquelle ce gène intervient. Ils
agissent soit en remplaçant la fonction du gène muté, soit en changeant le contexte de
la cellule ou de l’organisme, de telle sorte que l’effet de la première mutation soit
partiellement ou complètement supprimé. Les principaux mécanismes de suppression
fonctionnelle sont la restauration d’une interaction protéique, la suppression par
activation d’une voie secondaire normalement peu active permettant de remplacer la
voie affectée par la première mutation, ou la suppression par augmentation du niveau
d’expression d’une protéine ayant pour effet de compenser l’effet de la première
mutation par différents mécanismes (stabilisation protéique, activation
transcriptionnelle…) (Figure II-17).

Figure II-17 : Quelques mécanismes de suppresseur fonctionnel (d’après Klug et al., éd.
Pearson Education).

En conclusion, la mise en évidence d’une interaction génétique entre deux allèles mutants
peut refléter, quel que soit le type d’interaction mise en évidence, une infinité de mécanismes
moléculaires. Il peut s’agir d’interactions physiques directes entre les produits des gènes
concernés, de régulation de niveau d’expression (au niveau de la transcription, de la stabilité

    60  
protéique…), de protéines intervenant dans la même voie métabolique, dans des voies
parallèles, ou des voies redondantes etc…. Par conséquent, la mise en évidence d’une
interaction entre deux gènes ne permet pas, à elle seule, d’identifier de manière précise les
relations fonctionnelles entre les gènes. D’autres approches permettent de préciser ces
relations fonctionnelles et ainsi d’établir des réseaux de gènes qui interviennent dans le même
processus.

IV-Les réseaux génétiques : définition et méthodes d’étude

IV-1- Définition et enjeux

Les interactions génétiques évoquées ci-dessus illustrent bien le fait que les dizaines de
milliers de gènes qui composent un génome ne fonctionnent pas indépendamment, mais
forment au contraire un réseau d’interactions fonctionnelles qui déterminent les propriétés des
cellules et des organismes (Figure II-18). C’est la diversité et la combinatoire immense de ces
interactions qui expliquent qu’avec relativement peu de gènes, on puisse former et faire
fonctionner des organismes aussi complexes que les nôtres. La variabilité de ces interactions
explique également que des génomes relativement semblables (90% d’identité de séquences)
puissent former des organismes aussi différents qu’un homme ou une souris.
La difficulté de l’étude des réseaux en biologie tient au fait qu’ils sont composés de dizaines
de milliers d’éléments et que les interactions entre ces éléments (la structure du réseau) varie
en fonction du temps, du type de cellules, des conditions physiologiques, etc… Pour les
étudier efficacement, il faut donc disposer de techniques qui permettent d’analyser à large
échelle les interactions entre les gènes, les protéines, etc… Les séquençages de génomes
complets (voir cours de LV203), en nous donnant accès au contenu total en gènes des
différentes espèces, ont ouvert la porte au développement de techniques dites « haut-débit »
d’analyse du fonctionnement des génomes, marquant ainsi la naissance d’une nouvelle
discipline : la génomique fonctionnelle.
Il existe donc aujourd’hui différentes approches expérimentales permettant de mettre en
évidence, sur une large échelle et en peu de temps, des interactions fonctionnelles entre de
nombreux gènes, ou d’identifier rapidement les gènes qui interviennent dans un même
processus. Certaines sont des méthodes indirectes qui caractérisent des interactions
fonctionnelles mais n’impliquent pas forcément une interaction physique entre les produits
des gènes. D’autres, qu’on peut qualifier de méthodes directes, permettent de détecter une

    61  
interaction physique directe entre les gènes et leurs produits (interaction protéine-protéine,
protéine-acide nucléiques…). Dans la suite de ce paragraphe, nous allons exposer certaines de
ces approches expérimentales.

Figure II-18 : Représentation schématique d’un réseau biologique.


Les réseaux biologiques sont composés : (1) de sommets (éléments cellulaires): gènes, protéines, métabolites,
complexes protéiques … ; (2) de liens entre ces sommets, représentant des interactions ou indirectes.

IV-2-Mise en évidence expérimentale des réseaux génétiques

IV-2-1- Mise en évidence d’interactions indirectes

IV-2-1-1-Les cribles génétiques

Cette démarche repose sur la recherche d’interactions génétiques telles que décrites dans le
paragraphe précédent. Comme dit précédemment, c’est une méthode indirecte qui ne permet
pas d’avoir d’information précise sur le type d’interaction moléculaire impliqué, mais qui
permet d’établir l’existence d’un lien fonctionnel entre les produits des gènes. Pour réaliser
ces cribles génétiques, on effectue des croisements individuels entre des individus portant la
mutation d’intérêt, qui ont un phénotype mutant particulier, et une collection d’individus
présentant chacun une mutation dans un gène différent (Figure II-19). Le but est d’identifier
les croisements qui produisent des descendants ayant un phénotype différent du phénotype
mutant de départ. On peut identifier ainsi des interactions génétiques (suppresseur,

    62  
« «enhancer », etc…) entre le gène muté et un très grand nombre de gènes. La connaissance
totale des génomes de certains organismes de laboratoire (drosophile, levure, arabette, etc…)
a permis de fabriquer chez ces espèces des collections de mutants pour pratiquement tous les
gènes. On dispose ainsi de collections de mutants contenant des délétions (mutations perte de
fonction) pour chaque gène non essentiel connu (chaque mutant ayant un (et un seul) de ces
gènes inactivé) : on parle alors de crible génétique de perte de fonction. On dispose
également de collections de mutants sur-exprimant un gène particulier, et ce pour tous les
gènes connus : on qualifie ce genre de crible de crible de gain de fonction. Ces expériences
ont contribué à la compréhension de nombreux processus physiologiques et
développementaux (contrôle du cycle cellulaire, mise en place de la segmentation du
corps…). Un des autres intérêts des cribles génétiques concerne l’analyse de mutants de
gènes dont la fonction est inconnue. Les cribles génétiques permettent alors d’identifier des
gènes modificateurs parmi lesquels certains codent des produits dont la fonction moléculaire
est connue. Ceci peut alors donner des indications quant à la fonction moléculaire du produit
du gène affecté dans le mutant testé.

Mutant  d’intérêt Collection  de  mutants  testés

[mutant]
-­‐croisements  i ndividuels
-­‐analyse  du  phénotypes  des  descendants

[mutant] [mutant  aggravé] [sauvage]


Pas  de  modification Effet  « enhancer » Effet  « suppresseur »

Identification  du  gène


modificateur

Figure II-19 : Principe général d’un crible génétique de recherche de gènes


modificateurs.

Un autre intérêt de ces collections de mutants est de permettre d’effectuer des cribles
phénotypiques à large échelle (on parle de phénome). En soumettant les mutants de la

    63  
collection à des conditions de vie particulières, on peut ainsi identifier rapidement tous les
gènes dont l’inactivation (perte de fonction) ou la sur-activation (gain de fonction) confère
une résistance ou une sensibilité accrue à un stress environnemental, une molécule toxique ou
un processus développemental particulier. Ces analyses permettent de mettre en évidence des
groupes de gènes potentiellement impliqués dans une même fonction.
Dans le même ordre d’idée, il a été construit chez la levure des collections de mutants
exprimant des protéines fusion entre une protéine cellulaire et une protéine fluorescente, et
ceci pour tous les gènes codant des protéines. Cette collection a permis de déterminer la
localisation cellulaire de presque toutes les protéines chez cet organisme, et ce faisant de
déterminer les gènes dont les produits agissaient au même endroit dans la cellule.

IV-2-1-2 Les analyses de transcriptome et les groupes de co-expression

Les puces à ADN permettent d’étudier le contenu en ARN des cellules (transcriptome) et
donc l’expression de l’ensemble des gènes. En réalisant différentes expériences de puces à
ADN au cours du temps ou dans différentes situations physiologiques ou environnementales,
on obtient pour chaque gène un profil d’expression. En comparant ces profils, on peut définir
des groupes de co-expression, c’est à dire des groupes de gènes exprimés aux mêmes
moments de la vie de la cellule (Figure II-20). Cette co-expression suggère fortement que ces
gènes sont régulés de la même façon et que leurs produits collaborent pour remplir une même
fonction. Cette approche (appelée classification de gènes, « gene clustering » en anglais) est
extrêmement utilisée actuellement pour établir des liens fonctionnels indirects entre les gènes.
Par rapport aux cribles génétiques, elle présente l’immense avantage de pouvoir être utilisée
dans n’importe quelle espèce, pourvu que l’on connaisse la séquence de son génome (pré-
requis indispensable à la synthèse des sondes qui composent la puce). Cette limitation est en
train d’être levée du fait du remplacement progressif des puces à ADN par une autre
technologie : le séquençage massif d’ARN (RNA-seq). Le RNA-seq permettra bientôt de
séquencer directement le transcriptome des cellules, et ne nécessitera donc plus de connaître
la séquence du génome au préalable.

    64  
g1
Groupe 1
g2
g3

g4
Groupe 2
g5

Plusieurs expériences Profils d’expression


d’analyse de (chaque courbe représente le profil
transcriptome dans d’expression d’un gène dans les
différentes conditions différentes conditions testées)

Figure II-20 : Principe de l’identification de groupes de co-expression.

IV-2-2- Mise en évidence d’interactions directes

IV-2-2-1- Interactions protéines/acides nucléiques


Les interactions protéines/acides nucléiques sont à la base de toutes les régulations
transcriptionnelles (interactions facteurs de transcription/ADN) et post-transcriptionnelles
(interactions protéines liant l’ARN/ARN). Il est donc très important de pouvoir identifier ces
interactions physiques. Ceci est possible grâce à l’immunoprécipitation de chromatine ou
d’ARN. L’immunoprécipitation de chromatine (ou ChIP) permet d’identifier en une seule
expérience toutes les séquences du génome qui interagissent avec un facteur de transcription
donné (Figure II-21). Le ChIP consiste dans un premier temps à figer les interactions
proteines/ADN ou ARN dans des cellules vivantes grâce à un traitement par le formaldéhyde,
qui a la propriété de créer des ponts covalents (on parle de pontage ou « cross-link » en
anglais) entre les macromolécules quand celles ci sont très proches les unes des autres. On
lyse ensuite les cellules et par traitement aux ultra-sons (= sonication) on fragmente l’ADN
accroché aux protéines, puis on immunoprécipite le facteur de transcription d’intérêt avec des
anticorps spécifiques accrochés à des billes magnétiques. Cette immunoprécipitation permet
de récupérer également les fragments d’ADN pontés au facteur en question. Il ne reste plus
ensuite qu’à identifier ces séquences soit par PCR avec des amorces spécifiques des
séquences cherchées (ChIP-PCR), soit plus globalement et sans a priori avec des puces à
ADN contenant des sondes pour tout le génome (ChIP-chip) ou par séquençage massif (ChIP-
seq). En utilisant une approche quasi identique, on peut aussi identifier tous les ARN
reconnus par une protéine donnée. On parle alors de RIP-chip ou de RIP-seq (RIP pour RNA
immunoprécipitation).

    65  
Ces approches d’immunoprécipitation d’ARN ou de chromatine sont extrêmement utilisées
pour comprendre la structure et le fonctionnement des réseaux de régulation de l’expression
des gènes. Elles sont utilisables chez tous les organismes, pourvu que l’on dispose d’anticorps
contre les protéines que l’on veut étudier.

1. Pontage covalent des protéines et de


l’ADN par la formaldéhyde.

2. Fragmentation des ADN par ultrasons


(sonication) ou digestion enzymatique.

3. Immunoprécipitation (IP) de la protéine


étudiée accrochée à ses séquences
cibles.

Input = ADN control IP = ADN enrichi en séquences


non-enrichi cibles de la protéines

4. Identification des fragments


d’ADN enrichis dans l’IP

ChIP-PCR ChIP-chip ChIP-seq

Figure II-21 : Principe de l’immunoprécipitation de chromatine (ChIP).

IV-2-2-2-Interactions protéines/protéines

La grande majorité des protéines n’agissent pas seules. Elles fonctionnent en interaction avec
d’autres protéines, formant ainsi des complexes multiprotéiques qui peuvent être très stables
(complexes de la chaîne respiratoire mitochondriale par exemple) ou avoir une durée de vie
courte et changer rapidement de composition (certains complexes de régulation de la
transcription par exemple). Il est donc fondamental de pouvoir identifier un maximum de ces
interactions protéines/protéines (on parle d’interactome). Plusieurs techniques permettent de
le faire à large échelle. Nous parlerons de deux d’entre elles : le double hybride et
l’immunoprécipitation de complexes couplée à la spectrométrie de masse.

    66  
Le double hybride :

La technique du double hybride utilise la levure comme un tube à essai vivant pour tester
l’interaction entre deux protéines X et Y à l’aide d’un système de gène rapporteur (Figure II-
22). On utilise pour cela une levure transgénique qui possède dans son génome un gène
rapporteur (par exemple le gène lacZ codant la beta-galactosidase d’E. coli) sous le contrôle
d’un promoteur transcriptionnel possédant des séquences reconnues par le facteur de
transcription Gal4 (séquences UAS). On introduit dans cette levure deux plasmides. L’un
exprime la protéine X en fusion avec le domaine de fixation à l’ADN du facteur Gal4. Cette
protéine de fusion est capable de se fixer sur le promoteur du gène rapporteur mais pas
d’activer sa transcription. L’autre plasmide exprime la protéine Y en fusion avec le domaine
activateur de la transcription de Gal4. Cette protéine de fusion peut recruter l’ARN
polymérase II mais est incapable de reconnaître l’ADN. L’interaction entre X et Y permet la
reconstitution d’un facteur Gal4 complet et fonctionnel sur le promoteur du gène rapporteur.
Si X et Y interagissent, il y a donc expression du gène rapporteur par les cellules. Cette
expression peut facilement être détectée dans le cas de la beta-galactosidase en utilisant par
exemple un substrat, le X-Gal, qui se colore en bleu lorsque qu’il est métabolisé par cette
enzyme. Il est aujourd’hui possible de construire des collections de plasmides contenant des
fusions Y-Gal4 pour toutes les protéines connues chez un organisme donné. On peut donc
tester rapidement et à large échelle toutes les interactions possibles pour une protéine X
donnée. On parle alors de crible double-hybride.
Cette technique très puissante et très utilisée présente néanmoins plusieurs inconvénients
importants. Tout d’abord, elle a un fort taux de faux positifs. Par exemple, si X est lui même
un activateur de la transcription, le gène rapporteur sera exprimé quelle que soit la protéine Y
testée. Ensuite, elle ne fonctionne que chez la levure. Si on teste des interactions entre des
protéines humaines par exemple, rien ne garantira que ces protéines seront dans les conditions
qu’elles rencontrent naturellement dans une cellule humaine. Enfin, ce système est basé sur
un rapporteur transcriptionnel et ne peut donc s’appliquer qu’à des protéines solubles dans le
nucléoplasme. Il ne permet par exemple pas d’étudier les interactions entre protéines
membranaires. Pour contourner ce dernier problème, des alternatives ont été trouvées en
utilisant des enzymes modulaires à la place de Gal4 : l’interaction entre X et Y provoque dans
ce cas la reconstitution de l’activité enzymatique, qui est révélée par la synthèse d’un produit
fluorescent ou coloré. Cette réaction peut avoir lieu n’importe où dans la cellule et s’applique
donc aux protéines membranaires.

    67  
X
Gal4 DB
Gène rapporteur (ex: lacZ)
Gal4 UAS

Gal4 AD
X Y
Gal4 DB Interaction X-Y: gène rapporteur exprimé
(= production de beta-galactosidase)
Gal4 UAS Gal4DB-X et Gal4AD-Y

Gal4DB-X et Gal4AD seul

Gal4AD-Y et Gal4DBseul

Détection de la synthèse de
beta-galactosidase par étalement
sur un milieu contenant du X-Gal

Figure II-22 : Principe du double hybride (Gal4 DB : domaine de fixation à l’ADN de


Gal4 ; Gal4 AD : domaine activateur de la transcription de Gal4).

Immunoprécipitation et identification de complexes :

L’autre grande méthode pour identifier les partenaires d’une protéine consiste simplement à
immunoprécipiter cette protéine avec des anticorps spécifiques, dans des conditions qui
préservent au mieux les interactions protéines/protéines. Les membres des complexes ainsi
purifiés sont ensuite séparés sur gel dénaturant puis chaque bande de protéines est découpée et
analysée par spectrométrie de masse. Cette technique consiste à digérer la (ou les) protéine(s)
présente(s) dans une bande de gel en peptides grâce à une protéase, puis à vaporiser ces
peptides et à les faire voyager entre plusieurs électrodes. Le temps de vol de chaque peptide
permet de déterminer très précisément sa masse et donc sa composition exacte en acides
aminés. Il suffit ensuite de rechercher les séquences de ces peptides dans des bases de
données pour identifier les protéines présentes dans le complexe. L’obtention d’anticorps
spécifiques à grande échelle étant longue et coûteuse, on fusionne en général la protéine à
étudier avec une étiquette, ou épitope (« tag » en anglais), qui est un petit peptide pour lequel
ont dispose déjà d’anticorps. Par cette astuce, on peut immunoprécipiter spécifiquement

    68  
quasiment toutes les protéines, pourvu que l’on connaisse leur séquence et que l’organisme
que l’on étudie soit génétiquement manipulable afin de produire les protéines étiquetées. Les
principaux défauts de cette approche sont que, malgré les précautions prises, de nombreuses
interactions protéines/protéines sont perdues lors des différentes étapes de purification des
complexes. On ne détecte donc par cette technique que des interactions stables et majoritaires.
Il faut également que les protéines étudiées soient solubles pour pouvoir les
immunoprécipiter, ce qui est difficile à obtenir pour les protéines membranaires. Enfin, quand
une étiquette est utilisée, il peut arriver qu’elle perturbe le fonctionnement de la protéine à
laquelle elle est fusionnée.

IV-3 Conclusion

Il est aujourd’hui possible d’établir des atlas des interactions génétiques ou physiques entre
les différents constituants de la cellule (Figure II-23). Ces atlas nous donnent une image
fascinante et complexe du fonctionnement cellulaire, basé sur des réseaux qui sont : (1)
fortement interconnectés : toutes les fonctions sont coordonnées entre elles et le « chemin »
moyen entre deux éléments du réseau pris au hasard est court ;( 2) très hétérogènes : le réseau
est constitué de groupes d’éléments très fortement interconnectés (on parle souvent de
modules fonctionnels) reliés entre eux par des interactions plus lâches ; (3) très hiérarchisés :
certains gènes ou certaines protéines ont plus de partenaires que les autres (ce qui suggère des
rôles plus centraux et essentiels).

Figure II-23 : Le réseau des interactions génétiques identifiées chez la levure (d’après
Costanzo et al, Science 2010). Chaque rond représente un gène, chaque trait entre deux ronds représente une
interaction génétique identifiée entre ces gènes.

    69  
V- Interactions avec l’environnement

Tout comme les gènes n’agissent pas de façon isolée, les individus sont en interaction
constante avec leur environnement. Il est donc évident que cet environnement va fortement
influencer l’expression du génome d’un individu, et donc son phénotype. En d’autres termes,
deux individus présentant des génotypes identiques peuvent très bien avoir des phénotypes
très différents s’ils vivent dans des environnements différents.

V-1- Interactions avec le biotope

L’environnement abiotique influence fortement l’expression des gènes, soit en activant des
mécanismes d’adaptation, soit en agissant en tant que contrainte. Les illustrations de
l’adaptation de l’expression des génomes à l’environnement sont innombrables. Citons par
exemple le fonctionnement de l’opéron lactose, qui est détaillé dans la partie biologie
moléculaire de ce cours. En terme de contrainte, on peut penser à la notion de mutants
conditionnels. Il s’agit d’individus mutants dont la mutation ne s’exprime que dans certaines
conditions environnementales. C’est le cas, chez les organismes de laboratoire, des mutants
dits thermosensibles, qui n’expriment leur phénotype mutant qu’à température élevée. Chez
l’Homme, on peut citer l’exemple de personnes présentant des mutations de l’hémoglobine
qui ne provoquent de syndromes anémiques qu’à haute altitude (à cause de la plus faible
pression d’oxygène).

V-2- Interactions entre génomes et métagénomique.

Les êtres vivants interagissent également fortement entre eux. Ceci est particulièrement bien
illustré par les flores microbiennes que l’on trouve dans différents environnements (sols, eau
de mer…) et qui présentent un fort taux de symbioses, de commensalisme et de parasitisme. Il
n’est ainsi pas rare qu’une voie métabolique active dans ces environnements fasse intervenir
plusieurs espèces qui se partagent le travail. Plus proche de nous, la flore intestinale de
l’Homme (qui représente 80% des cellules de notre organisme et plus d’1/10 de notre poids)
influence fortement notre phénotype et a des rôles démontrés ou fortement suggérés dans la
prédisposition à l’obésité, dans le développement de maladies inflammatoires intestinales
mais aussi dans des traits comportementaux comme l’autisme, l’hyperagressivité ou la
dépression. On peut donc dire que, bien souvent, différents génomes peuvent influencer un

    70  
phénotype donné. Le niveau auquel les scientifiques doivent travailler dans ce cas n’est plus
celui du gène, ni même du génome d’une espèce, mais celui de la communauté de génomes
présente dans un environnement donné, ce que l’on appelle aujourd’hui le métagénome. La
plupart des espèces de microorganismes n’étant pas cultivables en laboratoire, le séquençage
en masse de l’ADN présent dans un environnement est souvent le seul moyen d’avoir des
informations sur leur mode de vie et leurs propriétés. Cette nouvelle discipline s’appelle la
métagénomique et ses enjeux fondamentaux, industriels et médicaux sont énormes.

VI- Mécanismes épigénétiques

Très tôt dans l’histoire de la génétique est apparu un paradoxe : si les caractères des individus
et des cellules sont déterminés par le génome, alors comment expliquer que les cellules de
notre organisme, qui ont des génomes identiques, ne soient pas semblables ? La découverte,
avec l’opéron lactose, des mécanismes d’adaptation de l’expression génétique en réponse à un
stimulus ont fourni un début de réponse : la différentiation cellulaire serait contrôlée par des
facteurs de transcription différentiellement exprimés en fonction du temps et de l’espace.
Néanmoins, ces modèles n’expliquent pas totalement la persistance de cette différentiation
longtemps après la disparition des stimuli environnementaux (effet mémoire), ni sa
transmission à la descendance des cellules en question. Un autre aspect du mystère concerne
la lignée germinale : comment ces cellules différentiées peuvent-elles donner naissance après
fécondation à une cellule totalement indifférenciée et totipotente ? C’est ainsi qu’a commencé
à émerger la notion d’épigénétique. Les modifications épigénétiques ne mettent pas en jeu
des modifications de la séquence du génome et elles sont réversibles, différant en cela des
mutations génétiques. Par ailleurs, les modifications épigénétiques sont héritables
(transmissibles à la descendance mitotique) et ne dépendent pas de la persistance d’un
stimulus environnemental, différant ainsi des mécanismes adaptatifs évoqués dans le chapitre
précédent.
On connaît aujourd’hui les bases moléculaires des mécanismes épigénétiques. Il s’agit
essentiellement de modifications de la chromatine qui vont conduire à l’extinction de
l’expression de certains gènes, de façon stable au cours des divisions cellulaires. Ces
modifications sont soit des modifications chimiques de certains acides aminés des histones
constituant les nucléosomes (méthylations, acétylations, phosphorylations etc…), soit des
modifications chimiques de certaines cytosines dans l’ADN (méthylations). Ces modifications

    71  
chimiques (aussi appelées marques épigénétiques) sont apposées par des enzymes au sein de
complexes protéiques. Les marques épigénétiques ont un effet sur le niveau de compaction de
la chromatine, sur le recrutement de protéines activatrices ou répressives, sur le recrutement
ou l’activité de l’ARN polymérase, et donc finalement sur le niveau d’expression des gènes.
Les cas de régulations épigénétiques sont très nombreux (différentiation cellulaire chez les
organismes multicellulaires, changements de morphotypes chez les microorganismes, etc…).
Des dérèglements de régulations épigénétiques sont également observés dans de nombreuses
pathologies (cancers, maladies auto-immunes, maladies neurologiques…). Nous allons
illustrer ici l’influence de ces mécanismes sur les phénotypes des individus par deux
exemples : l’empreinte parentale et l’inactivation du chromosome X chez les mammifères.

VI-1- L’empreinte parentale.

Chez les organismes diploïdes, la majorité des gènes sont présents en deux exemplaires
exprimés de façon équivalente. L’influence de chacun des deux allèles sur le phénotype
dépend alors des relations de dominance/récessivité qui existent entre eux, et qui peuvent être
très complexes, comme cela a été exposé plus haut. Toutefois, chez les mammifères, un
certain nombre de gènes fonctionnent différemment : un seul allèle s’exprime (on parle donc
d’expression monoallèlique) et l’allèle exprimé dépend de sa provenance maternelle ou
paternelle. C’est ce que l’on appelle l’empreinte parentale, et ces gènes sont dits « soumis à
l’empreinte ». Un gène pour lequel seul l’allèle provenant du père s’exprime est dit soumis à
l’empreinte maternelle (l’allèle transmis par l’ovule est inactif). Réciproquement, on parle
d’empreinte paternelle pour un gène dont seul l’allèle maternel s’exprime (l’allèle transmis
pas le spermatozoïde est inactif). Ainsi, les éleveurs savent depuis longtemps que le
croisement entre une ânesse et un cheval donnera un bardeau, alors que le croisement d’une
jument et d’un âne produit un mulet. Bien qu’issus de croisements entre les mêmes espèces, le
bardeau et le mulet sont des animaux très différents. Ceci démontre l’importance de
l’empreinte parentale dans la détermination des phénotypes.

Prenons l’exemple d’un gène A présentant deux allèles a+ et a1 et soumis à l’empreinte


maternelle (Figure II-24). Un individu issu d’un croisement entre un ovule a+ et un
spermatozoïde a1 sera de phénotype [a1] puisque seul l’allèle du père s’exprime. Inversement,
un individu issu d’un croisement entre un ovule a1 et un spermatozoïde a+ sera de phénotype
[a+]. Pourtant, ces deux individus ont le même génotype (a+/a1). Ce phénomène est stable et

    72  
héritable par presque toutes les cellules de l’individu durant toute sa vie. De plus, ce
phénomène est réversible au niveau des gamètes de ces individus : les allèles de A seront
inactivés chez les femelles produisant des ovules, mais pas chez les mâles produisant des
spermatozoïdes. Il s’agit donc bien d’un phénomène épigénétique (stable, réversible,
phénotypes différents mais génotypes identiques).

gène A (allèles a1 et a+) soumis à l’empreinte maternelle:

a1 a+ a1
x [a+]
a1 a+ a+
Deux phénotypes
pour un même
génotype.
a+ a a+
x [a1]
a+ a a1

Figure II-24 : Les conséquences phénotypiques de l’empreinte parentale.

D’un point de vue moléculaire, l’empreinte parentale implique des modifications de la


chromatine liées à des méthylations de l’ADN à des locus bien particuliers, soit sur l’allèle
d’origine paternelle, soit sur l’allèle d’origine maternelle. Ces modifications épigénétiques ont
lieu lors de la gamétogenèse : les empreintes héritées du père et de la mère sont d’abord
effacées, puis une nouvelle empreinte est déposée, qui dépend du sexe de l’individu qui forme
les gamètes (Figure II-25). Chez l’Homme et la souris, on connaît plus d’une centaine de
locus soumis à l’empreinte, situés un peu partout dans le génome. Un défaut total d’empreinte
parentale est létal à des stades précoces du développement de l’embryon. On connaît des
maladies humaines qui sont dues à des défauts partiels de l’empreinte. Dans le cas du
syndrome de Silver-Russell (forme de nanisme) par exemple, les individus ont deux
chromosomes 7 d’origine maternelle au lieu d’avoir un chromosome 7 issu de chaque parent.
On parle de disomie uniparentale maternelle, et ceci est généralement dû à un défaut au
niveau des gamètes qui ont permis la conception de l’individu. Dans ce cas, les gènes du
chromosome 7 soumis à l’empreinte paternelle sont en surdosage (deux copies actives au lieu
d’une) alors que les gènes soumis à l’empreinte maternelle sont complètement inactivés
(aucune copie active). Ceci provoque un retard de croissance important et de nombreuses
malformations.

    73  
 
 
 
 
 
 
 
 
 

Figure II-25 : Etablissement et effacement de l’empreinte parentale (d’après Gabory et


Dandolo, Med. Sc. 2005).  
 
VI-2- L’inactivation d’un chromosome X chez les femelles des mammifères

Chez les mammifères, les femelles ont deux chromosomes sexuels X, soit deux fois plus que
les mâles. Ceci pourrait causer un problème de surdosage des gènes présents sur ces
chromosomes mais en réalité, seul un des X exprime ses gènes. L’autre chromosome X se
trouve sous forme de chromatine hypercondensée et est donc totalement inactif. Il est
observable en microscopie sous la forme d’une zone de chromatine très opaque qui a été
baptisée « corpuscule de Barr ». L’expression des gènes du X est donc monoallèlique. Ceci
est apparemment contradictoire avec ce qui est enseigné dans le cours LV203 quant à
l’expression des caractères liés à l’X, qui semble à l’échelle de l’individu se comporter
comme si ils avaient une expression biallèlique chez les femelles. En fait, cette contradiction
n’existe pas. En effet, contrairement à l’empreinte parentale pour laquelle les allèles inactivés
sont les mêmes dans toutes les cellules de l’individu, le choix du X à inactiver se fait
indépendamment et au hasard dans chaque cellule à un stade relativement tardif du
développement. Dans un même tissu, on trouvera donc des cellules exprimant le X d’origine
paternelle et des cellules exprimant le X d’origine maternelle, d’où l’apparence d’une
expression biallèlique à l’échelle de l’individu. Il existe toutefois des cas où l’expression d’un
allèle défectueux dans 50% des cellules va poser problème et provoquer des pathologies.
C’est ce qui se passe chez les femmes atteintes de myopathie de Duchenne (Figure II-26). La
myopathie de Duchenne est due à des mutations récessives dans le gène DMD codant la

    74  
dystrophine. Comme ce gène se trouve sur le chromosome X, la seule possibilité pour que des
femmes soient atteintes serait que des hommes malades aient des enfants avec des femmes
porteuses d’un allèle défectueux. Or, cette maladie provoque des handicaps graves très tôt
dans la vie de l’individu et les myopathes de Duchenne n’ont en général pas d’enfants.
Pourtant, il existe des cas de femmes atteintes de cette maladie. L’origine génétique de la
myopathie dans ces cas est une translocation réciproque d’une partie du chromosome X sur un
autosome, au niveau du gène DMD, ce qui conduit à inactiver ce gène sur le X ayant subi la
translocation. Les femmes porteuses de cette translocation possèdent également un gène
DMD actif (sur l’autre X non transloqué) et ne devraient donc pas développer la maladie.
C’est là qu’intervient l’inactivation du X. En effet, les cellules qui inactivent le X transloqué
vont posséder deux copies actives de la région transloquée (celle du X « normal » plus la
partie du X transloquée sur un autosome). Ce surdosage d’une partie des gènes présent sur le
X leur est fatal et elles meurent au cours du développement embryonnaire. L’embryon se
développe donc uniquement avec les autres cellules qui ont inactivé le X « normal » et qui
sont parfaitement viables car elles n’expriment qu’une copie des gènes présents sur le X (X
transloqué plus la partie transloquée sur un autosome). Néanmoins, ces cellules n’ont pas de
gène DMD fonctionnel puisqu’elles n’expriment que l’allèle interrompu par la translocation.
Les femmes en question sont donc déficientes pour DMD et développent la myopathie.

Figure II-26 : Implication de l’inactivation du chromosome X dans certains cas de


myopathie de Duchenne (d’après Strachan et al. éd. Garland Sciences).

    75  
D’un point de vue moléculaire, l’inactivation d’un des deux X fait intervenir un long ARN
non codant, Xist, et des modifications de la chromatine (modifications des histones,
méthylation de l’ADN). Au stade gastrula tardif, les deux X de chaque cellule vont se
rapprocher dans le noyau. Des mécanismes moléculaires complexes vont permettre le
comptage des X par la cellule et le choix du X à inactiver. Puis les deux chromosomes vont se
séparer. L’un d’entre eux (et un seul) va se mettre à exprimer l’ARN non codant Xist qui va
peu à peu recouvrir l’ensemble du chromosome et entraîner des modifications de la
chromatine à l’origine de sa compaction et de son inactivation.

VII- Effets du hasard sur l’expression des gènes

Contrairement à l’image qui en est souvent véhiculée dans nos cours, les systèmes vivants ne
sont pas des mécaniques parfaitement déterministes chez lesquelles une même cause produit
toujours les mêmes effets. Comme tous les systèmes complexes, ils sont soumis au hasard et
obéissent à la théorie du chaos, à savoir que de petites variations aléatoires microscopiques
peuvent entraîner d’importantes modifications macroscopiques. Ainsi, des cellules ayant le
même génome, les mêmes marques épigénétiques et partageant un même environnement
auront dans la majorité des cas des phénotypes très semblables, mais il y aura toujours des
variations autour de ce phénotype moyen (hétérogénéité cellulaire). Au cours de leur histoire
évolutive, les formes de vie ont appris à composer avec ce hasard, comme avec toutes les
autres contraintes physiques, et il existe aujourd’hui des réseaux de régulation génétique qui
sont capables d’amplifier les effets liés au hasard pour provoquer, au sein de populations de
cellules initialement très homogènes, des modifications spectaculaires de phénotype, sans
modification du génotype ou de l’environnement.
Le poids du hasard (on parle aussi de stochasticité) dans l’expression des gènes a été
élégamment démontré au début du siècle. Elle n’est plus contestée actuellement et est de plus
en plus prise en compte par les biologistes dans leurs modèles du fonctionnement des réseaux
génétiques.

    76  
VIII- Traits quantitatifs et génétique quantitative

VIII-1- Notion de traits quantitatifs et d’héritabilité

La plupart des traits phénotypiques sont donc déterminés par des interactions entre plusieurs
allèles, plusieurs gènes, sont influencés par l’environnement et font intervenir des
mécanismes épigénétiques. Cette complexité a deux conséquences importantes.
Premièrement, la plupart des traits phénotypiques sont quantitatifs, c’est à dire que les
individus d’une population ne se classent pas dans un nombre limité de catégories
(sains/malades par exemple) mais présentent des variations continues de phénotype. C’est le
cas de la taille chez l’Homme ou de la teneur en saccharose des betteraves (Figure II-27).
Deuxièmement, il est souvent extrêmement difficile d’identifier pour un phénotype donné la
part de la génétique (on parle d’héritabilité) et la part environnementale. La figure II-28
récapitule par exemple tous les paramètres connus pour influer sur le développement de
l’obésité. Ainsi, si environ 1% des cas d’obésité ont un déterminisme exclusivement
génétique et monogénique, dans la majorité des cas cette maladie fait intervenir des facteurs
génétiques complexes (plusieurs gènes, différents selon les ethnies) ainsi que de très
nombreux facteurs environnementaux (biotiques et abiotiques) et sociaux. On parle alors de
caractère multifactoriel. Tout ceci va compliquer l’identification des gènes impliqués dans un
phénotype donné par les techniques de cartographie génétique décrites précédemment.

Taille des conscrits français en 1990 Teneur en saccharose de 42997


racines de betterave
Figure II-27 : Exemples de traits quantitatifs (d’après Rossignol et al., éd. Dunod).

    77  
Figure II-28 : Génétique multifactorielle: l’exemple de l’obésité (d’après Mutch et Clément,
Plos Genetics 2006).

VIII-2- Cartographie génétique et traits quantitatifs : identification de QTL

La recherche de locus impliqués dans un traits quantitatif (ou QTL pour « Quantitative Trait
Loci ») obéit aux mêmes principes généraux que les analyses de liaison classiques. On va
chercher des marqueurs génétiques dont le polymorphisme est corrélé avec des variations
significatives du trait étudié. La recherche de QTL repose donc sur des analyses de
variance/covariance entre les variations de génotype et de phénotype. Cependant, comme on a
affaire à un phénotype continu, il faudra généralement un très grand nombre d’individus
présentant à la fois un bon éventail de valeurs du trait étudié et de polymorphisme génétique.
Par exemple, une étude récente basée sur l’analyse des génotypes de 180 000 individus a
permis d’identifier 150 locus impliqués dans la détermination de la taille à l’âge adulte chez
l’Homme. Une autre difficulté de l’analyse de QTL consiste à s’affranchir autant que possible
de l’influence de l’environnement, ou au moins de pouvoir quantifier précisément cette
influence pour le trait étudié. Pour cela, il faut pouvoir estimer la variabilité du trait dans des
populations ayant des génotypes identiques mais des environnements différents et/ou
travailler avec des populations ayant des environnements identiques mais des génotypes
différents. Ces conditions peuvent être facilement réunies pour des populations élevées en
laboratoire. Pour l’Homme, c’est évidemment plus difficile à obtenir...

    78  
La génétique quantitative a donc été longtemps limitée par notre faible capacité à analyser le
génotype d’un très grand nombre d’individus. Ceci est en train de changer grâce aux
nouvelles technologies de séquençage, qui permettent d’avoir accès à l’ensemble de la
séquence d’un génome humain en quelques semaines. La génétique quantitative suscite donc
un regain d’intérêt car elle reste une approche extrêmement puissante pour identifier les
déterminants génétiques de caractères quantitatifs complexes.

    79  
Chapitre III
Analyse fonctionnelle : utilisation des systèmes modèles pour étudier la
fonction des gènes

Dans les chapitres I et II, nous avons vu comment il est possible d’identifier le ou les gènes
impliqués dans un phénotype, ainsi que de mettre en évidence les interactions entre eux.
Cependant l’identification d’un gène n’est pas une fin en soi, mais une étape pour comprendre
son rôle dans la physiologie de la cellule ou de l’organisme. C’est ce que l’on appelle
l’analyse fonctionnelle. La figure III-1 schématise les différentes étapes de l’analyse
fonctionnelle. Celles-ci nécessitent l’utilisation de systèmes modèles, cellulaires, animaux ou
végétaux. Dans ce chapitre, nous allons présenter un certain nombre de ces systèmes, avec
leurs avantages, inconvénients, et particularités.

Figure III-1 : Les différentes étapes de l’analyse fonctionnelle.

    80  
I- Caractéristiques d’un bon modèle en génétique

L’émergence d’un nouveau système modèle provient d’abord de la volonté d’un


expérimentateur de résoudre un problème pour lequel ce système semble particulièrement
adapté. La survie du modèle dépendra de sa capacité effective à se prêter à l’analyse
biologique, puisque la création d’une communauté scientifique importante travaillant sur ce
modèle lui permettra de devenir une référence. À l’origine, le modèle doit répondre à un
premier critère essentiel: être adapté, à moindre frais, au maintien et aux manipulations en
laboratoire. En fonction des objectifs scientifiques, un certain nombre de critères secondaires
vont apparaître. Aujourd’hui, la majeure partie de la communauté scientifique travaille avec
de nombreux modèles cellulaires et une vingtaine de modèles animaux et végétaux de
référence. La souris, le poulet, le xénope et le poisson zèbre représentent les quatre principaux
modèles pour l’étude des vertébrés. La mouche Drosophila melanogaster et le ver
Caenorhabditis elegans sont les modèles d’invertébrés les plus utilisés. La levure, l’algue
Chlamydomonas ou la paramécie constituent les modèles d’unicellulaires les plus fréquents.
Parmi les animaux marins, on peut citer l’oursin, l’étoile de mer, la palourde ou bien encore
l’ascidie. Concernant les végétaux, un des modèles les plus couramment utilisés est l’arabette
Arabidopsis thaliana.

Les systèmes modèles en génétique permettent en particulier de :


• tester in vivo des interactions physiques entre protéines, ou entre protéines et
acides nucléiques
• étudier la localisation des produits des gènes
• étudier les séquences régulatrices des gènes
• manipuler l’expression d’un gène pour en étudier sa fonction
• …etc

Pour cela, une caractéristique importante des modèles génétiques est qu’ils doivent être
génétiquement modifiables afin de permettre:
• l’ insertion de séquences exogènes
• l’ inactivation totale ou partielle de gènes
• la modification du niveau ou du lieu d’expression d’un gène

    81  
En plus de cette propriété, la puissance d’un modèle dépend également des caractéristiques
suivantes :
• de nombreux outils et souches doivent être disponibles
• la séquence de son génome doit si possible être connue
• son maintien et sa reproduction doivent être possibles en laboratoire
• son cycle de développement ne doit pas être trop long, son entretien facile et pas
trop couteux
• pour les organismes modèles, les croisements doivent pouvoir être contrôlés

Enfin, il n’existe pas de système modèle absolu: le choix du modèle dépend de la question
posée, et chaque modèle présente ses avantages et ses inconvénients. Très souvent, au cours
d’un projet de recherche, les équipes sont amenées à utiliser plusieurs modèles différents pour
étudier un même processus.

II-Exemple de modèle cellulaire : cultures de cellules eucaryotes

II-1-Présentation et principales caractéristiques

La culture de cellules eucaryotes a été et reste le matériel préféré du biologiste cellulaire,


essentiellement grâce à sa facilité d’utilisation. Les cultures cellulaires ont permis
d’importantes avancées dans la compréhension de l’architecture d’une cellule animale, des
mécanismes de division cellulaire, du transport intracellulaire et de l’organisation des
différents organites cellulaires. Ce modèle se révèle aussi décisif pour caractériser des
processus cellulaires tels que la transcription, la réplication, les diverses voies de signalisation
intracellulaires…, et ainsi caractériser les réseaux génétiques existants au sein de nos cellules.
De nombreuses sources de cellules eucaryotes sont aujourd’hui disponibles. En particulier,
chez les mammifères, les cellules humaines, murines, ou issues de hamster chinois, sont
d’utilisation courante. La plupart du temps, ces cellules sont capables de proliférer quasi
indéfiniment en culture. Cela provient de la mise en culture de cellules naturellement
immortalisées (voir l’exemple des cellules HeLa ci-dessous), souvent dérivées de cellules
cancéreuses, ou de cellules devenues immortelles suite à leur manipulation par l’homme
(introduction de virus dits transformants).

    82  
La lignée cellulaire HeLa, ou plus simplement cellules HeLa, est une lignée cellulaire
cancéreuse classiquement utilisée en recherche fondamentale et médicale. Ces cellules
proviennent d'un prélèvement de métastase effectué sur une patiente atteinte d'un cancer du
col de l'utérus et décédée en 1951, Henrietta Lacks (Figure III-2). Les cellules HeLa forment
la première lignée cellulaire immortelle d'origine humaine jamais créée. Aujourd'hui encore,
soit plus de 60 ans après le décès d’Henrietta Lacks, elles sont d'un usage extrêmement
courant dans les laboratoires de recherche de biologie (plus de 60000 publications de travaux
impliquant l’utilisation de ces cellules). Néanmoins, comme tout modèle, les cellules HeLa
présentent un certain nombre d’inconvénients, dûs en particulier à leur origine cancéreuse :
(1) elles sont infectées par le papillomavirus HPV18 ; (2) elles possèdent entre 60 et 80
chromosomes, à cause d’une forte instabilité génétique ; (3) elles ne peuvent pas être infectées
par le virus VIH (absence du récepteur CD4).

Figure III-2 : A gauche, Henrietta Lacks (et son mari) dont sont issues les cellules HeLa.
A droite : flacon de culture de cellules HeLa.

II-2-Principales utilisations génétiques des modèles cellulaires

L’utilisation des modèles cellulaires est multiple. D’un point de vue génétique, on peut citer
par exemple trois utilisations courantes :

L’analyse des sites de fixation d’une protéine sur la chromatine (ChIP) : le principe de la
technique ainsi que son utilisation ont été décrits dans le chapitre II de ce cours.

    83  
La dissection de promoteurs ou de séquences régulatrices grâce à l’utilisation de gènes
rapporteurs :
A l’image de ce qui peut être fait chez de nombreux autres organismes, en particulier
unicellulaires (bactéries, levures), les cellules de mammifères en culture peuvent être utilisées
pour étudier les régions régulatrices des gènes (Figure III-3). Pour déterminer si une région
génomique est impliquée ou non dans le contrôle de l’expression d’un gène, il est possible de
la placer dans un vecteur (plasmide) en amont d’un gène rapporteur (gène lacZ, gène de la
luciférase…) dont l’expression, après transfection de la construction dans les cellules en
culture, est mesurable au travers de l’activité catalytique de l’enzyme codée par ce gène. Cette
séquence étudiée étant présente sur un vecteur, il est facile de la manipuler moléculairement,
en particulier de la muter par mutagenèse dirigée, dans le but de déterminer les fonctions
régulatrices précises de chaque région dans cette séquence.

Figure III-3 : Principe de la dissection de promoteur ou de régions régulatrices.


(1) Différentes constructions sont réalisées in vitro dans lesquelles la taille de la région régulatrice est réduite
progressivement de manière à identifier la région minimale de contrôle de l’expression du gène ; (2) Chaque
construction est transfectée indépendamment dans les cellules en culture ; (3) L’expression du gène rapporteur
est mesurée en fonction de l’activité catalytique de la protéine pour laquelle il code. Ici, on voit que la perte de la
région bleu foncé (construction B) n’affecte pas l’expression du gène rapporteur, tandis que la perte de la région
rouge (construction C) induit une baisse significative de l’expression du gène rapporteur. On en conclut que la
région rouge, mais pas la région bleue, est une région importante de régulation.
 

    84  
L’analyse de la fonction d’un gène par diminution de son expression (« knock-down »)
grâce à la technique d’interférence ARN :

L’ARN interférence (ARNi) est un mécanisme naturel qui a initialement été caractérisé chez
les plantes dans les années 1990 et qui consiste à inhiber l’expression de gènes cibles. Ce
mécanisme a été conservé au cours de l’évolution et a été mis en évidence chez les
mammifères en 2001. Ses principales caractéristiques sont sa spécificité et son efficacité.
L’ARN interférence repose sur la capacité de petits ARN double brin (~20pb) à réguler
l’expression des gènes en induisant une dégradation des ARNm cibles ou en bloquant leur
traduction. Dans les cellules, il existe différents types de petits ARN interférents qui se
distinguent par leur taille, leur biogenèse, leur mécanisme de régulation de l’expression des
gènes cibles: pi-ARN, miARN (micro-ARN); endo-siARN (« small interfering » ARN
endogènes). Ces petits ARN interférents interviennent notamment au cours du développement
et de la différentiation. Au laboratoire, l’interférence ARN est utilisée pour diminuer
l’expression d’un gène en produisant dans les cellules des siARN exogènes (synthétiques) qui
ciblent un gène particulier (Figure III-4). Il est possible de transfecter directement ces petits
ARN interférents dans les cellules. Cependant, chez les mammifères, l’introduction de petits
ARN interférents n’induit qu’une suppression transitoire de l’expression, de quelques jours à
deux semaines, en fonction de la quantité d’ARN transfectée et de la prolifération des
cellules. Pour obtenir une suppression plus durable de l’expression, la stratégie la plus simple
est d’utiliser un vecteur d’expression qui produit dans la cellule une molécule en épingle à
cheveux dont la structure est proche de celle d’un petit ARN interférent. Les molécules
d’ARN double brin ainsi produites sont d’abord découpées par une RNAase double brin,
Dicer, qui produit des fragments d’environ 21 nucléotides, les petits ARN interférents. Ceux-
ci sont alors incorporés sous forme simple brin dans un complexe ribonucléoprotéique
dénommé RISC (RNA-induced silencing complex), où ils servent de guide pour la
reconnaissance de la cible. Un appariement parfait avec l’ARNm cible détermine une activité
de nucléase spécifique de séquence du complexe avec la coupure endonucléolytique et la
dégradation des fragments. Un appariement imparfait avec l’ARNm cible détermine une
inhibition de la traduction de l’ARNm cible.

    85  
Figure III-4 : Mécanisme de l’ARN interférence (d’après Mittal el.al, Nat. Rev. Genet. 2004).

La technique d’ARN interférence est aujourd’hui très utilisée dans les laboratoires de
recherche pour étudier la fonction d’un gène. En effet, plus simple à mettre en œuvre que des
expériences d’inactivation de gènes (voir plus bas la manipulation des cellules souches dans
le modèle souris), elle peut être aussi appliquée à des études globales ou haut-débit. Par
exemple, de telles études sont menées pour identifier des gènes impliqués dans un processus
cellulaire particulier, ou des gènes dont la perte d’expression accroît ou diminue l’activité de
médicaments (Figure III-5).

    86  
Figure III-5 : Protocole de criblage haut-débit utilisant comme outil l’ARN interférence.
Les cellules sont mises en culture dans des plaques multi-puits puis transfectées dans chaque puits par un siARN
différent issu d’une banque couvrant l’intégralité du génome humain. Les phénotypes des cellules transfectées
sont ensuite étudiés en fonction de la question biologique posée (localisation subcellulaire de protéines d’intérêt,
activation de voies de signalisation spécifiques, survie cellulaire, profil transcriptomique,…).

II-3-Limites des modèles cellulaires


Comme nous l’avons vu avec l’exemple des cellules HeLa, les cellules mises en culture
perdent certaines de leurs propriétés et en acquièrent d’autres. En effet, ces cellules, le plus
souvent immortalisées, peuvent adopter un comportement particulier qui s’accompagne, entre
autres, de la perte d’un certain nombre de propriétés telles que le contrôle strict du cycle
cellulaire et de la ségrégation des chromosomes, ou la mise en place des communications
intercellulaires. De plus, ces mêmes cellules ne représentent qu’une partie d’un tissu et a
fortiori d’un organe, et les résultats obtenus dans des conditions de culture ne peuvent pas être
extrapolés à des conditions plus complexes. Certains résultats obtenus sur ces lignées peuvent
ainsi ne pas être retrouvés dans le contexte bien plus complexe d’un tissu. Il devient alors
nécessaire de faire appel à un modèle animal, plus sophistiqué, dont le choix dépend de
l’objectif.
En conclusion, la figure III-6 résume les principaux avantages et inconvénients des modèles
de cellules en culture.

    87  
AVANTAGES
• Cultures peu encombrantes pouvant être maintenues en laboratoire
• Temps de génération relativement court et effectifs suffisants pour des analyses statistiques
• Possibilité d’avoir de nombreuses cellules de même génotype, maintenues dans un
environnement constant ou modulable
• Nombreuses lignées disponibles (différents organismes, différents tissus)
• Manipulables expérimentalement, grande facilité d’introduction de séquences exogènes (=
transfection)
• Possibilité de congeler les cellules

INCONVENIENTS
• Lignées immortalisées, parfois polyploïdes
• Absence d’environnement cellulaire
• Nombre limité de phénotypes observables (division, croissance, adhésion, différentiation,
résistance…)
• Tous les types cellulaires ne sont pas cultivables

Figure III-6 : Récapitulatif des principaux avantages et inconvénients des modèles de


cellules en culture.

III-Exemples d’organismes modèles : particularités, avantages, inconvénients

III-1- La levure Saccharomyces cerevisiae

III-1-1-Présentation et principales caractéristiques


Deux types de levure se partagent le rôle de modèle de référence pour les unicellulaires
eucaryotes, dont la force réside dans leur grande capacité à se prêter aux manipulations
génétiques : Saccharomyces cerevisiae et Schizosaccharomyces pombe. Ces deux levures sont
séparées par des distances évolutives considérables et se rattachent à deux phylums bien
distincts, les hémiascomycètes et les archiascomycètes, respectivement. Le modèle le plus
utilisé est la levure de boulanger, S. cerevisiae, dont le génome a été intégralement séquencé
en 1996. Le projet, aujourd’hui achevé, de réaliser l’inactivation systématique de chaque
gène s’est rapidement mis en place. Ce système expérimental simple a contribué de façon

    88  
notable à une meilleure compréhension de nombreux aspects de la biologie cellulaire et
moléculaire, notamment par l’approche génétique mise en œuvre par Leland Hartwell (prix
Nobel de Médecine 2001) dès les années 1970 et 1980, qui a permis de mieux comprendre la
régulation du cycle cellulaire. Parmi les autres champs d’investigation pour lesquels S.
cerevisiae constitue un outil de choix, on peut citer les recherches menées sur les
mitochondries, les régulations métaboliques, les ARN et ADN polymérases, et plus
récemment, la génomique.

La levure de boulangerie est un champignon unicellulaire, de la classe des Ascomycètes, du


genre Saccharomyces (référence à son affinité pour le sucre) et de l’espèce cerevisiae
(réfèrence à son rôle dans la fabrication de la bière). Son génome à l’état haploïde contient
environ 13 millions de paires de bases (Mb), réparties sur 16 chromosomes. On y dénombre
environ 6000 gènes codant des protéines. Il s’agit d’un génome relativement simple pour un
eucaryote puisqu’il se compose de 75% de séquences codantes. Environ 4% des gènes
seulement contiennent des introns, les régions régulatrices sont généralement peu complexes,
situées à proximité des séquences codantes, et les régions intergéniques sont courtes.

Le cycle de développement de S. cerevisiae est dit haplodiplobiontique, ce qui signifie que,


contrairement aux animaux, la phase haploïde est aussi longue que la phase diploïde et que
sous les deux formes la cellule peut se diviser par mitose pour donner des clones ou colonies.
C’est ce que l’on appelle le cycle végétatif (Figure III-7). Chez S. cerevisiae, il existe 2 types
sexuels haploïdes appelés mata et matα. La fécondation ne peut avoir lieu qu'entre une cellule
mata et une cellule matα. La cellule diploïde résultant de cette fusion peut, comme les
cellules haploïdes, se diviser par mitose. Néanmoins, lorsque se produit une carence en
nutriments, la cellule diploïde a/α entreprend alors une méiose qui conduit à la production de
4 spores haploïdes, formant une tétrade, empaquetées dans une enveloppe appelée un asque.
D'un point de vue génétique, il est donc possible d'observer directement chez S. cerevisiae les
résultats des fécondations et des méioses. Bien évidemment, cette caractéristique a fortement
contribué au développement de S. cerevisiae comme modèle en génétique.  
 

    89  
Figure III-7 : Cycle de développement de Saccharomyces cerevisiae.
Les cellules haploïdes se multiplient en bourgeonnant : la cellule mère bourgeonne une cellule fille plus petite
(mitose), mais possédant la même information génétique. Il existe des cellules haploïdes « a » et des cellules
haploïdes « α » qui correspondent à des signes sexuels distincts. Ces deux types de cellules ne se distinguent pas
morphologiquement mais par la phéromone qu'elles produisent : MATa ou MATα. Les phéromones libérées
permettent l'amorce du processus de fécondation en se liant à un récepteur spécifique. Ensuite c'est la fusion
entre une cellule « a » et une « α » qui donne naissance à une cellule diploïde « a/α ». Tant que l'environnement
est favorable, le diploïde se multiplie par mitose. Si les nutriments viennent à manquer, la cellule repasse alors en
phase haploïde par un processus de méiose. On obtient finalement quatre noyaux haploïdes qui sont inclus dans
les spores (ascospores) contenues dans un sac appelé asque. L'enveloppe de l'asque se rompt à maturité et libère
alors deux cellules « a » et deux cellules « α » qui peuvent recommencer le cycle.

III-1-2- Principales utilisations génétiques du modèle levure

Tout comme les modèles cellulaires cités dans le chapitre précédent, l’utilisation de la levure
permet d’analyser la présence de sites de fixation d’une protéine sur la chromatine (ChIP). Sa
manipulation aisée et les faibles distances intergéniques facilitent aussi grandement
l’identification des séquences régulatrices dont la caractérisation peut ensuite se faire par
l’utilisation de gènes rapporteurs. La levure sert aussi d’éprouvette biologique à
l’expérimentateur pour mettre en évidence ou rechercher des interactions protéine-protéine

    90  
grâce, entre autres, à l’utilisation du système double-hybride (décrit dans le chapitre II de ce
cours).
Néanmoins, la caractéristique majeure qui a fait le succès en génétique de S. cerevisiae est la
facilité avec laquelle il est possible de déléter, muter ou remplacer un gène précis pour ensuite
analyser le phénotype des souches mutantes obtenues. En effet, et contrairement aux modèles
mammifères ou drosophile, le processus de recombinaison homologue est extrêmement
efficace chez S. cerevisiae (Figure III-8). Suite à la publication du génome de S. cerevisiae,
l’inactivation systématique de tous les gènes a été entreprise pour en étudier la fonction. Des
expériences de sauvetage fonctionnel ou de cribles génétiques, peuvent alors être menées pour
identifier par exemple des gènes modificateurs, et construire des réseaux de gènes (voir
chapitre II de ce cours).

1. Production in vitro (clonage, PCR) d’un ADN


correspondant au gène X interrompu par le gène
KanMX conférant la résistance au G418

2. Transformation d’une souche de levure diploïde


sauvage avec cet ADN

3. Méiose de la souche transformée (= sporulation: production


de cellules haploïdes)

4. Sélection des clones avec le gène X inactivé sur


un milieu contenant du G418

Figure III-8 : Inactivation ciblée de gènes chez Saccharomyces cerevisiae (d’après Klug et
al., éd. Pearson Education).
Après une 1ère étape menée in vitro, au cours de laquelle on borme un gène de résistance (KanMX) par des
séquences homologues au gène que l’on souhaite inactiver in vivo (en bleu sur le schéma), l’ADN exogène est
introduit dans des levures diploïdes par transformation. L’utilisation de levures diploïdes à ce stade permet
d’obtenir des clones même si le gène inactivé est essentiel à la survie cellulaire. Après transformation, les levures
diploïdes sont sélectionnées par l’antibiotique G418 puis mises à sporuler sur milieu carencé. L’observation du
phénotype des cellules haploïdes obtenues permet d’appréhender la fonction possible du gène ainsi inactivé.

    91  
En conclusion, la figure III-9 résume les principaux avantages et inconvénients du système
levure.

AVANTAGES
• Observation directe des produits de méiose
• Recombinaison homologue très efficace: manipulation du génome rapide et facile; modèle
de choix pour la génétique inverse et pour la génomique fonctionnelle
• Utilisée comme « tube à essai vivant» pour le double-hybride
• Nombreuses  espèces  apparentées,  dont  le  génome  est  séquencé,  et  manipulables  en  laboratoire:  
modèle  de  choix  pour  l’étude  de  l’évolution  des  génomes  

INCONVENIENTS
• Unicellulaire = peu de différentiation et de communication cellules-cellules
• Ne présente pas toutes les fonctions retrouvées chez les eucaryotes supérieurs
• Apoptose rudimentaire
• Pas de méthylation de l’ADN
• A perdu la machinerie pour l’ARN interférence

Figure III-9 : Récapitulatif des principaux avantages et inconvénients du modèle levure


Saccharomyces cerevisiae.

III-2- La drosophile Drosophila melanogaster

III-2-1- Présentation et principales caractéristiques

La drosophile de l’espèce Drosophila melanogaster est l’un des modèles les plus
anciennement utilisés en génétique. Les premiers travaux sur cet organisme ont en effet été
réalisés dès le début du XXème siècle par Thomas Morgan et son équipe. Ces travaux ont
permis de mettre en évidence pour la première fois la recombinaison génétique par crossing-
over, ainsi que de réaliser la première carte génétique et de définir la notion de distance
génétique (dont l’unité a été baptisée centiMorgan). Le modèle drosophile a également permis
de montrer l’existence de chromosomes sexuels et de réaliser la première carte cytogénétique
de chromosomes.

    92  
La drosophile est aussi depuis longtemps un modèle de choix pour l’étude de la génétique du
développement. Les travaux réalisés en particulier par Edward Lewis, Christiane Nusslein-
Wolhard, Eric Wieschaus, et leurs collaborateurs, dans les années 1940 à 1980, ont permis de
mettre en évidence et de comprendre le fonctionnement de la cascade de gènes impliqués dans
le contrôle génétique du développement précoce de la drosophile. Ces travaux ont été
récompensés par l’attribution d’un prix Nobel en 1995.
Avec l’essor de la biologie moléculaire à partir des années 1970, la drosophile a de nouveau
été un organisme pilote pour la mise au point et l’utilisation de différentes techniques de
génétique moléculaire (clonage, marche sur le chromosome, transgenèse…). C’est également
le premier organisme animal dont le génome a été complètement séquencé et publié en 2000.

III-2-1-1-Morphologie et conditions d’élevage

La drosophile est une petite mouche d’environ 2mm de long (Figure III-10A) appartenant à
l’ordre des diptères (une seule paire d’ailes). Comme tous les insectes, son corps est
constitué :
• D’une  tête  portant  différents  appendices  (une  paire  d’antenne,  une  paire  d’yeux  composés,    
différents  types  d’appendices  buccaux).  
• D’un  thorax  constitué  de  trois  segments  :  chacun  d’entre  eux  porte  ventralement  une  paire  
de   pattes.   Dorsalement,   le   second   segment   thoracique   porte   une   paire   d’ailes,   et   le  
troisième   porte   une   paire   de   balanciers   ou   haltères,   qui   sont   des   rudiments   d’ailes   et  
servent  à  l’équilibre  pendant  le  vol.  
• D’un  abdomen  constitué  de  huit  segments  dépourvus  d’appendice.  

La drosophile est un animal d’élevage très simple et peu couteux en laboratoire. Les adultes
sont élevés dans des petits tubes de 2 cm de diamètre pouvant contenir jusqu’à plusieurs
centaines d’individus. Ces tubes contiennent un milieu nutritif à base de levure, d’agar, de
farine de maïs, et sont placés dans des étuves (de 18°C à 25°C). La totalité du cycle de
développement de la drosophile est réalisée dans le même tube. Les adultes se nourrissent de
du milieu, y pondent leurs œufs, les larves s’y développent jusqu’à l’éclosion de nouveaux
adultes (Figure III-10B).

    93  
A B

(~2mm  de  long)

Figure III-10 : Morphologie de Drosophila melanogaster (A) et tubes d’élevage en


laboratoire (B).

III-2-1-2-Cycle de développement de la drosophile

Développement
pupal
5  jours

=jeune  embryon
Embryogenèse
(5j) 1  jour

(2j)
(1j)

Développement (1j)
larvaire
4  jours

Figure III-11 : Cycle de développement de la drosophile.


Il faut 10 jours à 25°C pour obtenir, à partir d’un œuf pondu, un adulte qui sera sexuellement mature au bout de
quelques heures. La durée du cycle s’allonge à plus basse température (15 jours à 20°C).

La drosophile, comme tous les animaux, a un cycle de développement diplobiontique (phase


haploïde réduite aux gamètes) (Figure III-11). Un des principaux avantages de cet organisme
pour les biologistes, et plus encore les généticiens, est que les femelles ont de très grandes
descendances (plusieurs centaines d’œufs pondus au cours de leur vie, qui dure environ un

    94  
mois). De plus, le cycle de développement est très rapide pour un animal puisqu’il dure
environ 10 jours à 25°C. Par contre, un de ses gros inconvénients comparé à d’autres
organismes modèles (levure, nématode, souris) est qu’on n’arrive à la congeler à aucun stade
de son développement. Par conséquent, les lignées d’intérêt doivent en permanence être
maintenues vivantes par croisements. Pour pallier partiellement à ce problème, il existe dans
le monde plusieurs laboratoires qui maintiennent vivantes de très nombreuses lignées. Celles-
ci sont disponibles pour l’ensemble de la communauté scientifique.

Les œufs pondus par les femelles sont déjà fécondés. L’embryogenèse, qui dure un jour à
25°C, débute par plusieurs divisions nucléaires rapides (une division toutes les 10 minutes
environ) et synchrones qui se passent sans division cellulaire. Ceci aboutit à la formation d’un
syncitium, ou blastoderme syncitial. Au cours des cycles de division suivants, un certain
nombre de noyaux migrent au pôle postérieur de l’embryon, où ils formeront les cellules
polaires, qui sont les précurseurs des cellules de la lignée germinale. Les autres noyaux
migrent à la périphérie et donneront les cellules somatiques. Les noyaux s’entourent ensuite
d’une membrane cellulaire. Puis l’embryogenèse se poursuit par différents mouvements de
gastrulation. A la fin de l’embryogenèse, il y a éclosion d’une larve de premier stade. C’est le
début de la vie larvaire, qui dure environ quatre jours à 25°C et consiste en une succession de
trois stades larvaires séparés par des mues. Les larves sont très actives, se nourrissent du
milieu et s’y déplacent. A la fin du dernier stade larvaire, la larve s’emballe dans une sorte de
cocon appelé pupe, qu’elle secrète grâce à ses glandes salivaires. C’est à l’intérieur de la pupe
que se déroule, pendant le stade pupal (5 jours à 25°C), la métamorphose. En effet la
drosophile est un insecte holométabole, c'est-à-dire, comme le papillon, à métamorphose
complète. Au cours de la vie pupale, il y a destruction des structures larvaires et mise en place
des structures adultes. Les structures adultes sont issues d’îlots de cellules particuliers,
présents chez la larve, qu’on appelle les disques imaginaux. Au bout de cinq jours, un adulte
qui sera sexuellement mature au bout de quelques heures émerge de la pupe.

III-2-1-3-Constitution génétique

Le génome de Drosophila melanogaster est réparti sur 4 paires de chromosomes. La première


paire est constituée des chromosomes sexuels (chromosome I ou X et chromosome Y : les
femelles sont XX et les mâles XY). Les paires II, III et IV sont trois paires d’autosomes. Les

    95  
chromosomes I, II et III sont grands et contiennent la majorité des gènes. Le chromosome IV,
beaucoup plus petit, est constitué majoritairement d’hétérochromatine (chromatine
condensée) et ne porte que peu de gènes. Une particularité génétique de la drosophile est
l’absence de crossing-over chez le mâle.

Le génome haploïde de la drosophile est constitué de 180 Mb, dont environ 120 Mb
d’euchromatine et 60 Mb d’hétérochromatine. Il contient environ 13000 gènes codant des
protéines, dont la taille moyenne est d’environ 10 kb. Si on compare le génome de la
drosophile avec celui de l’homme, qui comporte 3300 Mb et contient environ 26000 gènes
codant des protéines, on constate que le génome de drosophile est 18 fois plus petit que le
génome humain, mais contient seulement deux fois moins de gènes. Cet apparent paradoxe
est dû aux différences d’organisation de ces deux génomes (taille et organisation des gènes,
taille des régions régulatrices, des régions intergéniques, taille et abondance des séquences
répétées,…). Ces notions ont été traitées de manière détaillée dans le cours de génétique de
l’UE LV203 « Biologie Moléculaire et Génétique I ».

III-2-1-4-Chromosomes polytènes de drosophile et carte cytogénétique

Au cours de la vie larvaire, les chromosomes de drosophile acquièrent dans certains organes
une structure particulière : on parle de chromosomes géants, ou chromosomes polytènes. Les
chromosomes polytènes ne sont pas spécifiques de la drosophile puisqu’ils existent chez
d’autres diptères. Différents organes de la larve sont concernés, dont les glandes salivaires. La
polyténie est due au fait que, dès la fin de l’embryogenèse, l’ADN des cellules de ces organes
larvaires se réplique sans que se produise de séparation des chromatides sœurs et sans division
cellulaire. On appelle ce type de division une endoréplication. Dans les glandes salivaires,
les chromosomes subissent ainsi, au cours de la vie larvaire, 9 cycles d’endoréplication.
Chaque chromosome homologue est donc constitué, en fin de troisième stade larvaire, de
29=512 chromatides appariées. De plus, dans ces cellules, les deux chromosomes homologues
restent appariés l’un à l’autre, aboutissant à la formation d’un chromosome très épais
constitué de 512x2=1024 chromatides. Enfin, les chromosomes polytènes sont moins
condensés que des chromosomes normaux. Ces chromosomes, étant plus épais et moins
condensés que des chromosomes normaux, sont donc beaucoup plus observables en
microscopie.

    96  
Après dissection des glandes salivaires, les chromosomes polytènes peuvent être étalés sur
lame et colorés avec des colorants de l’ADN. Cette coloration révèle des bandes plus ou
moins sombres, reproductibles, qui résultent d’un niveau de compaction de l’ADN variable
suivant les régions chromosomiques (Figure III-12A). Ce sont ces expériences qui ont permis
à Calvin Bridges d’établir, en 1935, une carte cytologénétique des chromosomes de
drosophile, toujours utilisée aujourd’hui. Une correspondance a pu être établie entre cette
carte et les cartes génétique et physique du génome de la drosophile (Figure III-12B). Les
chromosomes polytènes permettent aussi d’étudier, par immunohistochimie, la fixation de
protéines à la chromatine (Figure III-12C).

A B C

Figure III-12 : Les chromosomes polytènes de glandes salivaires de larve de drosophile.


A : Etalement et coloration de tous les chromosomes ; B : Exemple de correspondance entre carte
cytologénétique et carte génétique; C : Expérience d’immunohistochimie mettant en évidence la fixation d’une
protéine sur les chromosomes polytènes. La totalité de l’ADN est coloré en bleu par du DAPI, chaque bande
jaune correspond à un site de fixation de la protéine étudiée.

III-2-1-5- Un outil génétique de la drosophile, les chromosomes balanceurs

Les chromosomes balanceurs sont des chromosomes remaniés qui portent de nombreuses
inversions, délétions, translocations,…. Ils ont été générés par exposition des drosophiles à de
fortes doses de rayonnements ionisants (rayons X par exemple). Il existe différents
chromosomes balanceurs pour chacun des chromosomes X, II, III, qui sont maintenus dans
des lignées de drosophile. Les remaniements ont inactivé un ou plusieurs gènes essentiels, par
conséquent ces chromosomes sont généralement létaux à l’état homozygote. De plus, tous les
chromosomes balanceurs portent une mutation qui confère un phénotype morphologique
dominant, c'est-à-dire visible à l’état hétérozygote. Ce phénotype peut concerner la forme des
ailes, la taille des soies, la morphologie de l’œil,…. (Figure III-13).

    97  
A B

Génotype:  II/II Génotype:  II/CyO


Phénotype:  [Cy+]=  ailes  plates Phénotype:  [Cy]=  ailes  recourbées

Figure III-13 : Exemple de chromosome balanceur : le chromosome balanceur du II


CurlyO (CyO).
Le chromosome CyO est un chromosome balanceur du chromosome II. Il porte une mutation à effet dominant
qui affecte la forme des ailes. (A) Les drosophiles homozygotes pour un chromosome II sauvage ont les ailes
plates (phénotype noté [Curly+]=[Cy+]). (B) Les drosophiles hétérozygote avec un chromosome II sauvage et un
chromosome CyO ont les ailes recourbées (phénotype noté [Curly]=[Cy]).
Les chromosomes balanceurs sont un outil précieux en génétique de la drosophile puisqu’ils
permettent, grâce aux remaniements multiples, d’empêcher lors de la méiose les crossing-over
entre le chromosome balanceur et le chromosome homologue normal. En effet, les
chromatides ayant subi le crossing-over sont complètement remaniées et ne permettent donc
pas d’obtenir des descendants viables (Figure III-14).

chromosome  sauvage

chromosome  balanceur
(porteur  d’une  inversion)

appariemment en  méiose  
et  crossing-­‐over  
localisé  entre  C  et  D

chromatides  remaniées:  létalité  des  


descendants  issus  de  ces  gamètes

Figure III-14 : Résultat d’un crossing-over entre un chromosome sauvage et un


chromosome balanceur.

    98  
De plus, la mutation à effet dominant permet de marquer le chromosome balanceur et donc de
le suivre au cours des générations à l’état hétérozygote. Un des intérêts des chromosomes
balanceurs est de pouvoir conserver, à l’état hétérozygote (c'est-à-dire un chromosome normal
face à un chromosome balanceur) des mutations qui sont létales ou stériles à l’état
homozygote, et ceci sans risque de les perdre au cours des générations (Figure III-15).

Génotype  aL/aL:  [létal]


Génotype  aL/a+:[viable,  pas  de  phénotype  mutant]

A:  La  mutation  aL est  maintenue  face  à  un  chromosome  II  sauvage  portant  l’allèle  a+

aL/aL [létal]
Femelle  aL/a+  X  Mâle  aL/a+ aL/a+  [viable,  pas  de  phénotype  mutant]

a+/a+  [viable,  pas  de  phénotype  mutant]

B:  La  mutation  aL est  maintenue  face  à  un  chromosome  II  balanceur  Cy0  portant  l’allèle  a+

aL/aL [létal]

Femelle  aL/Cy0-­‐a+  X  Mâle  aL/Cy0-­‐a+ aL/Cy0-­‐a+  [viable,  Curly]

Cy0-­‐a+/Cy0-­‐a+  [létal]

Figure III-15 : Intérêt des chromosomes balanceurs pour conserver une mutation létale
à l’état homozygote.
Soit aL une mutation conférant une létalité à l’état homozygote, et a+ l’allèle sauvage correspondant. Les
drosophiles aL/a+ sont viables, ce qui permet de conserver la mutation aL à l’état hétérozygote, en croisant des
mâles et des femelles. Les hétérozygotes aL/a+ n’ont aucun phénotype qui les distingue des homozygotes a+ /a+.
(A) Si la mutation aL est conservée face à un chromosome normal, à chaque génération on obtient des
descendants a+/aL et a+/a+ qu’on ne peut pas distinguer phénotypiquement. Il y a donc un risque de perdre
l’allèle aL au cours des générations. (B) Si la mutation aL est conservée face à un chromosome balanceur (ici
Cy0, voir figure III-4), les seuls descendants viables sont les hétérozygotes aL/Cy0-a+, facilement
reconnaissables grâce à leur phénotype d’ailes recourbées.

III-2-2-Transgenèse et mutagenèse aléatoire chez la drosophile grâce à l’élément P

Chez la drosophile, contrairement à ce qui existe chez la levure, la recombinaison homologue


est très peu efficace. Par conséquent, il est difficile de réaliser des inactivations de gènes par
recombinaison homologue. Cependant, une méthode de transgenèse développée dans les

    99  
années 1980 permet d’insérer dans le génome des séquences exogènes (transgenèse), mais
également d’inactiver des gènes (mutagenèse). Cette méthode est basée sur l’utilisation d’un
transposon de drosophile, l’élément P. Les transposons sont des éléments mobiles capables
de se déplacer dans le génome (voir le polycopié de cours de l’UE LV203 pour plus
d’information sur les transposons).

L’élément P est un transposon de 2,9 kb capable de s’intégrer de manière aléatoire dans le


génome (Figure III-16). Cette intégration requiert la présence de séquences répétées inversées
présentes aux extrémités de P, appelées les pieds de P (pied gauche et pied droit). Ces
séquences sont reconnues par une enzyme codée par l’élément P, la transposase, qui coupe
alors l’ADN et induit le déplacement de P (« saut » d’élément P) dans une autre région du
génome. La transposase n’est active que dans les cellules de la lignée germinale. L’élément P
ne peut donc se déplacer que dans l’ADN génomique de ces cellules.

pied  gauche pied  droit

:  répresseur

:  transposase

Figure III-16 : Structure de l’élément P de drosophile (d’après Deutsch, éd. Médecine


Sciences).
Les pieds gauche et droit sont constitués de deux séquences répétées inversées : une séquence interne de 11 pb et
une séquence externe de 31 pb. La transposase est synthétisée par épissage alternatif d’un gène constitué de 4
exons (exon 0 à exon 3). Dans les cellules germinales, l’intron 3 du gène codant la transposase est excisé, il y a
synthèse de transposase. Dans les cellules somatiques au contraire, l’intron 3 n’est pas excisé, il y a synthèse
d’une protéine qui empêche l’élément P de bouger (répresseur).

Afin d’utiliser l’élément P comme vecteur de transgenèse, des vecteurs dérivés de celui-ci
sont produits par clonage moléculaire (Figure III-17). Le premier vecteur contient le
transgène que l’on souhaite intégrer dans le génome, entouré des pieds de P. Il contient aussi
un gène marqueur (par exemple l’allèle sauvage du gène white, impliqué dans la

    100  
pigmentation des yeux : voir chapitre II). Ce gène permettra par la suite d’identifier les
individus transgéniques. La partie d’ADN de ce premier vecteur comprise entre les deux pieds
de P pourra donc s’intégrer dans l’ADN génomique en présence de transposase. Le second
vecteur (appelé plasmide « helper ») contient le gène codant la transposase de P. Par contre,
il contient des pieds tronqués qui ne sont plus reconnus par la transposase. La partie d’ADN
de ce second vecteur comprise entre les deux pieds de P défectueux ne pourra donc pas
s’intégrer dans l’ADN génomique, même en présence de transposase. Ce second vecteur est
en fait utilisé pour assurer la synthèse de transposase permettant au premier vecteur,
portant le transgène, de s’intégrer dans le génome. Une fois intégré dans le génome, ce
premier vecteur ne pourra plus bouger puisque les cellules ne produiront plus de transposase.
En effet, le plasmide « helper » est perdu au cours des divisions cellulaires car il ne peut ni
s’intégrer à l’ADN génomique, ni se répliquer de manière autonome dans les cellules de
drosophile. La séparation du transgène et de la transposase sur deux vecteurs différents
permet dont de s’assurer de la stabilité des insertions du transgène.

Figure III-17 : Structure des vecteurs utilisés pour la transgénèse et première étape du
protocole de transgénèse : injection des embryons et obtention des adultes G0.
En haut : Structure des deux vecteurs utilisés. ORI (origine de réplication) et AmpR (gène de résistance à
l’ampicilline) sont les éléments permettant de produire les plasmides dans des bactéries.
Au milieu : Injection d’un mélange des 2 vecteurs dans les cellules germinales d’embryons muté pour le gène
white (allèle w1118). Le gène white est sur le chromosome X, le génotype de ces embryons est indiqué à gauche.
En bas : Adultes G0 issus des embryons injectés : ils ont tous les yeux blancs. Certains d’entre eux ont pu
intégrer le transgène et le gène marqueur w+ sur l’un des chromosomes de certaines de leurs cellules gerrninales
(génotypes possibles de ces cellules indiqué à droite).

    101  
Comme le montre la figure III-17, ces deux vecteurs sont mélangés, et injectés dans de très
jeunes embryons non encore cellularisés (stade blastoderme syncitial), au pôle postérieur où
se trouvent les futures cellules germinales. Il faut en effet, afin que le transgène soit transmis
aux descendants et qu’il soit possible de fabriquer une lignée transgénique, que l’insertion ait
lieu dans l’ADN génomique de cellules germinales et pas de cellules somatiques. Ces
embryons portent une mutation perte de fonction totale pour le gène white (allèle w1118). A
l’issue de cette injection, les embryons injectés éclosent en adultes (adultes G0) dont les yeux
sont blancs car leurs cellules somatiques portent l’allèle w1118. Certains de ces adultes
pourront avoir intégré le morceau d’ADN portant le transgène et le gène marqueur w+ dans
l’ADN génomique de certaines de leurs cellules germinales. On dit qu’ils possèdent une
lignée germinale mosaïque. Cette insertion, étant aléatoire, peut avoir eu lieu a priori en
n’importe quel endroit de n’importe quel chromosome. Dans la pratique, on constate
cependant que l’élément P a des sites préférentiels d’insertion, tandis que d’autres locus ne
sont jamais touchés. Ceci est sans doute lié à des structures particulières de la chromatine au
niveau de ces locus (chromatine très condensée).

Afin d’identifier ces insertions du transgène et de récupérer des individus transgéniques, il


faut ensuite croiser individuellement les adultes G0 avec des adultes à yeux blancs de
génotype w1118 (Figure III-18). Parmi les descendants de ces croisements, on reconnait les
individus transgéniques car leurs yeux sont colorés : ils sont en effet issus d’un gamète ayant
intégré, sur un de ses chromosomes, le transgène et le gène marqueur w+. Les individus
transgéniques ainsi obtenus sont hétérozygotes pour le transgène et le gène w+, puisque
l’insertion ne s’est produite que sur un seul des deux chromosomes (voir le génotype des
cellules germinales sur la figure III-17). On réalise donc ensuite des croisements afin de
générer des lignées homozygotes pour le transgène.

Ce protocole de transgenèse, très efficace et couramment utilisé, permet d’insérer n’importe


quel fragment d’ADN dans le génome de la drosophile. Les applications possibles en sont
nombreuses : insertion d’ADN exogène (par exemple de gènes humains) afin de créer des
modèles de maladies génétiques humaines, insertion de gènes recombinants permettant la
synthèse de protéines fluorescentes, insertion de séquences permettant d’inactiver par
interférence à l’ARN, in vivo, un gène de drosophile, ou, au contraire, de sur-exprimer ce
gène…. Dans ce dernier cas, le transgène utilisé fait appel au système UAS-Gal4 qui est
présenté dans le paragraphe suivant.

    102  
lignée  germinale  
Adultes  G0  à   mosaïque
yeux  blancs
x  w1118 x  w1118 x  w1118
[w]

Yeux  blancs yeux  colorés Yeux  blancs Yeux  blancs


[w] [w+]: [w] [w]

établissement  d’une  lignée


transgénique  par  croisements

Figure III-18 : Deuxième étape du protocole de transgénèse afin d’identifier les


individus transgéniques : croisement des adultes G0 et identification des descendants
transgéniques.
Dans cette figure, trois adultes G0, à yeux blancs (noté [w]), sont croisés individuellement par des individus
w1118. Les individus G0 de gauche et de droite n’ont pas intégré le transgène et le gène marqueur w+ dans leur
lignée germinale, tous leurs descendants ont donc les yeux blancs. L’individu G0 du milieu a intégré le transgène
et le gène marqueur w+ dans certaines de ses cellules germinales, sa descendance comprend donc des individus à
yeux blancs et quelques individus à yeux colorés, qui sont les mouches transgéniques. Ces individus
transgéniques permettent ensuite, par croisement, d’établir des lignées transgéniques.

L’élément P permet également d’inactiver les gènes : en effet, s’il s’insère à l’intérieur d’un
gène (dans les régions régulatrices ou codantes), il peut inactiver celui-ci. La technique
permettant de générer, par insertion aléatoire d’élément P, d’éventuels mutants, s’appelle la
mutagenèse à l’élément P. Des collections de lignées, ayant intégré un élément P quelque
part dans le génome, ont ainsi été générées. Pour un certain nombre d’entre elles, cet élément
a été localisé dans le génome, et on peut ainsi savoir quel gène est touché. Grâce à l’existence
de ces lignées disponibles dans la communauté scientifique, les chercheurs travaillant sur des
gènes particuliers disposent de mutants, le plus souvent perte de fonction partielle ou totale
suivant le site d’insertion de l’élément P.

III-2-3-Le système UAS-GAL4

Comme mentionné dans le paragraphe précédent, le système UAS-GAL4 permet de


contrôler spatialement et temporellement l’expression d’un transgène intégré dans le

    103  
génome par transgenèse à l’élément P. La protéine GAL4 est un activateur transcriptionnel de
levure. Elle agit en se fixant à une séquence « enhancer » particulière localisée en amont du
promoteur de transcription, la séquence UAS (« Upstream Activating Sequence »). Chez la
levure, GAL4 permet d’activer l’expression des gènes impliqués dans la dégradation du
galactose.

Lignée  pilote  (« driver ») Lignée  contenant    le  transgène


sous  contrôle  de  
séquences  UAS  

Expression Pas  d’expression  du  transgène


de  Gal4 en  absence  de  Gal4

Descendance  du  croisement

Gal4  induit  l’expression


du  transgène

Figure III-19 : Principe du système UAS-GAL4

Les transgènes dont on veut contrôler l’expression sont clonés en aval d’un promoteur
minimal de transcription et d’une séquence UAS (Figure III-19). Dans une lignée contenant
un tel transgène, celui-ci ne s’exprime pas car il n’y a pas de protéine GAL4. Pour déclencher
l’expression du transgène, on croise cette lignée par une seconde lignée transgénique, appelée
lignée pilote (ou « driver »). La lignée pilote contient, quelque part dans son génome, un
transgène possédant le gène codant GAL4 sous contrôle d’un promoteur drosophile
particulier : il existe de très nombreuses lignées pilotes différentes avec GAL4 sous contrôle
de promoteurs ubiquitaires, tissus spécifiques, stade de développement spécifique, inductibles
par choc thermique….Le choix de la lignée pilote utilisée dépend de la question biologique
posée. Les descendants de ce croisement synthétisent, dans certaines cellules ou à certains
stades de développement, la protéine GAL4, qui peut alors se fixer sur la séquence UAS en
amont du transgène et déclencher la transcription de celui-ci. On pourra ainsi étudier chez ces
individus l’effet de l’expression du transgène dans un type cellulaire précis, ou à un stade
particulier du développement (vie embryonnaire, larvaire, pupale, adulte).

    104  
III-2-4-Conclusion : avantages et inconvénients du modèle drosophile

En conclusion et résumé de ces différents paragraphes, la figure III-20 récapitule les


principaux avantages et inconvénients du modèle drosophile.

AVANTAGES
• Cycle de développement court, conditions d’élevage faciles (faible coût, faible
encombrement)
• Possibilité de croisements contrôlés, grandes descendances
• Nombreuses collections de mutants disponibles pour la communauté scientifique
• Nombreux outils de manipulation génétique (transgenèse aléatoire, mutagenèse,
surexpression…)
• Génome compact, bien annoté
• Processus cellulaires et développementaux de base bien conservés entre la Drosophile et
l’homme (67% de conservation entre le protéome de l’homme et celui de la drosophile)

INCONVENIENTS
• Organisme qu’on ne sait congeler à aucun stade de son développement
• Protocoles d’inactivation ciblée de gène par recombinaison homologue difficiles à mettre en
oeuvre et peu efficaces
• Organisme trop éloigné de l’homme concernant l’étude de certains processus
physiologiques

Figure III-20: Récapitulatif des principaux avantages et inconvénients du modèle


drosophile.

Cet organisme, classiquement utilisé depuis de très nombreuses années par les généticiens
pour étudier les mécanismes de nombreux processus cellulaires et développementaux, est
aujourd’hui de plus en plus souvent utilisé pour développer des modèles d’études de certaines
pathologies humaines.

    105  
III-3- La souris Mus musculus

III-3-1-Présentation et principales caractéristiques


Depuis maintenant plus de cent ans, la souris (espèce Mus musculus) s’est imposée comme un
organisme modèle privilégié pour l’étude de la génétique des mammifères. En effet, en 1902,
Lucien Cuénot a démontré que les lois de Mendel peuvent s’appliquer aux souris. Puis, dès
1909, a été établie la première lignée pure de souris (homozygote à tous les locus du génome).
Aujourd’hui, de nombreuses lignées sont commercialement disponibles et sont utilisées pour
cartographier les gènes, en particulier ceux qui contrôlent des caractères à déterminisme
complexe, c’est à dire des caractères contrôlés par plusieurs gènes. Avec le développement
dans les années 1980 des marqueurs RFLP puis, dans les années 1990, des marqueurs
microsatellites et SNP, la carte génétique de la souris s’est rapidement densifiée au point de
comporter aujourd’hui plus de 10000 marqueurs génétiques analysables au niveau de l’ADN.
En 2002, la séquence du génome de la lignée C56BL/6J de souris a été publiée. Avec la
séquence du génome, on dispose donc maintenant d’un nombre quasi illimité de marqueurs
potentiels.

III-3-1-1- Pourquoi la souris comme modèle mammifère ?

Les biologistes se sont intéressés à la souris plutôt qu’à d’autres modèles mammifères pour de
multiples raisons. Tout d’abord, parce qu’il s’agit d’un mammifère de très petit format (25 à
30 grammes à l’âge adulte) facile à élever en captivité. En particulier, la mise au point d’une
formule couvrant l’ensemble de ses besoins nutritionnels ne pose aucun problème et ne coûte
pas très cher. D’autre part, la souris possède un avantage déterminant par rapport à d’autres
modèles mammifères tels que le rat, le lapin ou le porc qui est celui de supporter très bien la
consanguinité. Or, cette caractéristique a permis d’établir et de maintenir des lignées pures
dans lesquelles tous les animaux sont génétiquement identiques. Ces lignées,
génétiquement standardisées, ont été utilisées notamment pour cartographier le génome de la
souris. Enfin, et comme nous le verrons plus loin, la souris présente une extraordinaire
plasticité embryonnaire permettant à l’expérimentateur de modifier à façon son génome
(production de souris transgéniques) : il peut en effet introduire au hasard un fragment d’ADN
exogène (transgénèse classique) ou effectuer une mutagénèse dirigée (transgénèse ciblée) à
l’aide de cellules souches embryonnaires (cellules ES), et choisir le moment et le tissu où la
modification génétique sera opérationnelle.

    106  
Pour toutes ces raisons, la souris constitue un modèle expérimental de choix pour étudier des
problématiques biologiques variées (physiologie, développement, immunologie, maladies
humaines).

III-3-1-2- Quelques données biologiques

• Les femelles sont fertiles à partir de 6 à 8 semaines et le restent jusqu’à l’âge de 14


mois. Une femelle peut donc avoir jusqu’à 8 portées comptant à chaque fois environ
9 souriceaux.
• Durée de vie: de 1 à 3 ans.
• Les femelles ne s’accouplent que lorsqu’elles sont en œstrus (période d’ovulation où la
fécondation est possible).
• La gestation dure 20 jours.
• L’avortement d’un fœtus n’interrompt pas le développement des autres fœtus.

III-3-1-3- Constitution génétique

Le génome de Mus musculus est réparti sur 19 paires d’autosomes et une paire de
chromosomes sexuels (XX pour les femelles ou XY pour les mâles).
Le génome haploïde de la souris est constitué d’environ 2,5.109 paires de base et contient
environ 25000 gènes codant des protéines. Il donc est légèrement plus petit que le génome
humain (3.109 paires de bases) mais contient un nombre similaire de gènes. L’organisation de
ces deux génomes est en outre très similaire. 99% des gènes de la souris ont un homologue
dans le génome de l’homme. Cela signifie que seulement 1% des gènes de souris n’ont pas
d’homologues dans la séquence humaine. Ces gènes ont soit été perdus au cours de
l’évolution, soit ont évolué de telle façon qu’ils ne soient plus reconnus par les programmes
d’alignement de séquence. On observe en revanche dans le génome de la souris des dizaines
d’expansions locales de familles de gènes (gènes paralogues, voir chapitre IV) dont la plupart
sont impliqués dans la reproduction, l’immunité et l’olfaction, ce qui suggère que les
systèmes physiologiques impliqués dans ces trois fonctions ont été l’objet d’innovations
spécifiques au cours de l’évolution des rongeurs.

    107  
III-3-2-Plasticité embryonnaire

Pendant les 4 premiers jours qui suivent la fécondation de l’œuf de la souris, l’embryon est
libre dans l’oviducte puis dans l’utérus. On parle de période préimplantatoire (Figure III-21).
Durant cette période, le volume de l’embryon est identique du stade 1-cellule au stade
blastocyste et les mitoses successives se traduisent par l’apparition de cellules de plus en plus
petites.  

Figure III- 21 : Développement préimplantatoire de l’embryon de souris.


Les cellules de l’embryon précoce se divisent à un rythme très lent. En effet, la première division de l’œuf ne se
produit que 24h après fécondation. Les divisions suivantes se produisent toutes les 12 heures environ. 72h après
la fécondation, l’embryon s’organise en un blastocyste dans lequel une cavité pleine de liquide se creuse, le
blastocoele, et deux types cellulaires distincts apparaissent : les cellules périphériques donnent naissance à une
couche externe de cellules appelée trophectoderme, tandis que les cellules localisées à l’intérieur de l’embryon
s’organisent en un amas cellulaire, appelé masse cellulaire interne. C’est à partir de ces cellules internes que se
formeront les tissus de l’embryon et que l’on peut obtenir des cellules souches embryonnaires (cellules ES),
utilisées pour la construction de souris génétiquement modifiées. De leur côté, les cellules du trophectoderme
établissent un contact avec l’épithélium de l’utérus permettant l’implantation de l’embryon.

A ces différents stades du développement préimplantatoire, l’embryon de souris est


extrêmement « plastique » ou « manipulable » comme le montrent différentes expériences
réalisées. Il est ainsi possible de produire deux souris à partir d’un seul œuf fécondé (Figure
III- 22A). Pour cela, il suffit d’isoler un embryon au stade deux cellules puis de séparer les
deux blastomères qui le constituent après avoir digéré la zone pellucide qui l’entoure. Chaque
blastomère peut ensuite être transféré dans l’oviducte d’une femelle receveuse dite pseudo-
gestante et donner naissance de deux souriceaux parfaitement viables et fertiles. Cette
première expérience montre une autre caractéristique importante du modèle souris qui est la
possibilité d’obtenir des souris pseudo-gestantes dans lesquelles peuvent être transférés des
embryons génétiquement modifiés in vitro. Ces souris pseudo-gestantes sont obtenues en
accouplant des souris en œstrus (période d’ovulation où la fécondation est possible) avec des

    108  
mâles vasectomisés (stérilisés après section des canaux déférents qui transportent les
spermatozoïdes), accouplement qui a pour conséquence d’induire une pseudo-gestation et de
maintenir la sécrétion de progestérone indispensable à l’implantation de l’embryon dans
l’utérus. Un embryon exogène peut ainsi être transféré dans ces souris pseudo-gestantes qui le
porteront comme si l’embryon était issu de la fécondation d’un de leur propre ovocyte. Il est
important de noter néanmoins que dans ce cas, la constitution génétique de l’embryon est
distincte de celle de la « mère porteuse ».
De même, il est possible d’obtenir après manipulation des embryons de souris chimères
(organismes qui possèdent deux ou plusieurs clones cellulaires aux génotypes distincts) à
partir de l’agrégation d’embryons prélevés au stade 8 cellules (stade au cours duquel toutes
les cellules embryonnaires sont identiques et non différenciées). Les deux embryons à ce
stade peuvent en effet se joindre l’un à l’autre pour ne former, 24 heures plus tard, qu’un seul
amas de cellules embryonnaires. Si, comme dans l’exemple de la figure III- 22B, un embryon
est issu d’un croisement de deux souris de la lignée BALB/c (de génotype TyrC/TyrC,
conférant un phénotype albinos) et l’autre issu d’un croisement de deux souris de la lignée
C57BL/6 (de génotype Tyr+/Tyr+, conférant un phénotype pigmenté), l’amas qui résulte de
l’agrégation des deux embryons comptera en son sein des cellules de génotype TyrC/TyrC et
des cellules de génotype Tyr+/Tyr+. Cet amas peut ensuite être implanté dans le tractus génital
d’une femelle pseudo-gestante, où son développement se poursuivra normalement pour
donner un individu viable et fertile. Cet individu, issu de 4 parents (2 parents BALB/c et 2
parents C57BL/6) et constitué de cellules provenant de deux œufs différents, est appelé
chimère et son génotype est noté (TyrC/TyrC <-> Tyr+/Tyr+). Le chimérisme est dans ce cas
visible puisqu’il se traduit par la cohabitation dans un même individu de cellules conduisant à
l’apparition d’un phénotype albinos et de cellules conduisant à l’apparition d’un phénotype
pigmenté. Le fait que les deux phénotypes soient observables traduit le fait que les deux
génotypes peuvent s’exprimer dans tous les tissus de l’individu chimère, c’est-à-dire que les
cellules de chaque embryon initial peuvent se retrouver dans l’ensemble des tissus de
l’individu final. On dit alors que le développement embryonnaire de la souris est
polyclonal, c’est-à-dire que plusieurs cellules, et non pas une seule, de l’embryon précoce
sont à l’origine de la formation de l’animal et de ses annexes embryonnaires.

    109  
Figure III- 22 : Plasticité des embryons précoces de souris (d’après Panthier et al. éd. Belin).
(A) Production de 2 souris à partir d’un seul œuf fécondé. (B) Production de souris chimères par agrégation
d’embryons précoces.

III-3-2-Isolement des cellules souches embryonnaires (cellules ES)

Les embryons différenciés au stade blastocyste constituent une source de cellules précieuses
pour les généticiens. En effet, si l’on dépose dans des boites de culture, sur un tapis de
cellules nourricières (fibroblastes), des blastocystes (stade 64 cellules), on observe parfois que
les cellules du trophectoderme s’aplatissent et que les cellules de la masse cellulaire interne
prolifèrent activement pour former des grappes (Figure III- 23). Ces cellules issues de la
masse interne possèdent les 2 caractéristiques majeures des cellules souches : (1) elles sont
capables d’auto-renouvellement pendant des périodes illimitées ; (2) elles peuvent produire

    110  
des types cellulaires hautement différenciés, lorsqu’elles sont placées dans un environnement
approprié. Pour ces raisons, ces cellules dites totipotentes (= propriété d’une cellule de se
différencier en n’importe quelle cellule spécialisée et de se structurer en formant un être
vivant multicellulaire) sont appelées cellules souches embryonnaires ou cellules ES
(« Embryonic Stem cells »).

 
Figure III- 23 : Isolement et caractéristiques des cellules ES.

L’intérêt des cellules ES ne se limite pas à leur capacité à se différencier in vitro. En effet, ces
cellules peuvent être manipulées génétiquement in vitro (voir ci-dessous, la partie transgénèse
ciblée), mais surtout elles peuvent être, après isolement et manipulation, ré-introduites dans
un blastocyste hôte pour générer une souris chimère (Figure III- 24). Ces premiers travaux
que l’on doit à l’équipe de Martin J. Evans ont été récompensés par l’obtention du prix Nobel
de physiologie et médecine en 2007.

    111  
Figure III- 24 : Formation de souris chimères par implantation de cellules ES dans un
blastocyste hôte (d’après Panthier et al. éd. Belin).
(a) Les cellules ES sont issues d’un blastocyste agouti (génotype A/A). Le blastocyste hôte est non-agouti
(génotype a/a). La couleur indique les tissus (ici le pelage) qui ont été colonisés par des cellules ayant pour
origine une cellule ES. (b) Lorsque des cellules issues des cellules ES injectées (A/A) ont colonisé la lignée
germinale de la chimère, le croisement d’un individu a/a permet d’obtenir des souriceaux de génotype A/a qui
comprennent un jeu de chromosomes du géniteur a/a et un jeu de chromosomes issu des cellules ES injectées
dans lesquelles une modification génétique a éventuellement été introduite in vitro (voir section suivante).

Il est important de noter que parmi les blastocystes injectés puis transférés dans l’oviducte
d’une femelle pseudo-gestante, seuls environ 50% se développeront à terme. Parmi les
individus issus des blastocystes injectés, environ 50% seront des individus chimères
constitués, dans des proportions variables, de cellules issues à la fois des cellules du
blastocyste hôte (contenant ses propres cellules ES) et des cellules ES injectées. Pour
caractériser les proportions dans lesquelles les cellules ES ont participé à l’élaboration des
tissus de l’individu chimère, on parle de degré de chimérisme. Le marqueur le plus utilisé
pour évaluer ce degré de chimérisme est la couleur du pelage (Figure III- 24). De manière à
expliciter simplement cette notion, on considère qu’un degré de chimérisme égal à 0 signifie
que les cellules ES injectées dans le blastocyste n’ont pas participé au développement du futur
individu (ce cas de figure apparaît dans environ 50% des cas). Par opposition, un degré de
chimérisme égal à 100 signifie que seules les cellules ES injectées (et non celles déjà
présentes dans le blastocyste injecté) ont participé au développement du futur individu (ce cas
de figure extrême n’apparaît jamais). Sur la figure III- 24, nous voyons que 50% du pelage de

    112  
la souris chimère est de couleur agouti (génotype A/A) et 50% de couleur non-agouti
(génotype a/a). Le degré de chimérisme est dans ce cas égal à 50. On considère en général que
la même proportion de cellules issues des cellules ES se retrouve dans l’ensemble des tissus
de la souris chimère. En particulier, on considère que la lignée germinale de la souris chimère
est composée à 50% de cellules de génotype A/A et de 50% de cellules de génotype a/a.
Néanmoins, cela est une considération un peu subjective qui permet de caractériser
visuellement les souris d’intérêt, car l’implication exacte des cellules ES injectées ou issues
du blastocyste hôte peut varier en fonction des tissus.

L’essor important ces dernières années et la popularité des modèles génétiques souris sont
aussi dus à la possibilité, contrairement au modèle drosophile, de procéder à la
cryoconservation dans l’azote liquide soit des cellules souches, soit des ovocytes, soit des
spermatozoïdes, soit des embryons de souris eux-mêmes. Cette technique de cryoconservation
permet ainsi de maintenir les lignées de souris intéressantes pour une durée quasi infinie. De
plus, et compte tenu de la physiologie des souris, seules quelques semaines sont nécessaires
entre la décongélation et l’obtention d’un stock d’individus sous une forme « respirante »,
prêt à l’expérimentation.

III-3-3-Techniques de transgenèse chez la souris

III-3-3-1-Généralités sur la transgenèse chez la souris

Un animal transgénique est un animal dont le génome a été modifié suite à une intervention
humaine. Ces modifications doivent être transmissibles d’une génération à l’autre et donc
impliquer une transmission germinale.

Chez la souris, ces modifications sont réalisées:


• Soit par l’addition de séquences d’ADN exogène (transgène) dans son génome, avec
une intégration au hasard ; on parle alors de transgénèse classique, « additive » ou
aléatoire.
• Soit par la modification de séquences déjà présentes dans son génome ; on parle alors
de transgénèse ciblée.

    113  
De nombreux modèles de souris transgéniques ont été développés depuis les années 1990. Ces
modèles ont par exemple servi pour :
• Etudier le rôle pathologique et/ou physiologique d’un gène in vivo.
• Comprendre la fonction de différents gènes dans le contexte complexe d’un organisme
entier.
• Etudier l’expression et la régulation de gènes pour identifier les séquences régulatrices
et caractériser la spécificité éventuelle du promoteur.
• Développer des modèles mammifères de maladies humaines (cancer, obésité,…) pour
confirmer le rôle d’une mutation et tester des stratégies thérapeutiques.

La connaissance du développement embryonnaire de la souris a constitué un pré-requis pour


la mise au point de techniques de modification du patrimoine génétique des souris de
laboratoire. En effet, c’est à partir de l’embryon au stade 1-cellule que l’on réalise la
transgénèse classique alors que c’est grâce aux cellules ES que l’on peut introduire une
séquence d’ADN exogène à un locus choisi par avance (transgénèse ciblée). Néanmoins,
quelle que soit la technique de transgénèse choisie, elles nécessitent toutes deux 3 grandes
étapes :
• L’introduction du transgène dans le génome de l’organisme hôte.
• La production d’animaux portant le transgène dans leur génome.
• La création d’une lignée murine capable de transmettre le transgène.

III-3-3-2-Transgénèse classique par injection

La transgénèse classique par injection d’ADN linéaire a pour objectif en général d’étudier la
fonction d’un gène en le sur-exprimant dans l’organisme modèle. Dans le cas général, le
transgène contient la séquence codante du gène d’intérêt (ADNc), précédée du promoteur
endogène ou bien d’un autre promoteur conférant une expression forte, suivi d’un terminateur
transcriptionnel et d’une séquence de poly-adénylation (Figure III- 25a-b). Alternativement,
ce type de transgénèse peut permettre d’étudier des séquences régulatrices, voire de partir à la
recherche de séquences enhancers. Pour cela, l’ADNc correspondalors à celui d’un gène
rapporteur (Figure III- 25c).

    114  
Figure III- 25 : Exemples de transgènes.
(a) Le gène d’intérêt est exprimé sous le contrôle d’un promoteur fort ubiquitaire (= exprimé dans tous les
tissus). Ce type de transgène permet de mesurer l’effet de la surexpression d’un gène au niveau d’un organisme
entier. (b) Le gène d’intérêt est exprimé sous le contrôle d’un promoteur qui ne s’exprime que dans certains
tissus et non la totalité de l’organisme. (c) Ce type de transgène permet d’étudier la fonction du promoteur et son
caractère ubiquitaire ou tissu-spécifique en mettant sous son contrôle un gène rapporteur de type bêta-
galactosidase ou GFP (« Green Fluorescent Protein »).

La transgénèse classique par injection commence par l’obtention de plusieurs embryons au


stade 1-cellule (Figure III- 26). Pour cela, une super-ovulation chez une femelle en œstrus est
induite chimiquement. Cette femelle est ensuite accouplée à un mâle, puis les embryons au
stade 1-cellule issus de cet accouplement sont immédiatement prélevés et micro-injectés avec
une solution contenant plusieurs milliers de copies du transgène. A ce stade, le pronucléus
mâle apparaît plus volumineux que le pronucléus femelle ce qui explique pourquoi c’est dans
le pronucléus mâle qu’est injectée la solution contenant le transgène. Certaines copies du
transgène vont alors pouvoir s’insérer spontanément, et au hasard, dans le génome du
pronucléus mâle. Une fois injectés, les embryons sont transférés dans l’oviducte de femelles
pseudo-gestantes. Environ 50% des œufs ainsi transférés se développeront à terme. Une étape
importante consiste alors à caractériser les souriceaux transgéniques obtenus et en particulier
à vérifier la présence et l’expression du transgène (détection du transgène par PCR, détection
de la taille et du nombre de transgènes par Southern blot, détection de l’expression du
transgène par Northern blot ou qRT-PCR). En effet, le nombre de copies d’ADN injecté qui
s’intègrent dans le génome de la souris peut varier entre zéro et plusieurs centaines, et c’est un
paramètre qu’il n’est pas possible de maitriser. Cette étape de vérification est donc cruciale et
a pour objectif de déterminer si un ou plusieurs transgènes ont été insérés, et de vérifier si
l’insertion aléatoire du transgène a pu interrompre un gène endogène. En effet, de tels
évènements peuvent avoir des conséquences physiologiques importantes sur la souris sans
que l’effet soit spécifique du transgène injecté.

    115  
 

Figure III- 26 : Micro-injection des embryons de souris (d’après Panthier et al. éd. Belin).
Les souris transgéniques de première génération (issues des embryons injectés) obtenues puis
sélectionnées selon les critères définis par l’expérimentateur seront dites fondatrices et notées
F0. C’est en effet à partir de cette première génération que seront établies les futures lignées
de souris transgéniques. Pour cela, les souris F0 sont croisées avec des animaux de génotype
sauvage (+/+). Le transgène est alors transmis de façon mendélienne à 50% de la
descendance. Les animaux F1 hémizygotes pour le transgène peuvent alors être croisés entre
eux pour obtenir une lignée pure homozygote (F2). La lignée est alors maintenue en croisant
entre eux des individus Tg/Tg (Tg = Transgène). Comme indiqué précédemment, il est aussi
possible de congeler les embryons transgéniques pour assurer une conservation de longue
durée.
Comme toute technique, la transgénèse classique par injection présente des avantages et des
inconvénients :
Avantages :
• Technique relativement efficace : de nombreux souriceaux transgéniques peuvent être
produits dans une seule expérimentation.
• Technique relativement simple : biologie moléculaire + élevage de souris mères
donneuses pour les zygotes + élevage de souris mères porteuses pour les zygotes
micro-injectés.
• Technique relativement rapide : de 1 an à 1 an et 1/2 pour générer des souris
transgéniques fondatrices.

    116  
Inconvénients :
• L’insertion aléatoire peut provoquer des artefacts expérimentaux : gène endogène
muté par l’insertion du transgène, insertion du transgène dans une zone conférant un
profil d’expression particulier…
• La surexpression peut renseigner sur la fonction du gène mais son interprétation doit
rester prudente : le gène n’est pas exprimé dans son contexte physiologique.

III-3-3-3-Transgénèse ciblée par recombinaison homologue

Ici, et contrairement à la transgénèse classique, l’objectif est de procéder à une mutagénèse


dirigée dans le but de remplacer spécifiquement un gène endogène par un transgène afin d’en
étudier la fonction. Lorsque le gène endogène est inactivé par le transgène, on parle
d’expériences de « Knock-out » ; lorsque le gène endogène est modifié par le transgène,
on parler d’expériences de « Knock-in ».
Néanmoins, et ce quel que soit l’objectif de la transgénèse ciblée, l’obtention, par cette
méthode, d’animaux transgéniques nécessite toujours plusieurs étapes communes, détaillées
successivement ci-dessous :

Etape 1 : Construction du transgène


Ici, et pour la clarté du propos, nous nous limiterons à un seul type de transgène, utilisé pour
la réalisation d’expériences de Knock-out. Le principe est donc d’interrompre le gène, un peu
sur le modèle de ce qui est réalisé chez la levure. Pour cela, on insère in vitro, dans la
séquence d’un exon fonctionnellement important du gène que l’on souhaite inactiver, un gène
de résistance à un antibiotique (néomycine dans cet exemple). Evidemment, les séquences
situées de part et d’autre de l’exon sont conservées pour permettre ensuite le processus de
recombinaison homologue (Figure III- 27). Cet exon modifié est alors inséré dans un vecteur
qui sera ensuite transfecté dans les cellules ES.

    117  
Insertion  d’un  gène  de  résistance  à   Les  séquences  flanquantes sont  
un  antibiotique  en  remplacement   conservées  pour  permettre  la  
d’exons  fonctionnellement   recombinaison  homologue
importants

Gène  cible

neor

Vecteur

Figure III- 27 : Construction d’un transgène utilisé dans une expérience de « knock-
out ».

Etape 2 : Etablissement d’une culture de cellules souches embryonnaires (cellules ES).


Dans le cas de la transgénèse ciblée, la manipulation génétique se fait sur des cellules ES
isolées comme décrit précédemment (voir figure III-23).

Etape 3 : Intégration du transgène dans les cellules ES en culture.


Le principe de transfection des cellules de mammifère est globalement similaire au principe
de transformation vu pour les bactéries ou les levures, l’idée étant de créer momentanément
des « trous » dans la membrane de la cellule. Pour cela, l’une des techniques consiste à
soumettre les cellules ES à un choc électrique (électroporation) permettant au vecteur, porteur
du transgène, de pénétrer dans le cytoplasme puis le noyau des cellules ES mises en culture.
Dans certaines cellules ES survient alors un évènement de recombinaison homologue entre
le transgène et le gène endogène ciblé. Cet évènement étant rare néanmoins, le transgène qui
s’insère au locus du gène cible le fait généralement sur un seul des deux chromosomes
homologues (Figure III-28).

    118  
Mise  en  culture  de  cellules  ES Entrée  du  transgène dans  les   Dans  certaines  cellules  ES,
à  partir  de  souris  de  la  lignée cellules  ES recombinaison  homologue  
par  électroporation entre  le  transgène et  le  
gène  endogène  ciblé
(sur  1  seul  chromosome)

Figure III- 28 : Introduction du transgène dans les cellules ES par électroporation et


recombinaison homologue.

Afin de sélectionner les cellules ES qui ont intégré le transgène, à l’image de ce que l’on fait
chez les bactéries ou les levures, les cellules ES sont étalées, après transfection, sur un milieu
contenant l’antibiotique de sélection. Ainsi, seules les cellules ayant intégré le transgène
survivront. Un problème majeur se pose néanmoins. En effet, contrairement au modèle
levure, le taux de recombinaison homologue observé dans les cellules mammifères est
extrêmement faible. Cela signifie que, majoritairement, l’intégration du transgène dans le
génome de l’hôte ne se fera pas par recombinaison homologue au locus ciblé mais par
intégration aléatoire dans des régions non spécifiques du génome. Pour distinguer entre ces
deux types d’évènement, une étape indispensable de sélection (=criblage) est nécessaire.

Etape 4 : Criblage des clones de cellules ES transfectées pour identifier et sélectionner


les bons évènements de recombinaison.
Cette étape sert à contre-sélectionner les recombinants illégitimes. En effet, seules environ 1%
des cellules ES qui sont résistantes à l’antibiotique ont effectivement intégré le transgène au
locus voulu, les 99% restantes l’ayant intégré de manière aléatoire dans leur génome. Pour
distinguer ces deux populations et surtout enrichir la population d’intérêt (1%), on procède à
une sélection négative des recombinants illégitimes. Pour cela, dans le vecteur, de part et
d’autre des deux zones d’homologie correspondants à l’exon ou à la région que l’on souhaite
inactiver ou modifier, on place deux séquences qui codent pour une enzyme virale (appelée
Thymidine Kinase) (Figure III-29). Le gène TK, que l’on retrouve quasiment chez toutes les
espèces, permet l’utilisation de la thymidine. Néanmoins, les enzymes cellulaires et virales

    119  
ont des spécificités de substrats légèrement différentes, ce qui a permis le développement de
molécules antivirales telles que le gancyclovir (GANC), dont l’utilisation beaucoup plus
efficace par les enzymes TK virales entraine la production d’un analogue toxique de la
thymidine. Ainsi, des cellules qui expriment le gène TK viral sont tuées dans un milieu
contenant du gancyclovir tandis que les cellules ne portant que leur propre gène TK survivent.
Comme illustré sur la figure III- 29, cette astuce permet de contre-sélectionner les cellules qui
ont conservé les copies du gène TK viral. Or, cette conservation ne peut se faire que si le
transgène s’est intégré de manière aléatoire et non via la recombinaison homologue entre les
régions d’homologie présentes sur le vecteur et le locus ciblé. Après ce crible, le génotype des
cellules ES ainsi enrichies et qui ont normalement subi un évènement de recombinaison
homologue doit être confirmé par des techniques de biologie moléculaire (PCR, Southern
blot, séquençage). Les clones alors sélectionnés sont ensuite amplifiés en vue d’être injecté
dans les bastocystes qui permettront l’établissement de la lignée transgénique. A cette étape,
les cellules ES sélectionnées peuvent être congelées et donc conservées quasi indéfiniment.

Figure III- 29 : Contre-sélection des recombinants illégitimes par le sytème TK-


gancyclovir (d’après Panthier et al. éd. Belin).

    120  
Etape 5 : Injection des cellules ES des clones sélectionnés à l’étape 4 dans des
blastocystes, issus de souris sauvages hôtes.
L’objectif de cette étape est d’obtenir des souris chimères comme décrit dans la figure III- 24.
En effet, comme il n’est pas possible d’obtenir un organisme entier juste à partir des cellules
ES mises en culture, il est indispensable de passer par cette étape qui doit permettre d’obtenir
un organisme dont les tissus seront en partie issus des cellules ES modifiées, le but étant que
ces cellules colonisent la lignée germinale de la souris chimère pour ensuite transmettre à leur
descendance le transgène. Pour cela, les cellules ES sélectionnées et vérifiées sont injectées
dans un blastocyste provenant d’une lignée de souris différente de celle dont proviennent les
cellules ES. Dans l’exemple donné dans la figure III-30, les cellules ES qui ont été
génétiquement modifiées in vitro proviennent d’une lignée de souris appelée 129/SV et dont
la couleur de pelage est agouti (≈ brun chiné). Ces cellules ES recombinantes sont ensuite
injectées dans un blastocyste qui, lui, provient du croisement des deux souris de la lignée
Balb/c et dont le pelage est blanc. Les blastocytes chimères ainsi obtenus sont alors transférés
dans des femelles pseudo-gestantes. Si le développement embryonnaire se poursuit, des
souriceaux transgéniques chimères (= mélange de cellules de génotypes différents,
transgéniques et sauvages) seront ainsi obtenus. A l’aide de la couleur du pelage de cette
descendance, on en déduira le degré de chimérisme (voir ci-dessus).
Souris  Balb/c  (pelage  blanc)

 
Cellules  ES  
recombinantes,  
issues  de  la  lignée  
129/SV  (pelage  
agouti  ≈  brun  chiné)

Blastocyste
chimère

Transfert  dans  
l’utérus  de  femelles
pseudo-­‐gestantes

Souriceaux  chimériques:  mélange  de  


cellules  de  génotypes
différents  (transgéniques  et  sauvages)

Figure III-30 : Schéma d’obtention des souris chimères.

    121  
Etape 6 : Identification des souris transgéniques de première génération.
Parmi les souriceaux obtenus, on sélectionne ceux qui présentent un degré élevé de
chimérisme, c’est-à-dire dont le pelage présente à la fois des régions de couleur agouti (issues
des cellules ES modifiés) et des régions de couleur blanche (issues des cellules ES déjà
présentes dans le blastocyste) (figure III-30).

Etape 7 : Etablissement de la lignée transgénique.


Une fois les souris chimères identifiées, elles sont croisées avec des souris de la lignée Balb/c
dont le pelage est blanc (Figure III-31). Or, lorsque les cellules de la lignée germinale de la
souris chimérique sont issues des cellules ES génétiquement modifiées, alors les gamètes
produits par cette souris porteront le transgène. Cela entrainera, après fécondation, la
formation d’embryons puis de souriceaux hétérozygotes pour le locus modifié. Ces souris
hétérozygotes de première génération, souvent reconnaissables par la couleur de leur pelage,
sont alors croisées entre elles pour obtenir des souris transgéniques de seconde génération
dont le quart sera homozygote. La lignée transgénique est ainsi établie.

Souris  chimérique   Souris  Balb/c  


Balb/c/-­‐129/SV (pelage  blanc)

Etablissement  d’une  lignée  transgénique

Figure III-31: Schéma d’obtention des souris transgéniques homozygotes.

    122  
Etape 8 : Vérification moléculaire du génotype des souris transgéniques
Il faut ensuite vérifier la présence du transgène (par PCR) et l’inactivation du gène endogène
dans les souris transgéniques par des techniques de biologie moléculaires (PCR, Northern
blot).

Etape 9 : Analyse du phénotype des souris et congélation des embryons.

La transgénèse ciblée permet de faire aussi du remplacement de gènes (« Knock-in ») selon le


même protocole que le « Knock-out ». Dans ce cas, c’est la structure du transgène qui est
différente. La figure III-32 représente quelques applications de type remplacement de gènes.

Mutagénèse dirigée

Etude de promoteur

Localisation
de protéine

Remplacement

Figure III-32 : Exemples d’applications du remplacement de gène.


ADNg = ADN génomique ; GFP = Gène codant pour la Green Fluorescent Protein (utilisé ici comme gène
rapporteur).

Tout comme la transgénèse classique par injection, la transgénèse ciblée par recombinaison
homologue présente des avantages et des inconvénients :
Avantages :
• Technique de choix pour complètement invalider un gène (Knock-Out).
• Technique ciblée.
• Technique “propre” puisque le transgène s’insère par recombinaison homologue.
• Peu de risques d’autres remaniements génétiques délétères pour la souris.

    123  
Inconvénients :
• Très long : environ 3-4 ans pour obtenir les premières souris 100% transgéniques, non
chimères, exploitables pour l’analyse phénotypique.
• Très lourd : biologie moléculaire + élevage de souris pour obtention et culture de
cellules ES + élevage de souris pour mères donneuses de blastocystes + élevage de
souris mères porteuses.
• Long et lourd… et donc coûteux !
• Si le gène est nécessaire au développement de la souris, son invalidation à l'état
homozygote entraînera une létalité embryonnaire. Il a donc fallu développer des
modèles « Knock-Out » conditionnels pour pallier à ce problème.

III-3-4-Le système Cre/loxP

Pour pallier à l’éventualité d’une létalité embryonnaire faisant suite à l’inactivation d’un gène
essentiel, des techniques permettant de réaliser des « Knock-out » conditionnels ont été
développées. Leur utilisation peut néanmoins être généralisée à tout autre type de
manipulation tel que le « Knock-in ». Ces méthodes de mutagénèse conditionnelle utilisent
toujours la recombinaison homologue dans les cellules ES pour cibler la mutation sur un locus
précis, mais tirent en plus parti d’un système bactérien, le système Cre/loxP. La recombinase
Cre du bactériophage P1 reconnait en effet une séquence spécifique de 34 pb, normalement
présente dans le génome du bactériophage P1. Cette séquence, appelée loxP, comprend deux
motifs inversés de 13 paires de bases entourant une séquence de 8 paires de bases qui donne
au site loxP son orientation (Figure III-33).

Figure III-33 : Structure du site loxP.


La région centrale de 8 paires de bases qui confère son orientation au site loxP est bornée par des flèches.

    124  
La Cre recombinase catalyse la recombinaison conservatrice réciproque entre deux sites loxP.
Cette réaction se traduit par la délétion de tout fragment compris entre deux sites loxP
orientés dans la même direction (Figure III-34a), ou par l’inversion de tout fragment compris
entre deux sites loxP orientés dans la direction inverse (Figure III-34b). Enfin, la Cre
recombinase peut catalyser des translocations chromosomiques réciproques lorsque les sites
loxP sont placés sur des chromosomes distincts (Figure III-34c). Cette enzyme est un outil
très utilisé en biologie puisqu’elle est active dans la quasi-totalité des organismes modèles car
elle ne nécessite pas de co-facteurs bactériens pour être fonctionnelle.

Figure III-34 : Conséquences possibles de l’utilisation du système Cre/loxP.

L’utilisation du système Cre/loxP chez la souris implique la fabrication préalable de deux


lignées transgéniques :
• La première lignée porte dans son génome deux sites loxP encadrant une partie
essentielle du gène cible, par exemple un exon, dans le cas d’un Knock-out
conditionnel (Figure III-35). La délétion de cette partie doit induire la mutation perte
de fonction dont on souhaite étudier les effets. Cette première lignée de souris est
fabriquée en utilisant les méthodes de transgénèse ciblée par recombinaison
homologue. La présence des sites loxP dans les introns n’induit en général pas de
phénotype. Cependant, la forme prise par le gène portant les deux sites loxP est
différente de l’allèle sauvage et on utilise alors le terme d’allèle « floxé » pour
désigner cette forme.

• La seconde lignée exprime la Cre recombinase. Son expression peut se faire sous le
contrôle de promoteurs dits ubiquitaires (actifs dans tous les tissus de l’organisme), de

    125  
promoteurs actifs seulement dans certains tissus ou à des périodes déterminées du
développement embryonnaire ou enfin de promoteurs dits inductibles (voir ci-après,
les systèmes Tet-on/Tet-off). Cette seconde lignée est généralement fabriquée en
utilisant les méthodes de transgénèse classique (injection de l’ADN dans l’œuf).

Figure III-35 : Construction utilisée pour réaliser un Knock-out conditionnel. Les


flèches représentent les sites loxP.
L’allèle floxé ne sera inactivé (après délétion de son exon 4) que lorsque la Cre recombinase sera exprimée dans
la même cellule. Ainsi, la mutation perte de fonction du gène cible dépendra des séquences régulatrices placées
en 5’ du gène codant pour la Cre recombinase. Si elles sont spécifiquement actives dans un tissu donné,
l’inactivation du gène cible ne se fera que dans ce tissu.

Les deux lignées sont ensuite croisées l’une avec l’autre. On obtient alors des souris
hétérozygotes pour l’allèle floxé et pour le transgène codant pour la Cre recombinase.
Ensuite, ces individus hétérozygotes sont croisés avec des souris de la lignée porteuse de
l’allèle floxé à l’état homozygote. 25% des descendants de ce croisement seront alors
homozygotes pour l’allèle floxé et hétérozygotes pour le transgène codant pour la Cre
recombinase. Ce sont les individus qui nous intéressent puisque dans ces individus les
différents tissus présenteront des génotypes variables. En effet, dans les tissus où s’exprime la
Cre recombinase, l’exon cible sera délété (Figure III-35) tandis que dans les tissus où la Cre
recombinase ne s’exprime pas, l’allèle floxé perdurera sous sa forme initiale, donc
fonctionnelle. Cette approche expérimentale permet donc d’obtenir une mutation perte de
fonction conditionnelle. Il est en théorie possible d’examiner ainsi les effets de toute mutation

    126  
perte de fonction dans n’importe quel tissu à la condition de disposer d’une lignée de souris
transgéniques qui exprime la Cre recombinase dans le tissu en question.

III-3-5-Les systèmes Tet-off/Tet-on

Le changement génétique induit par la Cre recombinase en présence d’un allèle floxé est
irréversible. Or, parfois, lorsque l’on cherche à construire des animaux transgéniques, il peut
être intéressant de disposer d’un système où l’expression du transgène est contrôlée. Cela peut
être vrai pour contrôler l’expression de la Cre recombinase, mais aussi pour tout autre gène
cible dont on souhaite étudier la fonction. Pour cela, on dispose de systèmes qui permettent
d’induire ou de bloquer l’expression d’un transgène chez des animaux transgéniques. Parmi
ceux-ci, on citera ici les systèmes d’expression régulés par la tétracycline et ses dérivés. Ces
systèmes peuvent s’appliquer également à tous les modèles cellulaires. Ils sont fabriqués à
partir de composants naturels de l’opéron tétracycline porté par le transposon Tn10
d’Escherichia coli.

Le système Tet-off :

L’opéron tétracycline porté par le transposon Tn10 de la bactérie Escherichia coli fonctionne
selon le mode de l’opéron lactose. En absence de tétracycline, le répresseur tetR se fixe sur
l’opérateur tetO et bloque la transcription des gènes de l’opéron (Figure III-36a). En présence
de tétracycline, le répresseur fixe l’antibiotique et devient alors incapable de se fixer sur tetO.
La transcription des gènes de l’opéron est alors activée (Figure III-36b).
La transformation de ce système bactérien de régulation négative en un système eucaryote
d’expression conditionnelle tire parti de la spécificité de la protéine tetR pour la séquence
nucléotidique de l’opérateur tetO. Ce système utilise aussi les propriétés d’une protéine du
virus herpes simplex humain (HSV), VP16, dont le domaine C-terminal possède des
propriétés dites de transactivation, c’est-à-dire capable d’activer la transcription une fois
recruté au niveau de l’ADN.
 

    127  
Figure III-36 : Fonctionnement de l’opéron TetR du transposon Tn10 de la bactérie
Escherichia coli (d’après Panthier et al. éd. Belin).

Le système Tet-off comprend deux éléments distincts (Figure III-37) :


Le premier est constitué d’une construction baptisée tTA comprenant un promoteur tissu-
spécifique, actif dans le tissu dans lequel l’expression du transgène doit être contrôlée. Ce
promoteur est placé en 5’ de la séquence codante complète du répresseur tetR fusionné à la
région codant le domaine C-terminal de VP16. La protéine de fusion tTA qui en résulte est,
tout comme tetR, capable de se fixer avec une grande spécificité sur la séquence de
l’opérateur tetO en l’absence de tétracycline. De plus, tout comme VP16, cette protéine de
fusion est dotée de capacités transactivatrices une fois fixée à l’ADN.
Le second élément est composé d’une construction comprenant l’opérateur tetO associé à un
promoteur minimal placés tous deux en amont du gène que l’on cherche à exprimer de
manière contrôlée dans les souris transgéniques.
Pour qu’il fonctionne, le système tet-off doit voir réunis dans une même cellule (ou plus
précisément ici, dans chaque cellule de la souris double transgénique) les deux éléments. En
absence de tétracycline dans l’organisme, la protéine de fusion tTA peut se fixer au site tetO
et ainsi activer la transcription du transgène dont on souhaite étudier l’effet. Pour bloquer
transitoirement l’expression du transgène, il suffit alors de donner à la souris double
transgénique de la tétracycline qui peut être ajoutée à son eau de boisson. Comme l’ajout de
la tétracycline a pour conséquence d’éteindre l’expression du transgène en se fixant à la
protéine de fusion tTA, le système a été appelé Tet-off. L’inhibition de la transcription du

    128  
transgène se poursuivra tant que la tétracycline sera donnée à la souris. Dès l’arrêt de l’ajout
de la tétracycline, l’expression du transgène reprendra.

Figure III-37 : Principe du système Tet-off (d’après Panthier et al. éd. Belin).

Le système Tet-on :

Un système réciproque au système Tet-off, appelé Tet-on, a été développé pour répondre aux
situations où l’on souhaite induire l’expression d’un gène à un moment et dans un tissu
donnés. Pour cela, le gène codant pour la protéine tTA a été muté de manière à ce que le
domaine tetR de la protéine de fusion, maintenant appelée rtTA, ne puisse se fixer sur
l’opérateur tetO qu’en présence cette fois-ci de tétracycline (Figure III-38). Ainsi, ici, le
transgène dont on souhaite étudier la fonction ne sera exprimé qu’en présence de
tétracycline.

Figure III-38 : Principe du système Tet-on (d’après Panthier et al. éd. Belin).

    129  
III-3-6-Conclusion : avantages et inconvénients du modèle souris

En conclusion et résumé de ces différents paragraphes, la figure III-39 récapitule les


principaux avantages et inconvénients du modèle drosophile.

AVANTAGES

• Modèle mammifère : organes, tissus, physiologie très comparables à ceux de l’homme


• Génome entièrement séquencé : la plupart des gènes murins sont conservés chez
l’homme
• Possibilité de croisements contrôlés
• Nombreuses collections de mutants disponibles pour la communauté scientifique
• Nombreux outils de manipulation génétique
• Possibilité d’inactivation ciblée de gènes par recombinaison homologue
• Possibilité de congeler soit les cellules souches embryonnaires soit les embryons
transgéniques

INCONVENIENTS

• Manipulation longue : de 1 à 4 ans en fonction du type de transgénèse employée


• Techniques plus ou moins lourdes à mettre en place : biologie moléculaire + élevage de
souris pour obtention et culture de cellules ES + élevage de souris pour mères donneuses
de blastocystes + élevage de souris mères porteuses
• Long et lourd… et donc coûteux !

Figure III-39: Récapitulatif des principaux avantages et inconvénients du modèle souris.


 

    130  
Chapitre IV
Evolution des génomes : Mutations et nouveaux phénotypes

Introduction

Alors que les premiers chapitres de ce cours se sont essentiellement concentrés sur les effets à
court terme (moins de quelques générations) des mutations sur le phénotype des individus,
cette dernière partie, va traiter des effets des polymorphismes sur la structure des génomes et
l’apparition de nouveaux gènes, et donc de nouveaux phénotypes. Les échelles de temps
concernées sont évidemment beaucoup plus longues. Nous allons aborder les différents
mécanismes qui ont permis la diversification et l’évolution des génomes des espèces et par là
même l’émergence des espèces actuelles à partir de la dernière espèce ancestrale commune,
LUCA, il y a trois milliards huit cent millions d’années (Figure IV-1). Nous verrons à quel
point la plasticité du génome est importante pour permettre cette évolution et comment ces
études nous renseignent sur l’histoire des génomes actuels.

Figure IV-1 : Emergence de la totalité des espèces actuelles à partir d’un seul et unique
ancêtre commun, LUCA, Last Universal Common Ancestor.
Cet arbre a été réalisé en comparant les séquences d’ARN ribosomiques de multiples espèces.

Ce chapitre est découpé en deux parties. La première traitera des mécanismes permettant
l’évolution des génomes ainsi que leurs conséquences directes pour les espèces en termes de
divergence génétique et d’apparition de nouvelles fonctions. Dans la seconde partie, nous

    131  
aborderons brièvement le concept d’horloge moléculaire et son utilité dans l’établissement
d’une phylogénie moléculaire. Cette discipline vise à établir les liens de parenté entre les
espèces, déduits non pas de leur ressemblance et/ou divergence phénotypique comme en
phylogénie classique, mais plutôt en fonction du degré de similitude entre leurs séquences
nucléotidiques ou protéiques, en supposant que plus deux espèces sont proches d’un point de
vue évolutif, plus leurs génomes sont semblables.

I- Evolution des génomes

La plasticité des génomes, c’est-à-dire la variabilité de leur composition avec gain ou perte de
propriétés biologiques, ainsi que les modifications qu’ils subissent, sont à l’origine de leur
évolution. Si l’on peut passer d’un ancêtre commun à plusieurs espèces dérivées, c’est
justement du fait de l’accumulation de polymorphismes indépendants au sein des génomes
d’individus d’une même espèce. Cette accumulation, si elle s’accompagne d’un isolement
reproductif pendant une période longue (séparation géographique en deux sous-populations
par exemple), peut finir par faire diverger les génomes des deux populations au point qu’elles
ne sont plus compatibles génétiquement et ne sont plus interfécondes. Il y a apparition de
deux espèces distinctes. Ce modèle de spéciation par isolement reproductif est également
connu sous le nom de modèle de Dobhzansky-Muller. Les mécanismes à l’origine de cette
divergence des génomes sont les mêmes que ceux étudiés précédemment dans ce cours et
dans le cours LV203, à savoir l’apparition de SNP, les extensions de microsatellites, la
transposition et les modifications chromosomiques et génomiques (translocations, délétions,
duplications totales ou partielles du génome).

I-1- Duplication de fragments chromosomiques

La duplication d’un fragment chromosomique au sein du génome est appelée duplication


segmentale ou segmentaire. Les duplications segmentales peuvent être de 2 types. Soit les
fragments chromosomiques sont dupliqués dans la même orientation et elles sont dites
directes ou en tandem, soit l’orientation de la 2ème copie est inversée par rapport à la 1ère et
elles sont dites «inversées» ou en miroir. Ces duplications peuvent être
intrachromosomiques lorsque le fragment est dupliqué sur le même chromosome, ou
interchromosomiques si le fragment dupliqué se retrouve sur un autre chromosome.

    132  
Les mécanismes moléculaires pouvant provoquer une duplication segmentale sont nombreux.
On peut notamment citer les délétions, les inversions, les duplications et les translocations de
fragments chromosomiques. Comme le montre la figure IV-2, à l’issue de cette duplication, le
fragment chromosomique dupliqué (ici en tandem) se retrouve en deux copies dans le
génome. Une copie est donc superflue au vue de la survie de l’organisme qui vivait très bien
avec une seule copie.

Figure IV-2 : Exemple de duplication segmentale en tandem sur un chromosome.

Il n’était pas très facile il y a encore quelques années d’évaluer la proportion du génome issue
d’événements de duplications segmentales. Les études récentes de séquences génomiques
consécutivement à leur séquençage ont révélé que de nombreuses portions de chromosomes
ont des séquences nucléotidiques très similaires. Chez les primates, on évalue à près de 400 le
nombre de segments chromosomiques ayant subi des évènements de duplication intra et inter-
chromosomiques. Certains de ces événements de duplications sont spécifiques à la lignée
humaine chez qui ils représentent près de 5% du génome. Ces régions dupliquées sont de
manière générale sensibles aux réarrangements chromosomiques (cassures, inversions, …) et
localisées à proximité des télomères et centromères. Ces fragments dupliqués sont le plus
souvent transcriptionnellement plus actifs que les régions uniques et ont permis de créer de
nouvelles familles multigéniques spécifiques aux hominoïdes.

I-2- Duplication du génome entier: polyploïdisation

I-2-1-Mécanismes

La duplication complète du génome d’une espèce ou polyploïdisation, est un des mécanismes


permettant d’accélérer l’évolution des génomes en dynamisant l’innovation génétique et en

    133  
levant les pressions de sélection s’exerçant sur les gènes dupliqués. Lorsqu’elle a eu lieu au
cours de l’évolution d’une espèce on parle généralement de paléoploïdisation.
Les duplications complètes du génome ne sont pas toujours viables, mais elles sont toutefois
relativement fréquentes pour de nombreuses espèces végétales qui deviennent ainsi
polyploïdes. Le blé actuel (Triticum aestivum), par exemple, est une espèce hexaploïde, c’est
à dire qu’il possède 6 copies de chaque gène et a évolué par croisements successifs entre des
espèces de blé ancestral diploïdes comme Triticum monococcum.
Deux mécanismes sont à l’origine des duplications génomiques. Il y a d’une part la possibilité
de non-disjonction des chromosomes de la lignée germinale en méiose, ce qui va entraîner
l’apparition de gamètes diploïdes. Si deux gamètes diploïdes fusionnent, cela va donner
naissance à un zygote tétraploïde (à 4n chromosomes). Ce mécanisme s’appelle
l’autopolyploïdisation.
L’autre mécanisme permettant la duplication complète du génome se produit lors de
l’hybridation interspécifique entre 2 espèces possédant 2 lots chromosomiques distincts. Si la
formation d’un hybride F1 est possible, alors le nombre de chromosomes possédé par
l’hybride est la somme des lots chromosomiques des deux espèces parentales. Si cet hybride
est fertile, on a alors création d’une nouvelle espèce. C’est ce que l’on appelle
l’allopolyploïdisation. Un exemple d’allopolyploïdie concerne l’évolution et les relations de
parentés de diverses plantes crucifères du genre Brassica (Figure IV-3).

Exemples de sous-espèces:

Brassica nigra: moutarde noire


Brassica carinata: moutarde d’Ethiopie
Brassica juncea juncea: moutarde brune
Brassica oleracea botrytis: chou-fleur
Brassica rapa rapa: navet
Brassica napus napus: colza

Figure IV-3 : Triangle de U : évolution par allopolyploïdie et liens de parentés chez des
espèces Brassica. Cette théorie est appelée le triangle de U et a été publiée en 1935 par Woo Jang-Choon.
Elle stipule que les génomes de trois espèces ancestrales de Brassica (B. nigra, B. rapa et B. oleracea) se sont
combinés pour créer trois des espèces contemporaines de crucifères cultivées par l’homme : B. carinata, la
moutarde d’Ethiopie, B. juncea, dont la sous-espèce juncea est la moutarde brune et B. napus, dont la sous-
espèce napus est le colza. Cette théorie a par la suite été confirmée par des études sur l’ADN et les protéines de
ces espèces.

    134  
Les événements de duplications génomiques ne sont en général pas stables. A long terme, une
partie des gènes dupliqués va disparaître tandis que d’autres, qui auront acquis de nouvelles
fonctions, seront conservés (voir plus loin la partie sur le devenir des duplications
segmentales). Ceci est bien illustré dans le cas de l’histoire évolutive de certaines levures
(Figure IV-4).

Figure IV-4 : Evolution parallèle des lignées de levure Saccharomyces et Kluyveromyces


à partir de leur ancêtre commun, et création d’une nouvelle lignée par allopolyploïdie
entre ces deux lignées (d’après Luchetta et al., éd. Dunod).

Dans l’histoire évolutive de l’espèce Saccharomyces cerevisiae, il y a eu une duplication


totale du génome il y a environ 100 millions d’années. Par contre, l’espèce Kluyveromyces
waltii n’a pas connu cette duplication. Pourtant, le génome actuel de S.cerevisiae n’est pas
beaucoup plus grand que celui de K. waltii (1,2 fois environ), et les deux espèces possèdent
sensiblement le même nombre de gènes codant des protéines. L’événement de duplication a
pu être démontré car S. cerevisiae possède deux fois plus de chromosomes que K. waltii, et
surtout on trouve dans le génome de S. cerevisiae des blocs de gènes dupliqués (blocs de
synténie, voir plus loin) présents sur deux chromosomes différents et retrouvés dans un ordre
identique mais en un seul exemplaire chez K. waltii.

    135  
Quand les évènements de polyploïdisation sont extrêmement anciens, ils peuvent être très
difficiles à démontrer (voir le cas des vertébrés ci-dessous).

I-2-2-Comparaison des plantes et des vertébrés

Un nombre très important des plantes connues à l’heure actuelle, de 30 à 70% selon les
embranchements considérés, sont polyploïdes (près de 70% pour les angiospermes). Ceci est
entre autre dû au fait que le changement du nombre de chromosomes y est relativement bien
toléré. Ce pourcentage est par contre beaucoup plus faible chez les vertébrés.
Cette capacité des plantes à multiplier le nombre de copies de leur génome leur confère une
très forte capacité d’évolution. Ainsi, on a pu remarquer une forte corrélation entre
l´explosion du nombre des espèces angiospermes et la duplication complète du génome d´une
plante ancestrale. Des duplications récentes (datant de moins de 150 ans) ont par ailleurs été
identifiées chez certaines espèces connues à l’heure actuelles, et ont permis aux chercheurs de
mieux comprendre les conséquences phénotypiques et génétiques du changement de ploïdie.
On peut par exemple citer l’apparition il y a 80 ans de deux nouvelles espèces de salsifis,
Tagopogon mirus et Tagopogon miscellus, par allotetraploïdie.

Si la fréquence de polyploïdisation est très élevée chez les plantes, elle est en revanche
beaucoup plus faible chez les vertébrés. Les événements de duplication génomique y sont plus
rares car la modification du dosage génique embryonnaire est très souvent associée à la
létalité chez les vertébrés actuels. Si les génomes des vertébrés ont subi des polyploïdisations,
elles ont vraisemblablement eu lieu il y a très longtemps. Les très nombreux remaniements
chomosomiques (translocations, cassures, fusions chromosomiques) qu’ils ont subi depuis
font qu’il n’est pas forcément évident d’y repérer les traces de ces éventuelles duplications
génomiques.
Un chercheur japonais, Susumu Ohno, a cependant émis en 1970 l’hypothèse que les espèces
vertébrées actuelles sont issues de deux événements de paléoploïdisation à partir d’une espèce
vertébrée ancestrale ayant vécu il y a 450 millions d’années. C’est l’hypothèse 2R pour « two
rounds ». Sa théorie s’appuie sur deux constations d’ordre génomique et phylogénique.
L’évidence génétique tient en l’absence de liaison entre des gènes issus de duplications au
sein d’une même espèce (gènes paralogues, voir plus bas). En effet, dans le cas d’une
duplication segmentale en tandem, les gènes dupliqués se retrouvent disposés l’un après
l’autre sur le même chromosome. Ils sont donc génétiquement liés. Au contraire, lors de

    136  
duplications de génomes, les gènes dupliqués se retrouvent chacun sur une des copies du
chromosome et sont donc sur des chromosomes distincts. Le fait d’avoir observé chez les
vertébrés de nombreux gènes dupliqués non liés est donc l’indication d’une possible
duplication génomique.
L’observation d’ordre phylogénétique concerne les complexes des gènes Hox chez diverses
espèces. Les gènes Hox (ou gènes homéotiques) sont impliqués dans la mise en place du plan
d'organisation des êtres vivants. Ce sont des gènes organisés en complexes, c'est-à-dire
groupés sur le même chromosome. Cette organisation suggère qu’ils sont issus d’événements
de duplication en tandem d’un petit nombre de gènes ancestraux. Par ailleurs, en comparant
de nombreuses espèces, il apparait qu’il n’y a qu’un seul complexe Hox chez les invertébrés
contre au moins quatre pour la plupart des vertébrés. Toujours en se basant sur le nombre de
complexes Hox chez les vertébrés, les estimations du nombre d’événements de duplication
génomique ont ensuite été raffinées avec l’augmentation du nombre d’espèces étudiées. Ainsi
en 1998, certains chercheurs ont parlé de l’hypothèse 3R chez les poissons suite à
l’identification de 7 complexes Hox chez le poisson zèbre Danio rerio. Il y aurait eu en fait un
troisième événement de duplication génomique chez les poissons, d’où 8 complexes Hox,
puis perte d’un de ces complexes lors de l’évolution des espèces. Un peu plus récemment
encore, en 2005, d’autres chercheurs travaillant plus spécifiquement chez les salmonidés
(saumon de l’atlantique, truite arc-en-ciel, …) ont remarqué chez ces espèces la présence de
14 complexes Hox, suggérant l’existence d’une autre duplication génomique spécifique à
cette famille.

A partir de ces observations, une phylogénie des vertébrés, et plus précisément des poissons,
avec la position des éventuels événements de duplication génomique en fonction du nombre
de copies du complexe Hox présents dans les espèces, a été établie (Figure IV-5). Les deux
premiers événements de duplication génomique (1R, 2R) auraient eu lieu très tôt pour une
espèce ancestrale de vertébré, ce qui explique qu’à l’heure actuelle la plupart des vertébrés,
dont l’homme, possèdent 4 copies de ce complexe. Le troisième événement de duplication
(3R) n’aurait eu lieu que chez l’ancêtre commun de certaines espèces de poissons qui seules
possèdent de 7 à 8 copies du complexe. Le quatrième (4R, non représenté sur ce schéma) se
serait produit uniquement dans la lignée évolutive des salmonidés.

    137  
Figure IV-5 : Phylogénie chez les vertébrés et événements de duplications génomiques
basés sur le nombre de complexe Hox.

Après les évènements de duplications génomiques, les complexes Hox ont subi des évolutions
génomiques indépendantes, telles que la perte d’un gène, des évolutions de séquences de
certains gènes etc…. La figure IV-6 illustre ces évolutions par comparaison des 4 complexes
Hox présents chez l’homme.

Figure IV-6 : Structure des complexes Hox (=paralogons Hox) chez l’homme.
Chaque paralogon, groupe de gènes paralogues, se trouve sur un chromosome différent, et les gènes paralogues
au sein de ces paralogons sont représentés avec le même code graphique.

Ainsi, trois des quatre complexes possèdent deux gènes Dlx. Les 4 complexes portent au
moins un gène de type collagène, et un nombre plus ou moins élevé de gènes Hox.

Comme dit plus haut, la fréquence des événements de polyploïdisation est beaucoup plus
importante chez les plantes que chez les vertébrés. Ceci est illustré dans la figure IV-7 qui
présente les événements de polyploïdisation chez les plantes comparativement à ceux détectés

    138  
chez les vertébrés et les champignons. Les points rouges indiquent les événements de
paléoploïdie avérés et les jaunes les événements supposés. On peut repérer sur la droite de la
figure les deux événements de paléoploïdie de l’hypothèse 2R ainsi que les 2 événements
potentiels ayant eu lieu chez les poissons. Le nombre de points rouges est beaucoup plus élevé
chez les plantes.

Figure IV-7 : Evénements de polyploïdisation avérés (ronds rouges) et potentiels (ronds


jaunes) chez les plantes, les vertébrés et les champignons.

I-3-Duplications géniques

Ce troisième mécanisme évolutif, la duplication de gènes, est sans doute celui qui est le plus
commun, particulièrement chez les vertébrés. Avoir une copie surnuméraire d’un seul gène
est en effet beaucoup moins nocif pour l’individu porteur, et ses chances d’y survivre sont
donc beaucoup plus grandes, que dans le cas de duplications de génomes entiers ou de grands
segments chromosomiques. Cette copie surnuméraire, par nature inutile, peut ensuite subir
des modifications et évoluer pour acquérir de nouvelles fonctions permettant l’évolution de
l’espèce.

    139  
I-3-1-Mécanismes

I-3-1-1-Rétrotransposition

Les rétrotransposons, comme l’élément Copia chez la drosophile ou l’élément Ty chez la


levure, sont des éléments mobiles qui se déplacent dans le génome par l’intermédiaire d’une
copie ARN. Il peut parfois arriver que les gènes qui sont situés à proximité du rétrotransposon
soient transcrits « par accident » en même temps que le rétrotransposon (Figure IV-8). Par la
suite, lorsque l'ARN est rétrotranscrit pour s’insérer ailleurs au sein du génome, le ou les
gènes transcrits par accident sont de manière concomitante copiés dans cette région. Une
deuxième copie du gène est ainsi créée.

2 copies du gène A

Figure IV-8 : Duplication génique par rétrotransposition.

Ce phénomène de rétrotransposition accidentelle de fragments génomiques à proximité


d’éléments transposables peut également participer au mécanisme de brassage d’exons
lorsque l’élément transposable se trouve à proximité de l’exon d’un gène A et emporte celui-
ci dans la séquence codante d’un autre gène B (Figure IV-9). Ceci va créer un nouveau gène
B avec un exon supplémentaire. Ce nouveau gène B peut éventuellement conserver sa
fonction ancestrale si l’insertion d’un exon surnuméraire ne la change pas, acquérir une partie
de la fonction du gène A, ou posséder une nouvelle fonction du fait du mélange des exons des
deux gènes.

    140  
Figure IV-9 : Brassage d’exons par rétrotransposition (d’après Luchetta et al., éd. Dunod). Le
rétrotransposon figuré est de type LINE 1.

I-3-1-2-« Crossing-over » inégal


En méiose, les chromosomes homologues s’apparient et peuvent échanger des fragments
chromosomiques. C’est ce qu’on appelle le mécanisme de crossing-over (voir le cours de
l’UE LV203). Il arrive parfois que ces crossing-over se produisent entre des régions non
homologues de deux chromosomes : on parle alors de crossing-over inégal. Ce phénomène de
mésappariemment peut se produire s’il existe des séquences répétées identiques présentes sur
les deux chromosomes concernés. Dans ce cas, une partie de l'ADN de l'un des chromosomes
est transférée sur l'autre (Figure IV-10). Il va alors y avoir perte du ou des gènes présents dans
cette région pour l’un des chromosomes, et duplication de ces mêmes gènes sur l'autre. Les
gènes dupliqués sont, dans ce cas là, disposés en tandem. Ce mécanisme est à l’origine de
l’augmentation ou de la diminution du nombre de copies du gène. Cette variation du nombre
de copies est un type de polymorphisme qui s’appelle variation du nombre de copies du gène,
ou CNV pour Copy Number Variant.

Figure IV-10 : Duplication de gènes par crossing-over inégal en méiose.

    141  
Comme pour les mécanismes de rétrotransposition, il est possible d’avoir un phénomène de
brassage d’exons lors d’un crossing-over inégal. Dans la figure IV-11 est représenté un gène
A qui comporte 4 exons (1, 2, 3 et 4) codant trois domaines protéiques A, B et C. L’exon 3,
qui code le domaine B, est entouré par des régions répétées. L’appariement inégal de la région
en amont de l’exon 3 sur un chromosome avec la région située en aval sur l’autre
chromosome entraine un crossing-over inégal. Suite à ce crossing-over, l’un des
chromosomes aura un gène A modifié, A’, avec deux exons 3, notés 3 et 3’ et l’autre un gène
A délété de l’exon 3, A’’ (non représenté sur la figure). Au niveau protéique, il y a apparition
de deux nouvelles protéines, l’une avec deux domaines B, l’autre sans domaine B.

Figure IV-11 : Brassage d’exons par crossing-over inégal (d’après Luchetta et al., éd. Dunod).

I-3-1-3-Echange ectopique de matériel génétique

Les échanges ectopiques peuvent avoir lieu lorsqu’il se produit une cassure double brin sur
l’ADN. La cassure étant présente sur les deux brins, les systèmes de réparation n’ont pas de
brin matrice sur lequel copier pour réparer l’ADN endommagé. La réparation va s’effectuer
via le mécanisme de recombinaison, mais en impliquant un site non homologue. Une fois la
recombinaison effectuée, l’élongation de la molécule d'ADN aura lieu en suivant la matrice
d'ADN recombinante et en recopiant la portion du génome présente en aval de la cassure, ce
qui a pour conséquence l'intégration de cette région dupliquée au site de réparation, et donc un
doublement de cette région sur le génome.

    142  
I-3-2-Devenir des gènes dupliqués

La duplication d’un gène implique l’apparition dans le génome d’une copie surnuméraire, non
« utile » à l’organisme qui se débrouillait très bien sans avant. Plusieurs cas de figures sont
alors envisageables pour l’évolution de cette copie (Figure IV-12).

Figure IV-12 : Possibilités évolutives des les gènes dupliqués.

I-3-2-1-Pseudogénisation

Il peut y avoir pseudogénisation (Figure IV-12, cas 1), c’est-à-dire que l’une des copies va
accumuler des mutations délétères, perdre sa fonction et ne sera plus exprimée. Dans les cas
extrêmes, la séquence pseudogénique ne sera même plus reconnaissable. Les pseudogènes
peuvent toutefois jouer un rôle important dans l’évolution des génomes en tant que séquences
répétées. Dans certains cas, ils peuvent même être réactivés et acquérir de nouvelles
fonctions.

    143  
I-3-2-2-Néo-fonctionnalisation

La néo-fonctionnalisation (Figure IV-12, cas 2), consiste en l’acquisition, par mutations,


d’une nouvelle fonction par l’une des deux copies. L’autre copie conserve la fonction
ancestrale. La figure IV-13 présente un exemple de néo-fonctionnalisation chez les
hominoïdes.

Figure IV-13 : Exemple de néo-fonctionnalisation consécutive à une duplication génique


(d’après Luchetta et al., éd. Dunod).

L’ancêtre commun aux singes du nouveau monde, de l’ancien monde et aux hominidés
possédait un gène, EDN, codant la ribonucléase 2. Deux espèces, les platyrrhiniens et
catarrhiniens ont ensuite divergé à partir de cette espèce ancestrale. Chez les catarrhiniens un
événement de duplication génique s’est produit pour le gène EDN, créant deux copies
identiques. Une des copies a ensuite évolué par mutation pour donner un nouveau gène, ECP,
codant la ribonucléase 3. Ainsi, à l’heure actuelle, les singes de l’ancien monde et les hommes
possèdent deux protéines distinctes, les ribonucléases 2 et 3, tandis que les singes du nouveau
monde n’ont que la ribonucléase 2.

I-3-2-3-Sous-fonctionnalisation

Si le gène ancestral possède deux fonctions distinctes (A et B sur la figure IV-12), il peut se
produire une sous-fonctionnalisation (Figure IV-12, cas 3). Chacune des copies du gène

    144  
dupliqué perd l'une des fonctions. Au final, au niveau de l'organisme, les deux fonctions sont
toujours assurées mais par le biais de deux protéines différentes codées par deux gènes
différents. Les deux copies étant maintenant nécessaires à la survie de l’organisme, elles sont
conservées. La figure IV-14 présente un exemple de néo-fonctionnalisation chez les
hominoïdes.

Figure IV-14 : Exemple de sous-fonctionnalisation consécutive à une duplication génique


(d’après Luchetta et al., éd. Dunod).

Les opsines sont des molécules capables de réagir à des signaux lumineux. En s’associant
avec le rétinal, elles forment les pigments photorécepteurs, appelés rhodopsines, qui sont
contenus dans les cellules photoréceptrices des yeux des animaux. L’ancêtre commun aux
hominoïdes possédait deux types d’opsines, captant les longueurs d’ondes bleues d’une part et
rouges et vertes d’autre part. Chez les catharriniens, une duplication suivie d’une sous-
fonctionnalisation du gène codant l’opsine des longueurs d’onde rouges/vertes a permis aux
singes de l’ancien monde et aux hommes d’acquérir une vision trichromatique (séparant les
trois types d’énergie lumineuse bleue, verte et rouge) tandis que les singes du nouveau monde
ont conservé une vision dichromatique.

    145  
I-3-2-4- Adaptation cellulaire ou tissulaire

Sans que la ou les fonction(s) des gènes dupliqués ne soit altérée(s), il peut se produire une
adaptation cellulaire ou tissulaire. Les deux copies du gène vont garder leur fonction
originelle mais l’une des copies va acquérir une expression spécifique d´un tissu par exemple.
C’est le cas pour le gène du glutamate déshydrogénase qui existe en 2 copies, GLUD1 et
GLUD2. Alors que l’expression de GLUD1 est ubiquitaire, celle de GLUD2 est restreinte au
cerveau. De la même manière, la protéine codée par l’une des copies peut avoir une
localisation cellulaire différente de la protéine ancestrale.

I-4- Notion de gènes apparentés

La conséquence directe des différents mécanismes évolutifs qui viennent d’être présentés est
qu’il existe, au sein des génomes, des séquences géniques et/ou chromosomiques très
similaires que l’on qualifie d’apparentées, qui sont issues d’un même gène ancestral.

De manière générale on dit que ces gènes ou ces séquences sont homologues, ce qui veut dire
qu’ils ont une origine commune et donc une similarité de séquences (homologie). On peut
ensuite faire la distinction entre les gènes paralogues, issus d’événements de duplication au
sein d’une espèce, et les gènes orthologues, qui résultent de divergences lors des mécanismes
de spéciation (séparation d’une espèce en deux espèces distinctes). Ces différentes relations
de parenté entre gènes sont présentées sur la figure IV-15.

Les gènes A’ et A’’ issus d’une duplication au sein de la même espèce sont paralogues. Un
événement de spéciation à partir de l’espèce possédant A’ et A’’ fait apparaitre deux espèces
Y et Z apparentées, l’une avec les gènes A’1 et A’’1 (paralogues l’un de l’autre), la seconde
avec les gènes A’2 et A’’2 (paralogues l’un de l’autre). Par contre, les gènes A’1 et A’2 d’une
part, ainsi que les gènes A’’1 et A’’2 d’autre part sont orthologues. De manière générale ces 4
gènes sont dits homologues car ils ont tous une origine commune.

    146  
Figure IV-15 : Relations de parenté entre gènes au sein d’une espèce et entre espèces
(d’après Luchetta et al., éd. Dunod).

I-5- Création d’innovations génétiques par transfert horizontal

Un autre mécanisme évolutif, appelé transfert horizontal, consiste en l’apport de gènes


extérieurs à l’organisme. Ce terme s’oppose au terme de transfert vertical, qui concerne la
transmission de gènes à la descendance.
Les transferts horizontaux permettent l’acquisition par un organisme de matériel génétique
provenant d'un autre organisme sans qu’il y ait de lien de descendance. Ce type de transfert
entre espèces est assez fréquent chez les procaryotes et s’y produit par 3 mécanismes
principaux : la transformation par de l’ADN libre, la conjugaison (au sein d’une ou entre
espèces), qui consiste en un échange de matériel génétique, et la transduction, qui est un
échange de matériel qui se fait par l’intermédiaire de bactériophages. Les transferts
horizontaux existent aussi, bien que plus rares, entre procaryotes et eucaryotes. Les
principaux mécanismes en sont l’endosymbiose et l’ingestion.

    147  
I-6-Synténie et évolution

I-6-1- Définition de la synténie

Les génomes des espèces actuelles ayant divergé il y a plus ou moins longtemps des mêmes
ancêtres communs, il est tout à fait logique qu’une partie de leurs génomes soit similaire. Plus
le temps depuis la séparation entre deux espèces est long, plus celles-ci vont accumuler des
divergences tant au niveau de la séquence des gènes (mutations ponctuelles) que de leur
disposition au sein du génome (réarrangements chromosomiques).

Une notion importante dans l’étude de l’évolution des génomes est la synténie, c'est-à-dire la
conservation partielle de l’ordre des gènes le long des chromosomes entre deux espèces. Une
région génomique de deux espèces différentes est dite synténique lorsqu’elle n’a pas subi de
réarrangement depuis le dernier ancêtre commun à ces deux espèces. La rupture de synténie
peut se produire du fait des réarrangements génomiques, chromosomiques et géniques
(duplication, insertion, translocation, fusion …). Ces différents mécanismes et leurs effets sur
les blocs de synténie sont présentés dans la figure IV-16.

Figure IV-16 : Mécanismes évolutifs entraînant une rupture de synténie.

    148  
I-6-2- Exemples de blocs de synténie

La figure IV-17 illustre certains des événements génomiques qui se sont produits depuis
l’ancêtre commun à tous les vertébrés jusqu’aux espèces actuelles, en prenant pour exemple
deux espèces de vertébrés relativement éloignées, l’homme et le tétraodon.

Figure IV-17 : Evolution des génomes et conservation des blocs de synténie chez
l’homme et le tétraodon (tiré du site du Génoscope : http://www.cns.fr/spip/-Tetraodon-nigroviridis-
.html).

L’ancêtre commun à ces deux espèces possédait 12 paires de chromosomes (un seul des
chromosomes de chaque paire étant montré ici), représentés en différentes couleurs. En
analysant les génomes du tétraodon et de l’homme, on remarque tout d’abord qu’ils sont
constitués de 23 et 21 paires de chromosomes respectivement. Cela suggère qu’il y a tout
d’abord eu une duplication génomique chez un ancêtre commun aux deux espèces, créant un
ancêtre possédant 24 paires de chromosomes, puis des pertes et/ou fusion de certains
chromosomes chez l’homme et le tétraodon expliquant la diminution de taille du génome à 23
et 21 paires respectivement. En regardant plus en détail le génome du tétraodon, on se rend
compte par exemple que son chromosome 1 semble être le résultat de la fusion d’une copie
d’un chromosome I et d’une copie d’un chromosome H de l’ancêtre commun. Par ailleurs le
même chromosome H de l’ancêtre se retrouve morcelé sur les chromosomes 1, 3 et 19 chez
l’homme. Il reste toujours de fortes régions de synténie entre l’homme et le tétraodon même
s’ils ont divergé il y a longtemps. Ainsi les 2 copies du chromosome J de l’ancêtre se
retrouvent dans les chromosomes 10 et 14 du tétraodon ainsi que le chromosome 14 et des

    149  
fragments des chromosomes 2, 6 et 15 chez l’homme. Les chromosomes 14 du tétraodon et de
l’homme partagent donc de fortes homologies sont en grande synténie.
D’une manière similaire, la figure IV-18 présente les relations de synténie entre les 23
chromosomes humains et les chromosomes murins.

Figure IV-18 : Conservation de synténie dans les génomes humains et murins (d’après
Strachan et al., éd. Garland Sciences) . Les chromosomes humains sont représentés par 23 couleurs
différentes, présentées en bas de la figure, et pour représenter les blocs de synténie correspondants dans le
génome murin les mêmes couleurs ont été conservées.

Ainsi, le chromosome 1 murin est en fait constitué d’une fusion entre des fragments présents
sur les chromosomes 1 et 2 humain. Le chromosome X est quasi identique entre les deux
espèces. Par contre, le chromosome 8 murin est constitué de fragments de 5 chromosomes
humains différents. On voit donc bien ici que la conservation de synténie a été très variable
d’un chromosome à l’autre entre ces deux espèces.

I-6-3-Conservation de synténie et fonctionnalité

La conservation de synténie est parfois retrouvée dans de multiples espèces pour certains
sous-fragments de chromosomes, même si les chromosomes en eux-mêmes sont extrêmement
morcelés. Une hypothèse pour expliquer ces observations est que le maintien strict des
relations de voisinage pour ces gènes serait essentiel à leur bon fonctionnement. C’est par
exemple le cas de gènes ayant une régulation commune de leur expression. Ainsi, la très
grande conservation de synténie entre le chromosome X de l’homme et de la souris (Figure

    150  
IV-18) est sans doute due à la régulation très particulière de ce chromosome par rapport aux
autres par le mécanisme d’inactivation du chromosome X (voir chapitre II). Ainsi, une rupture
de synténie dans ce chromosome par translocation d’une partie sur un autosome a dû être
fortement contre-sélectionnée. En effet, une telle translocation restaurerait une expression
biallèlique et donc un surdosage des gènes transloqués, qui serait très délétère pour les
individus porteurs de cette mutation.

II- Horloge moléculaire et phylogénie

Dans cette dernière partie, nous allons brièvement aborder la notion d’horloge moléculaire et
la possibilité de réaliser, à partir de cette horloge, des phylogénies moléculaires. Cette
construction de phylogénies repose en fait sur le principe présenté précédemment des
similarités entre génomes reliées à leur temps de divergence. Plus la divergence entre les
espèces étudiées est récente et plus leurs génomes seront semblables. En revanche, pour deux
espèces ayant divergé il y a longtemps, les accumulations de mutations et de remaniements
seront nombreuses, et les génomes seront d’autant plus dissemblables que le temps de
séparation depuis l’ancêtre commun est long.

II-1- L’horloge moléculaire

En phylogénie moléculaire, au lieu de se baser sur les ressemblances globales entre génomes,
on se base sur les accumulations de mutations au sein de gènes orthologues au cours du
temps. C’est le concept d’horloge moléculaire. Ce concept suppose que les mutations
s'accumulent dans les génomes à une vitesse globalement constante, c’est-à-dire que le taux
de substitution dans les séquences des gènes est une fonction linéaire du temps. Une fois cette
vitesse évaluée, il est alors possible, en comparant les séquences géniques de 2 espèces, de
dater le moment de leur séparation. La figure IV-19 illustre cette linéarité en prenant
l’exemple du virus de la grippe. Elle montre bien que le taux de substitution dans le virus de
la grippe a été globalement linéaire en fonction du temps. Par ailleurs, on peut observer que
les mutations synonymes sont bien plus fréquentes que les non-synonymes, celles-ci étant
sans doute contre-sélectionnées.

    151  
Figure IV-19: Taux de substitution observé sur 30 ans dans le génome du virus de la
grippe (d’après Luchetta et al., éd. Dunod).
En abscisse est représenté le temps depuis la divergence par rapport au génome du virus ancestral, en ordonnée
le taux de substitution dans les séquences génomiques. En rouge sont représentées les mutations synonymes (ne
modifiant pas la composition en acides aminés de la protéine), et en rose les non-synonymes (modifiant cette
composition).

Il y a cependant de nombreuses limitations à l’utilisation de l’horloge moléculaire et à sa


précision. On devrait d’ailleurs plutôt parler d’horloges moléculaires au pluriel. En effet, tous
les gènes n’évoluent pas forcément à la même vitesse. De plus, pour un même gène, la vitesse
d’évolution peut varier d’une espèce à l’autre. Il n’y a pas donc pas d’horloge moléculaire
absolue. Ce caractère très relatif des horloges moléculaires est illustré dans la figure IV-20.

Figure IV-20. Comparaison des distances protéiques homme/souris et homme/poulet


(d’après Luchetta et al., éd. Dunod).
Les distances entre protéines sont beaucoup plus grandes pour beaucoup plus de protéines dans la comparaison
homme/poulet que dans la comparaison homme/souris.

    152  
Afin de pouvoir utiliser tout de même ce principe d’horloge moléculaire en phylogénie, il faut
calibrer les horloges, en utilisant des fossiles par exemple, et utiliser le plus grand nombre
possible de marqueurs génomiques pour chaque espèce étudiée.

II-2-Phylogénie moléculaire

Les divergences de séquences entre espèces peuvent donc être utilisées pour classer celles-ci
et reconstituer les liens de parentés entre les espèces. C’est la phylogénie moléculaire qui
permet de reconstituer les arbres phylogénétiques de relations entre espèces.
Une autre application de cette méthode est la génomique comparative, qui consiste à
comparer les structures et fonctions des génomes de différentes espèces. Le but de ce genre
d’études est de découvrir, au sein de ces génomes, des gènes et/ou des séquences régulatrices
non identifiées jusque là, en se basant sur le principe de conservation des séquences
fonctionnelles. En effet, si plusieurs espèces ont conservé une séquence génomique identique
sans aucune mutation, c’est sans doute que cette séquence est importante pour l’organisme et
que c’est probablement un gène ou une séquence régulatrice. A contrario, les régions non
codantes intergéniques accumulent des mutations et divergent donc très vite au cours de
l’évolution des espèces.

II-2-1- Construction d’un arbre phylogénétique

La reconstruction d’un arbre phylogénétique se fait en plusieurs étapes consécutives. Tout


d’abord, il faut recueillir un jeu de données, c’est à dire plusieurs séquences (nucléotidiques
ou protéiques) provenant des espèces étudiées. Une fois ce jeu de données recueilli, il faut
aligner les séquences. Ceci se fait par des programmes d'alignement de séquences, et permet
d’obtenir une matrice de positions homologues dérivant d'une position ancestrale commune.
Une fois l’alignement effectué, une inférence phylogénétique va être faite grâce à l'analyse de
la matrice de positions homologues. Cette inférence est généralement réalisée via des
algorithmes de reconstruction phylogénétique.

Plusieurs algorithmes de reconstruction phylogénétique, divergeant par le modèle sous-jacent,


existent.
Dans la Méthode de distance (méthodes UPGMA ou Neighbour-Joining), le choix du critère
de distance entre les futures feuilles de l'arbre phylogénétique se fait par alignement de

    153  
séquence. On comptabilise le nombre de nucléotides qui diffèrent entre les espèces : plus
celui-ci est élevé, plus les espèces sont éloignées.
La Méthode de vraisemblance, beaucoup plus probabiliste, se fonde sur le taux de
substitution observé au cours du temps et estime la vraisemblance de la position et de la
longueur des branches pour les différentes espèces étudiées.
La Méthode de parcimonie quant à elle recherche l'arbre phylogénétique qui va minimiser le
nombre d’événement (mutations, délétions, …) pour passer d'une séquence à l'autre. Cette
méthode suppose néanmoins que les phénomènes de convergence évolutive et de réversibilité
(retour d'un caractère à l'état ancestral) sont rares. En effet, l'arbre présentant le moins d'étapes
évolutives est celui qui minimise l'existence de ces deux phénomènes.
Les figures IV-21 et IV-22 présentent un exemple simple de reconstruction d’arbre
phylogénétique. Seules 5 espèces différentes sont considérées en ne comparant qu’une seule
séquence de 10 nucléotides.

Figure IV-21 : Alignement des séquences de 10 nucléotides de 5 espèces et identification


des positions informatives (d’après Luchetta et al., éd. Dunod).

En comparant les séquences des 5 espèces, on peut déjà repérer les bases qui sont
informatives, c’est-à-dire qui diffèrent pour au moins deux espèces. Ici, les seules positions
informatives sont les positions 3, 6, 8 et 10. Ensuite, on regarde pour chaque position
informative les espèces qui sont identiques et différentes. On se rend ainsi compte que les
deux espèces les plus fréquemment associées et divergentes des autres sont les espèces 1 et 2.
Ce sont donc celles qui sont le plus proche phylogénétiquement. Une fois ces deux espèces
regroupées, la plus proche d’elles et la 3. Viennent ensuite les espèces 4 et 5. On peut, à partir
de là, reconstituer l’arbre phylogénétique de ces 5 espèces (Figure IV-22).

    154  
Figure IV-22 : Construction de l’arbre phylogénétique à partir des ressemblances entre
espèces (d’après Luchetta et al., éd. Dunod).

La figure IV-23 présente un exemple de reconstruction d’arbre phylogénétique à partir d’une


matrice de comparaison de séquences. Elle se base sur le taux de substitution au sein de la
protéine FOXP2 chez différents primates, la souris servant d’espèce de référence extérieure
afin d’enraciner l’arbre. Avec cette matrice, on repère les espèces qui ont le moins de
différences pour les rapprocher, ici l’homme avec le chimpanzé, puis le gorille, puis l’orang-
outang. Il est intéressant de noter que les substitutions non synonymes (boites grises) sont très
rares le long de l’arbre, en comparaison avec les mutations synonymes (traits noirs).
Toutefois, leur taux augmente après le point de séparation de l’homme et du chimpanzé. Ceci
traduit ici un événement de sélection positive : en effet, les mutations en question ont conféré
une nouvelle activité au facteur de transcription FOXP2, modifiant ainsi le développement
des voies respiratoires et notamment du larynx, ce qui a vraisemblablement permis
l’acquisition de la parole par les hominidés.

    155  
Figure IV-23 : Reconstruction de l’arbre phylogénétique des primates en étudiant les
taux de substitutions de la protéine FOXP2 au sein des espèces (d’après Luchetta et al., éd.
Dunod).

    156  

Vous aimerez peut-être aussi