Human Genome

Download as pdf or txt
Download as pdf or txt
You are on page 1of 28

The Human genome

Génome(s)

course syllabus
• Part 1: Introduction
• Part 2: Genome Markers
• Part 2: Genome Mapping
• Genetic Maps
• Physical Maps
• Part 3: Data on Genomes and the Human Genome
• Genome Sequencing
• Some Comparative Data
• Human Genome, Some Characteristics
• Part 4: New Exploration Technologies

Génome(s)

1
Part 1

NTRODUCTION

Génome(s)

Genome

= the entire genetic material of a


species (DNA)

! ≠ Entire of genes !!!

Génome(s)

2
History

• 1865: G. Mendel lays the foundations of modern


genetics, including alleles, dominance, and
heterozygosity.

• 1913: The first genetic map (D. melanogaster) is


created by T.H. Morgan.

• 1953: J. Watson, F. Crick, M. Wilkins, and R.


Franklin decipher X-ray diffraction images and
publish the double helix structure of DNA.

• 1965: J. Monod, F. Jacob, and A. Lwoff "discover"


RNA and the regulation of gene expression.
Génome(s)

History

• 1983: Discovery of PCR (Polymerase Chain


Reaction). Maps are enriched with all these
techniques.

• 1989: A global program for sequencing the human


genome is established: HUGO (Human Genome
Organization).

• 2001: First assembly of the sequence of the human


genome (Science 291, Nature 409).

• 2005: Development of a high-throughput


sequencing technique, pyrosequencing.
Génome(s)

3
Hereditary characteristics
• Mendel published his research results on peas in 1865.

• Introduced the concepts of dominance and recessiveness, heterozygosity,


and phenotypic purity.
• At the beginning of the 20th century, Mendel's work was "rediscovered"
by Bateson and De Vries, and Mendel's Laws were formulated.
• Law of Purity of Gametes: An hybrid formed from two traits of the same
characteristic will produce gametes containing either one or the other of
these traits in equal proportions (gametes ultimately contain only one
allele of each gene).

• Law of Independent Assortment of Traits: Two independent (Mendelian)


traits separate independently during meiosis and recombine independently
during fertilization (genetic recombination

Génome(s)

Génome(s)

4
Meiosis & genetic recombination

As generations progress and through genetic recombination...

Génome(s)

Recombinaon
Cytological phenomenon during meiosis
Genetic consequence on the heritage of the offspring

• Alleles are the result of the accumulation of mutations over


successive generations.
• The probability of recombination is higher when genes are more
distant.
• The relative distance between two loci can be defined by a genetic
recombination frequency.
• Maximum value: 50% (0.5) for independent genes (on two
different chromosomes).
• 1% recombination (0.01: 1 recombination per 100 meioses)
corresponds to 1 centimorgan (cM).
• Genome(s).

5
Part 2

Genomic markers

Génome(s)

Markers types

• Les marqueurs sont dus au polymorphisme de l'ADN: condition


nécessaire pour étudier la transmission de caractère
• RFLP: Restriction Fragment Length Polymorphism =
Polymorphisme de longueur de fragment de restriction
• Satellites: motifs de longueur de séquence variable répétés de
nombreuses fois (junk DNA). Représentent environ 20% du génome
humain. Découverts sur gradient CsCl
• SNP: Single Nucleotide Polymorphism = SNiPs. Mutation ponctuelle
• STS, EST: Sequence Tag Site, Expressed Tag Site. Courte séquence
d'ADN séquencé, codant ou non, archivée par les amorces utilisées
• QTL: Quantitative Trait Locus. En génétique végétale surtout. Locus
contribuant à la variabilité d'un trait quantifiable (résistance à la
sécheresse, grosseur des fruits…)
Génome(s)

6
RFLP

1
2

Génome(s
)

Satellites

Génome(s)

7
Microsattelites

Highly polymorphic multi-allelic markers


Sometimes causing pathologies (expansion of triplets)
Most common: dinucleotide (CA)n
No known function
Evenly distributed over the euchromatine

Allèle 1 9 répétitions (CA)

…nnnnnnnnCACACACACACACACACAnnnnnnnnnnnn…

Allèle 2 13 répétitions (CA)

…nnnnnnnnnCACACACACACACACACACACACACAnnnnnnn…

Allèle 3 11 répétitions (CA)

…nnnnnnnnnnCACACACACACACACACACACAnnnnnnnn…

Génome(s)

Microsatellites

Mélange de chromosomes

CACACACACACA (CA)n variable (locus polymorphe)

Fragments d’ADN amplifiés mélangés

1 2 3 4 5
Électrophorèse

 6 allèles détectés

Génome(s)

8
SNP

• 0.1% differences between sequences of 2 individuals


• more than 3,000,000 different bases in their genome! (in or out of
genes)
• These differences mostly NOT PATHOGENIC are the result of
mutations (transmissible variation of a sequence)Allèle A
…AGCATAGCAGCAATCAGCGCAGCAGTCTCTCTTCGCAAGCA…
…TCGTATCGTCGTTAGTCGCGTCGTCAGAGAGAAGCGTTCGT…

Allèle B
…AGCATAGCAGCAATCAGCACAGCAGTCTCTCTTCGCAAGCA…
…TCGTATCGTCGTTAGTCGTGTCGTCAGAGAGAAGCGTTCGT…

• Must be found in at least 1% of individuals


to qualify as polymorphism Génome(s)

SNP

• An SNP that modifies a restriction site generates an RFLP

• SNPs in coding sequences can change the protein sequence,


so be assimilated to pathogenic mutations

• SNPs are a reflection of DNA POLYMORPHISM

• dbSNP, SNPedia, openSNP for 23&Me…

• The same site can be multi-allelic (more than 2 alleles)

Génome(s)

9
Part 3

MAPS
GENOMES

Génome(s)

Cartographies

 Chez l’homme, 1 cM vaut environ 1 Mbase


Génome(s)

10
Genetic map
Based on the observation of the transmission of
hereditary traits
A B C
Genetic distances reflect recombination
frequency

During meiosis, crossing-over causes the


exchange of genetic material between
homologous chromosomes
The closer two markers are, the less likely they
are to be separated by a crossing-over and the
smaller the genetic distance between them A B

C
The available maps were mainly built using 40 large
families, collected by the Centre d'Etude du Polymorphisme
Humain (CEPH, Paris)

Génome(s)

Genetic map

The recombination rate varies according to various criteria such as

-Species considered (1cM = 1Mb in humans only)


-The structure of the chromatin
-Some areas recombine more frequently than others according to
DNA condensation (eu-/ heterochromatin)
Sex
-The genetic map is about 40% larger in women than in men,
because recombination events are on average more frequent during
oogenesis than in spermatogenesis (especially towards centromeres)

Génome(s)

11
Genetic Map
Since SNPs or microsatellites are polymorphic, their
segregation can be observed in families:

8 2 5 8

4 7 3 10

p1 p2 m1 m2

8 8 2 5

7 10 4 10

Génome(s)

Carte génétique

Genetic
Map

Génome(s)

12
physical map

• Genetic maps do not allow direct access to DNA, cloned


fragments
• Purpose: complete sequencing – isolation of genes of
interest
• This technique relies on obtaining DNA clones of varying
size, "covering" the entire genome

• Distances become true "absolute" distances, expressed in


number of DNA bases (pb, kb, Mb, Gb)

Génome(s)

Carte intégrée

Example of an
integrated map of
genetic and
physical data

Génome(s)

13
Part 4

GENOMES
&
HUMAIN GENOME

Génome(s)

HUGO - HGP

• 1 page = 3,000 bases


• 1 volume (500 pages) = 1,500,000 bases
• 1 human genome = 1,000 volumes!!!
• Sequencing the human genome was an immense task because the
human genome comprises over 3 billion base pairs. To put this
into perspective, the following figures you provided demonstrate
the scale of the task:

• In terms of base pairs, 1 human genome is equivalent to 1,000


volumes, representing an enormous amount of genetic
information.

Génome(s)

14
HGP / Celera

2 sequences of the human genome are published on the


same day ( 15 February 2001)
HGP: Nature 409

Celera Genomics: Science 291

Génome s)
(

Séquence finale

• Only 2 DNA samples were used as templates by Celera


(including that of C. Venter). Celera incorporated public data into
its database as they were published.

• HGP: Sequencing depth: 10X (10 genomic equivalents


sequenced) from nearly twenty different individuals. "Finishing"
work continued → April 2003, complete genome publication.
Final accuracy: 99.99% = approximately 1 error in every 10,000
bases. Total cost: approximately $3 billion (controversial).
Missing parts: heterochromatin, telomeres, and centromeres.

Génome(s)

15
Génome procaryote

Génome(s)

Evolution

Génome(s)

16
Some known genomes

Oryza sativa

Triticum aestivum

Record connu : une diatomée >690 000 Mb !


Génome(s)

Contenu chromosomique de quelques espèces

Génome(s)

17
Saccharomyces Homo
Helicobacter Methanosarcina sapiens
cerevisiae
Espèce pylori acetivorans
(levure, (mammifère,
(Bactérie) (Archée) Eucaryote) Eucaryote)
Chromosomes :
Nombre 1 1 2 x 16 2 X 23
Forme Circulaire Circulaire Linéaire Linéaire

Gènes codant des protéines : ≈20% génome transcrit

% du génome 91% 74% 72% 1 à 3%


% de gènes morcelés 0 0 4% ≈100%

Gènes codant des ARN :


ARN ribosomiques 0,7% 1,5% 5% 0,4%
ARN de transfert 7 clusters 12 gènes 262 copies 1300 copies
seuls

Séquences répétées :
Hautement répétées 0% 0% 10%
Moyennement répétées 1% (17 1,2% (30 copies de 44%
éléments IS) Ty)

Génome(s)

Le génome humain

• Le génome humain est composé d’environ 3 200


millions de nucléotides
• La taille moyenne d’un gène est de 3000 bases,
mais la taille varie beaucoup (ex : le gène de la
dystrophine a une taille de 2,4 millions de bases)
• Le nombre total de gène se situe entre 25 000 et
30 000
• 99.9% des nucléotides sont identiques entre deux
personnes. Il existe donc 0,1% de différences (soit
environ 3,5 millions de différences par génome)
• Plus de 50% des gènes ont une fonction inconnue

Génome(s)

18
Le génome nucléaire humain

Exons Introns et
2% séquences
régulatrices
24%

Séquences
répétées
59%

Séquences
uniques non
codantes
15%

Génome(s)

Le génome est hétérogène

• Zones fortement répétitives  10 à 15% du


génome, non codées en protéines, rôle pas bien
connu
• Zones moyennement répétitives  20 à 40 %
du génome, contiennent des séquences SINE
(Alu) et LINE, des rétrotransposons et quelques
gènes (ARNr, ARNt,....)
• Séquences uniques  ~50% du génome (dont
les gènes)

Génome(s)

19
Les zones fortement répétitives

• Sont localisées principalement soit autour des


centromères, soit dans les centromères
– Comprend des séquences appelées CEN, de 171 pb,
répétées pour former des zones de 300 à 5000 kb
– Sur ces séquences viennent se fixer les protéines du
kinétochore (CENP), qui permettent la disjonction des
chromatides au cours de la mitose (MAP)

• Autour des centromères:


– Soit des séquences "minisatellites"
– Soit des séquences de 5 à 10 bp répétées jusqu'à 100 000 X

Génome(s)

Les zones moyennement répétitives

Sont des zones répétées de 100 à 1000 pb


dispersées de façon régulière dans le
génome
Séquences SINE (Alu chez l'Homme): 300 bp
répétées plusieurs fois et pouvant être
clivées par l'enzyme de restriction AluI 
~900 000 copies SINE/génome
Séquences LINE: 6 à 7000 pb répétées 
100 000 copies/génome

Génome(s)

20
Les zones moyennement répétitives

• Contiennent aussi les gènes d'ARN


ribosomiques  les gènes codant pour les ARNr
45S sont en tandem jusqu'à 200 copies
• Ces zones des chromosomes 13, 14, 15, 21 et
22 vont se retrouver au niveau des nucléoles

ADN

45S 20-30 kb 45S

Génome(s)

Les zones répétitives

1. Les minisatellites ou VNTR (Variable Numbers of


Tandem Repeats): séquences de 6 à 16 pb répétées
parfois jusqu'à 1000 fois. Ils sont surtout localisés
dans les zones télomériques (ou centromériques)

2. Les microsatellites (1 à 4 pb répétées) sont de très


petites séquences répétées (CA)n, n variant de 12 à ...
Ces microsatellites sont bien répartis dans tout le
génome, tous les 25 à 100 kb. Ils sont très variables
donc informatifs. Ils sont aisément amplifiés par PCR
et utilisés en diagnostic moléculaire et pour les
empreintes génétiques

Génome(s)

21
Les pseudogènes ()

Certaines séquences de l'ADN correspondent (le


plus souvent) à des insertions d'ADN
complémentaire de gènes existant réellement
Ces séquences ne contiennent pas d'introns et ne
sont pas exprimées en protéines
Elles peuvent causer des difficultés lors du
diagnostic moléculaire de maladies héréditaires
par mutation situées sur les "vrais" gènes

Génome(s)

Les télomères

Les extrémités des chromosomes sont des zones


particulières car elles ne peuvent pas être répliquées
de la même façon que les zones centrales
En effet, les fragments d'Okazaki ne peuvent pas être
synthétisés à la toute dernière extrémité 3‘
On assiste donc à un raccourcissement progressif du
chromosome à chaque réplication

Zone télomérique

Génome(s)

22
Les télomères

Pour compenser cela, il existe des séquences répétées


spécifiques à ces extrémités télomériques  Séquences
TEL : TTAGGG répétées jusqu'à 2000 fois
Ces séquences sont très conservées à travers les espèces
Une enzyme spécifique, la télomérase (hTERT chez l'homme),
est chargée de synthétiser ces séquences sans matrice ADN
Cette enzyme contient une amorce d'ARN AAUCCC qui va servir
à la synthèse de la séquence d'ADN

Génome(s)

La télomérase

5'-Chrom- TTAGGG-TTAGGG-TTAGGG-3'
3'-Chrom- AATCCC-AATCCC-AATCCC-5'

Télomérase

5' AAUCCC 3'


TTAGGG TTAGGG
3' 5'
Génome(s)

23
La télomérase

est exprimée dans


• les cellules germinales
• les cellules cancéreuses
• les cellules eucaryotes unicellulaires (paramécies)

Mais pas ou très peu dans les cellules somatiques


Le nombre de séquences répétées en l'absence de télomérase
déterminerait donc le nombre de divisions que peut
effectuer une cellule avant de mourir

 sénescence réplicative

Génome(s)

Ne pas oublier l'ADN mitochondrial

Les mitochondries contenues dans les cellules contiennent de


l'ADN qui sert à la production de quelques unes des
protéines mitochondriales  16.6 kb, 37 gènes

Ceci fait penser que les mitochondries étaient initialement


des bactéries qui ont été phagocytées par les cellules
(théorie endosymbiotique)

Des mutations de l’ADN mitochondrial sont impliquées dans


des pathologies graves (ataxies, atteintes sensorielles…)

Génome(s)

24
Part 5

NEW TECHNOLOGIES FOR


GENOME EXPLORATION

Génome(s)

Now what?

• Existence de cartes de plus en plus précises  gènes


localisés
• Séquençage en masse d'autres organismes  Cartes de
synténie inter-espèces, évolution
• Séquençage personnalisé, individualisé (23&Me...)
• Catalogue des gènes: GenAtlas, OMIM, Genome Browser,
bases de données de SNP, de miARN…
• Thérapie génique, pharmacologique ou cellulaire utilisant
les données acquises… pharmaco-génomique

Génome(s)

25
Now what?

Ensembl en 2011…

Génome(s)

… et en 2015…

Génome(s)

26
Populations dans ExAC

Population Male Female Samples Total


Samples

African/African 1,888 3,315 5,203


American

Latino 2,254 3,535 5,789

East Asian 2,016 2,311 4,327

Finnish 2,084 1,223 3,307

Non-Finnish European 18,740 14,630 33,370

South Asian 6,387 1,869 8,256

Other 275 179 454

Total 33,644 27,062 60,706

Génome(s)

Et ensuite ?

• Nouveaux projets : Préfixes des unités de mesure


– HUPO – protéome
– Interactome 1991
– Human microbiomome
– Métagénomique 1975

• Bases de données saturées – 1964


pb de stockage
1991
• Utilisation des données ? Pb
éthiques soulevés par le
HD…
Génome(s)

27
La folie du séquençage…

Big Data: Astronomical or Genomical?


Z.D. Stephens & al. PLOS Biology, July 2015
DOI: 10.1371/journal.pbio.1002195

Génome(s)

FIN

Génome(s)

28

You might also like