USI3 c5 AligMultClustalW
USI3 c5 AligMultClustalW
USI3 c5 AligMultClustalW
Le contexte
Lorsque lon compare une squence contre une banque par BLAST, un grand nombre de squences similaires peuvent tre donnes en sortie. Cela nous permet de poser des hypothses sur notre squence inconnue (Fonction, ): On peut ensuite regarder les alignements 2 2 entre les squences similaires trouves dans la banque et la squence query:
Le contexte
Mais, comment comparer toutes ces squences et tudier leur relations ?
Relier la squence la structure et la fonction Caractriser les rgions conserves et le rgions variables Dduire des contraintes de structures pour les ARN Diffrencier entre gnes orthologues et gnes paralogues Construire larbre considres phylogntique des squences homologues
Permet rapidement de retrouver les acides amins strictement conservs dans toutes les squences homologues, jouant souvent un rle direct dans la fonction.
Un alignement multiple se conoit partir de 3 squences et peut concerner jusqu plusieurs centaines de squences.
5
Dmarche
Alignement 2 2
2 squences quelconques Dtecter une similarit syntaxique
Alignement multiple
Famille de squences avec la mme fonction
Exemple:
Voici un alignement multiple de squences protiques:
TYY1_HUMAN TF3B_BUFAM ZN77_HUMAN ZN76_HUMAN P44_XENBO TSH_DROME XFIN_XENLA EVI1_HUMAN TRA1_CAEEL TF3A_BUFAM SRYC_DROME ZG2-9_XENL ZG58_XENLA YKQ8_CAEEL BASO_HUMAN SUHW_DROAN ZN10_HUMAN P43_XENBO IKAR_MOUSE YVCPFDGCNKKFAQSTNLKSHIL--THYRCPRENCDRTYTTKFNLKSHIL--TFH YTCPEPHCGRGFTSATNYKNHVR--IHFRCGYKGCGRLYTTAHHLKVHER--AHYRCSYEDCQTVSPTWTALQTHLK--KHFRCVW--CKQSFPTLEALTTHMKDSKHFRCSE--CSRSFTHNSDLTAHMR--KHYRCKY--CDRSFSISSNLQRHVRN-IHYKCEFADCEKAFSNASDRAKHQNR-THCKCETENCNLAFTTASNMRLHFKR-AHFKCNY--CPRDFTNFPNWLKHTRR-RHFVCTV--CGKTYKYKHGLNTHLHS-H-FVCTE--CNLSFAGLANLRSHQHL-H-YKCTV--CRKDISSSESLRTHMFK-QHH FQCDI--CKKTFKNACSVKIHHKN-MHYACKI--CGKDFTRSYHLKRHQKY-SSC YKCNQ--CGIIFSQNSPFIVHQI--AHLKCSVPGCKRSFRKKRALRIHVS--EHFECNM--CGYHSQDRYEFSSHITRGEH25 26 25 25 25 25 23 24 26 26 24 23 23 25 24 25 23 25 25
Exemple:
Regardons les rsidus totalement conservs:
TYY1_HUMAN TF3B_BUFAM ZN77_HUMAN ZN76_HUMAN P44_XENBO TSH_DROME XFIN_XENLA EVI1_HUMAN TRA1_CAEEL TF3A_BUFAM SRYC_DROME ZG2-9_XENL ZG58_XENLA YKQ8_CAEEL BASO_HUMAN SUHW_DROAN ZN10_HUMAN P43_XENBO IKAR_MOUSE YVCPFDGCNKKFAQSTNLKSHIL--THYRCPRENCDRTYTTKFNLKSHIL--TFH YTCPEPHCGRGFTSATNYKNHVR--IHFRCGYKGCGRLYTTAHHLKVHER--AHYRCSYEDCQTVSPTWTALQTHLK--KHFRCVW--CKQSFPTLEALTTHMKDSKHFRCSE--CSRSFTHNSDLTAHMR--KHYRCKY--CDRSFSISSNLQRHVRN-IHYKCEFADCEKAFSNASDRAKHQNR-THCKCETENCNLAFTTASNMRLHFKR-AHFKCNY--CPRDFTNFPNWLKHTRR-RHFVCTV--CGKTYKYKHGLNTHLHS-H-FVCTE--CNLSFAGLANLRSHQHL-H-YKCTV--CRKDISSSESLRTHMFK-QHH FQCDI--CKKTFKNACSVKIHHKN-MHYACKI--CGKDFTRSYHLKRHQKY-SSC YKCNQ--CGIIFSQNSPFIVHQI--AHLKCSVPGCKRSFRKKRALRIHVS--EHFECNM--CGYHSQDRYEFSSHITRGEH25 26 25 25 25 25 23 24 26 26 24 23 23 25 24 25 23 25 25
On peut tablir une carte par position des rsidus conserves : WebLogo : http://weblogo.berkeley.edu/logo.cgi
9
UB2E3_MOUSE UBCD2_DROME UB2D2_HUMAN UB2D3_HUMAN UB2D4_RAT UB2D1_HUMAN UBCD1_DROME UBC1_COLGL UBC1_MAGGR UBC2_ARATH UBC2_MEDSA UBC1_ARATH UBC2_WHEAT UBC1_CAEEL UBE2B_HUMAN UBC2_CANAL UBC2_SCHPO
10
UB2E3_MOUSE UBCD2_DROME UB2D2_HUMAN UB2D3_HUMAN UB2D4_RAT UB2D1_HUMAN UBCD1_DROME UBC1_COLGL UBC1_MAGGR UBC2_ARATH UBC2_MEDSA UBC1_ARATH UBC2_WHEAT UBC1_CAEEL UBE2B_HUMAN UBC2_CANAL UBC2_SCHPO Prim.cons.
11
UB2E3_MOUSE UBCD2_DROME UB2D2_HUMAN UB2D3_HUMAN UB2D4_RAT UB2D1_HUMAN UBCD1_DROME UBC1_COLGL UBC1_MAGGR UBC2_ARATH UBC2_MEDSA UBC1_ARATH UBC2_WHEAT UBC1_CAEEL UBE2B_HUMAN UBC2_CANAL UBC2_SCHPO Prim.cons.
12
UB2E3_MOUSE UBCD2_DROME UB2D2_HUMAN UB2D3_HUMAN UB2D4_RAT UB2D1_HUMAN UBCD1_DROME UBC1_COLGL UBC1_MAGGR UBC2_ARATH UBC2_MEDSA UBC1_ARATH UBC2_WHEAT UBC1_CAEEL UBE2B_HUMAN UBC2_CANAL UBC2_SCHPO Prim.cons.
13
UB2E3_MOUSE UBCD2_DROME UB2D2_HUMAN UB2D3_HUMAN UB2D4_RAT UB2D1_HUMAN UBCD1_DROME UBC1_COLGL UBC1_MAGGR UBC2_ARATH UBC2_MEDSA UBC1_ARATH UBC2_WHEAT UBC1_CAEEL UBE2B_HUMAN UBC2_CANAL UBC2_SCHPO Prim.cons.
Dmarche
Il est tout fait envisageable d'utiliser des algorithmes optimaux (de type Needleman-Wunsch) pour faire des alignements non plus 2 2 mais n squences. Mais si on veut aligner 10 squences d'une longueur d'environ 300 lettres, il faudra un espace mmoire de 515 Giga-Octets !!! Seules des mthodes heuristiques sont pour l'instant disponibles pour faire des alignements multiples.
15
Alignement multiple:
Alignement deux deux de toutes les paires de squences
Les scores sont stocks dans des matrices de scores
Stratgie itrative
Stratgie progressive
16
CLUSTer + ALignement
CLUSTAL
Thompson et al. 1994
18
ClustalW EBI
ClustalW est lun des lalignement progressif.
Etape 1: Alignements globaux 2 2 Etape 2: Regroupements des alignements (clusters), construction arbre guide Etape 3: Alignement multiple obtenu par combinaisons des alignements 2 2 (profils)
19
ClustalW exemple
20
s2 2
s3 0 14
S4 17 0 -1
s1 s2 s3 s4
Regroupement des squences suivant leur similitude partir de la matrice des scores 2 2.
22
17
0 -1
s1 s2 s3 s4
23
17
0 -1
14
s1 s2
s3 s4
24
17
0 -1
14
s1 s2 s4
s3
25
17
0 -1
14
s4 s1
s1 s4
s3 s2
s2 s3
26
0
14
-1
27
s1 s1 s2 s3 s4 2 0 17
s2 2 14 0
s3 0 14 -1
S4 17 0 -1
s4
s1
s2
s3
28
29
Profil aligner avec une autre squence Alignement profil et squence avec insertion/dltion
30
s1 s4
s2 s3
s4 cgatgagtcactgtgactg
s1 cgatgagtcattgtgactg
s2 cgagccattgtagctactg
s3 cgaccattgtagctacctg
31
s1 s4
s2 s3
s4 cgatgagtcactgtgactg
s1 cgatgagtcattgtgactg
s2 cgagccattgtagctactg
s3 cgaccattgtagctacctg
32
ClustalW
ClustalW est optimis pour les protines:
Pondration reprsentation des squences en fonction de leur sur/sous
Adaptation des matrices de similitudes au fil de lalgorithme en fonction de la divergence des squences aligner
Blosum 80 pour aligner des squences proches Blosum 50 pour aligner des squences distantes
ClustalW
Attention
ClustalW commencera aligner les n(n-1)/2 paires de squences, donc avec 80 squences aligner, il doit, pour remplir sa matrice de score effectuer 3160 alignements (algo mthode exacte), ce qui peut prendre pas mal de temps ! Si une squence n'appartient pas la mme famille et que toutes les autres se sont alignes par rapport elle, on aura un rsultat catastrophique. Si une squence est beaucoup plus courte que les autres, on aura un problme au niveau du score (qui sera plus bas que les autres car il y aura de nombreux gaps, donc risque de fausser l'arbre guide).
34
MultAlin
Principe:
1/ calcule une matrice de similarit des paires 2/ construit un arbre de clustering hierarchique 3/ construit lalignement multiple en suivant larbre 4/ reconstruit une arbre de clustering hierarchique avec les nouveaux alignements paire paire issus de lalignement trouve 5/ ritre le processus jusqu stabilisation de larbre de clustering
35
MultAlin
http://bioinfo.genotoul.fr/multalin/multalin.html
36
MultAlin
4 squences s1 s2 s3 s4 taccatga taccata gacgacca gaccatctca
37
MultAlin
2/ Construction d'un arbre de clustering
s1 s1 s2 s3 s4
S1 S2
s2 6
s3 0 0
S4 2 3 4
6 0 2 0 3 taccatga
||||||| |
taccat-a
On va regrouper ces 2 squences dans le tableau des alignements 2 2 qui ont le meilleur score donc s1 et s2
38
MultAlin
2/ Construction d'un arbre de clustering
s1 s1 s2 s3 s4 6 0 2 0 3 4 s2 6 s3 0 0 S4 2 3 4 s1s2 s3 s4 0 2.5 4 s1s2 s3 0 S4 2.5 4
S1 S2
taccatga
||||||| |
taccat-a
Pour calculer les nouveaux scores avec les autres squences : moyenne des scores des squences regroupes: S1s2 avec s4 : (2+3 )/2=2.5 Mme chose pour s1s2 avec s3 = 0
39
MultAlin
2/ Construction d'un arbre de clustering
s1s2 s1s2 s3 s4
S3 S4
s3 0
s1s2 1.25
s3s4 1.25
0 2.5 4
gacga-c-ca
||| | | ||
gaccatctca
Pour calculer les nouveaux scores avec les autres squences : moyenne des scores des squences regroupes: s3+s4 = (2.5+0)/2= 1.25
40
MultAlin
S1 S2 S3 S4
41
Recommencer
DIagonal + ALIGNement
Morgenstern et al. 1996
DIALIGN
42
DIALIGN
43
DIALIGN exemple
3 squences: a) YIAFLFAWDD b) LACFIFGS c) SWEDFMFAED Etape 1 : Dtection des diagonales dans les paires de squences: Rechercher tous les fragments (suite de lettres) le plus grand possible similaires entre deux squences
YIAFLFAWDD
SWEDFMFAED LACFIFGS
44
DIALIGN exemple
3 squences: a) YIAFLFAWDD b) LACFIFGS c) SWEDFMFAED Etape 1 : Dtection des diagonales dans les paires de squences: Rechercher tous les fragments (suite de lettres) le plus grand possible similaires entre deux squences
YIAFLFAWDD
SWEDFMFAED LACFIFGS
45
DIALIGN exemple
3 squences: a) YIAFLFAWDD b) LACFIFGS c) SWEDFMFAED Etape 1 : Dtection des diagonales dans les paires de squences: Rechercher tous les fragments (suite de lettres) le plus grand possible similaires entre deux squences
YIAFLFAWDD
SWEDFMFAED LACFIFGS
46
DIALIGN exemple
Etape 2 : Slection dun ensemble cohrent de diagonales pour construire lalignement, on retient que les fragments compatibles: Pas de croisement Pas de chevauchements score maximal
YIAFLFAWDD
SWEDFMFAED
Le fragment WDD et WED est incompatible avec l'autre fragment, donc on va conserver seulement le plus grand.
47
DIALIGN exemple
Etape 2 : Tri des squences en fonction du nombre total de fragments communs entre elles.
YIAFLFAWDD
SWEDFMFAED LACFIFGS
Il y a deux fragments compatibles entre la squence a et b, donc on va commencer par ces deux squences.
yIA-FLFawdd -LAcFIFgs-48
DIALIGN exemple
Etape 2 : Alignement itratif des squences, de la premire la dernire de la liste. A chaque itration, des insertions sont ajoutes de manire ce que les diffrents rsidus soient correctement aligns
yIA-FLFAWDd -LAcFIFgs-swedFMFAED-
49
Autres mthodes
T-Coffee Notredame C et al. 2000 exemple: http://www.ebi.ac.uk/Tools/msa/tcoffee/
Il permet de tenir compte de contraintes locales lies la structure des protines -> mthode consensus T-Coffee is a multiple sequence alignment program. Its main characteristic is that it will allow you to combine results obtained with several alignment methods.
Comparaison
Exemple (C. Notredame)
GARFIELD THE LAST FAT CAT GARFIELD THE FAT CAT GARFIELD THE VERY FAST CAT THE FAT CAT
51
1 1 1 1
52
Comparaison MAIS !
GARFIELD THE LAST FAT CAT THE FAT CAT GARFIELD GARFIELD THE VERY FAST CAT THE FAT CAT
53
Comparaison MAIS !
Alignement fourni par ClustalW2:
17 9 21 22
s3 s3 s2 s4
GARFIELDTHEVERYFASTCAT---------------THE----FA-TCATGARFIELD --------THE----FA-TCAT-------GARFIELDTHELASTFA-TCAT--------
54
sp|P47938|THIO1_DROME sp|Q09433|THIO1_CAEEL tr|Q8T9N5|Q8T9N5_SCHMA sp|Q43636|TRXH_RICCO sp|P10599|THIO_HUMAN sp|P29451|THIO_MACMU sp|P50413|THIO_SHEEP sp|P08628|THIO_RABIT sp|P08629|THIO_CHICK sp|P29445|THIO1_DICDI sp|P29447|THIO3_DICDI sp|P42115|THIO_NEUCR sp|P0AA25|THIO_ECOLI sp|P52233|THIO_THIFE sp|Q05739|THIO_STRCL sp|P51225|THIO_PORPU sp|O22022|THIO_CYAME
-------MASVRTMN---DYHKRIEAADDK--LIVLDFYATWCGPCKEME MLKRCNFKNQVKYFQS--DFEQLIRQHPEK--IIILDFYATWCGPCKAIA -------MSKLIELKQDGDLESLLEQHKNK--LVVVDFFATWCGPCKTIA ---MAAEEGQVIGCHTVEAWNEQLQKGNDTKGLIVVDFTASWCGPCRFIA ---------MVKQIESKTAFQEALDAAGDK--LVVVDFSATWCGPCKMIK ---------MVKQIESKAAFQEALDDAGDK--LVVVDFSATWCGPCKMIK ---------MVKQIESKYAFQEALNSAGEK--LVVVDFSATWCGPCKMIK ---------MVKQIESKSAFQEVLDSAGDK--LVVVDFSATWCGPCKMIK ---------MVKSVGNLADFEAELKAAGEK--LVVVDFSATWCGPCKMIK ------MSNRVIHVSSCEELDKHLR--DER---VVVDFSAVWCGPCRAIS ------MS-KVIHVTSNEELDKYLQ--HQR---VVVDFSAEWCGPCRAIA ------MSDGVKHINSAQEFANLLNTTQYV----VADFYADWCGPCKAIA -------MSDKIIHLTDDSFDTDVLKADGA---ILVDFWAEWCGPCKMIA -------MSDAILYVSDDSFETDVLKSSKP---VLVDFWAEWCGPCKMIA -------MAGVLKNVTDDTFEADVLKSEKP---VLVDFWAEWCGPCRQIA -------MS--VSQVTDASFKQEVINNDLP---VLVDFWAPWCGPCRMVS -----------MLHIDELTFENEVLQSEKL---VLVDFWAPWCGPCRMIG : : ** * *****: : STVKSLARKYSSK--AVVLKIDVDKFEELTERYKVRSMPTFVFLRQNRRL PLYKELATTHKG---IIFCKVDVDEAEDLCSKYDVKMMPTFIFTKNGDAI PLFKELSEKYDA----IFVKVDVDKLEETARKYNISAMPTFIAIKNGEKV PFLAELAKKLPN---VTFLKVDVDELKTVAHEWAVESMPTFMFLKEGKIM PFFHSLSEKYSN---VIFLEVDVDDCQDVASECEVKCMPTFQFFKKGQKV PFFHSLSEKYSN---VVFLEVDVDDCQDVASECEVKCMPTFQFFKKGQKV PFFHSLSEKYSN---VVFLEVDVDDCQDVAAECEVKCMPTFQFFKKGQKV PFFHALSEKFNN---VVFIEVDVDDCKDIAAECEVKCMPTFQFFKKGQKV PFFHSLCDKFGD---VVFIEIDVDDAQDVATHCDVKCMPTFQFYKNGKKV PVFEKLSNEFIT---FTFLHVDIDKLNVHPIVSKIKSVPTFHFYRNGSKV PVFDKLSNEFTT---FTFVHVDIDKVNTHPIVKEIRSVPTFYFYVNGAKV PMYAQFAKTFSIPNFLAFAKINVDSVQQVAQHYRVSAMPTFLFFKNGKQV PILDEIADEYQGK--LTVAKLNIDQNPGTAPKYGIRGIPTLLLFKNGEVA PILEEIADEYADR--LRVAKFNIDENPNTPPQYAIRGIPTLLLFKAGKLE PSLEAIT-EHGGQ--IEIVKLNIDQNPATAAKYGVMSIPTLNVYQGGEVV PVVDAIAEEYESS--IKVVKINTDDNPTIAAEYGIRSIPTLMIFKSGERV PILEEIAKEFN----LKVVQVNTDENPNLATFYGIRSIPTLMLFKKGQRV . : . ..: *. : :**: . AS-----FAGADEHKLTNMMAKLVKA----------EA-----LEGCVEDELRQKVLEHVSAQ---------GD-----VVGASIAKVEDMIKKFI------------DK-----VVGAKKDELQQTIAKHMATAST-------GE-----FSGANKEKLEATINELV------------GE-----FSGANKEKLEATINELV------------SE-----FSGANKEKLEATINELI------------GE-----FSGANKEKLEATINELL------------QE-----FSGANKEKLEETIKSLV------------SE-----FSGASESILRSTLEANK------------SE-----FSGANEATLRSTLEANI------------AVNGSVMIQGADVNSLRAAAEKMGRLAKEKAAAAGSS AT----KVGALSKGQLKEFLDANLA-----------AT----KVGALSKAQLTAFLDSQL------------KT----IVGAKPKAALLRPGPVPR------------DT----VIGAVPKSTLESTLNKYIS-----------DT----VIGAVPKSILIHTINKYL------------. . :
sp|P47938|THIO1_DROME sp|Q09433|THIO1_CAEEL tr|Q8T9N5|Q8T9N5_SCHMA sp|Q43636|TRXH_RICCO sp|P10599|THIO_HUMAN sp|P29451|THIO_MACMU sp|P50413|THIO_SHEEP sp|P08628|THIO_RABIT sp|P08629|THIO_CHICK sp|P29445|THIO1_DICDI sp|P29447|THIO3_DICDI sp|P42115|THIO_NEUCR sp|P0AA25|THIO_ECOLI sp|P52233|THIO_THIFE sp|Q05739|THIO_STRCL sp|P51225|THIO_PORPU sp|O22022|THIO_CYAME
sp|P47938|THIO1_DROME sp|Q09433|THIO1_CAEEL tr|Q8T9N5|Q8T9N5_SCHMA sp|Q43636|TRXH_RICCO sp|P10599|THIO_HUMAN sp|P29451|THIO_MACMU sp|P50413|THIO_SHEEP sp|P08628|THIO_RABIT sp|P08629|THIO_CHICK sp|P29445|THIO1_DICDI sp|P29447|THIO3_DICDI sp|P42115|THIO_NEUCR sp|P0AA25|THIO_ECOLI sp|P52233|THIO_THIFE sp|Q05739|THIO_STRCL sp|P51225|THIO_PORPU sp|O22022|THIO_CYAME
55
56
57
ClustalW a tendance autoriser moins de gaps que Dialign Similitude locale : Dialign Similitude globale : ClustalW Existe dautres mthodes : Muscle, MultiAlign, Tcoffee, etc Pas de mthode universelle Pas de confiance aveugle vis--vis du rsultat obtenu
58