3alineamiento PAREADO de Secuencias2013

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 36

Alineamiento pareado de secuencias

Protocolo bsico para un anlisis filogentico de secuencias moleculares Coleccin de secuencias homlogas BLAST y FASTA Alineamiento mltiple de secuencias Clustal, T-Coffee, muscle... Anlisis evolutivo del alineamiento y seleccin del modelo de sustitucin ms ajustado tests de saturacin, modeltest, ... Estima filogentica NJ, ME, MP, ML, Bayes ... Pruebas de confiabilidad de la topologa inferida proporciones de bootstrap probabilidad posterior ... Interpretacin evolutiva y aplicacin de las filogenias

ALINEAMIENTO DE SECUENCIAS PREGUNTA: Son dos secuencias relacionadas? Comparar dos secuencias, ver si son similares EJEMPLO: ROCA Y FOCA Palabras similares, significados diferentes

Los alineamientos pareados son la base de lo mtodos de bsqueda de secuencias homlogas en bases de datos Si dos protenas o genes se parecen mucho a lo largo de toda su longitud asumimos que se trata de protenas o genes homlogos, es decir, descendientes de un mismo ancestro comn (cenancestro). Por ello una de las tcnicas ms utilizadas para detectar potenciales homlogos en bases de datos de secuencias se basa en la cuantificacin de la similitud entre pares de secuencias y la determinacin de la significancia estadstica de dicho parecido. Estas magnitudes son las que reportan las estadsticas de BLAST.

Alineamiento de secuencias de DNA y protena Dadas 2 ms secuencias, lo que generalmente deseamos es: 1. cuantificar su grado de similitud 2. determinar las correspondencias evolutivas (homologa) 3. describir e interpretar patrones de conservacin y variacin 4. inferir las relaciones evolutivas entre las secuencias Para definir ndices cuantitativos de similitud entre secuencias necesitamos primero definir las correspondencias evolutivas (homologa) entre los residuos de distintas secuencias, en forma de un alineamiento.

Alineamiento de secuencias de DNA y protena POSIBLE RESULTADOS DE COMPARACION Match (IDENTIDAD) Mismatch (substitucion o mutacion) Insercion/Delecion (INDELS gaps) Para optimizar un alineamiento necesitamos acomodar las correspondencias entre resduos idnticos, distintos, inserciones y deleciones. Esto se logra matemticamente usando factores de ponderacin (weightings) para cada caso. As un match tiene un peso, un mismatch otro y los indeles un tercer valor. Dos secuencias se comparan resduo a resduo, generndose un valor de puntuacin (score) acorde a estas ponderaciones, que refleja el nivel de similitud entre ellas

Possible scoring scheme: match: +2 mismatch: -1 indel 2 Alignment 1: 5 * 2 1(1) 4(2) = 10 1 8 = 1 Alignment 2: 6 * 2 1(1) 2 (2) = 12 1 4 = 7

Homologa entre secuencias de DNA y protena: conceptos y terminologa bsica A lo largo de la evolucin las secuencias descendientes de otra ancestral van acumulando diversos tipos de mutaciones. Estas son mutaciones puntuales o reorganizaciones genmicas, que pueden involucrar inserciones, deleciones, inversiones, translocaciones o duplicaciones, mediados por distintos mecanismos de recombinacin (homloga e ilegtima) Cualquier anlisis filogentico y/o evolutivo de secuencias moleculares requiere de un alineamiento para poder comparar sitios homlogos entre las secuencias a estudiar. Para ello se escriben las secuencias en filas una sobre la otra, de modo que los sitios homlogos quedan alineados por columnas. Cada sitio o columna del alineamiento corresponde a un carcter, y los nt o aa que ocupan dichas posiciones representan los estados del caracter

Homologa entre secuencias de DNA y protena: conceptos y terminologa bsica Cuando por eventos de insercin o delecin (indeles) las secuencias homlogas presentan distintas longitudes, es necesario introducir gaps en el alineamiento para mantener la correspondencia entre sitios homlogos situados antes y despus de las regiones afectadas por indeles. Estas regiones se identifican mediante guiones (-). Los indeles no se distribuyen aleatoriamente en las secuencias codificadoras. Casi siempre aparecen ubicados entre dominios funcionales o estructurales, preferentemente en bucles (loops) que conectan a dichos dominios. Esto vale tanto para RNAs estructurales (tRNAs y rRNAs) como para protenas. No suelen interrumpir el marco de lectura.
A mayor distancia gentica (evolutiva) entre un par de secuencias, mayor ser el nmero de mutaciones acumuladas. Dependiendo del tiempo de separacin de los linajes y la tasa evolutiva del locus, puede llegar a ser imposible alinear ciertas regiones debido a fenmenos de saturacin mutacional. Las regiones de homologa dudosa deben de ser excludas de un anlisis filogentico

Homologa entre secuencias de DNA y protena: tipos de mutaciones en secuencias. codificadoras de protenas

Todas las mutaciones en 2as posiciones resultan en sustituciones no sinnimas 96% de mutaciones en 1as posiciones resultan en sustituciones no sinnimas Casi todas las sustituciones sinnimas ocurren en las 3as posiciones Las deleciones o inserciones en secuencias. codificadoras de aa suceden generalmente en mltiplos de tres nucleotidos; de no ser as se generan cambios de marco de lectura corriente abajo de la mutacin, con frecuencia generando un pseudogen no funcional

tgctagtagcgcatccgcggccgtagattatatatagtgatgctgcgctcgtcgtcgtagctagctagctagctagct

DOT MATRIX O METODO GRAFICO PARA COMPARAR SECUENCIAS


M M H E E A M G C A M
0 0 0 0

M
0

Divergencia

Insercin / delecin

Repeticiones internas

Ruido en anlisis de dot plots Comparaciones en cidos nucleicos 4 elementos en vez de aminocidos 20 elementos

Estringencia o fortaleza del anlisis Tamao de la ventana El porcentaje de bases que se comparan en la ventana es seteada como una lnea de base o threshold

COMPARACION DE SECUENCIAS
Secuencia: A Secuencia: B LPSSKTGKGESL SRIWDN LTK SAG K GAS R I DA

ALINEAMIENTO GLOBAL

gaps LPSSKTGKGESL SRIWDN

introducidos

| | |

| | |

L TKSAGK GA S R I DA

Convertir una secuencia en otra 1. SUSTITUCIONES 2. INSERCIONES

ALINEAMIENTO LOCAL

bloques de secuencias alineados


GKG SRI | | | | | | G K G S R I

3. DELECIONES

Implica EVOLUCION

Programacin dinmica y la generacin de alineamientos pareados (globales y locales) Estudiar el fundamento de los algoritmos de PD es un buen punto para entender lo que acontece dentro de software usado extensamente en biologa computacional: El corazn de programas como BLAST, FASTA, CLUSTALW, HMMER, GENSCAN, MFOLD y los de inferencia filogentica (PHYLIP, PAUP, MrBayes ...) emplean alguna forma de programacin dinmica.

Alineamientos pareados: el problema visto desde la perspectiva biolgica El supuesto bsico es que si dos secuencias se parecen mucho a lo largo de sus secuencias es porque comparten un ancestro comn : son homlogas. Es decir, inferimos la homologa a partir de la similitud.
Para cuantificar objetivamente el nivel de similitud necesitamos un sistema de puntuacin (scoring scheme) que lo refleje adecuadamente, desde una perspectiva evolutiva El objetivo es alinear las dos secuencias de tal manera que se maximice su similitud Para ello necesitamos un algoritmo, ya que no es prctico evaluar todos los alineamientos posibles entre un par de secuencias dado el elevadsimo nmero de combinaciones (22N / (2N )1/2). As para dos secs. de 300 resduos existen 10179 alns. posibles!!! Los algoritmos de programacin dinmica son adecuados para este trabajo

Programacin dinmica y la generacin de alineamientos pareados (globales y locales) Pares de secuencias pueden ser comparadas usando alineamientos globales y locales, dependiendo del objetivo de la comparacin. Un alineamiento global fuerza el alineamiento de ambas secuencias a lo largo de toda su longitud. Usamos alineamientos globales cuando estamos seguros de que la homologa se extiende a lo largo de todas las secuencias a comparar. Este es el tipo de alineamientos que generan programas de alineamiento mltiple tales como clustal, T-Coffee o muscle.

Alineamiento global ptimo del citocromo C humano (105 resduos, SWISSPROT acc. P00001) y citocromo C2 de Rhodopseudomonas palustris (114 resduos, SWISS-PROT acc. P00090).

MATRIX NEEDLEMAN WUNSCH PARA ALINEAMIENTO GLOBAL

Programacin dinmica y la generacin de alineamientos pareados (globales y locales) Un alineamiento local slo busca los segmentos con la puntuacin ms alta. Se usa por ejemplo en el escrutinio de bases de datos de secuencias debido a que la homologa entre pares de secuencias frecuentemente existe slo a nivel de ciertos dominios, pero no a lo largo de toda la secuencia (estructura modular de protenas; genes discontnuos intrones-exonesm; barajado de exones ...). BLAST y FASTA buscan alineamientos locales con alta puntuacion (HSPs high-scoring pairs)

Alineamiento local ptimo del regulador de conductancia transmembranal de fibrosis cstica de humano (1480 resduos, SWISS-PROT acc. P13569) y una protena transportadora dependiente de ATP de E. coli (253 resduos, SWISS-PROT acc. P33593). La matriz de puntuacin o ponderacin (scoring matrix) empleada fue BLOSUM62, con costo de gaps afines de (11 + k). La puntuacin del alineamiento local es de 89, usando el algoritmo de Smith-Waterman.

Algoritmo que garantiza encontrar el alineamiento global de puntuacin mxima La PD constituye una tcnica muy general de programacin. Se suele aplicar cuando existe un espacio de bsqueda muy grande y ste puede ser estructurado en una serie o sucesin de estados tales que: 1. el estado inicial contiene soluciones triviales de subproblemas 2. cada solucin parcial de estados posteriores puede ser calculada por interaccin sobre un nmero fijo de soluciones parciales de los estados anteriores 3. el estado final contiene la solucin final Un algoritmo de PD consta de 3 fases: 1. fase de inicializacin y definicin recurrente del score ptimo 2. relleno de la matriz de PD para guardar los scores de subproblemas resueltos en cada interaccion. Se comienza por resolver el subproblema ms pequeo 3. un rastreo reverso de la matriz para recuperar la estructura de la solucin ptima Saul Needleman and Christian Wunsch (1970). A general method applicable to the search for similarities in the amino acid sequence of two proteins, J Mol Biol. 48(3):443-53. Smith TF, Waterman MS (1981) J. Mol. Biol 147(1);195-7 Se trata de una modificacin simple del algoritmo de Needleman-Wunsch. Y como resultado obtenemos el alineamiento local con mayor puntuacin de todos los posibles en la matriz

Alineamientos globales vs. locales Aunque muy similares desde el punto de vista mecanstico, ambos tienen propiedades y aplicaciones muy diferentes. Por ejemplo, si queremos alinear dos genes eucariticos muy divergentes esperaramos que la estructura y secuencia de exones est relativamente conservada, si bien los intrones habrn sufrido muchos eventos de indel. En cambio un algoritmo de aln. local s podr identificar y alinear correctamente a las regiones exnicas homlogas. Pero usando implementaciones como las vistas en el ejemplo slo recuperaremos aquel aln. local con la puntuacin ms alta. Los exones tal vez slo representen el 1-5% de la secuencia de estos genes. Por ello si queremos usar una estrategia de alineamiento global el resultado seguramente ser desastroso desde un punto de vista biolgico. Muy posiblemente las regiones exnicas homlogas no se alineen. Ello se debe a que su contribucin a la puntuacin (score) del alineamiento es mnimo dado su reducido tamao relativo. Estas limitaciones de los algoritmos clsicos de SW y NW han sido eliminadas en las mltiples variantes que existen de los mismos para distinto propsitos (BLAST, Clustal, etc).
Los algoritmos de DP descritos tienen una complejidad O(nm ) tanto en tiempo como en memoria, donde n y m son la longitud de las secuencias a alinear. No se deben por tanto usar estos algoritmos para alinear secuencias largas como por ejemplo dos genomas. El no. de celdas requeridas es de n x m y cada celda toma unos 8 bytes de memoria. Por tanto, alinear dos secuencias de unas 100kb cada una demandara unos 80 gibabytes (GB) de RAM.

También podría gustarte