Bioinformatica 2
Bioinformatica 2
Bioinformatica 2
Estimadas/os estudiantes
La actividad práctica 2 tiene como objetivo reforzar lo aprendido sobre alineamiento de
secuencias y entregarles herramientas que les permitan comparar secuencias. Para lograr
los objetivos de este práctico vamos a utilizar distintas secuencias las cuales analizaremos
en herramientas online. Los resultados deben quedar registrados en un informe que
prepararán en sus casas para ser entregado en formato PDF el miércoles 21 de junio.
La siguiente guía representa un esquema de actividades que deben ser resueltos a modo
de informe. Las respuestas deben ser breves y apoyadas de imágenes (capturas de
pantalla) según corresponda.
Actividad 3.1:
Reporte los 10 primeros hits usando FASTA (http://www.ebi.ac.uk/fasta3/) y BLAST (Protein
BLAST) (http://www.ncbi.nlm.nih.gov/BLAST). En ambos casos debe hacerlo contra la base
de datos UniProtKB/Swiss-Prot así que revise los parámetros para seleccionar la base de
datos correcta. Debe entregar un listado de los 10 primeros resultados obtenidos desde
BLAST y los obtenidos desde FASTA (si viene con e-value y score es suficiente).
El e-value (Expect) es el número de alineamientos que esperamos para una
puntuación (score) X (o superior) en la búsqueda que estamos realizando si la base
de datos fuese una colección de letras al azar.
BLAST
1 Q40541.1 0 678
2 O22040.2 0 627
3 Q9FZ36.1 0 619
4 O22042.1 0 562
5 Q54R82.2 2x 10
−85 291
6 F4HRJ4.1 8 x 10
−82 274
7 Q9CAD5.1 3 x 10
−77 268
8 P28829.1 5 x 10
−75 257
9 G4N7X0.1 1 x 10
−73 258
10 Q56UN5.1 1 x 10
−71 256
FASTA
1 Q56UN5.1 2,6 x 10
−70 269,1
2 SP:Q9FZ36 8,3 x 10
−67 257,4
3 SP:Q40541 2,1 x 10
−65 252,9
4 SP:O22042 3,8 x 10
−56 222
5 SP:Q54R82 1,4 x 10
−33 147,6
7 SP:Q9CAD5 5,9 x 10
−31 138,7
8 SP:P28829 4,6 x 10
−29 132
9 SP:G4N7X0 7 x 10
−29 131,9
10 SP:Q56UN5 3 x 10
−28 130,4
Actividad 3.2:
¿Qué diferencias observa a nivel del alineamiento global y local?
Ayuda: Revisen la sección de los alineamientos (Tool Output en FASTA y Alignments en
BLAST). Vean primero uno de los mejores alineamientos (parte superior) y luego uno de los
peores alineamientos (final del listado, más allá de los mejores 10). Al comparar deben
notar en el alineamiento la diferencia en apertura de GAPs y, en general, la asignación de la
zona de homología.
Se observa que en el local hay un alineamiento centrado más en tramos entre las
secuencias para alcanzar un puntaje, mientras que en el global se centre en toda la
secuencia lo más posible, haciendo que cada uno utilice gaps para cumplir con cada
objetivo pero éste último al alinear segmentos muy grandes se generan imprecisiones en
forma de alineamiento correcto entre 2 aminoácidos distintos, cosa que no pasa en el local.
Actividad 4.1
a) Realice la búsqueda con la secuencia completa. Guarde los resultados para que usted
pueda compararlos usando los resultados siguientes.
b) Realice la búsqueda sólo con el segmento entre las posiciones 121 y 240.
c) Realice una tercera búsqueda usando sólo el segmento 601 al 780.
Revise los resultados obtenidos en a, b y c.
4.1.3 Si la respuesta anterior es afirmativa ¿cómo puede usted explicarlo? Recuerde que
FASTA usa alineamiento global, si cambia el tamaño del query seguirá haciendo
alineamiento global pero el patrón a buscar será más específico.
Es porque antes del global usa uno local para alinear las regiones cortas entre las
secuencias y luego deben ser mantenidos en la global dando una similitud más
óptima.
Actividad 5.1
Diríjase a los resultados gráficos (Graphic Summary). En la parte superior Ud. podrán
observar los resultados de los dominios conservados predichos para dicha proteína
mediante un pre análisis que realiza la herramienta BLASTP contra una base de datos de
dominios conservados. (CD = Conserved Domains). Haga clic en el gráfico de los dominios
conservados y aparecerá un listado amplio de distintas secuencias de dominios
conservados que hicieron match con la secuencia.
5.1.1 ¿Qué nombres obtuvo (CD) y qué significan?
Desde luego aparecen varios, pero si están en el mismo sector es porque son el mismo
dominio. Por ejemplo, MAPKK. Debe reconocer y describir 2 sectores, es decir, dos
dominios.
● PKc_MAPKK_plant_like: Dominio catalítico de proteína quinasa quinasa activada por
mitógeno de especificidad dual vegetal y proteínas similares que cataliza la
transferencia del grupo gamma-fosforilo del ATP a los residuos de serina/treonina
(ST) o tirosina en sustratos proteicos.
● PLN00034: Proteína provisional quinasa quinasa activada por mitógeno
● S_TKc: Dominio catalítico de proteína Serina/treonina quinasas de la subfamilia de
las fosfotransferasas
● Pquinasa: Dominio de proteína quinasa
● SPS1: Proteina Serina/treonina quinasa [Mecanismos de transducción de señales]
● STKc_LKB1_CaMKK: Dominio catalítico de las serina/treonina quinasas, hígado
quinasa B1, proteína quinasa quinasa dependiente de calmodulina y proteínas
similares
● PknB_PASTA_kin: Ser/Thr quinasa que contiene el dominio PASTA de la familia Stk1
● TOMM_kin_cyc: Proteína de fusión quinasa/ciclasa del sistema TOMM
● SPS1: Proteína Serina/treonina quinasa [Mecanismos de transducción de señales]
● PknB_PASTA_kin: Quinasa Ser/Thr que contiene el dominio PASTA de la familia
Stk1
● STYKc: Proteína quinasa; especificidad no clasificada
● PTZ00263: Subunidad provisional catalítica de proteína quinasa A
● TOMM_kin_cyc: Proteína de fusión quinasa/ciclasa del sistema TOMM
5.1.2 ¿Cuál es su proteína: query o subject? ¿Qué información se muestra para los CDs?
En la sección “List of domain hits” verán el detalle de cada dominio encontrado... Estos son
los subject.
Es una proteína query. En cada dominio descubierto, su información muestra un
dominio conservado coincidente de la base datos así como su descripción, su
intervalo (su ubicación dentro de la secuencia query), su longitud, su ID de
identificador único para la matriz de puntuación específica de la posición (PSSM), su
E-valor y bit-score respecto al dominio de la base de datos.
5.1.3 Revise el e-value y score obtenido. ¿Son significativas? No aparece el score. Vean el
e-value y, según lo visto en clases (o el detalle del alineamiento), pueden determinar cuáles
son significativos.
Los únicos significativos son:
● PKc_MAPKK_plant_like
● PLN00034
● S_TKc
● Pquinasa
● SPS1
Actividad 5.2
Abra los resultados del BLASTP, es decir, regrese al resultado del BLASTP original pues
hasta ahora estábamos en la sección de dominios conservados (CD). Entre en la sección
“Graphic Summary”.
5.3.2 ¿Cuál es la cobertura total del segundo mejor alineamiento (número total de
aminoácidos alineados)? Elijo el segundo mejor hit (proteína NP_001234595.1) por un tema
práctico: tiene mayor información que podremos analizar en las siguientes preguntas. Haga
clic en "Related Information" -> "Gene" para obtener la información de la proteína que tuvo
el segundo mejor hit contra su proteína. (Aparece a la derecha de cada sección de los
alineamientos).
El alineamiento con “MAPKK [Solanum lycopersicum]” tiene una cobertura total de
265 aminoácidos alineados.
5.3.3 ¿Qué está graficado en la sección " Genomic regions, transcripts, and products"?
En la parte superior de la gráfica se encuentra la cobertura de exones de la
secuencia de RNA y en la parte inferior se encuentra la cobertura de intrones
derivados de alineaciones de la secuencia empalmada. Está además filtrada para
eliminar alineaciones de baja abundancia y de alineaciones aparentes de intrones
retenidos cerca de las uniones de empalme.
Actividad 5.4
Regrese al resultado del BLASTP original y entre en la sección “Taxonomy”.
Actividad 5.4.1
Considerando que Ud. ya definió el origen de la secuencia (especie o género) ¿Por qué hay
varios hits de la proteína con diferentes scores en otras especies? (Por ejemplo, prunus
armeniaca (damasco).
Por la presencia de genes ortólogos en la especie a la cual pertenece la proteína y
entre las que se compararon de p. armeniaca
Actividad 5.4.2
Veo entre 6 a 9 hits con secuencias en Damasco ¿son iguales entre ellas? ¿por qué?
En algunos casos son proteínas con igual función, pero diferente estructura; y en
otros casos difiere estructura y función comparando entre las de la misma especie.
Esto es porque son lecturas diferentes que se compararon a distintas proteínas
conocidas de una misma especie.
Actividad 5.4.3
Los hits que no pertenecen a la especie identificada ¿están biológicamente relacionadas
con su proteína? ¿Son homólogos, ortólogos, parálogos de su proteína?
Al pertenecer también a otra especie diferente a la identificada, se trataría de genes
ortólogos.