Taller Bioinformática
Taller Bioinformática
Taller Bioinformática
Laura Botero
Maria Alejandra Bahamón
Lucía Villalobos
Jose Luis Parra
Los alineamientos sirven, entre otras cosas para asegurarse de que dos secuencias son similares y cuantificar su
similitud, encontrar dominios funcionales, comparar un gen y su producto y buscar posiciones homólogas en las
secuencias.
Alineamiento de secuencias:
Identifique en el alineamiento:
- SNPs
- Inserciones/deleciones (InDels)
- Regiones genomicas conservadas
- Regiones genomicas variables
Para el desarrollo de este taller práctico tomaremos como ejemplo el gen de una proteína desconocida. A partir de
estas secuencias se pretende:
-Analizar información contenida en bases de datos obtenidos a partir del secuenciamiento de ADN o ARN de
diferentes organismos.
- Diseñar cebadores como una aproximación a la técnica de reacción en cadena de la polimerasa (PCR).
Instrucciones:
PARTE I. NCBI/UNIPROT:
_______________________________________________________________________________________
Gen de proteína desconocida. Secuencia nucleotidica a estudiar:
GCACTCTGGCTGGGGAAGGCATGAGTGACAGACCCACAGCAAGGCGGTGGGGTAAGTGTGGAC
CTTTGTGTACCAGAGAGAACATCATGGTGGCTTTCAAAGGGGTCTGGACTCAAGCTT
TCTGGAAAGCAGTCACAGCGGAATTTCTGGCCATGCTTATTTTTGTTCTCCTCAGCCTGG
GATCCACCATCAACTGGGGTGGAACAGAAAAGCCTTTACCTGTCGACATGGTTCTCATCT
CCCTTTGCTTTGGACTCAGCATTGCAACCATGGTGCAGTGCTTTGGCCATATCAGCGGTG
GCCACATCAACCCTGCAGTGACTGTGGCCATGGTGTGCACCAGGAAGATCAGCATCGCCA
AGTCTGTCTTCTACATCGCAGCCCAGTGCCTGGGGGCCATCATTGGAGCAGGAATCCTCT
ATCTGGTCACACCTCCCAGTGTGGTGGGAGGCCTGGGAGTCACCATGGTTCATGGAAATC
TTACCGCTGGTCATGGTCTCCTGGTTGAGTTGATAATCACATTTCAATTGGTGTTTACTA
TCTTTGCCAGCTGTGATTCCAAACGGACTGATGTCACTGGCTCAATAGCTTTAGCAATTG
GATTTTCTGTTGCAATTGGACATTTATTTGCAATCAATTATACTGGTGCCAGCATGAATC
CCGCCCGATCCTTTGGACCTGCAGTTATCATGGGAAATTGGGAAAACCATTGGATATATT
GGGTTGGGCCCATCATAGGAGCTGTCCTCGCTGGTGGCCTTTATGAGTATGTCTTCTGTC
CAGATGTTGAATTCAAACGTCGTTTTAAAGAAGCCTTCAGCAAAGCTGCCCAGCAAACAA
AAGGAAGCTACATGGAGGTGGAGGACAACAGGAGTCAGGTAGAGACGGATGACCTGATTC
TAAAACCTGGAGTGGTGCATGTGATTGACGTTGACCGGGGAGAGGAGAAGAAGGGGAAAGACC
AATCTGGAGAGGTATTGTCTTCAGTATGACTAGAAGATCGCACTGAAAGCAGACAAG
ACTCCTTAGAACTGTCCTCAGATTTCCTTCCACCCATTAAGGAAACAGATTTGTTATAAA
TTAGAAATGTGCAGGTTTGTTGTTTCATGTCATATTACTCAGTCTAAACAATAAATATTTCATAAT
TTACAAAGGAGGAACGGAAGAAACCTATTGTGAATTCCAAATCTAAAAAAAGAA
ATATTTTTAAGATGTTCTTAAGCAAATATATACCTATTTTATCTAGTTACCTTTCATTAA
CAACCAATTTTAACCGTGTGTCAAGATTTGGTTAAGTCTTGCCTGACAGAACTCAAAGAC
ACGTCTATCAGCTTATTCCTTCTCTACTGGAATATTGGTATAGTCAATTCTTATTTGAAT
ATTTATTCTATTAAACTGAGTTTAACAATGGCAAAATACAGTATGTCACAGTCATGCACA
TTCAAGAGAGAAAATATAACAAGTTCTTTTATGAGCAATCCCTTATGCATAGACTACCTT
GGCAAAAGAGCATTAGCAAGTGTCACTGCTCATCAGTTACTTCCTTCCATTTATATCACA
AATACCCAAGTTTCAATTCTAACTTCATTTCATGGTATTTCTTCCTCCTCAATGCCCAAG
GTAATGTGGGACTAAAGCCCAGAAATTTGAAAAGAATATTCAGAAATCCTTCCCAAATCA
TAAGGGCACCTATTGAGATTCAAGACAAGCAGACTCGTAAAATCTTGTAGAGGCAGAGGC
_______________________________________________________________________________________________________
1) Analice en detalle cual es la información que se encuentra disponible para un gen en GENEBANK. Para
esto utilice el siguiente link: https://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html
a. En locus, que quiere decir PLN? Que otro tipo de alternativas existen?
R// Secuencias de Plantas, Hongos y Algas. Las otras alternativas son por clasificación de organismos o por el
tipo de la muestra.
b. Que información tiene el ACCESION?
R// Identificador único para un registro de secuencia completo. Este no cambia si la información que contiene
es cambiada por el autor. Sin embargo, un numero de acceso inicial puede pasar a ser secundario si se genera
un reemplazo o combinación del registro anterior.
c. Que información tiene VERSION?
R// Número de identificación de la secuencia de nucleótidos que representa una única secuencia específica en
la base de datos de GenBank. Está separado por un punto del número de acceso y aumenta si se realiza
cualquier cambio en el registro.
d. Quien publicó esta información? Esta publicada en alguna revista científica? En cual?
R// La primera referencia fue publicada en el libro Yeast edición 10 por Torpey,L.E., Gibbs,P.E., Nelson,J.
and Lawrence,C.W. La segunda fue publicada en el libro Genes and development por Roemer,T., Madden,K.,
Chang,J. and Snyder,M. Y la tercera fue publicada por Roemer,T. en un artículo de la universidad de Yale.
e. Que quiere decir CDS?
R// Secuencia de codificación; nucleótidos que darán origen a una proteína o ARN funcional. Incluye una
traducción de aminoácidos.
f. Encuentran la secuencia de aminoácidos y nucleótidos?
R// Si, se encuentra la secuencia completa de nucleótidos de toda la proteína. Y la secuencia de aminoácidos
también, pero varia en longitud y aminoácidos dependiendo de la práctica en la que se usó la información y el
tramo de la secuencia que se tradujo.
2) Ahora con la secuencia de la página 1 realice un BLAST para nucleótidos. Que secuencia de ADN estamos
estudiando? Cual es el “accesión number”? Que información le brinda la base de datos al hacer click en el
“accesión number”?
R// La secuencia es la que codifica para una proteína acuaporina de humanos. El número de acceso es D63412. Y
al ingresar a esta muestra brinda: el locus, la definición, la versión, el organismo a que pertenece, las referencias
que se han dado de esta secuencia, su CDS, y la secuencia original de la que proviene.
5) Finalmente traduzca la secuencia nucleotidica a proteína utilizando EXPASY, opción “translate”. Para
usted, cuál de las proteínas sugeridas por EXPASY sería la más probable?
R// En el marco 3 en sentido 5’3’ la secuencia de aminoácidos que se muestra abajo porque, por la longitud
conocida de la proteína, es improbable que sea una de las cortas que se presentan.
Met S D R P T A R R W G K C G P L C T R E N I Met V A F K G V W T Q A F W K A V T A E F L A
Met L I F V L L S L G S T I N W G G T E K P L P V D Met V L I S L C F G L S I A T Met V Q C F G H I
S G G H I N P A V T V A Met V C T R K I S I A K S V F Y I A A Q C L G A I I G A G I L Y L V T P P S V
V G G L G V T Met V H G N L T A G H G L L V E L I I T F Q L V F T I F A S C D S K R T D V T G S I A
L A I G F S V A I G H L F A I N Y T G A S Met N P A R S F G P A V I Met G N W E N H W I Y W V G P
I I G A V L A G G L Y E Y V F C P D V E F K R R F K E A F S K A A Q Q T K G S Y Met E V E D N R
S Q V E T D D L I L K P G V V H V I D V D R G E E K K G K D Q S G E V L S S V Stop
Con la secuencia de la acuaporina (página 1) diseñe primers para amplificar dicho gen. Recuerde las
herramientas bioinformáticas que empleo para el taller 3 (PCR).
R// Se pueden diseñar 5 primers, mostrados a continuación:
start len tm gc% any 3' seq
Para el desarrollo de este taller práctico tomaremos como ejemplo los estudios de asociación de genes candidatos
a una condición en particular (por ejemplo enfermedad). En este tipo de estudios, es ideal emplear SNPs, donde la
identificación de sustituciones nucleotídicas puede tener implicaciones importantes para el diseño e interpretación
de estudios de asociación con características fenotípicas. Por lo tanto, el objetivo de esta práctica es establecer
alteraciones en parámetros bioquímicos y biológicos, generados por SNPs reportados en un gen de interés a nivel
proteico mediante un análisis computacional y establecer cuáles son los SNPs con mayor capacidad de alterar
funcional y fenotípicamente estas moléculas.
1. La presencia de mutaciones puntuales no sinónimas en un producto génico pueden explicar una patología. A través
de esta guía se analizarán las alteraciones fisicoquímicas y biológicas debidas a mutaciones puntuales en el gen
BRCA1, gen asociado a cáncer de seno y de útero.
b) Obtener la secuencia de aminoácidos de la proteína. ¿Dónde pueden encontrar esta secuencia en PDB? Cuáles
secuencias de aminoácidos obtenida en formato Fasta?
MDLSALRVEEVQNVINAMQKILECPICLELIKEPVSTKCDHIFCKFCMLKLLNQKKGPSQCPLCKNDITKRSLQESTRFS
QLVEELLKIICAFQLDTGLEYANSYNFAKKGK
e) Ingrese a NCBI, bajo la opción “all databases” ingrese el código RS80357150, ¿Qué información obtiene?
R// La información que se obtiene es el nivel de la mutación, el alelo en el que se presenta, la proteína a la cual
pertenece la mutación, que tipo de mutación es, el condón específico en donde se da la mutación y el nucleótido que
cambia. Además, provee todas las SNPs existentes en esa proteína.
f) Ahora, haga click en la opción ClinVar. Bajo esta base de datos deben aparecen 2 mutaciones diferentes a nivel
nucleotidico que al ser traducidas generan cambios en aminoácidos. Describa claramente cuáles son esas
mutaciones y sus respectivos loci.
R// Aparecen dos mutaciones ubicadas en el cromosoma 17, en la posición 43106528. El cambio se da en el codón
TGC, donde se remplaza la G por una T, provocando que se codifique una fenilalanina en vez de la cisteína.
g) Ahora, desde “all databases” haga click en la opción “SNP”. ¿Cuál es el origen de esta mutación? ¿Cuál es el
significado clínico de esta mutación?
R// El origen de la mutación es germinal y su significado clínico es que es patológico para cáncer de mama y ovario.
h) Ahora usted necesita diseñar una PCR para hacer el diagnostico. En la opción SNP, haga click sobre el código
de la mutación. Explore hasta encontrar una “fasta sequence”. ¿Qué quiere decir la letra “D” en dicha
secuencia?
R// La D nos expresa que en esa posición puede ir una A, una G o una T, dependiendo de la mutación.
i) Usando softwares para el diseño de primers. ¿Sería posible amplificar un fragmento que se pueda secuenciar
para diagnosticar la mutación puntual que se está estudiando?
R// Si, debido a que el cambio es en un sólo nucleótido y este no interfiere en la estructura del primer.
c. Ingresar a la página web de SIFT: http://sift.bii.a-star.edu.sg/. ¿Qué tipo de análisis provee esta herramienta
bioinformática? Seleccione “SIFT sequence”
R// Provee un análisis de los cambios funcionales de una proteína, según el cambio de uno de sus aminoácidos.
d. Copie la secuencia de aminoácidos de la proteína BCRA1 en el recuadro destinado para tal fin. Haga click en
“submit”
e. ¿Están los aminoácidos F y Y dentro de las mutaciones tolerantes para la posición 47? ¿Biológicamente que quiere
decir esto?
En prime instancia, los amino ácidos F fenilalanina, y el Y tirosina, no aparecen dentro de las mutación tolerantes en la
posición 47. Esto quiere decir que no sería posible cumplir con su función correctamente si hay un cambio por alguno
de estos aminoácidos.
a. Usando la secuencia fasta de la proteína usada en el punto 2 genere copias de esta (ver abajo). Una copia debe
tener en la posición 47 el aminoácido silvestre (C). La otra copia debe tener el alelo mutante (F) o (Y):
>1JM7_sequencewild:
MDLSALRVEEVQNVINAMQKILECPICLELIKEPVSTKCDHIFCKFCMLKLLNQKKGPSQCPLCKNDIT
KRSLQESTRFS
QLVEELLKIICAFQLDTGLEYANSYNFAKKGK
>1JM7_sequencemutatedY:
MDLSALRVEEVQNVINAMQKILECPICLELIKEPVSTKCDHIFCKFYMLKLLNQKKGPSQCPLCKNDIT
KRSLQESTRFS
QLVEELLKIICAFQLDTGLEYANSYNFAKKGK
>1JM7_sequencemutatedF:
MDLSALRVEEVQNVINAMQKILECPICLELIKEPVSTKCDHIFCKFFMLKLLNQKKGPSQCPLCKNDIT
KRSLQESTRFS
QLVEELLKIICAFQLDTGLEYANSYNFAKKGK
b. Ingrese a la herramienta bioinformática PSIPRE: http://bioinf.cs.ucl.ac.uk/psipred/. ¿Qué tipo de análisis puede
hacer con este software?
R// Este software predice la estructura 3D de una proteína a partir de la secuencia fasta de sus aminoácidos.
c. Copie las secuencias de la proteína silvestre y las mutadas.
d. Digite un nombre al trabajo en el espacio “short identifier for submission”
e. Hacer click en “predict”
f. Describa claramente los resultados obtenidos ¿Que sucede con la proteína mutada cuando está presente el
aminoácido F o Y? Es muy posible que este análisis tome más de media hora en ser desarrollado por el
programa bioinformático. Si no llegase a estar disponible el análisis al terminar la clase no habrá ningún
problema, simplemente no se califica el punto “f”
Ejemplo: