Taller Bioinformática

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 10

Sara Sichel

Laura Botero
Maria Alejandra Bahamón
Lucía Villalobos
Jose Luis Parra

Taller práctico PARTE 1


ANÁLISIS DE POLIMORFISMOS COMO BIOMARCADORES

OBTENCIÓN DE SECUENCIAS DE BASES DE DATOS (GENBANK) Y ALINEAMIENTO MÚLTIPLE


(CLUSTAL W) PARA LA IDENTIFICACIÓN DE MUTACIONES.

El proceso de alineamiento de secuencias de nucleótidos o de aminoácidos, es de gran utilidad en la identificación de


mutaciones y/o cambios en las secuencias de un gen determinado y determinar el efecto funcional de los mismos, debido a
que cuando más similares sean dos secuencias de ADN o proteínas más similares tenderán a ser sus funciones. En las
secuencias, además de cambios de un nucleótido o un aminoácido en una posición concreta, se pueden dar inserciones o
deleciones.

Los alineamientos sirven, entre otras cosas para asegurarse de que dos secuencias son similares y cuantificar su
similitud, encontrar dominios funcionales, comparar un gen y su producto y buscar posiciones homólogas en las
secuencias.

Alineamiento de secuencias:

Identifique en el alineamiento:
- SNPs
- Inserciones/deleciones (InDels)
- Regiones genomicas conservadas
- Regiones genomicas variables

GUÍA PASO A PASO

A. Buscar la secuencia del gen que codifica para la proteína de interés


1. Elegir una proteína o gen de interés para desarrollar el taller práctico (P53)
2. Es muy importante conocer el nombre de la proteína en inglés para realizar la búsqueda en las bases de
datos disponibles para tal fin.
3. Ingresar a la página del NCBI: http://www.ncbi.nlm.nih.gov/, digitar el nombre de la proteína que han
seleccionado para desarrollar el trabajo final en la barra de búsqueda y seleccionar la búsqueda de
proteínas:

4. Obtener la secuencia FASTA (secuencia de aminoácidos) de la proteína y buscar secuencias homólogas


con la herramienta para alineamientos BLAST.
“Correr” BLAST con los parámetros ofrecidos por la herramienta y dar click en BLAST

- ¿Qué resultados obtienen con esta herramienta?


R// Proteínas homólogas, regiones conservadas de la proteína, secuencia completa de las proteínas,
alineamiento entre homólogas, diferencias entre homólogas, porcentaje de similitud entre homólogas, tamaño
de la proteína, de donde proviene la proteína (organismo, mutación…).
- Para que pueden ser útiles en la búsqueda de mutaciones/SNP como marcadores moleculares?
R// A partir del alineamiento de las homólogas, se puede identificar el cambio de un aminoácido por otro.
Asumiendo que esto es provocado por un SNP, se podría utilizar como marcador e identificar la enfermedad.
- ¿La secuencia evaluada es homóloga a otra(s) secuencia(s)? ¿o tal vez tiene una función idéntica o similar
a otra(s)?
R// Según la base de datos hay muchas proteínas homólogas: proteínas mutadas en humanos, y la proteína
presente en otras especies. Esta proteína en mamíferos tiene una función similar: se encarga del control
tumoral.
- Encuentra usted variaciones genómicas (SNPs/polimorfismos)? De un ejemplo.
R// Se encontró, por ejemplo, la mutación de la proteína presente en el síndrome de Freumeni, donde se
evidencian dos aminoácidos diferentes. Estas dos variaciones son asociadas a esta enfermedad.

B. BÚSQUEDA DE INFORMACION EN NCBI Y UNIPROT

Para el desarrollo de este taller práctico tomaremos como ejemplo el gen de una proteína desconocida. A partir de
estas secuencias se pretende:
-Analizar información contenida en bases de datos obtenidos a partir del secuenciamiento de ADN o ARN de
diferentes organismos.
- Diseñar cebadores como una aproximación a la técnica de reacción en cadena de la polimerasa (PCR).

Instrucciones:

PARTE I. NCBI/UNIPROT:

_______________________________________________________________________________________
Gen de proteína desconocida. Secuencia nucleotidica a estudiar:

GCACTCTGGCTGGGGAAGGCATGAGTGACAGACCCACAGCAAGGCGGTGGGGTAAGTGTGGAC
CTTTGTGTACCAGAGAGAACATCATGGTGGCTTTCAAAGGGGTCTGGACTCAAGCTT
TCTGGAAAGCAGTCACAGCGGAATTTCTGGCCATGCTTATTTTTGTTCTCCTCAGCCTGG
GATCCACCATCAACTGGGGTGGAACAGAAAAGCCTTTACCTGTCGACATGGTTCTCATCT
CCCTTTGCTTTGGACTCAGCATTGCAACCATGGTGCAGTGCTTTGGCCATATCAGCGGTG
GCCACATCAACCCTGCAGTGACTGTGGCCATGGTGTGCACCAGGAAGATCAGCATCGCCA
AGTCTGTCTTCTACATCGCAGCCCAGTGCCTGGGGGCCATCATTGGAGCAGGAATCCTCT
ATCTGGTCACACCTCCCAGTGTGGTGGGAGGCCTGGGAGTCACCATGGTTCATGGAAATC
TTACCGCTGGTCATGGTCTCCTGGTTGAGTTGATAATCACATTTCAATTGGTGTTTACTA
TCTTTGCCAGCTGTGATTCCAAACGGACTGATGTCACTGGCTCAATAGCTTTAGCAATTG
GATTTTCTGTTGCAATTGGACATTTATTTGCAATCAATTATACTGGTGCCAGCATGAATC
CCGCCCGATCCTTTGGACCTGCAGTTATCATGGGAAATTGGGAAAACCATTGGATATATT
GGGTTGGGCCCATCATAGGAGCTGTCCTCGCTGGTGGCCTTTATGAGTATGTCTTCTGTC
CAGATGTTGAATTCAAACGTCGTTTTAAAGAAGCCTTCAGCAAAGCTGCCCAGCAAACAA
AAGGAAGCTACATGGAGGTGGAGGACAACAGGAGTCAGGTAGAGACGGATGACCTGATTC
TAAAACCTGGAGTGGTGCATGTGATTGACGTTGACCGGGGAGAGGAGAAGAAGGGGAAAGACC
AATCTGGAGAGGTATTGTCTTCAGTATGACTAGAAGATCGCACTGAAAGCAGACAAG
ACTCCTTAGAACTGTCCTCAGATTTCCTTCCACCCATTAAGGAAACAGATTTGTTATAAA
TTAGAAATGTGCAGGTTTGTTGTTTCATGTCATATTACTCAGTCTAAACAATAAATATTTCATAAT
TTACAAAGGAGGAACGGAAGAAACCTATTGTGAATTCCAAATCTAAAAAAAGAA
ATATTTTTAAGATGTTCTTAAGCAAATATATACCTATTTTATCTAGTTACCTTTCATTAA
CAACCAATTTTAACCGTGTGTCAAGATTTGGTTAAGTCTTGCCTGACAGAACTCAAAGAC
ACGTCTATCAGCTTATTCCTTCTCTACTGGAATATTGGTATAGTCAATTCTTATTTGAAT
ATTTATTCTATTAAACTGAGTTTAACAATGGCAAAATACAGTATGTCACAGTCATGCACA
TTCAAGAGAGAAAATATAACAAGTTCTTTTATGAGCAATCCCTTATGCATAGACTACCTT
GGCAAAAGAGCATTAGCAAGTGTCACTGCTCATCAGTTACTTCCTTCCATTTATATCACA
AATACCCAAGTTTCAATTCTAACTTCATTTCATGGTATTTCTTCCTCCTCAATGCCCAAG
GTAATGTGGGACTAAAGCCCAGAAATTTGAAAAGAATATTCAGAAATCCTTCCCAAATCA
TAAGGGCACCTATTGAGATTCAAGACAAGCAGACTCGTAAAATCTTGTAGAGGCAGAGGC

_______________________________________________________________________________________________________

1) Analice en detalle cual es la información que se encuentra disponible para un gen en GENEBANK. Para
esto utilice el siguiente link: https://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html
a. En locus, que quiere decir PLN? Que otro tipo de alternativas existen?
R// Secuencias de Plantas, Hongos y Algas. Las otras alternativas son por clasificación de organismos o por el
tipo de la muestra.
b. Que información tiene el ACCESION?
R// Identificador único para un registro de secuencia completo. Este no cambia si la información que contiene
es cambiada por el autor. Sin embargo, un numero de acceso inicial puede pasar a ser secundario si se genera
un reemplazo o combinación del registro anterior.
c. Que información tiene VERSION?
R// Número de identificación de la secuencia de nucleótidos que representa una única secuencia específica en
la base de datos de GenBank. Está separado por un punto del número de acceso y aumenta si se realiza
cualquier cambio en el registro.
d. Quien publicó esta información? Esta publicada en alguna revista científica? En cual?
R// La primera referencia fue publicada en el libro Yeast edición 10 por Torpey,L.E., Gibbs,P.E., Nelson,J.
and Lawrence,C.W. La segunda fue publicada en el libro Genes and development por Roemer,T., Madden,K.,
Chang,J. and Snyder,M. Y la tercera fue publicada por Roemer,T. en un artículo de la universidad de Yale.
e. Que quiere decir CDS?
R// Secuencia de codificación; nucleótidos que darán origen a una proteína o ARN funcional. Incluye una
traducción de aminoácidos.
f. Encuentran la secuencia de aminoácidos y nucleótidos?
R// Si, se encuentra la secuencia completa de nucleótidos de toda la proteína. Y la secuencia de aminoácidos
también, pero varia en longitud y aminoácidos dependiendo de la práctica en la que se usó la información y el
tramo de la secuencia que se tradujo.

2) Ahora con la secuencia de la página 1 realice un BLAST para nucleótidos. Que secuencia de ADN estamos
estudiando? Cual es el “accesión number”? Que información le brinda la base de datos al hacer click en el
“accesión number”?
R// La secuencia es la que codifica para una proteína acuaporina de humanos. El número de acceso es D63412. Y
al ingresar a esta muestra brinda: el locus, la definición, la versión, el organismo a que pertenece, las referencias
que se han dado de esta secuencia, su CDS, y la secuencia original de la que proviene.

3) Con el “accesión number” obtenido de NCBI realice la búsqueda en http://www.ebi.ac.uk/.


a. Qué tipo de información derivada de experimentos encuentra?
R// Se encuentran experimentos referentes a secuenciación de nucleótidos y proteínas, a genomas y metagenomas,
a expresión génica de la proteína en diferentes organismos o tejidos, y a vías metabólicas.
b. En “proteín sequence”, haga click en el número P55087, h donde se direcciona la búsqueda?
R// Se direcciona a la fuente de donde se obtuvo la información del estudio.
UNIPROT
c. Que es UNIPROT
R// Es una base de datos que proporciona información libre de alta calidad de secuencias proteicas e información
funcional.
d. Existe información derivada de estudios de expresión de la acuaporina en diferentes tejidos (ver la
sesión “expression” y hacer click en el número alojado en “Expression atlas”. Que le llama la atención
al realizar esta búsqueda bioinformática?
R// Aparece la imagen del organismo y los estudios de expresión que se han realizado con cada tejido diferente de
este. Junto con una gráfica interactiva que muestra detalles del experimento y nombre del tejido, y con una escala
de color que muestra el grado de expresión que se da en dicho tejido.
e. Ahora usando el término “AQP4” realice la búsqueda en NCBI (https://www.ncbi.nlm.nih.gov/)
dejando en el menú la opción “all databases”.
f. Que es un SNP? Cuantos SNPs se han reportado para este gen? Como se ve en la base de datos dicha
variación genomica?
R// SNP es un polimorfismo de un solo nucleótido, es decir deleción, inserción o sustitución de una base
nitrogenada. Hay 6547 SNPs reportados y se muestra cual es el cambio que se da en la base por las que están
entre paréntesis (subrayado en rojo), el cromosoma en el que ocurre y la consecuencia médica que esto tendrá en
el organismo.
TCTTCTAGTCATACTGAAGACAATA[C/T]CTCTCCAGATTGGTCTTTCCCCTTC
g. Cuantas proteínas están disponibles para AQP4?
R// 692
4) Ingrese en NCBI/nucleotide y digite el “accesión number” de la proteína aquaporina (D63412). Haga click
en “fasta”. Que obtiene?
R// >D63412.1 Homo sapiens mRNA for aquaporin, complete cds. Haciendo referencia al número de acceso, la
versión, seguido por el nombre del organismo para el cual va a codificarse la proteína, el nombre de esta, y la
CDS completa que está en la página 1.

5) Finalmente traduzca la secuencia nucleotidica a proteína utilizando EXPASY, opción “translate”. Para
usted, cuál de las proteínas sugeridas por EXPASY sería la más probable?
R// En el marco 3 en sentido 5’3’ la secuencia de aminoácidos que se muestra abajo porque, por la longitud
conocida de la proteína, es improbable que sea una de las cortas que se presentan.
Met S D R P T A R R W G K C G P L C T R E N I Met V A F K G V W T Q A F W K A V T A E F L A
Met L I F V L L S L G S T I N W G G T E K P L P V D Met V L I S L C F G L S I A T Met V Q C F G H I
S G G H I N P A V T V A Met V C T R K I S I A K S V F Y I A A Q C L G A I I G A G I L Y L V T P P S V
V G G L G V T Met V H G N L T A G H G L L V E L I I T F Q L V F T I F A S C D S K R T D V T G S I A
L A I G F S V A I G H L F A I N Y T G A S Met N P A R S F G P A V I Met G N W E N H W I Y W V G P
I I G A V L A G G L Y E Y V F C P D V E F K R R F K E A F S K A A Q Q T K G S Y Met E V E D N R
S Q V E T D D L I L K P G V V H V I D V D R G E E K K G K D Q S G E V L S S V Stop

PARTE II. DISENO DE CEBADORES (PRIMERS)

Con la secuencia de la acuaporina (página 1) diseñe primers para amplificar dicho gen. Recuerde las
herramientas bioinformáticas que empleo para el taller 3 (PCR).
R// Se pueden diseñar 5 primers, mostrados a continuación:
start len tm gc% any 3' seq

1 LEFT PRIMER 852 20 59.96 55.00 2.00 1.00 ATGGAGGTGGAGGACAACAG


RIGHT PRIMER 1056 20 60.04 50.00 3.00 3.00 TGGGTGGAAGGAAATCTGAG
SEQUENCE SIZE: 1740

2 LEFT PRIMER 303 20 60.16 55.00 6.00 3.00 CACATCAACCCTGCAGTGAC


RIGHT PRIMER 506 20 59.96 55.00 4.00 1.00 AACCAGGAGACCATGACCAG
PRODUCT SIZE: 204, PAIR ANY COMPL: 4.00, PAIR 3' COMPL: 1.00

3 LEFT PRIMER 303 20 60.16 55.00 6.00 3.00 CACATCAACCCTGCAGTGAC


RIGHT PRIMER 499 20 60.13 55.00 4.00 2.00 AGACCATGACCAGCGGTAAG
PRODUCT SIZE: 197, PAIR ANY COMPL: 4.00, PAIR 3' COMPL: 1.00

4 LEFT PRIMER 855 20 59.68 60.00 2.00 0.00 GAGGTGGAGGACAACAGGAG


RIGHT PRIMER 1056 20 60.04 50.00 3.00 3.00 TGGGTGGAAGGAAATCTGAG
PRODUCT SIZE: 202, PAIR ANY COMPL: 3.00, PAIR 3' COMPL: 0.00

5 LEFT PRIMER 127 20 59.88 45.00 5.00 3.00 AAGCAGTCACAGCGGAATTT


RIGHT PRIMER 322 20 60.16 55.00 6.00 2.00 GTCACTGCAGGGTTGATGTG
PRODUCT SIZE: 196, PAIR ANY COMPL: 6.00, PAIR 3' COMPL: 0.00
Taller práctico Biología molecular
ANÁLISIS DE POLIMORFISMOS COMO BIOMARCADORES Parte II

1. BÚSQUEDA DE SNPs EN LA SECUENCIA DEL GEN DE INTERÉS Y EVALUACIÓN DEL


IMPACTO DE LOS MISMOS EN LA FUNCIÓN DE LAS PROTEÍNAS MEDIANTE UN
ANÁLISIS IN SILICO.

Para el desarrollo de este taller práctico tomaremos como ejemplo los estudios de asociación de genes candidatos
a una condición en particular (por ejemplo enfermedad). En este tipo de estudios, es ideal emplear SNPs, donde la
identificación de sustituciones nucleotídicas puede tener implicaciones importantes para el diseño e interpretación
de estudios de asociación con características fenotípicas. Por lo tanto, el objetivo de esta práctica es establecer
alteraciones en parámetros bioquímicos y biológicos, generados por SNPs reportados en un gen de interés a nivel
proteico mediante un análisis computacional y establecer cuáles son los SNPs con mayor capacidad de alterar
funcional y fenotípicamente estas moléculas.

I. Evaluación del impacto de SNPs en genes asociados a Cáncer:

1. La presencia de mutaciones puntuales no sinónimas en un producto génico pueden explicar una patología. A través
de esta guía se analizarán las alteraciones fisicoquímicas y biológicas debidas a mutaciones puntuales en el gen
BRCA1, gen asociado a cáncer de seno y de útero.

a) Ingresar a la página del PDB (www.rcsb.org/pdb/home/home.do), con el fin de obtener información de la


proteína BRCA1 cuyo número de acceso es 1JM7.

b) Obtener la secuencia de aminoácidos de la proteína. ¿Dónde pueden encontrar esta secuencia en PDB? Cuáles
secuencias de aminoácidos obtenida en formato Fasta?
MDLSALRVEEVQNVINAMQKILECPICLELIKEPVSTKCDHIFCKFCMLKLLNQKKGPSQCPLCKNDITKRSLQESTRFS
QLVEELLKIICAFQLDTGLEYANSYNFAKKGK

c) Ir a la opción “sequence” y escoger la cadena # 1 para realizar los análisis.


d) Busque el recuadro “Add an annotation” y haga click sobre “single nucleotide polymorfism” Cada SNP tendrá
su respectivo código. Nos enfocaremos en RS80357150 C-F. ¿Qué quieren decir estos códigos?  
R// Estos códigos son una identificación específica para cada mutación.

e) Ingrese a NCBI, bajo la opción “all databases” ingrese el código RS80357150, ¿Qué información obtiene?
R// La información que se obtiene es el nivel de la mutación, el alelo en el que se presenta, la proteína a la cual
pertenece la mutación, que tipo de mutación es, el condón específico en donde se da la mutación y el nucleótido que
cambia. Además, provee todas las SNPs existentes en esa proteína.
f) Ahora, haga click en la opción ClinVar. Bajo esta base de datos deben aparecen 2 mutaciones diferentes a nivel
nucleotidico que al ser traducidas generan cambios en aminoácidos. Describa claramente cuáles son esas
mutaciones y sus respectivos loci.
R// Aparecen dos mutaciones ubicadas en el cromosoma 17, en la posición 43106528. El cambio se da en el codón
TGC, donde se remplaza la G por una T, provocando que se codifique una fenilalanina en vez de la cisteína.
g) Ahora, desde “all databases” haga click en la opción “SNP”. ¿Cuál es el origen de esta mutación? ¿Cuál es el
significado clínico de esta mutación?
R// El origen de la mutación es germinal y su significado clínico es que es patológico para cáncer de mama y ovario.
h) Ahora usted necesita diseñar una PCR para hacer el diagnostico. En la opción SNP, haga click sobre el código
de la mutación. Explore hasta encontrar una “fasta sequence”. ¿Qué quiere decir la letra “D” en dicha
secuencia?
R// La D nos expresa que en esa posición puede ir una A, una G o una T, dependiendo de la mutación.
i) Usando softwares para el diseño de primers. ¿Sería posible amplificar un fragmento que se pueda secuenciar
para diagnosticar la mutación puntual que se está estudiando?
R// Si, debido a que el cambio es en un sólo nucleótido y este no interfiere en la estructura del primer.

2. Confirmación in-Sílico del carácter patogénico de la mutación RS80357150.


a. Ingresar de nuevo a la página del PDB (www.rcsb.org/pdb/home/home.do) y obtener información de la proteína
BRCA1 cuyo número de acceso es 1JM7.

b. Obtener la secuencia fasta de aminoácidos de la proteína disponible en PDB.


MDLSALRVEEVQNVINAMQKILECPICLELIKEPVSTKCDHIFCKFCMLKLLNQKKGPSQCPLCKNDITKRSLQESTRFS
QLVEELLKIICAFQLDTGLEYANSYNFAKKGK

c. Ingresar a la página web de SIFT: http://sift.bii.a-star.edu.sg/. ¿Qué tipo de análisis provee esta herramienta
bioinformática? Seleccione “SIFT sequence”
R// Provee un análisis de los cambios funcionales de una proteína, según el cambio de uno de sus aminoácidos.

d. Copie la secuencia de aminoácidos de la proteína BCRA1 en el recuadro destinado para tal fin. Haga click en
“submit”

e. ¿Están los aminoácidos F y Y dentro de las mutaciones tolerantes para la posición 47? ¿Biológicamente que quiere
decir esto?
En prime instancia, los amino ácidos F fenilalanina, y el Y tirosina, no aparecen dentro de las mutación tolerantes en la
posición 47. Esto quiere decir que no sería posible cumplir con su función correctamente si hay un cambio por alguno
de estos aminoácidos.

3. Análisis de la estructura secundaria de la proteína mutada BRCA1.

a. Usando la secuencia fasta de la proteína usada en el punto 2 genere copias de esta (ver abajo). Una copia debe
tener en la posición 47 el aminoácido silvestre (C). La otra copia debe tener el alelo mutante (F) o (Y):
>1JM7_sequencewild:
MDLSALRVEEVQNVINAMQKILECPICLELIKEPVSTKCDHIFCKFCMLKLLNQKKGPSQCPLCKNDIT
KRSLQESTRFS
QLVEELLKIICAFQLDTGLEYANSYNFAKKGK

>1JM7_sequencemutatedY:
MDLSALRVEEVQNVINAMQKILECPICLELIKEPVSTKCDHIFCKFYMLKLLNQKKGPSQCPLCKNDIT
KRSLQESTRFS
QLVEELLKIICAFQLDTGLEYANSYNFAKKGK

>1JM7_sequencemutatedF:
MDLSALRVEEVQNVINAMQKILECPICLELIKEPVSTKCDHIFCKFFMLKLLNQKKGPSQCPLCKNDIT
KRSLQESTRFS
QLVEELLKIICAFQLDTGLEYANSYNFAKKGK
b. Ingrese a la herramienta bioinformática PSIPRE: http://bioinf.cs.ucl.ac.uk/psipred/. ¿Qué tipo de análisis puede
hacer con este software?
R// Este software predice la estructura 3D de una proteína a partir de la secuencia fasta de sus aminoácidos.
c. Copie las secuencias de la proteína silvestre y las mutadas.
d. Digite un nombre al trabajo en el espacio “short identifier for submission”
e. Hacer click en “predict”
f. Describa claramente los resultados obtenidos ¿Que sucede con la proteína mutada cuando está presente el
aminoácido F o Y? Es muy posible que este análisis tome más de media hora en ser desarrollado por el
programa bioinformático. Si no llegase a estar disponible el análisis al terminar la clase no habrá ningún
problema, simplemente no se califica el punto “f”

Ejemplo:

También podría gustarte