Practica 1 Banco de Genes
Practica 1 Banco de Genes
Practica 1 Banco de Genes
A través de esta página, se accede al programa que permite el acceso a las bases de
datos de secuencias nucleotídicas y de proteínas y al subconjunto de citas de biología
molecular en MEDLINE.
Procedimiento:
Al hacer click en alguno de los nombres obtenidos, se ingresa a toda la información que sobre
este gen se encuentra en el Banco. En primer lugar, se puede obtener el código de acceso, el
origen (a partir de DNA o RNA), y el número total de nucleótidos reportados (en pares de bases
o pb). También se obtiene ubicación taxonómica de la especie a partir de la cual se obtuvo la
secuencia, así como las referencias en las cuales se publicó la secuencia genética.
Si se desciende en esta página, se llega a una sección que tiene como nombre “FEATURES,
en donde se pueden encontrar diferentes informaciones adicionales, como por ejemplo el
llamado “CDS”, o secuencia codificante (o también llamado ORF o marco abierto de lectura),
que representa el segmento de nucleótidos que se organiza en tripletes o codones, desde el
codón iniciador (en el ADN positivo sería representado por “atg”) hasta el último nucleótido de
uno de los codones de terminación (en el ADN positivo serían “taa”, tga” o “tag”). Es decir, la
secuencia CDS contiene todos los nucléotidos que serán finalmente traducidos en la proteína.
Sólo se encontrará el segmento CDS cuando la secuencia estudiada contiene la información de
todo el gen (en algunos casos, en el banco de genes se pueden reconocer estas secuencias
con las palabras “complete CDS”). Además, en la secuencia FEATURES se puede encontrar
al final la traducción (“translation”), representada en código FASTA (una letra mayúscula para
cada aminoácido) y, en algunos casos, alguna información adicional, como por ejemplo la
localización de la secuencia del péptido señal en proteínas de secreción o de membrana.
Luego de todo esto, se encuentra la secuencia total de nucleótidos, ordenados en 6 columnas
de 10 letras por renglón.
Existen básicamente dos tipos de análisis de secuencias: Análisis por similitud (homología), y
análisis de propiedades intrínsecas de la secuencia. Estas metodologías son frecuentemente
utilizadas en conjunto. El análisis de similitud incluye la búsqueda y alineamiento a bases de
datos (incluyendo alineamiento múltiple); el análisis intrínseco es de mayor perspectiva, y va
desde la predicción de exones basada en propiedades estadísticas en la composición de la
secuencia, hasta la predicción de estructuras de proteínas (Altschul et al., 1994; Baxevanis et
al., 1996).
BlastN pertenece a una familia de programas que emplean el algoritmo BLAST (Altschul et al.,
1990; Altschul et al., 1997), dedicados al análisis de similitud (búsqueda de secuencias
homólogas) en las secuencias, enfrentando una secuencia que se desea consultar contra una
base de datos existente, por ejemplo GenBank. La búsqueda de homología o similitud es el
proceso de comparar una secuencia nueva contra secuencias conocidas, y luego intentar inferir
la función de la secuencia nueva al revisar los resultados y sus implicancias biológicas
(anotaciones), como se describe en la base de datos en sí, y en la literatura (Baxevanis et al.,
1996).
En esta página se puede elegir el programa que se desea utilizar, como se dijo anteriormente,
según la naturaleza de la secuencia que se tenga. Si la secuencia que se está analizando es
de ADN, entonces se debe hacer clic en el programa “nucleotide blast”. De esta forma se
accederá a otra página en la cual se puede insertar la secuencia nucleotídica escrita en código
FASTA (letras minúsculas para nucleótidos en forma ininterrumpida, sin espacios y sin formato
de página, de preferencia usar WordPad y grabar en formato sólo texto). Si se está analizando
una secuencia que ya se encuentra suscrita dentro del Banco de Genes, pues también puede
colocarse sólo el Código de Acceso (ver A en la siguiente figura) o descargar el archivo
directamente de la computadora.
Para empezar con el análisis, se debe elegir la Base de Datos con la cual se quiera comparar
la secuencia estudiada. En la actualidad, las secuencias del Banco de Genes se encuentran
organizadas en Bases de Datos especiales como la del Genoma Humano o el genoma del
ratón. Cuando uno no conoce la identidad de la secuencia que se está analizando, es
recomendable realizar un análisis de homología con todas las secuencias habidas en el Banco.
Por eso, es bueno asegurarse que en la sección “Choose Search Set” se haya elegido en
“Databases” la opción “Others (nr etc)” (ver B en la siguiente figura).
Finalmente, al final de la página se debe realizar la selección del Programa (ver A en la
siguiente figura) haciendo clic en alguna de las opciones de “Optimize for”. Si se quiere
investigar la posible identidad y/o función de la secuencia analizada, es preferible seleccionar el
programa megablast (“highly similar sequences”), puesto que permite sólo alinear nuestra
secuencia con las del Banco de Genes que tengan el máximo grado de homología. Por eso
que en el espacio para el megablast se menciona que el análisis se realizará sólo con las
secuencias altamente similares. Si de repente se obtienen muy pocas secuencias con el
megablast, se puede repetir la búsqueda haciendo clic en “more dissimilar sequences
(discontiguous megablast)”, con lo cual se obtendrá la comparación con un mayor número de
secuencias del banco de genes, aún cuando se disminuya el grado de homología.
Una vez realizado estas selecciones, se hace clic en el botón “BLAST” que se encuentra al final
de la página (B en la figura anterior). Los resultados aparecerán en una nueva página a los
pocos segundos. Primero se presenta un gráfico de barras en el cual la secuencia analizada
(“querry”) ha sido alineada con las diferentes secuencias del Banco de Genes (barras de color
rojo) si es que tienen un máximo grado de homología con nuestra secuencia).
Debajo del gráfico se presenta una Tabla en la cual están todas las secuencias del Banco de
Genes con un máximo grado de homología a la nuestra. De la Tabla, se puede destacar la
columna del “valor E” (expresado en términos exponenciales) y la columna de “Máxima
Identidad” (el número de nucleótidos iguales entre la secuencia analizada y cada una de las
secuencias encontradas en el GenBank, expresado en porcentaje).
1.- Abra el archivo “Secuencias1” que el profesor le debe entregar e identifique (usando el
BLAST) el tipo de gen que se estaría codificando. Luego, seleccione cuatro secuencias con la
máxima identidad que pertenezcan a especies diferentes a la de la secuencia identificada.
Complete el siguiente cuadro:
Total de Total de
% Máx. Total
Secuencia nucleótidos nucleotidos
Ident. aminoácidos
en el gen en el CDS
2.- ¿Cuál es el porcentaje de homología (Max. Ident.) entre la secuencia genética de la kappa
caseína de Homo sapiens (BC010935) y el gen de la kappa caseína de:
3.- Traduzca las secuencias obtenidas en la Tabla de la pregunta 1 a partir del nucleótido
indicado y escriba la secuencia de los primeros 25 aminoácidos utilizando el código de 1 letra.
Observe estas secuencias de aminoácidos e indique entre ellas las que contienen secuencias
conservadas.
atgaaggctctcctgactctgggactcctcctgctttctgtcactgcccaggccaaggtctacaatcgttgtgagttggccagaat
tctgaaaaggaatggaatggatggctaccgtggtgtcaagctggctgactgggtgtgtttagctcagcatgagagcaattataa
cacacgagctacaaactacaaccgtggagaccgaagcaccgactatgggatatttcagatcaatagccgatactggtgtaatg
atggcaaaaccccaagatctaagaatgcctgtgggatcaattgcagtgctctgctgcaggatgacatcactgcagccatacaat
gtgcaaagagggtggtgagagatccccaaggcattcgagcatgggtggcatggcgaacacaatgtcaaaaccgagatctgt
cccagtatattcggaactgcggagtctga