Practica 1 Banco de Genes

Práctica N° 1
ANÁLISIS DE SECUENCIAS GENÉTICAS
El avance de la Genética y la Biología Molecular ha permitido el nacimiento de una

nueva disciplina denominada Bioinformática, que utiliza programas de computación con el
objetivo de realizar análisis de comparación de secuencias de aminoácidos y nucleótidos, así
como del reconocimiento e identificación de genes y la estructura y función de las proteínas
codificadas en ellos. Para ello, se han creado programas especiales, muchos de ellos, junto
con bases de datos de secuencias genéticas, se encuentran a disposición de los investigadores
a través de servidores gratuitos. El análisis in silico (es decir, con el uso de computadoras)
sigue la siguiente secuencia lógica:
a) Búsqueda de secuencias en Bases de Datos.

b) Análisis de similitud (homología) con secuencias genéticas ya publicadas.
c) Análisis de la secuencia misma o de la estructura y función del producto
genético.
BÚSQUEDA DE SECUENCIAS EN BASES DE DATOS
El reconocimiento de dónde comienzan y terminan genes, e identificar sus exones,

intrones y secuencias reguladoras, requiere extensas comparaciones con secuencias de
organismos relacionados, para buscar similitudes conservadas (homologías). La consulta y
búsqueda en bases de datos por una secuencia en particular, tanto de DNA como de proteinas,
puede descubrir estas secuencias homólogas, revelando indicios de la función del gen
correspondiente que se estudia (Casey, 1997).
GenBank, la base de datos nucleotídica del EMBL, y el DNA Database of Japan

(DDBJ), son las principales bases de datos que encuentran en una colaboración constante,
para colectar y distribuir todos los datos de secuencias disponibles públicamente. Estos tres
sitios en Bethesda, Maryland (EE.UU.), Hinxton (Reino Unido), y Mishima (Japón), intercambian
nuevos datos de secuencias y actualizaciones a través de la Internet diariamente, y hacen a
esta información de disponibilidad pública inmediatamente, a través de una variedad de
servicios, como correo electrónico, FTP anónimo, y la World Wide Web (Altschul et al., 1994).
Los principales proveedores de datos de secuencias proteínicas son GenBank, EMBL
(traducciones de secuencias codantes), PIR International, y Swiss-Prot (secuencias, datos
funcionales y estructurales) (Baxevanis et al., 1996; Bairoch y Apweiler, 1998). Como las
secuencias provienen de una gran variedad de fuentes, incluyendo oficinas de patentes en
EE.UU. y Europa, el NCBI provee conjuntos de datos comprensibles cuasi-no redundantes
(designados “nr”), tanto para secuencias de nucleótidos como para proteinas. Estos conjuntos
son actualizados diariamente y se hacen disponibles para búsqueda de homología (Altschul et
al, 1994).
Operacionalmente, existen dos formas de datos de secuencia. La primera es el registro

completo que contiene los nombres de los autores, citas bibliográficas, y anotaciones
biológicas, así como la secuencia en sí y una tabla de características de la secuencia, tales
como localización de intrones, exones, codones de inicio y “stop”, etc. Este es el llamado
formato GenBank. La segunda forma de datos de secuencia consiste simplemente de un
número de acceso (accesion number) y un encabezado descriptivo corto seguido por la
secuencia en sí; este último es el formato utilizado para el análisis de similitud, que se verá más
adelante. Un ejemplo de esta segunda forma recién mencionada es el formato FASTA
(Baxevanis et al., 1996).
Los números de acceso son identificadores únicos para una secuencia en particular. Son
asignados a datos cuando es remitido (submit) por primera vez a una base de datos, y debe
ser siempre referida en cualquier descripción o publicación concerniente a los datos de la
secuencia. Las bases de datos están creciendo exponencialmente, duplicándose cada doce
meses. Para acceder al GenBank, se puede ingresar primero a la página principal del NCBI
(http://www.ncbi.nlm.nih.gov/ ), National Center of Biotechnology Information.
A través de esta página, se accede al programa que permite el acceso a las bases de
datos de secuencias nucleotídicas y de proteínas y al subconjunto de citas de biología
molecular en MEDLINE.
Procedimiento:
Para obtener una secuencia de nucleótidos desde GenBank, abrir el navegador de

Internet que utiliza, y acceder a la página del National Center of Biotechnology Information
(buscar la página principal del NCBI). A la izquierda se encuentra la lista de servicios que
brinda el NCBI. De todos ellos, hacer clic en “DNA & RNA” para tener acceso al Banco de
Genes (GenBank).
En la página que aparece, escoger el campo en el que se desea consultar en la opción
“Search” (nombre del autor, número de acceso, características clave, nombre del gen, edición,
nombre de la revista, palabra clave, fecha de modificación, etc., ver A en la siguiente figura) y
seleccionar directamente la palabra “nucleotide” puesto que se analizarán secuencias de ADN.
Al costado del botón “Search” existe un campo en el cual se escribe el nombre (en inglés) de la
secuencia genética que se quiere obtener del GenBank o en caso contrario el número de
acceso (B en la siguiente figura). Luego se hace clic en el botón “Go”.
Los resultados pueden ser observados pulsando cada uno de los hipervínculos que se dan
como respuesta, y almacenados como texto simple o en formato hipertexto para su posterior
consulta, a través del navegador.
Al hacer click en alguno de los nombres obtenidos, se ingresa a toda la información que sobre
este gen se encuentra en el Banco. En primer lugar, se puede obtener el código de acceso, el
origen (a partir de DNA o RNA), y el número total de nucleótidos reportados (en pares de bases
o pb). También se obtiene ubicación taxonómica de la especie a partir de la cual se obtuvo la
secuencia, así como las referencias en las cuales se publicó la secuencia genética.
Si se desciende en esta página, se llega a una sección que tiene como nombre “FEATURES,
en donde se pueden encontrar diferentes informaciones adicionales, como por ejemplo el
llamado “CDS”, o secuencia codificante (o también llamado ORF o marco abierto de lectura),
que representa el segmento de nucleótidos que se organiza en tripletes o codones, desde el
codón iniciador (en el ADN positivo sería representado por “atg”) hasta el último nucleótido de
uno de los codones de terminación (en el ADN positivo serían “taa”, tga” o “tag”). Es decir, la
secuencia CDS contiene todos los nucléotidos que serán finalmente traducidos en la proteína.
Sólo se encontrará el segmento CDS cuando la secuencia estudiada contiene la información de
todo el gen (en algunos casos, en el banco de genes se pueden reconocer estas secuencias
con las palabras “complete CDS”). Además, en la secuencia FEATURES se puede encontrar
al final la traducción (“translation”), representada en código FASTA (una letra mayúscula para
cada aminoácido) y, en algunos casos, alguna información adicional, como por ejemplo la
localización de la secuencia del péptido señal en proteínas de secreción o de membrana.
Luego de todo esto, se encuentra la secuencia total de nucleótidos, ordenados en 6 columnas
de 10 letras por renglón.
ANÁLISIS DE SECUENCIAS DE ÁCIDOS NUCLEICOS.
Existen básicamente dos tipos de análisis de secuencias: Análisis por similitud (homología), y
análisis de propiedades intrínsecas de la secuencia. Estas metodologías son frecuentemente
utilizadas en conjunto. El análisis de similitud incluye la búsqueda y alineamiento a bases de
datos (incluyendo alineamiento múltiple); el análisis intrínseco es de mayor perspectiva, y va
desde la predicción de exones basada en propiedades estadísticas en la composición de la
secuencia, hasta la predicción de estructuras de proteínas (Altschul et al., 1994; Baxevanis et
al., 1996).
Análisis de similitud a una base de datos nucleotídica: BlastN.
BlastN pertenece a una familia de programas que emplean el algoritmo BLAST (Altschul et al.,
1990; Altschul et al., 1997), dedicados al análisis de similitud (búsqueda de secuencias
homólogas) en las secuencias, enfrentando una secuencia que se desea consultar contra una
base de datos existente, por ejemplo GenBank. La búsqueda de homología o similitud es el
proceso de comparar una secuencia nueva contra secuencias conocidas, y luego intentar inferir
la función de la secuencia nueva al revisar los resultados y sus implicancias biológicas
(anotaciones), como se describe en la base de datos en sí, y en la literatura (Baxevanis et al.,
1996).
Primero en importancia es seleccionar el programa BLAST más apropiado. Existen cinco

implementaciones de BLAST, tres designados para consultas de secuencias de nucleótidos
(BLASTN, BLASTX, y TBLASTX), y dos para secuencias de proteinas (BLASTP y TBLASTN).
Los primeros se utilizan para análisis de secuencia genómica: exones, cDNAs; los últimos se
emplean cuando se han identificado productos génicos discretos a partir de una secuencia
finita. Una vez que se ha escogido el programa BLAST, lo siguiente será seleccionar la base de
datos contra la que se enfrentará la secuencia de consulta: nucleotídicas o de proteínas. Para
llevar a cabo el análisis de similitud, se accede a la página de BLAST en el NCBI primero
haciendo clic en la ventana izquierda “Resources”, donde dice “DNA&RNA”. Luego se debe
buscar en la sección “Tools” el hipervínculo “BLAST” (Basic Local Alignment Search Tool).
En esta página se puede elegir el programa que se desea utilizar, como se dijo anteriormente,
según la naturaleza de la secuencia que se tenga. Si la secuencia que se está analizando es
de ADN, entonces se debe hacer clic en el programa “nucleotide blast”. De esta forma se
accederá a otra página en la cual se puede insertar la secuencia nucleotídica escrita en código
FASTA (letras minúsculas para nucleótidos en forma ininterrumpida, sin espacios y sin formato
de página, de preferencia usar WordPad y grabar en formato sólo texto). Si se está analizando
una secuencia que ya se encuentra suscrita dentro del Banco de Genes, pues también puede
colocarse sólo el Código de Acceso (ver A en la siguiente figura) o descargar el archivo
directamente de la computadora.
Para empezar con el análisis, se debe elegir la Base de Datos con la cual se quiera comparar
la secuencia estudiada. En la actualidad, las secuencias del Banco de Genes se encuentran
organizadas en Bases de Datos especiales como la del Genoma Humano o el genoma del
ratón. Cuando uno no conoce la identidad de la secuencia que se está analizando, es
recomendable realizar un análisis de homología con todas las secuencias habidas en el Banco.
Por eso, es bueno asegurarse que en la sección “Choose Search Set” se haya elegido en
“Databases” la opción “Others (nr etc)” (ver B en la siguiente figura).
Finalmente, al final de la página se debe realizar la selección del Programa (ver A en la
siguiente figura) haciendo clic en alguna de las opciones de “Optimize for”. Si se quiere
investigar la posible identidad y/o función de la secuencia analizada, es preferible seleccionar el
programa megablast (“highly similar sequences”), puesto que permite sólo alinear nuestra
secuencia con las del Banco de Genes que tengan el máximo grado de homología. Por eso
que en el espacio para el megablast se menciona que el análisis se realizará sólo con las
secuencias altamente similares. Si de repente se obtienen muy pocas secuencias con el
megablast, se puede repetir la búsqueda haciendo clic en “more dissimilar sequences
(discontiguous megablast)”, con lo cual se obtendrá la comparación con un mayor número de
secuencias del banco de genes, aún cuando se disminuya el grado de homología.
Una vez realizado estas selecciones, se hace clic en el botón “BLAST” que se encuentra al final
de la página (B en la figura anterior). Los resultados aparecerán en una nueva página a los
pocos segundos. Primero se presenta un gráfico de barras en el cual la secuencia analizada
(“querry”) ha sido alineada con las diferentes secuencias del Banco de Genes (barras de color
rojo) si es que tienen un máximo grado de homología con nuestra secuencia).
Debajo del gráfico se presenta una Tabla en la cual están todas las secuencias del Banco de
Genes con un máximo grado de homología a la nuestra. De la Tabla, se puede destacar la
columna del “valor E” (expresado en términos exponenciales) y la columna de “Máxima
Identidad” (el número de nucleótidos iguales entre la secuencia analizada y cada una de las
secuencias encontradas en el GenBank, expresado en porcentaje).
Luego, se muestran los alineamientos individuales de la secuencia que se está analizando

(querry) con cada una de las secuencias del GenBank que presentaron un máximo grado de
homología.
El análisis de homología por alineamientos que realiza el BLAST, puede tener diferentes
objetivos, uno de los cuales puede ser la comparación de secuencias nucleotídicas o
aminoacídicas entre proteínas de diferentes orígenes pero de similar función. Al hacer este tipo
de análisis, se pueden identificar las llamadas “secuencias de consenso”, que son secuencias
de unidades que se mantienen constantes en los genes o en las proteínas, y que estarían
relacionadas con las regiones de la proteína estrictamente necesarias para generar su
estructura funcional.
ACTIVIDADES
1.- Abra el archivo “Secuencias1” que el profesor le debe entregar e identifique (usando el
BLAST) el tipo de gen que se estaría codificando. Luego, seleccione cuatro secuencias con la
máxima identidad que pertenezcan a especies diferentes a la de la secuencia identificada.
Complete el siguiente cuadro:
Total de Total de
% Máx. Total
Secuencia nucleótidos nucleotidos
Ident. aminoácidos
en el gen en el CDS
2.- ¿Cuál es el porcentaje de homología (Max. Ident.) entre la secuencia genética de la kappa
caseína de Homo sapiens (BC010935) y el gen de la kappa caseína de:
a) Mus musculus (BC050269.1):

b) Bos taurus (NM_174294.1):
c) Equus caballus (NM_001081884.1):
3.- Traduzca las secuencias obtenidas en la Tabla de la pregunta 1 a partir del nucleótido
indicado y escriba la secuencia de los primeros 25 aminoácidos utilizando el código de 1 letra.
Observe estas secuencias de aminoácidos e indique entre ellas las que contienen secuencias
conservadas.
4. Identifique a qué gen pertenece la siguiente secuencia:
atgaaggctctcctgactctgggactcctcctgctttctgtcactgcccaggccaaggtctacaatcgttgtgagttggccagaat
tctgaaaaggaatggaatggatggctaccgtggtgtcaagctggctgactgggtgtgtttagctcagcatgagagcaattataa
cacacgagctacaaactacaaccgtggagaccgaagcaccgactatgggatatttcagatcaatagccgatactggtgtaatg
atggcaaaaccccaagatctaagaatgcctgtgggatcaattgcagtgctctgctgcaggatgacatcactgcagccatacaat
gtgcaaagagggtggtgagagatccccaaggcattcgagcatgggtggcatggcgaacacaatgtcaaaaccgagatctgt
cccagtatattcggaactgcggagtctga

Practica 1 Banco de Genes

Cargado por

Copyright:

Formatos disponibles

Practica 1 Banco de Genes

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Practica 1 Banco de Genes

Cargado por

Copyright:

Formatos disponibles

Práctica N° 1

ANÁLISIS DE SECUENCIAS GENÉTICAS

El avance de la Genética y la Biología Molecular ha permitido el nacimiento de una

a) Búsqueda de secuencias en Bases de Datos.

BÚSQUEDA DE SECUENCIAS EN BASES DE DATOS

El reconocimiento de dónde comienzan y terminan genes, e identificar sus exones,

GenBank, la base de datos nucleotídica del EMBL, y el DNA Database of Japan

Operacionalmente, existen dos formas de datos de secuencia. La primera es el registro

Para obtener una secuencia de nucleótidos desde GenBank, abrir el navegador de

ANÁLISIS DE SECUENCIAS DE ÁCIDOS NUCLEICOS.

Análisis de similitud a una base de datos nucleotídica: BlastN.

Primero en importancia es seleccionar el programa BLAST más apropiado. Existen cinco

Luego, se muestran los alineamientos individuales de la secuencia que se está analizando

a) Mus musculus (BC050269.1):

4. Identifique a qué gen pertenece la siguiente secuencia:

También podría gustarte