BIOINFORMATICA Imprimir
BIOINFORMATICA Imprimir
BIOINFORMATICA Imprimir
(2021-2022)
(2020-2021)
T1 – BASES DE DATOS
T2 – ANÁLISIS DE LA INFORMACIÓN SECUENCIAL DEL DNA
T3 – PROYECTOS GENOMA Y NAVEGADORES GENÓMICOS
T4 – ESTUDI DE L’EXPRESSIÓ GÈNICA: TRANSCRIPTÒMICA
T5 – ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Y APLICACIONES
T6 – PREDICCIÓN DE LA FUNCIÓN DE PROTEÏNAS
T7 – PREDICCIÓN DE LA ESTRUCTURA SECUNDÀRIA DE PROTEÏNAS
T8 – ANÁLISIS Y PREDICCIÓN DE LA ESTRUCTURA TRIDIMENSIONAL DE
.......PROTEÏNAS
Alina Logina Bioinformática
1
Alina Logina Bioinformática
Criterios iniciales:
presentes en el polylinker de los vectores
que no corten en el interior del fragmento a clonar
Usamos bacterias (E. Coli) para hacer crecer plasmidis.
Tenemos la unión de gen con plásmido y hacemos la clonación. Tenemos que saber que
plásmido es, que enzimas son las que dan lugar a la restricción y saber si corta o no en
el gen de interés ya que si cortase seria un problema. NEBcutter es un programa que
nos facilita esta información.
Tenemos un gen y un plásmido, y tenemos que encontrar que corten por los extremos
del gen y en alguna parte específica del plásmido que tiene que ser única (sino se
perdería el oriC).
Objetivo 2
Buscar dianas para caracterizar polimorfismos (RFLP)
Criterios iniciales:
que tengan una diana que se modifique a causa del polimorfismo
que generen fragmentos de DNA fáciles de identificar
2
Alina Logina Bioinformática
tener dos posibles regiones de restricción a 3. Con T solo tiene los de los extremos y
tenemos 2 fragmentos al ser cortados.
DISEÑO DE PRIMERS
1. Clonación/Expresión de proteínas recombinantes
2. Cuantificación: real time PCR (qPCR). A parte de los primers es una forma de
cuantificar los productos de DNA formados. Se hace con sondas especificas o
inespecíficas que se intercalan entre l doble cadena de DNA. Podemos usar varias
paginas web.
3. Detección: RFLP, para detectar un mRNA (sin cuantificar) por RT-PCR. Si queremos
amplificar tenemos que preparar primers
4. Mutagénesis dirigida
Criterios generales
El tamaño habitual es de 20 nt porque si fuera más pequeño podría encontrarse en más
regiones del gen.
Para la compatibilidad, la temperatura (Tm, longitud y %GC) tiene que ser de unos 50-
65ºC para que la unión sea más estable, con una diferencia entre forward-reverse
menos o igual a 5ºC.
A una temperatura donde la mitad de la longitud del primer esta unido al DNA y la otra
no (cola) para que no hibriden.
3
Alina Logina Bioinformática
Los extremos 3’: Tiene que haber al menos un G/C en los 5 últimos nt para tener la
estabilidad necesaria y que no haya falsos inicios.
Hay que evitar una energía de Gibbs mayor a -10 kcal/mol y la hibridación del extremo
3’.
No perder la pauta de lectura: después de la Met, que los próximos 3 codones traduzcan
el aa que estas buscando.
En los primers tenemos que incluir unos 4 nucleótidos (que escogemos nosotros
aleatoriamente) en los extremos 5’ para facilitar la digestión.
5’TAATACAAGCTTATGTCGGAAACTGCTCCTG 3’
5’ATATCTCTCGAGTTACTTCTTCTTGGCTGCAAC 3’
4
Alina Logina Bioinformática
Si tenemos mas fluorescencia, ¿tiene mas DNA? No porque no podemos afirmar que se
encuentre solo en el gen de interés. Puede haber amplificado otras zonas.
Mediante sondas de detección (TaqMAN) que es un tozo de DNA que pueden ser cada
vez más pequeñas (que los primers) para ser más específicas. Esta secuencia de nt que
es especifica para una región interna del gen que estamos amplificando. Cando se
separan las cadenas, el TaqMAN se vuelve a enganchar. Tiene un fluoroforo F en un
extremo y en el otro extremo tiene un Quencher Q que absorbe toda la fluorescencia
porque se encuentra cerca del F. Si el Taqman está suelto en el medio, no se detecta
fluorescencia. Al bajar la temperatura se puede enganchar los primers y el TaqMAN solo
en una de las hebras, que también tiene los sitios Q y F.
Mutagénesis dirigida
Los primers tienen que ser complementarios entre sí,
con una longitud de entre 25-45 bases y una Tm mayor
a 78ºC. La mutación se da en el centro del primer. El
contenido en GC es alrededor de 40% y en el extremo
3’ hay un G o C.
5
Alina Logina Bioinformática
Parámetros
Tm ≈ 50-65ºC (excepto primers de mutagénesis)
Tm foward-Tm reverse ≤ 5ºC
Al menos un G/C en el 3’
Estabilidad 3’: ΔG [-6;-10] kcal/mol
Evitar estructuras secundarias
MANIPULACIÓN DE SECUENCIAS
Reverso y complementaria (para primer reverse)
http://www.bioinformatics.org/sms/rev_comp.html
http://reverse-complement.com/
Código genético
http://www.sparknotes.com/biology/molecular/geneticcode/section1.rhtml
6
Alina Logina Bioinformática
WEBS
Predicción de genes procariotas
- FGENESB (también predice operones):
http://linux1.softberry.com/berry.phtml?topic=fgenesb&group=programs&subgro
up=gfindb
Promotores
- Eukaryotic promoter database: http://epd.vital-it.ch/
TF-binding sites
- Análisis de secuencia específica: http://alggen.lsi.upc.es/cgi-
bin/promo_v3/promo/promoinit.cgi?dirDB=TF_8.3
7
Alina Logina Bioinformática
8
Alina Logina Bioinformática
Comparación:
Entre 2 secuencias, alineamiento a pares (pairwise)
Una secuencia contra muchas secuencias en bases de datos, búsquedas por
similitud (pairwise)
Entre muchas secuencias, alineamiento múltiple
9
Alina Logina Bioinformática
MÉTODOS DE ALINEAMIENTO
DOT PLOT
Comparación rápida y visual
dentro de una misma secuencia y
entre secuencia.
Las líneas diagonales solo
conectan puntos seguidos.
Observamos que la manera en
que alinean no es igual sino
movida.
10
Alina Logina Bioinformática
Ejemplo
No comparamos A con A, C con C. Comparamos 5 letras a la vez, en la primera vez solo
se alinea la E (tenemos un punto porque un aa se ha alineado),
Restricción: si dentro de esas 5 letras, coinciden al menos 3 (60%), y en este caso solo
se alinea 1 (20%).
Hasta que encontramos el 100% y se marca un punto en cada una de las que coinciden
y se traza una diagonal. Significa que las dos secuencias son idénticas, la secuencia A es
idéntica al final de la secuencia B.
11
Alina Logina Bioinformática
DYNAMIC PROGRAMMING
Aplicada de dos maneras diferentes:
- Alineamiento global (Needelan & Wunch): se intenta optimizar el máximo de
identidad, crearon un algoritmo de programación. Intentamos alinear todos los
caracteres de las secuencias optimizando el número máximo de identidades.
Longitudes parecidas o se deben introducen gaps o discontinuidades con mayor
facilidad.
12
Alina Logina Bioinformática
3. Fase de relleno o inducción: Ahora hay que puntuar las demás casillas, puede venir
de la horizontal, vertical o diagonal. Se suma el valor horizontal o vertical + el
atribuido al gap. Si el valor viene de la diagonal: diagonal + (si es match o mismatch)
Nos tenemos que quedar con el valor más elevado, y tenemos que recordar de
donde ha venido ese valor (en este caso de la diagonal).
4. Fase de rastreo regresivo para recuperar la solución óptima: vamos hasta el ultimo
punto, y seguimos las flechas hasta llegar al cero.
Gap cuando nos desplazamos lateralmente. Dibujamos el gap hacia la secuencia que
indica la flecha. Calcula el score, los valores para representar si el alineamiento esta
bien hecho.
El score se calcula:
el -1,+1,-3
El score menos
negativo, nos
indica que el
alineamiento está
mejor hecho.
13
Alina Logina Bioinformática
Para proteínas, tenemos 20 puntuaciones posibles. Los aminoácidos no son 0/1, pueden
ser similares. Si tenemos mutaciones, por ejemplo, de una Lys a una Arg no es tan grave
y probablemente no cambie la función. Les damos una puntuación por similitud
“química”:
Basadas en propiedades fisicoquímicas
Basadas en tamaño, forma, carga, polaridad
14
Alina Logina Bioinformática
Scoring matrix
Si el score es positivo (sn > 0 ), las mutaciones son aceptables. Si las mutaciones
cambian mucho, el valor en la matriz es negativo (sn < 0).
15
Alina Logina Bioinformática
Blosum 62: thus they used locally aligned sequences where none of the aligned
sequences share less than 62% identity. This resulted in a scoring matrix called
BLOSUM62. In contrast to the PAM matrices the BLOSUM matrices are calculated
from alignments without gaps. 62 es el porcentaje de identidad de las secuencias
utilizada en la construcción de la matriz.
- BLOSUM normalmente mejores que las PAM para búsquedas de similitudes locales
(Henikoff & Henikoff, 1993)
- Utilizar PAM bajas o BLOSUM altas cuando se comparan proteínas parecidas
- Para proteínas distantes utilizar PAM elevadas o BLOSUM bajas
- Para búsquedas en bases de datos utilizar BLOSUM62 (por defecto)
16
Alina Logina Bioinformática
17
Alina Logina Bioinformática
18
Alina Logina Bioinformática
BLAST
19
Alina Logina Bioinformática
El algoritmo:
Buscar la similitud, valorar la, darle un score, valorar los gaps. Podemos
obtener un alineamiento pairwise o un múltiplo. Podemos focalizarnos en
secuencias más cortas que se parezcan más o alineamientos globales.
20
Alina Logina Bioinformática
21
Alina Logina Bioinformática
2. Algoritmos heurísticos:
Son más rápidos, pero menos precisos. Existen 3 tipos:
Progresivo: paso a paso
Iterativos: parte de uno menos estricto. Inicia un alineamiento subóptimo y lo va
mejorando en siguientes iteraciones.
En bloque: a diferencia de los anteriores, no es esencialmente global, busca
segmentos “en bloque” conservados para hacer el alineamiento
ClustalW
Comparación de pares progresivo guiado por árbol.
1. Alineamiento por pares (pairwaise): entre todas.
2. Se obtiene un árbol filogenético, no tenemos distancias evolutivas, solo similitudes.
3. Adición progresiva de secuencias según se parezcan más o menos. Obtenemos un
score del mulitalineamiento, sumando.
4. Puntuación mediante suma de pares.
5. Contrapesado de secuencias próximas: aplicamos unos factores, los mas
redundantes puntúan menos (tienen menos peso en la puntuación final). Estamos
corrigiendo las ponderaciones obtenidas.
22
Alina Logina Bioinformática
COFFE Y T-COFFE
- COFFE: DNA, RNA y proteínas. (Consistency based Objective Function For Alignement
Evaluation): Algoritmo que mide la consistencia entre un multialineamiento de
secuencias y una librería que contiene alineamientos por pares de la misma
secuencia.
- T-Coffe: de proteínas. es un programa de alineamiento que utiliza la puntuación de
COFFE. Actualmente se ha extendido a un paquete con más posibilidades.
T-Coffe también utiliza el alineamiento global Needleman-Wunsch para cada par de
secuencias, y el árbol guía.
Alineamiento global + Apareamiento local o en bloques de zonas cortas que alinean muy
bien
Con estos dos hace una suma: esquema de ponderación librería primaria, extensión
buscando multialineamientos con secuencias parecidas y hace una librería extendida.
Si son muy parecidas en longitud, no veremos mucha diferencia. Será más informativo
cuanto más diferentes en longitud.
23
Alina Logina Bioinformática
Alineamiento estructural
Estos alineamientos intentan establecer equivalencias entre dos o más estructuras de
polímeros basándose en su forma y conformación tridimensional.
El alineamiento estructural puede usarse, por lo tanto, para sugerir relaciones evolutivas
entre proteínas que comparten una secuencia común muy corta.
24
Alina Logina Bioinformática
Tres estrategias:
- Rígida
- Flexible
- Elástica
- Dali
- Vast
VAST
- Compara los tipus y ordenamientos de hèlices alfa y hojas ß entre y las maneres en
que están conectadas
Pocos tipus de elementos de estructura secundaria
- La localización y dirección de estos elementos se describen con vectores
25
Alina Logina Bioinformática
Dificultats: BLAST de proteïnes, com busca seqüències tan semblants, no podem trobar
coses llunyanes poc semblants (no te cap criteri per mantenir el no semblant). No és una
bona eina.
Important a l’hora de cercar les diferencies, similituds, i saber quin programa utilitzem
26
Alina Logina Bioinformática
- Homòleg remot: han divergit tant que només tenen un 25% de identitat, però
segueixen tenint la mateixa funció. No podrà alinear, però si a nivell local. La
similitud dels dominis funcionals (alineaments locals) és superior a la similitud de la
seqüència completa (alineament global).
- Analogia: no son similars, però han convergit per tenir la mateixa estructura o
mateixa funció, o similars. No tenen origen comú (seqüències no relacionades).
Analogia estructural o analogia funcional.
- Identitat: % que reflecteix com és d’igual una seqüència amb una altra.
- Similitud: comparteixen característiques fisicoquímiques dels aa (bàsics, polars,
hidrofòbics...)
Conceptes importants
- Motiu: no són una unitat funcional. Si son molt divergents, poc semblants no hi
haurà molta identitat. Però seqüències curtes (centre actiu...) es poden mantenir i
això son motius, es conserven al llarg de la seqüència global. És una regió curta,
similar o idèntica.
Si observamos un alineamiento múltiple de proteínas homólogas veremos que
algunas columnas varían bastante, mientras que otras están más conservadas.
Cuando observamos ciertas columnas cercanas con una alta conservación, es decir,
cuando encontramos trocitos de las secuencias que se conservan más que otros y
que podrían caracterizar funcionalmente a las proteínas, entonces solemos hablar
de MOTIVOS.
- Domini: han de ser similars però es una unitat estructural independent, relacionat a
una funció concreta. El domini similar tindrà la mateixa estructura.
El concepto de dominio define una unidad estructural independiente en las
proteínas. Sin embargo se utiliza con cierta laxitud: por ejemplo, en estudios
genéticos de deleción a veces se utiliza como sinónimo de la parte mínima de la
secuencia capaz de realizar la función estudiada. En las bases de datos de dominios
como PFam, un dominio se suele corresponder con el núcleo del dominio
estructural, aquella zona más similar entre todas las proteínas de una familia,
aunque no tiene por qué coincidir exactamente con los límites del dominio
estructural.
27
Alina Logina Bioinformática
Patrons regulars
En un alineament veiem que hi ha unes posicions conservades 100%. D’altres es
conserva la propietat i això es defineix com un patró.
Escrivim la seqüència consens de la següent manera, es veu més endavant.
Característiques:
Són seqüències molt curtes (10-20 residus, més grans serien dominis), es defineixen
mitjançant una seqüència consens, poden definir llocs de PTM (fosforilacions,
glicosilacions...) o motius funcionals (unió al DNA...), es poden utilitzar per caracteritzar
certs motius, una família proteica pot tenir més d’un patró i el PROSITE és la base de
dades que utilitza patrons per definir diferents motius: centres actius, llocs de
modificació postraduccional, d’unió a lligand...
28
Alina Logina Bioinformática
WebLogo
Si tenim 100 seqüències. En quina freqüència poden aparèixer els residus que poden ser
intercanviables?
WebLogo ens dona un gràfic de la seqüència i de la freqüència de cada aminoàcid.
Avantatges:
- Rápido y fácil de implementar (búsqueda rápida en bases de datos de las regiones
más conservadas)
- Fácil de entender para el usuario
Limitacions:
- Dificultats en definir-los (a part dels que es idèntic, la resta és una mica ambigu), són
molt estrictes (en homologies remotes es difícil de definir o detectar) i no reconeix
homologia remota (per la identificació, necessita concordança exacta amb el patró)
- No considera les insercions ni les delecions perquè s’han de alinear les mateixes
posicions.
- Si són molt curts pot donar a falsos positius, que es donin per pura probabilitat
- Es difícil tenir un patró per seqüències llargues, no pots tenir masses X perquè no
seria un patró
- No ens dona cap mena de Score, no podem saber com de bo ha sigut el patró
- Identificació de motius curts (significatius) o centres actius funció biològica
- Descripció de motius de forma senzilla
Perfils PSSM
Matriu de substitució específica per a cada posició (PSSM= position specific scoring
matrix).
Tenim unes seqüències de 6 aminoàcids. Es crea una matriu. A cada posició per cada
aminoàcid es posa quantes vegades apareix en u per cent.
Normalitza les freqüències. Aplica el ln en base 2. A partir de la matriu resultant, això és
el perfil. Es fa el càlcul, es pot aplicar qualsevol seqüència i comparar per saber si
s’assembla molt o poc gràcies a un Score final. Ens considera la freqüència d’aparició de
cada aa i comptabilitza tots els residus. Comparem seqüències homòlogues remotes.
PROSITE utilitza patrons perfils.
En base a un perfil, ens dona una certa puntuació i sabrem si son homòlegs llunyans.
29
Alina Logina Bioinformática
30
Alina Logina Bioinformática
Exemple de puntuació
Avantatges
- Es generen automàticament i són més fiables que els patrons
- Permet incloure insercions i delecions
- Identifica la seqüència completa del domini (no només la regió més conservada)
- Permet detectar homòlegs remots (baixa conservació de seqüència)
- Millora la predicció de característiques estructurals
- Proporciona una puntuació (Score)
Limitació
- Interpretació és menys intuïtiva en relació a la dels patrons
- Base estadística pobre (matriu de freqüències però no es consideren altres
probabilitats)
31
Alina Logina Bioinformática
32
Alina Logina Bioinformática
- PROSITE
Identifica la seqüència, quina és, quin és el domini, quina funció té...
Es una base de datos que contiene información detallada sobre todos los motivos
de secuencia de proteína conocidos. Permite buscar patrones de una proteína, o con
un patrón determinado buscar proteínas que lo contengan.
33
Alina Logina Bioinformática
34
Alina Logina Bioinformática
Alfa-hèlix
35
Alina Logina Bioinformática
Fulla beta
Cada enlace peptidico es planar y tiene configuracion trans.
Los grupos C=O y N-H de los enlaces peptidicos de cadenas adyacentes (o de
segmentos adyacentes de una misma cadena) estan en el mismo plano apuntando
uno hacia el otro, de tal forma que se hace posible el enlace de hidrogeno entre
ellos.
Los puentes de hidrogeno son mas o menos perpendiculares al eje principal de la
estructura en hoja plegada.
Todos los grupos R en cada una de las cadenas alternan, primero arriba del eje de la
lamina, despues abajo del mismo, y asi sucesivamente.
Gir beta
Seqüències
adjacents, tipus 1
o tipus 2.
Llaços o loops
Seqüències curtes
que uneixen
seqüències
secundàries però
no tenen una
estructura.
36
Alina Logina Bioinformática
37
Alina Logina Bioinformática
38
Alina Logina Bioinformática
- Phobius: diseñado para detectar falsos positivos. Las proteínas con péptido señal
(hidrofóbico, puede ser alfa heliz) pueden ser reconocidas como transmembrana. Es
mejor que el inicial y que pasa a un acierto del 70% al 94%.
Con Polyphobius busca en la base de NCBI homólogos de la secuencia problema que
ayuda a derivar la predicción consenso (consume más tiempo).
39
Alina Logina Bioinformática
Predicción de coiled-coil
Hay un nivel superior de información, son importantes porque pueden estar en la matriz
extracelular… Hacen interacciones que se tienen que considerar.
40
Alina Logina Bioinformática
Programas:
- Coil: ventanas de 14, 21 o 28 residuos, compara con la matriz de probabilidad de
estructuras conocidas. Bastante preciso en coiled-coils levogiros expuestos al
solvente.
- Multicoil: Utiliza matriz de puntuación basada en datos de ovillos enrrollados de 2 o
3 cadenas.
Predictores de plegamiento
Las mal plegadas se relacionan con enfermedades como Alzheimer, Parkinson…
Bioinformatic tools that: capture the sequence-specific determinants of protein
aggregation and performed an analysis on the impact of aggregation on disease-
associated
41
Alina Logina Bioinformática
Las estructuras resueltas no son muy abundantes. El histograma nos dice el número de
estructuras resueltas en cada año. Miramos el banco de estructuras (PDB), como
podemos trabajar con estas estructuras. Si tenemos dos estructuras homologas, de dos
especies, ¿cuál es el grado de solapamiento? Tenemos dos maneras: DALI y VAST.
42
Alina Logina Bioinformática
43
Alina Logina Bioinformática
Predicción Ab initio
Se basa en que en la secuencia de la proteína
reside la información sobre su plegamiento.
La predicción no esta restringida a
plegamientos conocidos y puede encontrar
otros plegamientos.
Bastante poco preciso, debido al
desconocimiento general de las reglas de
plegamiento.
Los algoritmos buscan el principio de la
mínima energía global.
Programas que lo usan: Rosetta…etc
44
Alina Logina Bioinformática
Archivos PDB
PDBid: 4 caracteres (A-Z) o dígitos (0-9) como 1LYZ y 4RCR.
Encabezamiento con información de la estructura y su calidad. El nombre de la
molécula, organismo de origen, resolución parámetros cristalográficos, secuencia,
cofactores…
La parte ATOM se refiere a los átomos de la proteína, mientras que HETATM a los
del cofactor o sustrato.
Ejemplo:
45
Alina Logina Bioinformática
Visualización
Las coordenadas cartesianas pueden generar una imagen tridimensional mediante
programas especializados.
Ello permite:
- manipulación de la estructura por modelado
- ajuste de un ligando en el centro activo (Docking).
- Análisis de las cavidades y superficie de la proteína
- Proposición del mecanismo de actuación (especialmente en enzimas)
Comparación de estructuras
Método intermolecular:
Para estructuras similares. Una estructura es movida respecto a la otra hasta encontrar
el máximo solapamiento.
46
Alina Logina Bioinformática
Método intramolecular:
Se basa en la estadística estructural interna y no dependen de la similitud entre las
proteínas comparadas.
No superimpone las estructuras.
Comparación de estructuras
Funciona generando una matriz de distancia entre los residuos de la misma proteína.
Son las matrices de cada proteína las que son comparadas y solapadas.
Patrones de distancia intramolecular similares corresponden a regiones de
plegamiento similar.
47
Alina Logina Bioinformática
Ejemplo:
48
Alina Logina Bioinformática
49
Alina Logina Bioinformática
50
Si volem resoldre una estructura tridimensional, hem de buscar la seqüència de la proteïna, aïllament de la
proteïna (mitjançant expressió del gen en un bacteri: clonatge, transformació, disrupció, purificació) pura i
concentrada. Es purifica la proteïna (uns quants passos segurament). Després, fem la tècnica de la gota
penjant per cristal·litzar. Si és una proteïna que no s’ha resolt mai, no sabem les condicions òptimes de la
cristal·lització, per tant, n’haurem de provar moltes. Quan trobem el cristall el sotmetem a un feix d’electrons
(sincrotró) i obtenim un mapa de densitat electrònica (transformació de Fourier). A partir dels softwares
obtenim les coordenades i obtenim el pdb.
Pot ser que passin 4 coses:
- Que el cristall sigui de sala llorar a la lloreria
- Que el cristall es trenqui a llorar a la lloreria
- Que el mapa de difracció sigui una basura a rajar-se las venes
- Que surti bé
Si anem a l’apartat d’estructura d’una proteïna a l’UniProt, ens podem trobar proteïnes que encara no
presenten estructura, mentre que les proteïnes força estudiades sí que en presenten moltes (DHFR, per
exemple). Alhora, si ens fixem en els links, en trobem 4 diferents que corresponen a diferents servidors: 3
nodes (EEUU, Europe, Japó) + sum. Cada nòdul té el seu tipus de base de dades però es nodreixen del
mateix lloc, és a dir, hi ha la mateixa informació a tot arreu però presentada de manera diferent.
Al PDB podem veure l’estructura de la proteïna amb diferents lligands: cofactors, inhibidors, substrats...,
diferents mutants, etc. D’entre totes aquestes estructures possibles hem de trobar la que més ens interessa.
Per tant, hi ha tants pdb perquè hi ha moltes maneres d’estudiar les proteïnes: raigs X, RMN, Cryo-EM + unió
de lligands + variants mutants...
Per cada PDB hi ha un codi (típic letritas i tal), un arxiu PDB és:
Aquí trobem tota la info de la proteïna, estructures, angles, lligands... Però aquí no veiem pas res, llavors
necessitem un visualitzador (3D view al mateix PDB, rasmol, jmol, pymol –great memories-, etc.).
Si anem al PDB d’EEUU (RCSB PDB):
A experiment trobem totes les condicions i paràmetres que s’han fet servir per l’adquisició de les dades, tota
la informació relacionades amb la cristal·lització de la bebé.
Pestanya ligands info sobre els lligands (el verd són ponts H, tampoc ho veuré pk sóc rata i imprimeixo en
blanc i negre)
- VAST: comparació vectorial, traça trajectòries d’estructures secundàries, aleshores intenta solapar les
trajectòries de les dues estructures per tal de veure si s’assemblen o no.
Si busquem una proteïna, ens buscarà similitud d’estructura amb totes les proteïnes que té a la base de
dades, un RMSD menor ens donarà una similitud d’estructura major.
TEMA 1. BASES DE DADES EN BIOLOGIA MOLECULAR
NCBI → Busquem informació sobre els gens. Per això anem a l’apartat de Gene, i trobem una llista amb
diferents resultats (segons organisme). Si obrim la pàgina del gen trobem d’entrada informació bàsica:
localització del gen dintre del genoma/cromosoma, número d’exons, número de transcrits de forma visual,
nivells d’expressió segons teixit.
En el cas d’estudiar un gen que presenti més d’un transcrit, es pot estudiar la informació corresponent a
cadascun d’ells de forma separada. Podem anar a Go to reference sequence, i seleccionar el codi
corresponent al transcrit (et porta a la pàgina corresponent a la informació del mRNA corresponent al
transcrit). També es pot posar el ratolí sobre del transcrit de forma que surt una pestanya amb el codi al
costat de BLAST mRNA. Ara cal posar el codi en el NCBI (de la mateixa manera que hem fet al principi per
buscar el gen).
*També obtenim informació sobre l’expressió específica de cada variant (en la pàgina de cada variant es
parla de l’expressió del gen en general, i també s'especifica l’expressió concreta de la variant en qüestió).
Una vegada dins la pàgina del transcrit, trobem informació sobre els exons (posició dintre del transcrit de
forma numerada), i el CDS, d’entre altres coses. També es troba el codi d’accés de la proteïna de l’UniProt.
Si seleccionem CDS ens porta a una nova pestanya amb la seqüència del gen sencera, en la qual està
marcada en marró la part corresponent al CDS. En aquesta pestanya també podem trobar la seqüència en
format FASTA (nucleòtids).
UNIPROT → Les proteïnes presenten un codi d’identificació corresponent a l’UniProt (el podem trobar en
el NCBI de la proteïna d’interès). Trobem la seqüència de les diferents isoformes registrades de la proteïna
en format FASTA (aminoàcids). De cadascuna d’aquesta es pot obtenir informació sobre la llargària, la
massa i el pI de cadascuna (les dues primeres surten directament, el pI cal seleccionar el ProtParam).
Trobem també informació sobre les malalties en les quals està el gen involucrat, i les diferents mutacions
(pathology). A més, es mostren totes les estructures PBD registrades que s’han resolt per la proteïna, que
estan fetes amb diferents tècniques i resolen diferents fragments de la proteïna.
*Si volem saber saber informació sobre les PTMs, en l’UniProt trobem un link directe a una pàgina on hi ha
registrades totes les modificacions: Phosphosite. Es poden comparar les PTMs amb altres organismes en
l’apartat de Site table (surten els organismes disponibles a comparar). En l’apartat de Cancer del
Phosphosite, et surt els diferents tipus de càncer que presenten el gen de la prtoteïna mutada amb més
freqüència.
*Si volem conèixer les interaccions de la proteïna d’intrès amb altres proteïnes, també trobem un link
directe al STRING, on es mostren les relacions (seleccionar el tipus de relació).
BRENDA → Es pot trobar el codi del BRENDA (pàgina amb informació sobre enzims) en l’UniProt. A l’apartat
de Functional parameters trobem valors de Km, Ki i Kcat/Km. Si vols trobar el Km d’un substrat concret:
cliques sobre Km, busques el substrat concret i mires les entrades, que indiquen els diferents pH i
temperatures a les quals s’ha realitzar l’experiment; trobem informació sobre la proteïna WT i sobre les
diferents mutacions.
PROTEOME 2D PAGE → Seleccionem l’organisme del qual volem conèixer informació sobre un spot
concret. Si et col·loques sobre i selecciones el spot, s’obre la pàgina corresponent a la proteïna. Es diu el
nom de la proteïna i el seu codi d’accés a l’UniProt (posa SwissProt). També pots trobar altres dades com
el PM, el pI o la intensitat del spot.
SWISS-2DPAGE → Obrim la pàgina, i a l’esquerra de la pàgina permet buscar proteïnes segons diferents
mètodes. Podem seleccionar segons número d’accés (codi UniProt). Et surten els diferents spots trobats,
amb la MW i el pI corresponent. També diu el tipus de teixit/cèl·lules d’on s’han extret.
ORFfinder → Posar la seqüència de nucleòtids del gen en format FASTA. Surten els diferents ORFs predits
per a la seqüència en concret, la seva llargària i la cadena en la qual es troba. Podem obtenir la seqüència
de cada ORF per separat, tant en nucleòtids com en aminoàcids.
NEBcutter → Permet conèixer les dianes de restricció que es troben en una seqüència que volem clonar.
Seleccionem tots els enzims de restricció disponibles comercialment. Obtenim una llista amb tots aquests,
específicament nosaltres volem 0 cutters, doncs no volem que la nostra seqüència es talli en algun punt.
*De forma paral·lela, mirem el cloning site del vector que utilitzem. Escollir els RE segons el que ens
convingui (per exemple, perquè volem His). Aquests els comparem amb la llista de RE que hem obtingut
en el NEBcutter. Si es troben a la llista de 0 cutters, perfecte, es poden fer servir en els primers.
**Si volem veure polimorfismes hem de veure que un enzim que feia un tall ja no el pot fer ja que un
dels nucleòtids ha canviat. per tant anem a 1 cutter i mirem la posició concreta i seleccionem l’enzim
que no tingui nt raros (Y). Aquest ens servirà per mirar els polimorfismes.
PREMIER Biosoft o NetPrimer→ Serveix per analitzar els primers obtinguts. Et dona informació sobre la
Tm, l’energia lliure, el percentatge de GC, estabilitat, etc. La Tm ha d’estar entre 50 i 65ºC (no pot haver
una diferència major de 5º entre el primer forward i reverse). La variació de G reverse ha ser major a -10
(osigui, volem un valor tirant més a positiu). Comentar també que el primer ha d’acabar amb una G o una
C. El número de nucleòtids ha d’estar entre 18 i 28, i no cal que sigui nombre múltiple de 3.
PRIMER3PLUS → Ens serveix per a poder quantificar una proteïna mitjançant la creació de primers (qPCR).
Cal seleccionar un target radom a la zona central i fer: pick primers. et dona les opcions que creu que son
bones. Tot i que si ho comparem amb el PRIMER Biosoft t’en assegures.
QuickChange Primer Design (o PrimerX com a alternativa) → Realització de primers per a fer mutagènesi
dirigida. S’introdueix la seqüència i se li dona a Upload Now (si ja ho tens en proteïna) o Upload Translated
(si ho tens en DNA). Ara es pot escollir el residu que es vol mutar. Cal marcar el punt 5 per a que apareguin
les opcions per a mutar. Et retorna els dos primers.
Primer-BLAST → Ens permet fer primers que siguin compatibles amb diferents espècies per a la seqüència
d’una proteïna d’interès. Selecciones totes les seqüències que et dona, fas submit, i et dona múltiples
resultats de parelles de primers.
TEMA 3. ALINEAMENT DE SEQÜÈNCIES
SOFTBERRY → Permet buscar els operons (número de gens que el formen) d’eucariotes i procariotes.
També aporta la seqüència de cada gen, i quins gens formen cada operó.
BLAST (blastn)→ Permet identificar gens (proteïnes) a partir de la seva seqüència. Està basat en el
percentatge d’homologia entre la seqüència aportada i les seqüències de la base de dades.
Splign → Seleccionar l’opció de Online. Introduïm la seqüència de cDNA i la seqüència del clon genòmic.
Permet identificar els exons i els introns en el clon genòmic.
EMBOSS Cgplot → S’introdueix la seqüència de DNA genòmic. Com a resultat surten uns gràfics. A sota
surten les llargades de les illes CpG que ha predit aquesta pàgina i entre quins residus es troba.
ALGGEN PROMO → Ens permet trobar els factors de transcripció de la nostre seqüència. el més important
és que has de fer pas per pas ja que les pàgines són independents. Tenir en compte que el factor ha d’estar
abans del promotor i per tant abans del primer exó.
EPD→ Selecciones l’espècie (humans) i els promotors que vols buscar. Quan ja has introduït un promotor,
vas a Search motif tool i a Library selecciones els Promoter motifs. Ara cal seleccionar el tipus de motif, per
exemple, caixa TATA.
Per marcar les 100 sample cal marcar primer l’espècie homo sapiens, després anar a Selection Tool i marcar
EPD selection tool aqu marcar les sample i la caixa que vols i escriure els promotors (1 per fila). Al clicar
select et dira si hi ha algun resultat, si ens tens, anar a les 3 lletres del costat i et sortirà el promotor amb
100 samples. després fer el que tenim a l’inici.
Gene Browser (UCSC) → Permet identificar illes CpG del promotor. Posem l’espècie i el promotor i el
programa ens dona la localització. Quan ens apareix hem d’anar als tools de sota a Regulation. Allà
seleccionem que es mostrin les illes CpG, que apareixen al gràfic de la part superior. Cliques en el gràfic
sobre la illa i obtens la informació. Anem a View DNA for this feature i Get DNA.
EMBOSS: NEEDLE → Ens proporciona un alineament global entre dos seqüències (podem fer alineament
global quan dues proteïnes presenten longituds molt semblants!). Entrem en el programa, introduïm les
dues seqüències en format FASTA de les proteïnes, de les quals volem fer l’alinemanet, i li donem a submit.
Ens donarà l’alineament, comparant les dues una sobre de l’altre, i proporcionarà un score (ex. 683) i
identitat (ex. 161/232 (69.4%)).
*El programa Needle també permet fer alineament amb nucleòtids, canviant PROTEIN per DNA a Enter
pair of.
*Cal tenir en compte que contra més gran és el valor de score, més match hi ha en l’alineament resultant.
Els scores de l'alineament de DNA i PROTEIN sempre seran diferents, donant millor resultat els scores del
DNA. Això és degut a que en DNA es comparen moltes més unitats (nucleòtids) que no pas en proteïna
(aminoàcids), ja que per un aminoàcid de proteïna, tens 3 nucleòtids, tot i millorant el alineament.
Per definir la regió més conservada d’un alineament agafarem aquella que presenti més matches seguits
al llarg de la seqüència. Si hi ha una regió relativament conservada, però va seguida d’una zona amb molt
pocs matchs, no la considerarem com regió conservada.
*Podem fer un assemblatge de dues seqüències: fem un alineament, i veiem quina part de la seqüència
comparteixen. A partir d’aquesta regió comú podem ajuntar les dues seqüències que inicialment teníem
per separat en una única seqüència més llarga.
PROTEIN BLAST (blastp)→ Introduïm una seqüència d’una proteïna o un pèptid. S’obté una llista amb les
possibles proteïnes en les quals pot encaixar la nostra seqüència problema. En aquesta pàgina obtenim
molts resultats però el que tingui major coverage, menor E value i major Max.Score serà la proteïna més
probable de tenir la seqüència de la nostra proteïna. Tenir en compte que un E-value menor a 1 és bo, i
que dues proteïnes probablement són homòlogues si el E-value es troba entre 1 i 10e-6.
**tblastn: a partir d’una seqüència d’aminoàcids, busca aquelles seqüències nucleotídiques que hi ha al
banc de dades que puguin codificar la seqüència de la proteïna d’interès.
**blastx: és el contrari que el tblastn, converteix una seqüència de nucleòtids en una seqüència
d'aminoàcids, i després busca coincidències en la base de dades. Si introduïm una proteïna de fusió (per
exemple, una proteïna unida a la GFP), això es pot observar en l’apartat de Graphic summary.
EMBOSS: Dotmatcher → Comparar proteïnes (s’han de definir els paràmetres window size i un threshold).
Permet identificar zones idèntiques entre dues proteïnes. Nosaltres utilitzem aquest programa per
identificar les zones no idèntiques i poder dissenyar anticossos específics per a diferents variants d’una
mateixa proteïna.
Clustal Omega→ Hi ha el ClustalO: es pot observar des de l’UniProt o des del seu link propi. Si el fem a
l’UniProt et dona el % d’identitat i el nombre de posicions idèntiques. Obtenim un MSA: seleccionem
Download per a tenir una pàgina en format Text, que si la copies la pots posar al Jalview. Si vols obtenir el
TCS per tenir un Score i comparar-ho amb altres alineaments fets per altres programes, has d’anar al T-
coffe on tenen una opció de TCS (posar l’alineament i no la seqüència, en tot cas a sota de l’alineament hi
ha una opció que es diu Core/TCS que el posa directament alineat per a analitzar).
Jalview → Es pot visualitzar el MSA amb aquest programa. Introduim el resultat de multialineament. Pots
fer un arbre semblant al filogenètic, tot i que no ho és. Has d’anar a calculate→ Tree→ Neighbour joining→
Triar la matriu: Blossum o PAM. També podem mirar característiques de la seqüència com els residus
hidrofòbics….
Paquet T-COFFEE → Tens el Simple Coffee just a l’inici. Si vols el M-Coffee (utilitza múltiples aligners) o el
Expresso (considera informació estructural, si es que disposa d’ella) has d’anar a PROTEIN. El millor MSA
ve donat per el valor més gran de TCS score obtingut. Ens indica el programa que fa el millor alineament.
En l’EXPRESSO: a Template List obtens les proteïnes utilitzades per fer l’alineament estructural.
TEMA 6. PREDICCIÓ DE LA FUNCIÓ DE PROTEÏNES
PSI-BLAST → Permet conèixer homòlegs llunyans de la nostra proteïna d’interès. Entres a la pàgina per fer
un BLAST de proteïnes normal, i a sota canvies l’opció a PSI-BLAST. Una vegada has obtingut els resultats,
a Other reports seleccionem Distant tree of results.
Seleccionem unes 15 seqüències que presentin la menor identitat possible i que NO siguin predicted. En
cada RUN se n'afegeixen noves seqüències llunyanes. S’hauria de repetir això unes 3 vegades. A partir del
resultat final s’obtenen el nombre de seqüències que vulguis a comparar.
Si en el BLAST selecciones els resultats i vas a Download, pots obtenir les seqüències de les diferents
proteïnes en format FASTA per aixi després poder fer un multialineament o mirar patrons. El
multialineament obtingut el posem al Jalview i observem les zones conservades / d’alta identitat per
obtenir un patró de forma manual.
PRATT-PROSITE → Posem les seqüències (l’alineament no funciona!). Obtenim un patró que podria ser
representatiu de totes les seqüències introduïdes al programa. Els patrons es poden respresentar amb el
WebLogo. Cal tenir en compte que s’ha de delimitar de quina zona vols fer el logo, doncs sinó te’l genera
de la seqüència sencera.
**Els resultats els dona directament a la pàgina del ScanProsite. A partir d’aquí podem buscar proteïnes
que estiguin associades al patró que ha generat el PRATT-PROSITE (Opció 2). En aquesta pàgina només cal
donar-li a Run SCAN (el resultat surt en un quadrat blau). També podem realitzar la Opció 1: introduim la
seqüència de la nostra proteïna d’interès i busca motius associats a aquesta (el resultat surt en una línia
taronja).
Pfam → enganxant només una seqüència proteica curta, et diu quina és la proteïna amb la qual té més
identitat i et dona informació sobre: summary, domain organisation, HMM logo, trees, species,
interactions, structures...
INTERPRO → Dona informació sobre la proteïna d’interès (motius, dominis, famílies, patrons, GO, etc.).
Pots accedir al Pfam a partir d’aquesta pàgina: cal clicar sobre la línia corresponent, i anar a External link
per accedir al Pfam.
Predicció de coiled-coil:
COILS → Serveix per predir colied coils en una proteïna. Cada pic correspon a una de les hèlix del coiled-
coil.
Predicció d’agregació:
Aggrescan → Proporciona zones de la proteïna que poden ser hotspots. En el gràfic A/N es visualitza l’àrea
normalitzada pel nombre d’aminoàcids. Cal escollir un pic estret, i que sigui el més alt. Ara si volem eliminar
un hotspot s’ha de fer un canvi d’aminoàcid dintre del hotspot: el canvi s’ha de donar millor en el mig del
hotspot (millor no alterar càrregues). Fer un canvi de polar a apolar, o viceversa.
**El valor menys negatiu (més proper a 0) és el que correspon a la proteïna que té més tendència a formar
agregats. Mencionar també que aquest programa té en compte les agregacions tant amiloides com
desordenades (tipus amorf).
Aggrescan3D → Ens proporciona les zones amb més tendencia a agregar o hot spot, tenint en compte
l’estructura 3D de la proteïna. Quan mirem aquest programa, els pics que passen per sobre de la línia
discontinua (threshold) són els que molt probablement formen agregats. Els gràfics es troben en l’apartat
Aggrescan3D Plot. A l’apartat de Structure es pot veure una estructura tridimensional amb tres colors
diferents: les zones vermelles són aquelles que tenen més tendència a agregar (corresponents als pics que
superen el llindar mencionat anteriorment).
TEMA 8. ANÀLISI I PREDICCIÓ DE L’ESTRUCTURA TRIDIMENSIONAL DE PROTEÏNES
RCSB PBD (Protein Data Bank EEUU) → ENs proporciona una representació 3D de la proteïna, el mètode
pel qual ha estat resolta, el tipus de simetria de la proteïna, etc. A l’apartat de Annotacions es troba la
classificació SCOP i CATH.
**En l’apartat de Summary summary anem a buscar Ligand interactions. S’obre una pàgina on podem
seleccionar el tipus d’enllaç que es mostri (diferents enllaços en diferents colors).
**SCOP i CATH → classificació de les proteïnes utilitzant diferents criteris (classe, familia, superfamilia,
plegament/topologia i arquitectura). El trobem en el RCSB PBD dintre l’apartat de Annotation.
PBDsum (europeu) → Ens proporciona informació sobre els lligands, interaccions, i enllaços de la proteïna
d'interès (depenent de la proteïna poden haver més o menys apartats). Per veure les interaccions amb un
lligand concret, anem a lligands, i li donem a list of interactions (al costat de imatge gran). Ens donarà les
interaccions amb ponts d’H i non-bonded interactions.