Medida de La Diversidad Genetica Clase

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 119

Análisis de la diversidad genética

utilizando datos de marcadores moleculares:


Módulo de aprendizaje

Medidas de la diversidad
genética
Que conocemos de la Diversidad

¿A que nivel se puede medir?


Cuantificación de la diversidad genética: Medida
de la diversidad genética intrapoblacional

 Con base en el número de variantes


• Polimorfismo o tasa de polimorfismo (Pj)
• Proporción de loci polimórficos
• Abundancia de variantes alélicas (A)
• Número promedio de alelos por locus

 Con base en la frecuencia de variantes


• Número efectivo de alelos (Ae)
• Heterocigosidad esperada (He; diversidad genética
de Nei)
Polimorfismo o tasa de polimorfismo (Pj)

Un gen se define como polimórfico si la frecuencia


de uno de sus alelos es menor o igual a 0.95 ó
0.99

Pj = q ≤ 0.95 o Pj = q ≤ 0.99
Proporción de loci polimórficos

Es el número de loci polimórficos dividido por el


número total de loci (polimórficos y monomórficos),
es decir:

P = npj/ntotal
Abundancia de variantes alélicas (A)

 Se refiere al número de variantes en una


muestra
 La medida de la diversidad es (A - 1) variantes
porque, dentro de una población monomórfica,
el grado de diversidad es cero (A - 1 = 0)
Número promedio de alelos por locus

Es la suma de todos los alelos detectados en todos


los loci, dividido por el número total de loci

K
n= ( 1/K ) ∑ ni
i=1
Número efectivo de alelos (Ae)

Es el número de alelos que pueden estar presentes


en una población

Ae = 1/(1 – h) = 1/Σpi2
Cálculo de Ae: Un ejemplo
Loci (A, B, C) Población 1 Población 2
Individuo 1 A1 A 1 B1 B1 C1 C1 A1 A1 B1 B3 C1 C1
Individuo 2 A1 A 2 B1 B2 C2 C2 A1 A1 B2 B3 C1 C1
Individuo 3 A1 A 1 B1 B1 C1 C3 A2 A2 B1 B4 C1 C1
Individuo 4 A1 A 3 B1 B3 C2 C3 A2 A2 B1 B1 C1 C1
Individuo 5 A3 A 3 B3 B3 C3 C3 A1 A2 B4 B4 C1 C1
Número de alelos 3 3 3 2 4 1
Frecuencia del alelo 1 0.60 0.60 0.30 0.50 0.40 1.00
Frecuencia del alelo 2 0.10 0.10 0.30 0.50 0.10 0.00
Frecuencia del alelo 3 0.30 0.30 0.40  0.20 0.00

Frecuencia del alelo 4     0.30 


Heterocigosidad (h) 0.54 0.54 0.66 0.50 0.70 0.00
Número efectivo de alelos 2.17 2.17 2.94 2.00 3.33 1.00
Heterocigosidad promedio esperada (He)
(diversidad genética de Nei [D])

 Es la probabilidad de que, en un locus único,


cualquier par de alelos, escogidos al azar de la
población, sean diferentes entre sí
 Tres cálculos son posibles:
• Un locus con dos alelos: hj = 1 – p2 – q2
• Un locus j con i alelos: hj = 1 – Σpi2
• Promedio para varios loci: H = ΣjLhj/L

 La He promedio de todos los loci es una


estimación del grado de variabilidad genética en
la población
•Frecuencia alélica

 La frecuencia alélica es el concepto utilizado para


cuantificar la variación genética
 Se define como una medida de la presencia de un
alelo dado en una población; es decir, la proporción
de todos los alelos de ese gen en la población que
corresponden específicamente a ese tipo
•Cálculo de la frecuencia alélica

P(A) = [2(AA) + (Aa)]/2n


 Dos veces el número de genotipos homocigotos con
ese alelo (porque los homocigotos portan cada uno
dos copias del mismo alelo),
 más el número de genotipos heterocigotos con ese
alelo (porque los heterocigotos portan solamente una
copia de un alelo particular),
 dividido por dos veces el número total de individuos
en la muestra (porque cada individuo porta dos
alelos por locus)
•El principio de Hardy-Weinberg

 Una población cuyo apareamiento se realice al azar


da lugar a una distribución en equilibrio de genotipos
después de tan solo una generación, de manera que se
conserva la variación genética
 Cuando se cumplen las suposiciones, la frecuencia de
un genotipo es igual al producto de las frecuencias
alélicas
AA Aa aa
p2 2pq q2
Principio de H-W
– El organismo es diploide
– La reproducción es sexual
– Las generaciones no se superponen entre sí
– El apareamiento ocurre al azar
– El tamaño de la población es muy grande
– La migración es mínima
– Las mutaciones pueden ignorarse
– La selección natural no afecta los alelos que se están
considerando
•Assortative mating
• (Apareamiento selectivo)

•18
•Demostración del principio de H-W
•Generación 0
•Apareamiento
•N ∞
•♂ gametos al azar
•A1 •A2

•A1 A1 , A1 A2 , A2 A2
•Cigotos
•A 1 •A2
•Frecuencias •p2, 2pq, q 2 •♂ •A •A
•♀ •(p) •(q
genotípicas )
•♀ gametos • A11 A1 (p2) • A21 A2 (pq)
•A
1
•(p)

•Generación 1 • A1 A2 (pq) • A2 A2 (q2)


•A
•N ∞
•(q)
2
•Las frecuencias
genotípicas no cambian •A1 A1 , A1 A2 , A2 A2
de generación en
generación •p2, 2pq, q2

•p2 + 2pq + q2 = (p + q)2 = 1


Relación entre frecuencia genotípica y
alélica en HW
Cálculo de la diversidad con un marcador
molecular codominante
Individuos
M 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Gel

Locus A

Locus B

Locus C

Locus D

Locus E

Lectura M 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

de datos
Locus A 1,1 0,1 1,1 0,1 0,1 0,1 0,1 0,1 0,1 1,0 0,1 0,1 0,1 0,1 0,1 1,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 1,0 0,1 0,1 1,1 0,1 0,1 0,1

Locus B 0,1 0,1 0,1 0,1 0,1 1,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 1,0 1,0 1,0 0,1 0,1 0,1 0,1 0,1 0,1 1,0 0,1 1,1 0,1 1,0 1,0 1,0 1,1
Locus C 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0

Locus D 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0

Locus E 0,1 1,1 0,1 1,1 0,1 1,0 1,1 1,0 1,1 1,1 1,1 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 0,1 0,1 1,0 1,0 1,0 1,0 1,0 1,1 1,1 0,1 0,1
Cálculo de la diversidad con un marcador
molecular codominante (continuación)

Locus Análisis de datos Frecuencia hj = Hi


alélica (1 - p2 - q2)

Genotipos A1 A1 A1 A2 A2 A2 Total

Frecuencia genotípica (esp.) p2 2pq q2 1 p q


A
Individuos (no.) 2 4 24 30

Frecuencia genotípica (obs.) P11 = 0.07 P12 = 0.13 P22 = 0.80 1 0.13 0.87 0.23

Genotipos B1 B1 B1 B2 B2 B2 Total

Frecuencia genotípica (esp.) p2 2pq q2 1 p q


B
Individuos (no.) 7 3 20 30

Frecuencia genotípica (obs.) P11 = 0.23 P12 = 0.10 P22 = 0.67 1 0.28 0.72 0.41

Genotipos E1 E1 E1 E2 E2 E2 Total

Frecuencia genotípica (esp.) p2 2pq q2 1 p q


E
Individuos (no.) 15 8 7 30

Frecuencia genotípica (obs.) P11 = 0.50 P12 = 0.27 P22 = 0.23 1 0.63 0.37 0.46 0.22

Ho = [16(0/5) + 13(1/5) + 1(2/5)]/(30) = 0.1


Cálculo de la diversidad con un marcador
molecular dominante
Individuos
M 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Locus A
Locus B
Locus C
Locus D
Locus E

Lectura
M 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
de datos
Locus A 1 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0

Locus B 0 0 0 0 0 1 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 1 0 1 0 1 1 1 1

Locus C 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

Locus D 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

Locus E 0 1 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 0 0
Cálculo de la diversidad con un marcador
molecular dominante (continuación)
Frecuencia hj = Hi
Locus Análisis de datos alélica (1 - p2 – q2)

Genotipos AA Aa aa Total

Frecuencia genotípica (esp.) p2 2pq q2 1 p q


A
Individuos (no.) 6 24 30

Frecuencia genotípica (obs.) P1 = 0.20 P2 = 0.80 1 0.11 0.89 0.19

Genotipos BB Bb bb Total

Frecuencia genotípica (esp.) p2 2pq q2 1 p q


B
Individuos (no.) 10 20 30

Frecuencia genotípica (obs.) P1 = 0.33 P2 = 0.67 1 0.18 0.82 0.30

Genotipos EE Ee ee Total

Frecuencia genotípica (esp.) p2 2pq q2 1 p q


E
Individuos (no.) 23 7 30

Frecuencia genotípica (obs.) P1 = 0.77 P2 = 0.23 1 0.52 0.48 0.50 0.198


Cuantificación de la diversidad genética: Medida
de la diversidad genética entre poblaciones

 Diferenciación entre poblaciones respecto a


varios loci (GST)
 Estadísticos F (Wright)
 Análisis de varianza molecular (AMOVA)
Diferenciación entre poblaciones respecto a
un locus (gST)

gST = 1 – (hS/hT)

hS = diversidad de la subpoblación
hT = diversidad total
[0-1]
Una población se define …

 Ecológicamente como:
Un grupo de individuos de la misma especie que habitan
dentro de una zona geográfica restringida que permite el
apareamiento de dos individuos cualquiera

 Genéticamente como:
Un grupo de individuos que comparten un acervo genético
común y tienen la posibilidad de aparearse
Diferenciación entre poblaciones respecto a
varios loci (GST)

GST es el coeficiente de diferenciación génica

GST = DST/HT

HT= HS + DST
Pob2 HT = la diversidad génica total
HS HS = la diversidad génica dentro de una
población
HT DST DST
•DST = la diversidad entre poblaciones
(HT/HT) = (HS/HT) + (DST/HT) = 1
Pob1 Pob3 •[0-1]
HS DST HS
Estadísticos F (Wright)

La ecuación para la estructura genética de


poblaciones es:

(1 - FIT) = (1 – FIS)(1 – FST)

FIT = 1 – (HI/HT)

FIS = 1 – (HI/HS)

FST = 1 – (HS/HT)
Términos
Coeficiente de endogamia o índice F

 Compara la proporción real de genotipos


heterocigotos con los esperados en condiciones de
apareamiento al azar

F= ( He−Ho ) He
 F es el coeficiente de endogamia y cuantifica la
reducción de la heterocigosidad
Relación entre frecuencia genotípica y
alélica en HW
Términos
• Panmixia: Sistema de apareamiento en el
que la elección de pareja se realiza al azar
•Assortative mating
•(Apareamiento selectivo)

•41
Interpretación de valores FST

El rango de FST es:

0 1
(no existe divergencia (fijación para alelos
genética) alternos en diferentes
subpoblaciones)

Cuando FST es: entonces la diferenciación genética


es:

de 0 a 0.05 pequeña
de 0.05 a 0.15 moderada
de 0.15 a 0.25 grande
>0.25 muy grande
Sistemas de reproducción y apareamiento

 Alogamia (Rep aleatoria) vrs autogamas (Rep no


aleatoria)
 Endogamia (Rep no aleatoria)
 Reproducción asexual (Rep no aleatoria)
 Estas formas de reproducción influyen en:
• El grado de afinidad genética entre parejas
• La organización de genes en los genotipos
Apareamiento no aleatorio (Endogamia)
 Apareamiento clasificado:
• Positivo: apareamiento X X
entre individuos con
fenotipos similares
• Negativo: apareamiento entre
individuos con fenotipos X
disímiles
Progenitores
 Endogamia:
• Apareamiento entre
Consanguíneos
parientes

Línea pura
Rey Carlos II de España
•¿Qué sucede en la autogamia?
•%
•100.0

•75.5

•50.0

•25.5

•Heterocigosis
•Homocigosis
•0.
0• 0 1 2 3 4 5 6 7 8

•Generaciones
Ubicación geográfica de las ardillas

•Área de estudio
¿Que relación hay entre el tamaño de
la isla y los índices analizados?
¿Que pasara en esta isla con respecto
a las otras?
¿La cobertura vegetal que indica?
¿Que puede concluir de esta
información?
Utilizando la información anterior
• Medite en su respuesta utilizando la nueva
evidencia que se presenta a continuación.

• ¿Que relación hay entre los índices anteriores y los


patrones de distribución o desplazamiento de las
especies?

• ¿Será importante conocer el tipo de reproducción


de los organismos?
Flujo génico

Los insectos polinizadores


llevan granos de polen
desde la población Y
A
(alelo a > alelo A) hasta la a
a
población X a
a A
a
a
Población X

Población migratoria Y

p = 0.80 (frecuencia del alelo


A)
q = 0.20 (frecuencia del alelo
p = 0.10 (frecuencia del alelo A)
a)
q = 0.90 (frecuencia del alelo a)
Cálculo de los estadísticos F (continuación)

Frecuencia genotípica
Pob.
A1 A1 A1 A2 A2 A2 pi qi 2piqi F
1 0.25 0.50 0.25 0.50 0.50 0.500 0.0000
2 0.80 0.10 0.10 0.85 0.15 0.255 0.6078

HT 2(0.675)(0.325) = 0.4388 po (0.50 + 0.85)/2 = 0.675

HI (0.5 + 0.1)/2 = 0.30 qo (0.50 + 0.15)/2 = 0.325

HS (0.500 + 0.255)/2 = 0.3775

FIT = 1 – (0.30/0.4388) = 0.3163

FIS = 1 – (0.30/0.3775) = 0.2053

FST = 1 – (0.3775/0.4388) = 0.1397


Cálculo de los estadísticos F

Frecuencia genotípica
Pob.
A1 A1 A1 A2 A2 A2 pi qi 2piqi F
1 0.40 0.30 0.30 0.55 0.45 0.4950 0.3939
2 0.60 0.20 0.20 0.70 0.30 0.4200 0.5238

HT 2(0.625)(0.375) = 0.4688 po (0.55 + 0.70)/2 = 0.625

HI (0.3 + 0.2)/2 = 0.25 qo (0.45 + 0.30)/2 = 0.375

HS (0.495 + 0.420)/2 = 0.4575

FIT = 1 – (0.25/0.4688) = 0.4667

FIS = 1 – (0.25/0.4575) = 0.4536

FST = 1 – (0.4575/0.4688) = 0.0241


Algunos ejemplos

Tipos de polinización
•¿Cual es el
efecto esperado
en el síndrome
de polinización?

•¿aves,
mamíferos,
insectos, viento y
agua polinizan
igual?
¿Cual es la relación entre las migraciones de individuos y la
diferenciación genética de las poblaciones?
Análisis de varianza molecular (AMOVA)
 AMOVA es un método que sirve para estudiar
la variación molecular dentro de una especie
 Se basa en un modelo jerárquico o anidado
 Se diferencia de un análisis de varianza
(ANOVA) en que:
• Puede contener diferentes suposiciones evolutivas
sin modificar la estructura básica del análisis
• La hipótesis utiliza métodos de permutación que no
requieren la suposición de una distribución normal
Niveles jerárquicos
• 1. Continentes, que pueden contener niveles
jerárquicos menores
• 2. Regiones geográficas dentro de un continente
• 3. Zonas dentro de una región, en un continente
• 4. Poblaciones dentro de una zona de una región,
en un continente
• 5. Individuos dentro de una población en una zona
de una región, en un continente
Un ejemplo de AMOVA
Ind. Pob. 1 Pob. 2 Pob. 3 X...k 15 21 18 54
A1 A2 A1 A2 A1 A2 X...k2 225 441 324 990
1 0 0 0 1 1 1 ∑∑Xi...k2 27 33 28 88
2 1 1 0 1 1 1
∑∑∑Xijk2 15 21 18 54
3 0 0 1 1 0 1
X...2 2916
4 1 0 1 0 1 1
5 0 0 0 1 0 1
6 0 0 0 1 0 0 Sca 0.6 CMa 0.3

7 1 1 1 1 1 1 SCb 11 CMb 0.26190476


8 0 0 1 1 0 0 SCw 10 CMw 0.22222222
9 1 0 1 1 1 0 •3 poblaciones

10 1 1 1 0 0 1
11 1 0 0 1 1 1 •15 individuos

12 0 0 1 1 1 0
A1 = 1 Presente
13 1 1 1 1 0 1 •2 alelos
A1 = 0 Ausente
14 1 1 1 0 1 0
15 1 1 0 1 1 0
Procedimiento
• Convertir en variables binarias las bandas detectadas en los geles
, asignando un valor de 0 ó de 1.
• Calcular las sumas de las presencias (1) para proceder con la
suma de cuadrados.
• Se realizan primero los cálculos para una población y se
continúa con las demás hasta completar (X...k). Tenemos i = 15
individuos (efecto b), j = 2 alelos (efecto w), k = 3 poblaciones
(efecto a).
Un ejemplo de AMOVA (continuación)
FV gl SC CM CME
Poblaciones 2 0.6 0.3 σw2 + 2σb2 + 2*15σa2
Indiv./población 42 11 0.26190476 σw2 + 2σb2
Dentro de indiv. 45 10 0.22222222 σw2
Cálculos de varianzas y estadísticos F
σa2 0.0012698
σb2 0.0198413
σw2 0.2222222
σ2 0.24333
FIT 0.086758
FIS 0.0819672
FST 0.0052185
(1 - FIT) 0.91324
(1 - FIS)(1 - FST) 0.91324
Calculo de estadísticos F

•¿Esta información que significa?


Cuantificación de las relaciones genéticas:
Diversidad y diferenciación a nivel de
nucleótido

 Usando datos de secuencia


• Diversidad de nucleótidos dentro de una población
• Diversidad de nucleótidos entre poblaciones

 Usando datos de restricción


• Variaciones en los patrones de bandas
• Diversidad de nucleótidos dentro de una población
• Diversidad de nucleótidos entre poblaciones
Utilización de datos de secuencia:
Diversidad de nucleótidos dentro de una
población

Mide la diversidad de nucleótidos entre varias


secuencias en una región dada del genoma, dentro
de una población (πX)

πX = n/(n – 1)ΣXiXjπij
Cálculo de la diversidad de nucleótidos
dentro de una población

n Secuencia Frec. Xi
5 Sec1 TCC T CGAT T ATTC C CAGGGTGC C GATG A AT 5/10 = 0.5

2 Sec2 TCC A CGAT T ATTC G CAGGGTGC C GATG A AT 2/10 = 0.2

1 Sec3 TCC A CGAT C ATTC C CAGGGTGC A GATG G AT 1/10 = 0.1

2 Sec4 TCC G CGAT T ATTC T CAGGGTGC G GATG A AT 2/10 = 0.2

10

Π1,2 = 2/30, Π1,3 = 4/30, Π1,4 = 3/30, Π2,3 = 4/30, Π2,4 = 3/30, Π3,4 = 5/30

π X = 10/(10 – 1)ΣXiXjπij
= (10/9)[0.5  0.2  (2/30) + 0.5  0.1  (4/30) + ... + 1  0.2  (5/30)]
= 0.037
Utilización de datos de secuencia:
Diversidad de nucleótidos entre poblaciones
 VXY mide la divergencia poblacional con base en el grado de
variación de la secuencia (1 secuencia, 2 poblaciones)
VXY = dXY – (πX + πY)/2
 VW mide la diversidad promedio en una población con base
en diversas secuencias
VW = (1/s)ΣπX
 Vb mide la diferenciación total en diversas poblaciones
Vb = [1/(s(s – 1))]ΣXΣYVXY
 NST es la diferenciación relativa

NST = Vb/(Vb + VW)


Ver ejemplo de programa

DNAMAN
Utilización de datos de restricción:
Variaciones en patrones de bandas
Sitio de restricción EcoRI
Fragmento 1 Fragmento 2
ADN …GACTGAATTCCACGGCACTGACGAATTCGA…AGTGAATTCTTACTTAAGCTAGCCTGAATTCGATAC…
Indiv. 1 …CTGACTTAAGGTGCCGTGACTGCTTAAGCT…TCACTTAAGAATGAATTCGATCGGACTTAAGCTATG…

Fragmento 1 Fragmento 2
ADN …GACTGATTTCCACGGCACTGACGAATTCGA…AGTGAATTCTTACTTAAGCTAGCCTGAATTCGATAC…
…CTGACTAAAGGTGCCGTGACTGCTTAAGCT…TCACTTAAGAATGAATTCGATCGGACTTAAGCTATG…
Indiv. 2
No existe sitio de
reconocimiento M I1 I2
para EcoRI
Fragmento 2
¿? Fragmento 1

Gel
Utilización de datos de restricción:
Diversidad de nucleótidos dentro de una
población

Esta medición (π) se basa en el número de


fragmentos de restricción presentes en dos
muestras

π = - (1/r)ln G
(si π < 5%)
Utilización de datos de restricción:
Diversidad de nucleótidos entre poblaciones

 Esta medición (VXY) indica la divergencia o


diferenciación entre poblaciones, con base en
los datos de restricción

VXY = dXY – (πX + πY)/2

 También se utiliza esta medida con datos de


marcadores RAPD
Ejemplo

Ballena de Groenlandia (ver


DNAMAN)
Análisis básico de la diversidad genética
1. Descripción de la variación 2. Evaluación de las relaciones
dentro de poblaciones, entre individuos, poblaciones,
regiones, etc. y entre ellas regiones, etc.

Individuos 01 02 03 04 05 06
01 0
1 0 1 1 0 1
02 0.56 0
1 0 0 0 1 1
03 0.33 0.33 0
m
D a 0 1 1 0 1 0
a r 04 0.47 0.26 0.50 0
t c
o a 1 0 0 0 1 1
s d 05 0.32 0.43 0.37 0.28 0
o
d r
e e 0 0 1 1 0 0 06 0.33 0.56 0.56 0.37 0.46 0
s
Ind5
1 1 1 0 0 0
3. Expresión de las relaciones Ind3
1 0 1 0 1 1
entre los resultados obtenidos Ind6
con diferentes tipos de Ind4
Ind2
caracteres Ind1
Tipos de variables
 Cualitativas. Se refieren a caracteres o
cualidades, y son binarias o categóricas:
• Binarias, cuando reciben solamente dos valores:
presente (1) o ausente (0)
• Categóricas, cuando reciben un valor entre varias
posibilidades y pueden ser ordinales o nominales:
 Ordinales: categorías que tienen un orden
 Nominales: categorías que no tienen relación
entre sí
 Cuantitativas. Son numéricas y pueden ser
continuas o discretas:
• Continuas, cuando toman un valor dentro de un
rango dado
• Discretas, cuando toman números enteros
Cuantificación de las relaciones genéticas:
Distancia

 La distancia entre dos muestras se describe


como la proporción de elementos genéticos
(alelos, genes, gametos, genotipos) que no son
compartidos por ambas muestras

 D = 1 cuando, y solamente cuando, las dos


muestras no tienen elementos genéticos en
común
Modelos de distancia
El cálculo de la distancia o disimilitud se ajusta a
uno de estos dos modelos posibles:

Modelo de equilibrio Modelo de desequilibrio

t t
d d1

t+1
t+1
d d2

La distancia permanece La distancia cambia con


constante con el tiempo el tiempo, a través de
(existe equilibrio entre la migración y la deriva
la migración y la deriva genética) genética
Modelo de Desequilibrio
1. Distancia geométrica
1. No considera los procesos evolutivos
2. Se basa solamente en las frecuencias alélicas
3. Existe una relación compleja entre la distancia y el
tiempo de divergencia
2. Distancia genética
1. Considera los procesos evolutivos
2. La distancia aumenta a partir del momento de
separación de una población ancestral
3. Requiere un modelo genético de evolución
¿Como se escoge la distancia a utilizar?
1. La distancia geométrica
se emplea para estudios de diversidad en los cuales se hacen comparaciones
según los datos morfológicos o de marcadores recopilados de las unidades
taxonómicas operativas (UTO/OTUs). Las UTOs pueden ser individuos,
accesiones o poblaciones. Puede utilizarse con marcadores dominantes
(RAPD, AFLP) o codominantes. Dado que no se consideran los aspectos
evolutivos, los dendrogramas obtenidos no pueden interpretarse como
árboles filogenéticos que suministran información acerca de la evolución o
divergencia entre grupos.

2. La distancia genética
para cualquier UTO dada puede incorporarse en estudios filogenéticos. El
modelo contempla las frecuencias alélicas en las UTOs y su fundamento
matemático es diferente. Puede utilizarse con marcadores codominantes y
dominantes; no obstante, con éstos últimos, se pierde información porque
solamente se pueden calificar dos genotipos. La distancia genética con
marcadores dominantes requiere que se examinen dos generaciones de la
misma población para medir la segregación de los loci
Modelos de desequilibrio: Distancia
geométrica

 Mide la relación directa entre el índice de


similitud (s) y la distancia (D = 1 – s)
 Son posibles diferentes situaciones; por
ejemplo:
• Variables binarias
• Variables cuantitativas
• Tipos mixtos de variables
• Número P de variables
Distancia geométrica (continuación)

Con variables binarias:


• Se emplea el análisis multivariado y se elaboran
matrices de similitud o diferenciación entre los posibles
pares de individuos o unidades taxonómicas operativas
(UTO)
• Dos individuos similares tienen, simultáneamente, el
valor mínimo de distancia y el valor máximo de similitud
• La distancia y la similitud están inversamente
relacionadas
• La similitud se calcula por el número de coincidencias
Para tener en cuenta
• El número de ploidía de una especie puede ocultar la presencia de series
alélicas en un locus. Si esto sucede, se subestimará la diversidad genética al
emplear marcadores dominantes (presencia/ausencia).
• •Si un marcador es codominante, se necesitan muestras de gran tamaño para
que se puedan detectar todos los genotipos posibles, especialmente si hay
varios alelos por locus.
• Son comunes las distorsiones de segregación en las especies poliploides.
• La mayoría de los programas de informática especializados están diseñados
para analizar especies diploides. Por lo tanto, si se usan con especies
poliploides, puede haber sesgos en la estimación de los diversos índices de
diversidad genética.
• El sistema reproductivo de ciertas especies no ha sido estudiado, de manera
que no se conoce lo suficiente acerca de su tipo de herencia.
• Para obtener estimaciones confiables de diversidad genética, se debe
muestrear y analizar la mayor cobertura posible (regiones de codificación y
de no codificación) del genoma de la especie en estudio.
Coeficientes de similitud para variables
binarias: Ejemplos
Ejemplo del valor del coeficiente
Autor Expresión si
a = 3, b = 1, c = 3, d = 2

S1 Russel y Rao (1940) a/n 0.333


S2 Simpson a/min[(a + b),(a + c)] 0.750
S3 Braun-Blanquet a/max[(a + b),(a + c)] 0.500
S4 Dice (1945); Nei y Li (1979) 2a/(2a+b+c) 0.600
S5 Ochiai (1957) a/[(a + b)(a + c)]1/2 0.612
S6 Kulczynski 2 (a/2)([1/(a+b)] + [1/(a+c)]) 0.625
S7 Jaccard (1900, 1901, 1908) a/(a + b + c) 0.429
S8 Sokal y Sneath 5 (1963) a/[a +2(b + c)] 0.273
S9 Kulczynski 1 (1928) a/(b + c) 0.750
S10 Sokal y Michener (1958) (SMC) (a + d)/n 0.556
S11 Rogers y Tanimoto (1960) (a + d)/[a + d + 2(b + c)] 0.385
S12 Sokal y Sneath 1 (1963) (a + d)/[a + d + (b + c)/2] 0.714
S13 Sokal y Sneath 3 (1963) (a + d)/(b + c) 1.250
Términos
Índices de distancia geométrica

Coeficiente de concordancia simple (SMC):


(a + d)/(a + b + c + d)

Coeficiente de Jaccard:
a/(a + b + c)

Coeficiente de Nei-Li, o de Dice:


2a/(2a + b + c)
Cuando se utiliza cada índice
• Coeficiente de Concordancia Simple: considera que la
ausencia corresponde a loci homocigóticos. Puede usarse con
datos de marcadores dominantes (RAPD y AFLP), por cuanto
las ausencias podrían corresponder a recesivos homocigóticos.

• Coeficiente de Jaccard: solamente cuenta las bandas presentes


para cualquiera de los individuos (‘i’ o ‘j’). Las ausencias
dobles se consideran como datos ausentes. Si se presentan falsos
positivos o falsos negativos, la estimación del índice tiende a ser
sesgada. Puede aplicarse con datos de marcadores
codominantes.

• Coeficiente de Nei-Li: cuenta el porcentaje de bandas


compartidas entre dos individuos y le da más importancia a
aquellas bandas presentes en ambos. Considera que la ausencia
tiene menor importancia biológica y, de esta manera, este
coeficiente tiene un significado completo en función de la
similitud del ADN. Puede aplicarse con datos de marcadores
codominantes (RFLP, SSR).
Visualización de las relaciones: Clasificación
o agrupación
Es el proceso de agrupar (o conglomerar) objetos en
categorías o clases, con base en sus particularidades o
relaciones comunes. La agrupación puede ser:
1. Jerárquica (una clase principal que contiene clases menores denominadas ‘ramas’)
 Esencialista, la que trata de descubrir su verdadera
naturaleza o forma
 Cladística, la que se basa en la genealogía o
filogenia
 Evolutiva, la que se basa en la filogenia y en la
cantidad de cambios evolutivos
 Fenética, la que se basa en el mayor número de
caracteres de un organismo y su ciclo vital
2. No jerárquica (cada individuo es asignado a un grupo único al compararlo con
las clases iniciales, de suerte que su posicionamiento sea el más apropiado.)

3. Superpuesta (los individuos pueden pertenecer a más de un grupo.)


•Clasificación fenética (cualquier carácter
empleado en el procedimiento de clasificación)
 Muestra las relaciones entre las muestras mediante el uso de un
índice de similitud
 Se selecciona un método de agrupación o distancia, de manera que
se pueda trazar un diagrama de árbol (dendrograma) o un fenograma
(si la matriz de similitud contiene datos fenotípicos)
 Agrupación jerárquica, a todos los caracteres se les da la misma
importancia en el proceso de agrupación.
 La similitud total entre dos grupos es la suma de la similitud para
cada carácter.
 No tiene en cuenta la genealogía.
1

2 3

4
1 2 3 3 2 4 1
Métodos de agrupación

 Pasos a seguir:
• Se define la cercanía
• Se estima cada agrupación, según la distancia
• Se conforman las ramas del dendrograma en cada
ciclo

 Los tres métodos principales son:


• Ligamiento simple (o ‘vecino más cercano’)
• Ligamiento completo (o ‘vecino más lejano’)
• Ligamiento promedio (o UPGMA)
Ligamiento simple
 O ‘vecino más cercano’
 Minimiza la distancia entre grupos al tomar la
distancia al vecino con el que presenta mayor
similitud
 Funciona con grupos uniformes y compactos,
pero se afecta con los individuos distantes.
Esto resulta inconveniente cuando hay grupos
diferentes que no están bien distribuidos en el
espacio
d(1,2)
d(1,2) = distancia mínima
entre dos UTO

Grupo 1 Grupo 2
Ligamiento simple: Un ejemplo
(1) (2)
A B C D B C AD
A 0 B 0
B 0.30 0 C 0.35 0
C 0.43 0.35 0 AD 0.30 0.40 0
D 0.28 0.60 0.40 0

0.50 0.40 0.30 0.20 0.10 0.0


(3) (4)
C ADB
C 0
A
ADB 0.35 0
D
B
C
Ligamiento completo
 O ‘vecino más lejano’
 Minimiza la distancia entre grupos al tomar la
distancia al individuo con el que presenta menor
similitud
 Funciona bien con grupos uniformes y
compactos pero, nuevamente, recibe influencia
de los individuos distantes

d(1,2)
d(1,2) = distancia mayor
entre dos UTO

Grupo 1 Grupo 2
Ligamiento completo: Un ejemplo
(1) (2)
A B C D A C BD
A 0 A 0
B 0.30 0 C 0.43 0
C 0.43 0.35 0 BD 0.30 0.40 0
D 0.28 0.60 0.40 0

(3) (4) 0.60 0.50 0.40 0.30 0.20 0.10 0.0


AC DB
AC 0
B
DB 0.40 0
D

C
Ligamiento promedio
 O ‘método de agrupamiento de pares no
ponderados usando la media aritmética’
(UPGMA)
 Minimiza la distancia entre grupos, al tomar la
distancia promedio de todos los pares entre los
individuos de la muestra
 Método más empleado

d(1i,2j) = distancia promedio


entre UTOi y UTOj de los
grupos 1 y 2
Grupo 1 Grupo 2
Ligamiento promedio: Un ejemplo
(1) (2)
A B C D B C AD
A 0 B 0
B 0.30 0 C 0.35 0
C 0.43 0.35 0 AD 0.45 0.415 0
D 0.28 0.60 0.40 0

0.5 0.4 0.3 0.2 0.1 0.0


(3) (4)
BC AD
BC 0
A
AD 0.42 0
D
B

C
0.40

0.4325
0.4325 0.35 0.28
Selección de un método de agrupación

 En primer lugar, se reúne información sobre la


especie en estudio, por ejemplo su diversidad,
su sistema de reproducción, su número de
ploidía y sus niveles de heterocigosidad
 Se seleccionan con cuidado los caracteres
genéticos que se van a analizar
 Luego se prueban diferentes metodologías de
agrupación y se evalúa el nivel de concordancia
obtenido con cada una de ellas
Validación del análisis de conglomerados

 Validación externa
 Validación interna
 Validación relativa
 ‘Bootstrapping:
– Es un método de remuestreo con reemplazo, con la
misma matriz de datos. Permite el cálculo de las
desviaciones estándar y varianzas, y es útil para
aquellas situaciones en las cuales el número de
muestras o los recursos (por ejemplo, el tiempo, el
presupuesto) son limitados.
Validación mediante ‘bootstrapping’:
Un ejemplo
(1) P1 P2 P3 P4 B (2)
A
C P1 P2 P3 P4
L1 1 0 0 1
D 0 1 0 1
L2
E
Gel L3 1 0 1 1

L4 1 1 0 0

L5 0 0 datos0
Matriz de 1
(3)
P1 P2 P3 P4
P1 1

P2 0.400 1

P3 0.600 0.400 1

P4 0.400 0.200 0.400


Matriz de similitud
1
Validación mediante ‘bootstrapping’:
Un ejemplo (continuación)
P1 P2 P3 P4

P1 1
Matriz de similitud promedio
con desviaciones estándar P2 0.267 ± 0.115 1

P3 0.600 ± 0.000 0.400 ± 0.200 1

P4 0.533 ± 0.115 0.200 ± 0.000 0.400 ± 0.200 1

Dendrograma antes del reemplazo Dendrograma con reemplazo

1 1

3 3

4 2

2 4

0.11 0.33 0.56 0.78 1.00 0.25 0.44 0.63 0.81 1.00
Visualización de las relaciones: Ordenación

 La ordenación es la disposición o ‘arreglo’ de


las unidades de muestra en sistemas de
coordenadas
 La finalidad de la ordenación, al igual que los
métodos de clasificación, es la de interpretar
patrones en la composición de las muestras
 El objetivo es arreglar las OTUs o
características a en un gradiente a lo largo de
un eje. Se desconoce el gradiente en función de
que esta, y se debe determinar por lo tanto su
fuente de variación
Métodos útiles de ordenación para los datos
de marcadores moleculares

 Análisis de coordenadas principales (PCoA)


 Escalamiento multidimensional no métrico
(NMDS)
 Análisis de correspondencia (CA)
 Ordenación Polar
Análisis de Correspondencia
• repite los promedios de los puntajes de las
muestras y encuentra zonas donde todas las
muestras que se acomodan ahí son lo más
similares posible. Al mismo tiempo, las
muestras que se acomodan en zonas
diferentes son lo más diferentes posible.
• Los procedimientos matemáticos son
complejos

También podría gustarte