Contrastes Frecuencias

Introducción al contraste de hipótesis.
Tablas de frecuencias: medidas y

contrastes
Estela Sánchez Rodríguez

Departamento de Estadística e Investigación Operativa.
Universidad de Vigo
e-mail: [email protected]
Curso 2020/2021
Guía docente:
I Introducción al contraste de hipótesis: error tipo I, error

tipo II, nivel de significación y valor p. Contrastes
paramétricos y no paramétricos.
I Test chi-cuadrado. Contrastes de bondad de ajuste y
contrastes de independencia y de homogeneidad. Tests de
normalidad.
I Tablas de frecuencias. Medidas de asociación en tablas de
frecuencias para variables nominales y ordinales. Medidas
de predicción y concordancia.
Generalidades contrastes de hipótesis
¿Qué es un contraste de hipótesis?

I Una hipótesis es una afirmación que se hace sobre algo
en concreto
I En estadística un contraste o test de hipótesis es un
procedimiento estadístico mediante el cuál se sopesa qué
hipótesis tiene mayor veracidad entre dos posibles
I En los contrastes que se plantearán las dos hipótesis no
son intercambiables. La que se mantiene, si los datos no
demuestran lo contrario, se denomina hipótesis nula, H0 ,
y se compara ésta con otra llamada hipótesis alternativa,
denominada H1 .
I Se puede contrastar afirmaciones sobre parámetros
(contrastes paramétricos) o sobre características de un
conjunto de datos como la forma, la aleatoriedad o la
independencia (contrastes no paramétricos).
Errores
En un contraste de hipótesis nos podemos encontrar en alguna

de los siguientes casos:
Decisión & Realidad H0 cierta H0 falsa

Rechazar H0 ERROR TIPO I Correcto
Aceptar H0 Correcto ERROR TIPO II
Independientemente de nuestra decisión, es posible incurrir en

error. El trabajo del estadístico es diseñar métodos para
contrastar hipótesis que mantengan a un nivel razonablemente
bajo las probabilidades de cometer cualquiera de los dos tipos
de error.
P(Error tipo I)=P(Rechazar H0 |H0 cierta)

P(Error tipo II)=P(Aceptar H0 |H0 falsa)
Nivel de significación
Es una cota superior que impone el investigador para el error

tipo I. Normalmente α = 0.05, 0.01, ó 0.10
Nos interesaría que las dos probabilidades de error sean cero,

pero esto no es posible. Además, si el tamaño muestral está
fijo, si disminuimos una de las dos probabilidades de error, la
otra aumenta. La única forma de disminuir las dos
probabilidades de error a la vez es aumentando el tamaño de
la muestra.
El procedimiento que se sigue es acotar una de las dos

probabilidades de error (la más importante de las dos) y,
buscar regiones que minimicen la otra probabilidad de error.
¿Cómo decidimos? El valor-p
I Fijado el nivel de significación, α, se trata de elegir, entre
todos los tests o regiones críticas de ese nivel, aquel que
haga mínima la probabilidad de error tipo II.
I En este curso no entramos en detalle en el modo de
obtención de las regiones críticas, simplemente, decicimos
a través de un estadístico (fórmula) que mide la
discrepancia entre la muestra observada y la hipótesis
nula.
I El valor-p es una probabilidad que, normalmente se
calcula con un programa estadístico (R, Excel, u otros).
Sirve para decidir si hay evidencias significativas para
rechazar la hipótesis H0 .
I Valores muy pequeños indican una fuerte evidencia en
contra de H0 , siendo el caso en el este valor es 0 el más
evidente de rechazo
I Valores grandes significan que no hay evidencias en contra
de H0 , con lo que se toma ésta como válida, siendo el caso
más claro cuando el valor es 1.
Valor-p y nivel de significacion α
I Los valores p que están en el rango de los errores que

admitimos, es decir, en el rango de 0.01 a 0.10 son
indicadores de que los datos muestrales no son
suficientemente claros para apoyar o descartar una
hipótesis.
I En todo caso, si se ha fijado un nivel α, y calculamos el
valor-p, podemos tomar una decisión:
I si valor-p > α, se acepta H0
I si valor-p ≤ α, se rechaza H0
I De la desigualdad anterior observamos que el valor-p es el
menor α para rechazar una hipótesis, por ello podemos
pensar que si, por ejemplo, valor-p= 0.30, entonces
tendríamos que permitirnos un error de al menos el 30 %
para rechazar la hipótesis H0 , como no estamos
dispuestos, entonces aceptamos H0 .
Tipos de contrastes
I Contrastes paramétricos (por ejemplo para la media de

una población normal)
C ONTRASTE BILATERAL (con dos colas de rechazo)
H 0 : µ = µ0
H1 : µ 6= µ0
C ONTRASTE UNILATERAL (con una cola de rechazo a la

derecha)
H 0 : µ ≤ µ0
H1 : µ > µ0
C ONTRASTE UNILATERAL (con una cola de rechazo a la
izquierda)
H 0 : µ ≥ µ0
H1 : µ < µ0
Otros contrastes paramétricos
I Para la varianza σ 2 de una v.a. X normal
I Para comparar dos medias µ1 y µ2 de dos v.a. normales
N(µ1 , σ1 ), N(µ2 , σ2 )
I Para comparar dos varianzas de dos v.a. normales
I Para la proporción p de una Binomial o para λ de una
Poisson
I Para comparar k medias (ANOVA)
I Para comparar k varianzas (contraste de homogeneidad
de varianzas)
Formularemos el contraste más apropiado, y a partir de la
muestra de datos, decidiremos a través del valor-p. Hay
contrastes para distintas situaciones, pero antes de decidir cuál
usar necesitaremos conocer particularidades de los datos, por
ejemplo si proceden de muestras independientes o
relacionadas. En cada caso leeremos la salida de resultados y
efectuaremos las interpretaciones utilizando el valor-p (estudio
de temas 6 y 7 en laboratorios)
Constrastes no paramétricos
Estos contrastes no atienden a parámetros concretos, se

centran en características de la distribución de los datos, como
la aleatoriedad, la independencia o la forma de su
representación gráfica. Algunos de ellos son:
I Constraste de aleatoriedad (test de las rachas)
I Contraste de independencia y homogeneidad (test χ2 )
I Constrastes de bondad de ajuste (test χ2 , test Kolmogorov
Smirnov, test Shapiro-Wilk)
I Contrastes de igualdad de distribuciones para muestras
independientes (test U de Mann-Whitney -para dos
grupos, test de Kruskal-Wallis - para más de dos grupos)
I Contrastes de igualdad de distribuciones para muestras
emparejadas (test de Friedman)
Contrastes de aleatoriedad
Asumimos frecuentemente que {X1 , X2 , ..., Xn } es una m.a.s.

de una variable X que es objeto de estudio.
I Una m.a.s. (muestra aleatoria simple) se define
formalmente como una colección de variables aleatorias
independientes e idénticamente distribuidas a X .
¿Cómo comprobamos si hay aleatoriedad?
I ¿Son aleatorios los datos?
T EST DE LAS RACHAS
H0 : Datos aleatorios
H1 : Datos no aleatorios
Contrastes de bondad de ajuste
I ¿Qué distribución sigue una variable?

I ¿Se ajustan los datos de una muestra a una Normal?
I ¿Se ajustan los datos de una muestra a una Poisson?
Algunos tests o contrastes:
T EST DE S HAPIRO -W ILK para normalidad si n ≤ 50

T EST DE KOLMOGOROV-S MIRNOV, más genérico
T EST χ2 - cuando la variable está dividida en clases
H0 : X ∼ F
H1 : X F
siendo F la correspondiente distribucion (por ejemplo, N(µ, σ))
Contrastes de independencia y de homogeneidad
Considera X e Y dos variables aleatorias,

I ¿Son las variables independientes?
T EST DE INDEPENDENCIA χ2
H0 : X e Y independientes
H1 : X e Y dependientes
I ¿Podemos suponer que dos variables siguen la misma
distribución
H0 : FX = FY
H1 : FX 6= FY
siendo FX y FY las correspondientes distribuciones de X e Y
¿Qué es la bondad de ajuste?
¿Cómo podemos corroborar si unos datos se ajustan al modelo

normal o exponencial o poisson, multinomial, binomial, ...?
Para proporciones del modelo binomial o del modelo

multinomial.
Test χ2 de Pearson
Ejemplo: Proporciones mendelianas. Padres con sangre del

tipo AB dan lugar a hijos con sangre de los tipos A, AB, B. De
acuerdo con las leyes de Mendel, los tres tipos anteriores
aparecen con una frecuencia del 25, 50 y 25 por 100
respectivamente. Contrasta esta hipótesis en la siguiente
muestra de 292 niños nacidos de padres con sangre AB.
Test χ2 de Pearson
En este test deseamos contrastar si los datos de los que

disponemos proceden de una variable X que sigue una
determinada distribución F0
H0 : X ∼ F0
H1 : X F0
El procedimiento a seguir será el siguiente: primero se divide el
soporte de la variable en k clases disjuntas A1 , A2 , ..., Ak ,
donde agruparemos las n observaciones. Entonces definimos
las siguientes frecuencias:
Frecuencias observadas y esperadas en el test χ2
I o1 , o2 , ..., ok las frecuencias observadas en cada clase,

es decir, el número de datos en cada clase
I e1 , e2 , ..., ek las frecuencias esperadas bajo F0 . Si
llamamos pi = P(x ∈ Ai ) a la probabilidad de estar en la
clase Ai , tenemos que
ei = npi
Ejemplo
Padres con sangre del tipo AB dan lugar a hijos con sangre de
los tipos A, AB, B. De acuerdo con las leyes de Mendel, los tres
tipos anteriores aparecen con una frecuencia del 25, 50 y 25
por 100 respectivamente. Contrasta esta hipótesis en la
siguiente muestra de 292 niños nacidos de padres con sangre
AB.
Tipo de sangre frecuencias

A 68
AB 140
B 84
Hipótesis a contrastar (hipótesis nula),
H0 : pA = 0.25, pAB = 0.5, pB = 0.25
frente a la hipótesis alternativa H1 ,
H1 : otros pesos
Las frecuencias observadas son: o1 = 68, o2 = 140, o3 = 84

Las frecuencias esperadas son:
e1 = nP(A) = 73
e2 = nP(AB) = 146
e3 = nP(B) = 73
Fórmula
Para medir las desviaciones entre ambas frecuencias, Pearson

sugirió el siguiente estadístico:
k k
X (oi − ei )2 X oi 2
q= = − n donde ei = npi
ei ei
i=1 i=1
El estadístico q será grande cuando también lo sea la

desviación entre ambas frecuencias, y en dicho caso
rechazaremos la hipótesis nula. Entonces rechazaremos H0
cuando q ≥ qα siendo qα tal que P(q > qα /H0 ) = α, esto
significa que necesitamos conocer la distribución de q:
q está distribuido asintóticamente según una χ2k −1 cuando
n → ∞. Por tanto para muestras grandes q ∼ χ2k −1 y
rechazaremos H0 si q ≥ χ2k −1,α .
Fórmula en el ejemplo
En el ejemplo q = 2.25. Los grados de libertad: 3 − 1 = 2
Valor p = P(χ22 > 2.25), se corresponde con la probabilidad de

obtener un valor tan extremo como el observado en la muestra,
si la hipótesis H0 fuese cierta. Usando la tabla de la χ2
0.10 < Valor p < 0.9 (0.3252 con Excel)
Por tanto se acepta la hipótesis nula y la muestra observada

está de acuerdo con las leyes de Mendel. Se acepta para los α
habituales tales como 0.05 ó 0.01
Observaciones
1. Este método es válido tanto para distribuciones discretas

como continuas, variables cualitativas y cuantitativas.
2. Las clases se eligen con intervalos disjuntos sobre el
soporte de la variable en el caso de variables cuantitativas.
3. Para muestras pequeñas, la aproximación q ∼ χ2k −1 no es
válida. Se suele aceptar cuando n > 30 y las frecuencias
ei = npi ≥ 5. Si alguna ei < 5, se agrupan clases
adyacentes (reduciendo entonces los grados de libertad
de χ2 ).
4. El número de clases debe de ser el mayor posible, dentro
de las restricciones para los ei , ya que el agrupamiento se
traduce en una pérdida de información.
El siguiente ejemplo ilustra la necesidad de la división por las
frecuencias esperadas en la fórmula del estadistico q
clases ei oi ei − oi
A1 30 15 15
A2 75 90 −15
Como se observa la diferencia en valor absoluto es de 15 para

ambas, sin embargo debe pesar más la primera de las
diferencias dado que la diferencia entre lo esperado y lo
2 152
observado es del doble. Por ello se relativiza; 15
30 frente a 75
Otro ejemplo
Supongamos que en un experimento en el cual se obtiene una

descendencia compuesta por 400 semillas, un genetista
encuentra 285 semillas de tegumento liso y 115, de tegumento
rugoso. ¿Sería razonable, con α = 0.05, pensar que esa
proporción observada no está demasiado alejada de la
proporción 3:1 dictada por la ley de Mendel
Las frecuencias esperadas bajo H0 son 300 y 100. Calculamos

q = 3 . Dado que valor p=P(χ21 > 3) = 0.083 > α (con las
tablas diríamos que esta entre 0.05 y 0.010).
Se acepta H0 al nivel de significación del 5 %.

¿Qué son los contrastes de independencia y de homogeneidad?
Responden a las preguntas:

I ¿Son independientes dos variables o características de
estudio?
Independencia (No hay asociación); Dependencia (Hay
asociación)
I Test χ2 de independencia de caracteres
I ¿Es homogenéa una variable en dos grupos de
individuos?
I Test χ2 de homogeneidad de muestras
I Test Mc-Nemar: Para muestras apareadas o relacionadas
(v. dicotómicas). Aplicación: conocer si un estímulo influye
en la variable de estudio.
Test de independencia
Supongamos que disponemos de n observaciones de dos

variables (X , Y ), y dividimos el rango de valores de X e Y en
clases.
Sea oij el número de datos observados en Ai × Bj . En el caso
de que ambas variables fuesen independientes la frecuencia
de datos esperada estimada, ya que no conocemos las
distribuciones de X e Y , en Ai × Bj sería:
oi. · o.j X X
eij = donde oi. = oij y o.j = oij
n
j i
El estadístico de contraste será:

h X
k h k 2
X (oij − eij )2 X X oij
Q= = −n
eij eij
i=1 j=1 i=1 j=1
Cuando H0 es cierta y disponemos de un número elevado de
datos, se verifica que Q ∼ χ2(h−1)(k −1) . Por lo tanto para un n
grande se emplea esta aproximación y fijado un nivel de
significación α, rechazaremos la hipótesis nula H0 si
Q ≥ χ2(h−1)(k −1),α .
En la práctica resulta muy cómodo disponer de las frecuencias
observadas oij y de las esperadas eij de los hk sucesos Ai × Bj
en una tabla h × k llamada tabla de contingencia:
oij B1 B2 Bk eij B1 B2 Bk
A1 o11 o12 o1k A1 e11 e12 e1k
A2 o21 o22 o2k A2 e21 e22 e2k
... ... ... ... ... ... ... ...
Ah oh1 oh2 ohk Ah eh1 eh2 ehk
Ejemplo
Se han medido los pesos y alturas de 300 personas

obteniéndose los siguientes resultados:
Altura|Peso < 60 60 − 70 70 − 80 > 80

< 1.65 21 24 23 9
1.65 − 1.75 23 42 40 17
> 1.75 15 22 34 30
¿Hay razones estadísticas significativas para decir que ambas

variables son dependientes con α = 0.05?
Sea X la variable peso e Y la altura, el contraste a realizar
será:
H0 : X e Y son independientes
H1 : X e Y son dependientes.
Como n = 300 ≥ 30 podemos aplicar el test χ2 de
independencia. En dicho test rechazamos H0 a nivel α si
k X
l k l 2
X (oij − eij )2 X X oij
Q= = − n > χ2(k −1)(l−1),α .
eij eij
i=1 j=1 i=1 j=1
Primero calculamos las frecuencias esperadas:
< 60 60 − 70 70 − 80 > 80
< 1.65 15.14 22.59 24.89 14.37
1.65 − 1.75 23.99 35.79 39.45 22.77
> 1.75 19.86 29.63 32.66 18.85
I Comprobamos que todas eij ≥ 5.

I Calculamos Q = 316.909 − 300 = 16.909
I Calculamos χ2(k −1)(l−1),α = χ26,0.05 = 12.592
I Rechazamos H0 dado que Q ≥ χ2(k −1)(l−1),α , por tanto las
variables no son independientes.
I Comprobamos que valor p < 0.05
valor p= P(χ26 ≥ 16.909) = 0.009623566.
Diferencias independencia y homogeneidad
I Prueba de independencia: todos los totales marginales

pueden variar sin restricción, el único número que el
investigador controla es el total y a partir de ahí se
clasifican los datos en función de las dos variables.
I Prueba de homogeneidad: un grupo de totales marginales
está establecido por el investigador. Se utiliza cuando se
dispone de dos muestras y se quiere comprobar si son
homógeneas con respecto a una variable objeto de
estudio sin embargo el concepto es distinto.
Las cuentas son iguales para el test de independencia y para
el de homogeneidad.
Ejemplo
Consideremos la variables colesterol (bajo, medio y alto) y la

variable sexo (hombre y mujer), y la siguiente tabla de doble
entrada.
Sexo / Colesterol Bajo Medio Alto

H 10 20 15 45
M a b c 90
¿Qué valores deben tener a, b y c para que las variables Sexo

y Colesterol sean independientes?
Ejemplo independencia
Se realiza una investigación de una nueva vacuna contra la
gripe. Se elige una muestra aleatoria de 900 individuos y se
clasifican según hayan o no contraído la gripe.
Vacunado/Enfermo Si No
Si 150 200
No 300 250
Frecuencias esperadas Si No
Si 175 175
No 275 275
Pk Pl oij2
Aplicando el estadístico Q = i=1 j=1 − n = 11.688.
eij
Valor p = P(χ21 ≥ 11.688) < 0.01
Hay razones estadísticas significativas para decir que la
vacuna es efectiva (α = 0.05). En Excel, valor p
=1-DISTR.CHICUAD(11.688;1;1)= 0.0006
Ejemplo homogeneidad
Estudia la asociación entre las poblaciones de los expuestos a
la radioactividad y los no expuestos a ella en la siguiente tabla
de frecuencias:
Expuesto/Enfermo Si No
Si 52 248 300 (fijo)
No 48 272 320 (fijo)
Frecuencias esperadas Si No
Si 48.387 251.613 300 (fijo)
No 51.613 268.387 320 (fijo)
Pk Pl oij2
Q= i=1 j=1 − n = 0.623
eij
valor p = 0.1 < P(χ21 ≥ 0.623) < 0.9( con Excel 0.429)
Con lo que no hay razones estadísticas significativas a nivel
α = 0.05 para decir que son dependientes. Por lo tanto
radiactividad y enfermar no estarían asociados.
Test de McNemar
I Se aplica a tablas de contingencia 2x2 con una variable

dicotómica y con muestras relacionadas.
I Sobre cada individuo de la muestra se miden dos variables
dicotómicas y se quiere contrastar si no hay diferencia
I Este test se utiliza cuando se trata de comparar dos
proporciones observadas en el mismo grupo de individuos
en dos ocasiones distintas de tiempo (antes y después de
algún estímulo). Se pretende comparar si se produce
algún cambio significativo entre ambas mediciones.
I Clasificamos un grupo de individuos entre dos categorías
mutuamente excluyentes, indicadas por positivo y
negativo.
Si el valor-p asociado al estadístico de contraste es menor que
α, el estímulo sería efectivo a nivel α
Ejemplo
Consideremos a 314 individuos de los cuales 222 tenían una
sustancia en la sangre y 92 no la presentaban, se les da una
determinada vitamina y observamos que ahora 154 no la
tienen y 160 sí tienen la sustancia. ¿Ha provocado cambios la
ingesta de la vitamina?
Des/Ant + - total Des/Ant + - total

+ 101 59 160 + a b a+b
- 121 33 154 - c d c+d
total 222 92 314 total a+c b+d N
Existe homogeneidad cuando a + b = a + c y c + d = b + d

(simplificando, b = c)
Estadístico de McNemar es
M = (b − c)2 /(b + c)
y la distribucion que sigue es una χ21

Continuación y otro ejemplo
Calculamos M = 21.35, el valor p es P(χ21 ≥ 21.35) < 0.01 con

lo que se rechaza H0 y el estímulo sí ha provocado cambios
(con Excel el valor p sale prácticamente 0).
Otro ejemplo
Después/Antes + -
+ 15 16
- 19 20
9
I Estadístico M = 35 = 0.2571
I 0.1 < Valor p = P(χ21 ≥ 0.2571) < 0.9 (0.6120 con Excel)
I Conclusión: la diferencia no es estadísticamente
significativa, es decir el estímulo no produce cambios.
Medidas de asociación: interés
Una vez establecido que dos variables están asociadas, es de

interés cuantificar el grado de asociación. Para ello
estudiaremos distintas medidas.
Medidas de asociación
I V de Cramer para todo tipo de variables, en tablas h × k

(basado en χ2 ), en especial para las variables nominales
I ρ coeficiente de correlación lineal para variables
cuantitativas
I γ de Goodman Kruskal para variables cualitativas
ordinales
I τ de Kendall para variables cualitativas ordinales
I δ de Sommers para variables cualitativas ordinales con
fines predictivos
I κ de Cohen para concordancia
Medida asociación variables nominales: V de Cramer
I Es una medida de asociacion de dos variables en tablas

h × k.
I Se utiliza para variables nominales (aunque también se
puede calcular para las ordinales)
I La fórmula está basada en el estadístico Q que obtuvimos
en la prueba de independencia.
s
Q
V =
n × min{h − 1, k − 1}
I 0≤V ≤1
I Si V vale 0 no hay asociación, y cuánto mayor sea más
asociación existe.
Ejemplo
Calculemos la V de Cramer del Ejemplo de pesos y alturas de

300 personas ya analizado.
I Obtuvimos que Q = 16.909.
I Hay 3 filas y 4 columnas, con lo que,
s
16.909
V = = 0.1679
300 × min{2, 3}
Asociación para variables ordinales y cuantitativas
Todas las medidas que estudiaremos a continuación:

I Toman valores entre -1 y +1
I Alcanzan los valores extremos cuando existe
concordancia o discordancia perfecta.
I Si vale 1 indica máxima concordancia
I Si vale -1 indica máxima discordancia
I Valores próximos a 0 indican ausencia de asociación.
Asociación con variables cuantitativas
Supongamos que disponemos de mediciones de pesos y

alturas en un conjunto de individuos y queremos saber si existe
correlación entre ellas. Claramente parece que a más altura
más peso, es decir, la relación será directa. Veamos cómo se
calcula el coeficiente de correlación lineal
Coeficiente de correlación lineal (se verá con más detalle en

tema 5)
S(x, y )
rXY =
S(x)S(y )
Covarianza S(x, y ) = n1 i,j xi xj nij − x̄ ȳ
P
I Nube de puntos o gráfico de dispersion

I Cálculo del coeficiente de correlacion lineal
I Recta de regresión lineal
Ejemplo
3,5
2,5
y = 0,7x + 1
2
1,5
0,5
xi yi 0
‐2,5 ‐2 ‐1,5 ‐1 ‐0,5 0 0,5 1 1,5 2 2,5
-2 0 ‐0,5
-1 0 ‐1

0 1
1 1
2 3
x̄ = 0, ȳ = 1
S 2 (x) = 2, S 2 (y ) = 1.2
I Covarianza: S(x, y ) = 7
5
7
I Coeficiente de correlación linea:l rXY = 5
√ √ = 0.9036
2 1.2
Asociación para variables ordinales
I Con variables ordinales, además de medir el grado de

asociación (como en las nominales), podemos medir la
dirección de la asociación, al igual que con el coeficiente
de correlación.
I Medidas:
I Gamma de Goodman-Kruskal: γ
I Tau de Kendall: τ
I Delta de Sommers: δ
I Varían entre -1 y 1. Cuánto más próximos estén los valores
de estas medidas a 0 más débil será la asociación entre
las variables. Cuánto más cercanos estén a 1 ó a -1 mayor
será la asociación positiva (o negativa) entre las variables.
γ de Goodman-Kruskal
I Es un coeficiente para medir la concordancia que existe

entre dos variables ordinales.
I Sea P el número de pares concordantes y Q es el número
de pares discordantes.
P −Q
γ=
P +Q
Se verifica que −1 ≤ γ ≤ 1.
I Si es positivo hay concordancia, a medida que aumenta X
aumenta Y .
I Si es negativo hay discordancia o concordancia inversa, a
medida que aumenta X disminuye Y .
I Si es cero no hay relación
Ejemplos aplicación tablas 2 × 2
X : tamaño longitud pez Y : tamaño aleta

Tabla 1
Y|X Pequeño Grande
Pequeño 15 0
Grande 0 20
P = 15 × 20, Q = 0, γ = 1, concordancia máxima

Tabla 2
Y|X Pequeño Grande
Pequeño 0 20
Grande 40 0
P = 0, Q = 40 × 20, γ = −1, discordancia máxima

Tabla 3
¿Son ahora concordantes o discordantes?
Y|X Pequeño Grande

Pequeño 15 10
Grande 5 20
P = 15 × 20, Q = 5 × 10, γ = 0.714, cierta concordancia

Tabla 4
Y|X Pequeño Grande
Pequeño 20 5
Grande 0 25
P = 20 × 25, Q = 0, γ = 1
¿Hay realmente concordancia máxima?
Necesidad de otra medida: τ de Kendall

Cálculo de γ de Goodman-Kruskal en Tablas 2 × 3 y otras
Y|X P M G
P a b c
G d e f
I Pares concordantes P = a × e + a × f + b × f
I Pares discordantes Q = c × d + c × e + b × d
Ejemplo
Y/X 1 2 3
a 10 5 2
b 10 15 20
450−100
γ= 450+100 = 0.636
Tau de Kendall
P −Q
τ=p p
P + Q + Y0 P + Q + X0
I Y0 son los empates en Y
I X0 son los empates en X
I Para la tabla 4, τ = 0.816
I Cálculo de los empates en tablas 2 × 3
Y|X P M G
P a b c
G d e f
I X0 = a × d + b × e + c × f
I Y0 = a × b + a × c + d × e + d × f + b × c + e × f
Concordancia con fines de predicción: Delta de Sommers
I Y predice X (penalizamos en los pares empatados en Y )
P −Q
dYX =
P + Q + Y0
I X predice Y (penalizamos en los pares empatados en X )
P −Q
dXY =
P + Q + X0
Ejemplo X predice Y "mejor que" Y predice X
Y/X 1 2 3
a 6 0 0
b 0 5 4
P −Q 54 − 0
dYX = = = 0.73
P + Q + Y0 54 + 0 + 20
P −Q 54 − 0
dXY = = =1
P + Q + X0 54 + 0 + 0
Concordancia: κ de Cohen
Supongamos que se trata de medir el grado de acuerdo entre

varios métodos o evaluadores que clasifican el resultado de
una observación según una serie de posibilidades (categorías)
mutuamente excluyentes.
I Un mismo fenómeno es evaluado por dos observadores o
jueces.
I −1 ≤ κ ≤ 1. Si vale 1 la concordancia es máxima, si vale 0
no hay acuerdo y si vale -1 habría máxima discordancia..
I Fórmula: P P
pii − pi. p.i po − pe
κ= P =
1 − pi. p.i 1 − pe
siendo p0 la proporción de acuerdos observados, pe la
proporción de acuerdos esperados si fuesen
independientes.
Ejemplo
Dos científicos A y B clasifican 118 muestras en 4 tipos.
A/B 1 2 3 4
1 22 2 2 0
2 5 7 14 0
3 0 2 36 0
4 0 1 17 10
Calcula el grado de acuerdo o concordancia de ambos

científicos.
X 22 + 7 + 36 + 10
pii =
118
X 26 × 27 + 12 × 26 + 69 × 38 + 10 × 28
pi. p.i =
1182
Y, por tanto, κ = 0.493, concordancia moderada.
Ejercicios con hoja de cálculo
I Programa el cálculo de las frecuencias esperadas en el

ejemplo de las alturas y pesos de 300 personas. Calcula el
estadístico, el valor p e interpreta los resultados.
I Resuelve los ejercicios del Seminario 2 (ver hoja de
cálculo correspondiente)

Contrastes Frecuencias

Cargado por

Copyright:

Formatos disponibles

Contrastes Frecuencias

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Contrastes Frecuencias

Cargado por

Copyright:

Formatos disponibles

Introducción al contraste de hipótesis.

Tablas de frecuencias: medidas y

Estela Sánchez Rodríguez

I Introducción al contraste de hipótesis: error tipo I, error

¿Qué es un contraste de hipótesis?

En un contraste de hipótesis nos podemos encontrar en alguna

Decisión & Realidad H0 cierta H0 falsa

Independientemente de nuestra decisión, es posible incurrir en

P(Error tipo I)=P(Rechazar H0 |H0 cierta)

Es una cota superior que impone el investigador para el error

Nos interesaría que las dos probabilidades de error sean cero,

El procedimiento que se sigue es acotar una de las dos

I Los valores p que están en el rango de los errores que

I Contrastes paramétricos (por ejemplo para la media de

C ONTRASTE UNILATERAL (con una cola de rechazo a la

Estos contrastes no atienden a parámetros concretos, se

Asumimos frecuentemente que {X1 , X2 , ..., Xn } es una m.a.s.

I ¿Qué distribución sigue una variable?

Algunos tests o contrastes:

T EST DE S HAPIRO -W ILK para normalidad si n ≤ 50

Considera X e Y dos variables aleatorias,

¿Cómo podemos corroborar si unos datos se ajustan al modelo

Para proporciones del modelo binomial o del modelo

Ejemplo: Proporciones mendelianas. Padres con sangre del

En este test deseamos contrastar si los datos de los que

I o1 , o2 , ..., ok las frecuencias observadas en cada clase,

Tipo de sangre frecuencias

H0 : pA = 0.25, pAB = 0.5, pB = 0.25

frente a la hipótesis alternativa H1 ,

Las frecuencias observadas son: o1 = 68, o2 = 140, o3 = 84

Para medir las desviaciones entre ambas frecuencias, Pearson

El estadístico q será grande cuando también lo sea la

En el ejemplo q = 2.25. Los grados de libertad: 3 − 1 = 2

Valor p = P(χ22 > 2.25), se corresponde con la probabilidad de

0.10 < Valor p < 0.9 (0.3252 con Excel)

Por tanto se acepta la hipótesis nula y la muestra observada

1. Este método es válido tanto para distribuciones discretas

Como se observa la diferencia en valor absoluto es de 15 para

Supongamos que en un experimento en el cual se obtiene una

Las frecuencias esperadas bajo H0 son 300 y 100. Calculamos

Se acepta H0 al nivel de significación del 5 %.

Responden a las preguntas:

Supongamos que disponemos de n observaciones de dos

El estadístico de contraste será:

Se han medido los pesos y alturas de 300 personas

Altura|Peso < 60 60 − 70 70 − 80 > 80

¿Hay razones estadísticas significativas para decir que ambas

I Comprobamos que todas eij ≥ 5.

I Prueba de independencia: todos los totales marginales

Consideremos la variables colesterol (bajo, medio y alto) y la

Sexo / Colesterol Bajo Medio Alto

¿Qué valores deben tener a, b y c para que las variables Sexo

I Se aplica a tablas de contingencia 2x2 con una variable

Des/Ant + - total Des/Ant + - total

Existe homogeneidad cuando a + b = a + c y c + d = b + d

y la distribucion que sigue es una χ21

Calculamos M = 21.35, el valor p es P(χ21 ≥ 21.35) < 0.01 con

Una vez establecido que dos variables están asociadas, es de

I V de Cramer para todo tipo de variables, en tablas h × k