Contrastes de Hipotesis APUNTES
Contrastes de Hipotesis APUNTES
Contrastes de Hipotesis APUNTES
El coeficiente de correlación por rangos de Spearman, rs , muestra los intervalos en que una variable
crece o decrece mientras la otra crece. Así pues, se puede interpretar de la siguiente manera:
1. −1 ≤ rs ≤ 1
2. Si rs = 1 significa que los datos son estrictamente crecientes.
3. Si rs = −1 significa que los datos son estrictamente decrecientes.
4. Si rs ≈ 0 no crecen o decrecen.
Cuando los datos son solo crecientes o solo decrecientes se habla de una relación monótona.
§ Ejemplo 1: Encontrar el coeficiente de correlación por rangos de Spearman para los siguientes
conjuntos de datos.
Ordenamos los valores de x por su tamaño, de mayor a menor, para obtener su clasificación. Así,
45 tiene orden 1; 34 tiene orden 2; 29 tiene orden 3. Como hay dos datos iguales a 23 que
4+5
ocuparían el lugar 4 y 5, el rango dado a cada uno es la media de los rangos. Es decir = 4,5 .
2
Y 17 tiene orden 6. De igual forma ordenamos los valores de y. Así obtenemos la tabla de rangos
siguiente.
x 4,5 2 6 4,5 3 1
y 2 5 1 3,5 3,5 6
Contrastes de hipótesis 2
§ Ejemplo 2: Encontrar el coeficiente de correlación por rangos de Spearman para los siguientes
conjuntos de datos.
rs = 0,975 así que la correlación es fuerte y positiva. Cuantos más animales más horas se emplean
a la semana en cuidar de ellos.
Hamburguesa A B C D E F G H I
Valoración 7 3 4 6 1 9 2 5 8
Precio (US $) 3,50 7,45 6,50 4,50 8,50 2,65 3,95 4,35 1,45
rs = 0,8 así que la correlación entre el precio y la preferencia por su sabor es moderada y
positiva.
2. CONTRASTES DE HIPÓTESIS
En Estadística, una hipótesis es una afirmación sobre un parámetro desconocido o sobre una
característica del conjunto de los datos.
Se utiliza un contraste de hipótesis (o test de hipótesis) para decidir si el conjunto de los datos
observados en una muestra apoya la hipótesis formulada y, en ese caso, se puede dar como válida
para toda la población. Es un método de Inferencia Estadística.
Llamaremos a dicha hipótesis hipótesis nula y lo expresaremos de la siguiente manera:
H 0 : Hipótesis nula
H1 : Hipótesis alternativa (que será aceptada si H0 es rechazada)
Los casos en los que la hipótesis nula es rechazada se llaman región crítica. Normalmente no se
rechaza la hipótesis nula a menos que la probabilidad de que un resultado ocurra en la región crítica
sea menor que 0,05 (se usan también 0,1 o 0,01). Se dice entonces que el test tiene un nivel de
significación del 5% (10% o 1% respectivamente)
Clara decide aplicar la prueba X 2 para independencia con un nivel de significación del 5%.
Aquí
H 0 : El juego preferido es independiente del género.
H1 : El juego preferido no es independiente del género.
Contrastes de hipótesis 4
T B S Total
Hombres 10 7 16 33
Mujeres 9 13 5 27
Total 19 20 21 60
Los resultados observados deben compararse con los resultados esperados. Por ello, vamos a
reescribir la tabla de datos obtenidos con datos esperados:
T B S Total
Hombres 33
Mujeres 27
Total 19 20 21 60
19 19
Como la probabilidad de jugar al Tenis es P(T ) = , se espera que de los 33 hombres jueguen
60 60
19
al tenis, es decir, ⋅ 33 = 10,45
60
T B S Total
19 20 21
Hombres ⋅ 33 ⋅ 33 ⋅ 33 33
60 60 60
19 20 21
Mujeres ⋅ 27 ⋅ 27 ⋅ 27 27
60 60 60
Total 19 20 21 60
T B S Total
Hombres 10,45 11 11,55 33
Mujeres 8,55 9 9,45 27
Total 19 20 21 60
Observación:
• De las 2 filas (Hombre, Mujeres) solo se necesita una para calcular la probabilidad
multiplicando, porque la segunda se puede rellenar con los datos ya calculados.
• De las 3 columnas (T, B, S) solo se necesita calcular multiplicando las dos primeras.
Contrastes de hipótesis 5
Para decidir si las dos variables son independientes o no, es necesario comparar los valores
observados (tabla 1ª) con los valores esperados (tabla 4ª).
Si los valores observados están muy alejados de los valores esperados, entonces no es probable que
las variables sean independientes y, por tanto, rechazamos la hipótesis nula. Pero ¿cómo medimos
esa diferencia entre los datos observados y los esperados? y, en caso de medirla, ¿qué valor es
suficiente para decidir rechazar la hipótesis nula?
Lo que se hace es utilizar un número que tiene en cuenta todas las diferencias entre los valores
observados y los esperados, el número X 2 , que se calcula mediante la siguiente fórmula:
( f o − f e )2 f o = frecuencias observadas
X2 =∑ donde
fe f e = frecuencias esperadas
En nuestro ejemplo,
( f o − f e )2
X 2 calc = ∑
fe
(10 −10,45) 2 (7 −11) 2 (16 −11,55) 2 (9 − 8,55) 2 (13− 9) 2 (5− 9,45) 2
= + + + + + = 7,085
10,45 11 11,55 8,55 9 9,45
Si este número X 2 calc , es menor que un número que llamaremos valor crítico, aceptaremos la
hipótesis nula, si es mayor la rechazaremos. Pero ¿cómo elegimos este valor crítico?
Por ejemplo, para 2 grados de libertad a un nivel de significación del 5%, el valor crítico es
X 2 5% = 5,991 .
Hay dos métodos para decidir si rechazamos o aceptamos la hipótesis nula. Son los siguientes:
Contrastes de hipótesis 6
Observación:
• En el primer método necesitamos que nos den el valor crítico.
• En el segundo método necesitamos que nos den el nivel de significación.
IMPORTANTE:
En los exámenes BI usaremos la CG para obtener X 2 . Los pasos a dar son los siguientes:
1º) Introducir la dimensión de la matriz de datos observados.
2º) Introducir la matriz y la almacenarla con una letra.
3º) Menú Estadística, opción TEST , CHI , 2WAY .
4º) Introducir las dimensiones de la matriz esperada en la letra elegida y EXE .
→ X 2 calc , p-valor, v.
⎯⎯
5º) En > MAT puede verse la matriz de datos esperados.
§ Ejemplo 1: Se ha preguntado a ochenta personas por su estilo musical favorito: pop, clásico, folk
o jazz. Los resultados se muestran en la tabla siguiente.
40
Primera: Como la probabilidad de que a una persona le guste el por el , les gustará a
80
40 40
de las 42 mujeres = ⋅ 42 = 21
80 80
Segunda: Calculando con la CG la matriz de frecuencias esperadas, que es:
⎛ 19 7,125 5,225 6,65 ⎞
⎜ ⎟
⎜ 21 7,875 5,775 7,35 ⎟
⎝ ⎠
c) v = (2 −1)(4 −1) = 3 .
d) X 2 = 1,622... y p = 0,654...
e) Como 1,62 < 11,345 (o 0,654 > 0,01 ) aceptamos la hipótesis nula: el tipo de música preferido es
independiente del sexo.
§ Ejemplo 2: Los bulldogs americanos se clasifican según su altura, h, como Pocket, Standard o
XL. Pockets tienen h < 42 cm de alto, Standards tienen 42 ≤ h < 50 y XLs 50 ≤ h < 58 . En una
competición se miden y pesan 50 perros. Se pretende estudiar si la clase de perro es independiente
del peso y para ello se aplica la prueba X 2 con un nivel de significación del 5%.
Los resultandos se muestran en la tabla siguiente.
Altura 36 37 37 38 38 39 39 39 40 40 40 41 41 41 41 41
Peso 30 33 36 31 38 32 39 42 41 43 38 38 44 46 45 47
Altura 42 42 43 43 44 44 45 46 46 46 47 47 47 48 48 48 49
Peso 38 39 36 44 42 48 46 49 38 42 46 50 52 49 48 42 53
Altura 50 51 51 52 52 52 53 54 54 54 55 55 56 56 56 57 57
Peso 39 41 42 45 45 51 53 55 48 56 58 51 54 53 55 58 59
Contrastes de hipótesis 8
a) Calcula el peso medio de los 50 perros.
b) Completa la siguiente tabla de contingencia.
Pocket Standard XL
< media
≥ media
b)
Pocket Standard XL
< media 13 8 3
≥ media 3 9 14
d) v = (2 −1)(3−1) = 2 .
24 24
e) de los 17 perros XL = ⋅17 = 8,16.
50 50
f) X 2 = 13,4 y p = 0,00125
Ejercicios: 5, 6, 7, 8, 9
La diferencia con la prueba X 2 para independencia es que esta compara dos variables para ver si
existe una relación entre ellas, mientras que el test de bondad de ajuste ajusta una variable a una
distribución.
Contrastes de hipótesis 9
En una prueba X 2 de bondad de ajuste, el número de grados de libertad es
v = (n −1)
a) Escribe la tabla de valores esperados, dado que cada día de la semana es igualmente probable.
b) Realiza una prueba X 2 de bondad de ajuste con un nivel de significación del 5%.
c) El valor crítico es 12,592. Escribe la conclusión de la prueba.
c) 0,953 > 0,05 , (o 1,60 < 12,592 ) por tanto aceptamos la hipótesis nula: los datos siguen una
distribución uniforme.
IMPORTANTE:
1º) Los valores esperados deben ser mayores que 5.
2º) Si algún valor esperado es menor que 5 se necesitará combinar filas.
Contrastes de hipótesis 10
§ Ejemplo 2: Las puntuaciones de un test de CI están normalmente distribuidas con media 100 y
desviación típica 10. Se hace el test a 200 alumnos de BI del Programa del Diploma. Los
resultados se muestran en la siguiente tabla.
Se quiere verificar si también los resultados siguen una
distribución normal y se realiza una prueba de bondad de ajuste Puntuación Frecuencia
con un nivel de significación del 10%. x < 90 5
a) Establece la hipótesis nula y la hipótesis alternativa. 90 ≤ x < 100 14
100 ≤ x < 110 74
b) Encuentra los valores esperados.
110 ≤ x < 120 58
c) Si algún valor esperado es menor que 5, reescribe la tabla.
120 ≤ x < 130 34
d) Determina el número de grados de libertad.
130 ≤ x 15
e) El valor crítico es 6,251. Encuentra el valor de X 2 y el p-
valor y obtén la conclusión de la prueba.
a) H 0 : Las puntuaciones están normalmente distribuidas con media 100 y desviación típica 10.
H1 : Las puntuaciones no están normalmente distribuidas con media 100 y desviación típica 10.
IMPORTANTE:
1º) En menú Estadística metemos los límites inferiores de los intervalos en List1 y los superiores
en List2.
2º) Opción DIST , NORM , Ncd , y escribimos Data: List, L.List: List1 (Low), U.List: List2
(Upper), σ = 10 , µ = 100 , Save Res: List3. EXE .
Multiplicamos cada probabilidad por 200 para obtener los valores esperados.
Frecuencia
Puntuación Probabilidad
esperada
x < 90 0,1587 31,7
90 ≤ x < 100 0,3413 68,3
100 ≤ x < 110 0,3413 68,3
110 ≤ x < 120 0,1359 27,2
120 ≤ x < 130 0,0214 4,28
130 ≤ x 0,00135 0,270
c) Como las dos últimas puntuaciones son menores que 5 incluso si las sumamos, debemos sumar
también la anterior.
Frecuencia Frecuencia
Puntuación
observada esperada
x < 90 5 31,7
90 ≤ x < 100 14 68,3
100 ≤ x < 110 74 68,3
110 ≤ x 107 31,7
d) v = (4 −1) = 3
7,89 ⋅10−53 < 0,10 (y también 245 > 6,251 ), así que, se rechaza la hipótesis nula: las
puntuaciones no siguen una distribución normal de media 100 y desviación típica 10.
a)
Nº caras Frecuencia esperada
0 200 ⋅ 0,125 = 25
1 200 ⋅ 0,375 = 75
2 200 ⋅ 0,375 = 75
3 200 ⋅ 0,125 = 25
e) 2,426... < 7,815 (y también = 0,4886... > 0,05 ), así que, se acepta la hipótesis nula: el número
de caras sigue una distribución binomial.
5. LA PRUEBA t DE STUDENT
María ha observado que el sol incide más en un lado del jardín que en el otro. Quiere saber si esto
tiene algún efecto en la altura de los tulipanes en uno y otro lado del jardín. Mide 20 tulipanes de
cada lado y obtiene los siguientes resultados en cm:
21 21 26 25 28 24 22 22 29 28
Lado derecho
28 27 21 23 24 24 27 26 26 25
24 25 25 26 32 29 31 27 26 28
Lado izquierdo
22 22 28 28 30 31 29 28 28 32
La mejor manera de comparar dos conjuntos de datos es la prueba t de Student. Se usa para dos
conjuntos de datos en los que se mide la misma característica (como la altura de los tulipanes), y
solo se aplica a distribuciones normales.
La hipótesis nula es que las dos medias son iguales, H 0 : x1 = x2 . En cuanto a la hipótesis
alternativa, existen dos variaciones de esta prueba:
• Para la prueba t de dos colas, H1 : x1 ≠ x2 .
• Para la prueba t de una cola, H1 : x1 > x2 o x1 < x2 .
En nuestro ejemplo, el de los tulipanes de María, las hipótesis nula y alternativa son:
H 0 : La media de los tulipanes del lado derecho es la misma que la del lado izquierdo.
H1 : La media de los tulipanes del lado derecho no es la misma que la del lado izquierdo.
En nuestro ejemplo de los tulipanes, el p-valor es 0,00392 < 0,05 . Por tanto se rechaza la hipótesis
nula y existe una diferencia entre los tulipanes de un lado y los del otro.
§ Ejemplo 1: Un profesor hace el mismo cuestionario a dos grupos de alumnos. Quiere saber si
existe alguna diferencia entre las puntuaciones de los dos grupos. Los resultados son:
Grupo 1 54 62 67 43 85 69 73 81 47 92 55 59 68 72
Grupo 2 73 67 58 46 91 48 82 81 67 74 57 66
Observa que los dos grupos no necesariamente deben tener el mismo tamaño.
Ejercicios: 16, 17