Kolmogorov y Rachas

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 13

1.

Kolmogorov – Smirnov
La única premisa que se necesita es que las mediciones se encuentren al menos en una
escala de intervalo. Se necesita que la medición considerada sea básicamente
continua. Además, dicha prueba es aplicable cualquiera sea el tamaño de la muestra.
La prueba de K-S de una muestra, es generalmente una prueba de bondad de ajuste.
Sea Fo(X), una función de distribución de frecuencia acumulativa completamente
especificada, esto es, para cualquier valor X, el valor de Fo(X) es la proporción de
casos esperados que tienen puntajes menores o iguales que X.
Sea Sn(X), la distribución de frecuencia acumulativa observada de una muestra tomada
al azar de n observaciones. Si X es cualquier puntaje posible, entonces Sn(X) = k/N,
donde k es el número de observaciones menores o iguales a X.

4.1 Procedimiento
Paso 1. Plantear la hipótesis nula y su alternativa
Paso 2. Elegir el nivel de significancia:
Paso 3. Determinar la prueba estadística teniendo en cuenta:
a) Fo(X): frecuencia acumulada observada
b) Sn(X), frecuencia acumulada predicha
c) Determine la desviación máxima D, definida por:
D = máxima |Fo(X) - Sn(X)|
d) La tabla E muestra los valores críticos (Dc) ó probabilidades de dos colas.
Paso 4. Si 𝑝 ≤ 𝛼, se rechaza Ho.
También: Para el nivel escogido, el valor D  Dc, se rechaza Ho.
Los valores críticos para pruebas de una cola aún no han sido tabulados

4.2 Potencia-eficiencia
La Kolmogorov trata las observaciones individuales, separadamente y así a
diferencia de la X2 no pierde necesariamente información al combinar categorías.
La prueba X2 es menos poderosa para muestras muy pequeñas y que no es
aplicable de modo alguno, sin embargo, la Kolmogorov si lo es.
4.3 Ejemplos desarrollados
Ejemplo. Un experimentador quiere confirmar, la observación psicológica de que
los negros americanos parecen tener una jerarquía de preferencias a los matices
de la piel más claras. Para confirmar la hipótesis de las preferencias por el tono
de su piel, se decide tomar una fotografía a cada uno. El fotógrafo obtiene 5 copias
de cada fotografía, cada una diferente a las otras en cuanto a la oscuridad; de modo
tal que puedan ordenarse según el color de la piel de la más oscura a la más clara.
La foto que presenta el color de piel más oscura recibe el rango 1, la siguiente el
2, hasta la más clara que recibe el rango de 5. Luego se pide a cada sujeto escoger
entre las 5 impresiones cual es de su preferencia. Si el matiz de la piel no es
importante, las fotografías de cada rango a menudo serán escogidas igualmente,
exceptuando las diferencias aleatorias. Si el matiz de la piel es importante como
se supone entonces los sujetos mostraran preferencia a uno de los rangos
extremos.
Tabla 35. Preferencias hipotéticas del color de la piel de 10 sujetos negros.
Rango de la foto escogida
1 2 3 4 5
Frec de sujetos que escogen cada rango 0 1 0 5 4
Solución:
1) Hipótesis estadística.
Ho: No hay diferencia entre el número esperado de elecciones para cada uno
de los 5 rangos y las diferencias observadas son meramente variaciones
casuales esperadas en una muestra proveniente de una población
rectangular. f1=f2=f3 =f4=f5. Los sujetos no muestran preferencias entre
los colores.
H1: Las frecuencias f1,f2,f3,f4,f5 no son todas iguales, muestran preferencias
significativas entre los colores.
2) Nivel de significancia α = 0.01
3) Estadística de contraste. Se escoge esta prueba porque el investigador desea
comparar distribución de puntajes observados en una escala ordinal con una
distribución teórica.

Tabla 36. Cálculos para la prueba de Kolmogorov.


Rango de la foto escogida
1 2 3 4 5
Frecuencia de sujetos que escogen cada rango (X) 0 1 0 5 4
Fo(X) = Distribución acumulada de la elección. 1/5 2/5 3/5 4/5 5/5
Sn(X) = Distribución acumulada de la elección 0/10 1/10 1/10 6/10 10/10
D = | Fo(X) - Sn(X) | 1/5 3/10 5/10 2/10 0
0.2 0.3 0.5 0.2 0
La diferencia máxima absoluta es, D  0.5. La tabla E muestra que para n =
10 y D = 0.5 (máxima) tiene una probabilidad asociada de p < 0.01.
4) Entonces p(0.48893) > α(0.5), No se rechaza Ho. Concluimos que los sujetos
no muestran preferencias significativas por los colores de piel más claras.

4.4 Ejercicios
1) La preferencia a los alimentos con diferentes niveles de vitaminas (Tabla)
hipótesis: Ho: No hay preferencia alimenticia. Ha: Hay preferencia
alimenticia.
Tabla 38. Datos para preferencia de diferentes niveles de vitaminas
Niveles o clases de vitaminas (Xi)
1 2 3 4 5 N
Frecuencia observada (Fo) 2 18 10 4 1 35
Frecuencia teórica (Fi) 7 7 7 7 7 35
2. Prueba de rachas de una muestra (prueba de aleatoriedad).
Este test prueba la aleatoriedad de los datos, para ello, se han venido desarrollando
una serie de modelos estadísticos que estudian el orden o secuencia en que las
muestras individuales fueron obtenidas para probar que la muestra sea aleatoria.
1.1 Procedimiento
Paso 1. Plantear la hipótesis nula y su alternativa
Paso 2. Elegir el nivel de significancia:𝛼
Paso 3. Determinar la prueba estadística:
a) Registre las observaciones en el orden de ocurrencia
b) Determine la mediana de la muestra (si es necesario)
c) Registrar las observaciones por debajo o igual de la mediana con signo
menos, y las observaciones por arriba de la mediana con signo más (si se
realiza b)
d) Indique el número de signos negativos con n1 y el número de signos
positivos con n2
e) Cuente el número de rachas y represéntelo por r.
Muestras pequeñas. Si n1 o n2  20, se usa la tabla FI y FII al 5%. La
tabla FI contiene valores de r conforme a la probabilidad asociada a Ho.
Muestras Grandes. Si n1 o n2 > 20, se determina el valor de Z
calculando con la fórmula corregida por continuidad.
Paso 4. Decisión:
Muestras pequeñas: Si r está entre los valores críticos, se acepta Ho, caso
contrario se rechaza. Para pruebas de una cola, solo se examina una de las dos
tablas.
Para observaciones con pocas rachas se usa la tabla FI, si r  rc se rechaza Ho
al 0.025 de significancia.
Para observaciones con demasiadas rachas se usa la tabla FII, si r  rc se
rechaza Ho al 0.025 de significancia.
Muestras grandes: La tabla A muestra la probabilidad de una cola asociada
con la ocurrencia conforme a Ho. Si 𝑝 ≤ 𝛼, se rechaza Ho.
Para una prueba de dos colas, se duplica p de la tabla.

1.2 Aproximación a la distribución normal:


𝑃 = 𝑛1 𝑛2 y 𝑆 = 𝑛1 + 𝑛2
2𝑃
𝑀𝑒𝑑𝑖𝑎 = 𝜇𝑟 = +1
𝑆
2𝑃(2𝑃 − 𝑛1 − 𝑛2 )
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 = 𝜎𝑟2 =
𝑆 2 (𝑆 − 1)
Fórmula para calcular el valor de Z calculada:
(𝑟 − 𝜇𝑟 ) ∓ 0.5
𝑍= → 𝑁(0,1)
𝜎𝑟
𝑆𝑖, 𝑟 < 𝜇 𝑠𝑒 𝑠𝑢𝑚𝑎 0.5
𝑆𝑖, 𝑟 > 𝜇 𝑠𝑒 𝑟𝑒𝑠𝑡𝑎 0.5

1.3 Potencia-eficiencia:
Debido a que no hay pruebas paramétricas para la aleatoriedad de la serie de
eventos de una muestra, no se puede determinar la potencia-eficiencia.
La prueba de aleatoriedad algunas veces es necesaria para comprobar los
supuestos específicos de otros modelos estadísticos. Debería realizarse primero
para decidir si el modelo es aplicable porque se verifica su supuesto de
aleatoriedad, como en el caso Gauss, Student, Fisher, etc. Para evitar en la prueba
de aleatoriedad, lo aconsejable es usar sorteos al azar para la selección de
muestras.
1.4 Ejemplos desarrollados manualmente y en R
Ejemplo. En un estudio de la dinámica de agresión de niños menores, se observó
varias parejas de niños en una situación de juego controlada. La mayoría de los
24 menores provenían de la misma guardería y por tanto jugaban juntos
diariamente. El experimentador ha observado dos niños cada día, investigó, qué
propensiones reflejaría el estudio debido a las discusiones entre aquellos niños
que ya habían servido como sujetos y aquellos que no la habían hecho aún. Si las
discusiones tenían efectos sobre el nivel de agresión durante las sesiones de juego,
las consecuencias podrían señalar en el orden de los puntajes de agresión una
carencia de aleatoriedad. Al finalizar el estudio, fue probada la aleatoriedad de la
sucesión de puntajes convirtiendo el puntaje de agresión de cada niño en un más
o menos, de acuerdo con que quedara por encima o por debajo de la mediana del
grupo y aplicando la prueba de rachas de una muestra a la sucesión observada.

Tabla 41. puntajes de agresión de orden de ocurrencia.


Niño 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Puntaje 31 23 36 43 51 44 12 26 43 75 2 3 15 18 78 24 13 27 86 61 13 7 6 8
Solución
1) Hipótesis estadística.
Ho: Los signos de más y menos ocurren al azar.
H1: La sucesión de los signos no ocurren al azar.
2) Nivel de significancia: α = 0.05
3) Estadístico de contraste. Aleatoriedad de una serie, prueba de rachas.
Variable explicativa: dinámica de agresión
Variable de respuesta: puntaje de agresión
N = 24
Cálculo de la Mediana:
2 3 6 7 8 12 13 13 15 18 23 24 26 27 31 36 43 43 44 51 61 75 78 86.
(24 + 26)
𝑀𝑒𝑑 = = 25
2
Entonces los valores por encima de la mediana son positivos (+) y los valores
por debajo o igual a la mediana son negativos (-)

Tabla 42. Puntajes de agresión de orden de ocurrencia y rachas


Puntaje 31 23 36 43 51 44 12 26 43 75 2 3 15 18 78 24 13 27 86 61 13 7 6 8
Posición + - + + + + - + + + - - - - + - - + + + - - - -
respecto a
1 2 3 4 5 6 7 8 9 10
mediana
(25) r = 10
n1= 12 (-), n2 =12 (+)
4) Los puntos críticos utilizando la tabla FI y FII son:
7 < C < 19. Como r = 10 cae dentro del intervalo. No se rechaza Ho. Los
signos ocurren al azar al 5% de significancia.

En código R. Prueba de rachas para datos cuantitativos

# prueba de rachas para datos cuantitativos


x <- c(31,23,36,43,51,44,12,26,43,75,2,3,15,18,78,24,13,27,86,61,13,7,6,8)
median (x)
## [1] 25

La mediana es 25, 25 es el puntaje promedio de agresión en el grupo.

library("tseries")
runs.test(as.factor(x>median(x)))

## Runs Test
##
## data: as.factor(x > median(x))
## Standard Normal = -1.2523, p-value = 0.2105
## alternative hypothesis: two.sided

Resumen:
Mediana Numero de datos Estándar Normal Cola p-value
25 24 -1.2523 Dos colas 0.2105

los resultados muestran que 𝑝(0.2105) > 𝛼(0.05). La prueba estadística es no


significativa al 5%, no se rechaza Ho. Los signos ocurren al azar al 5% de
significancia.

Ejemplo. Un día lunes por la mañana se presentan hombre y mujeres a la oficina


de transportes para solicitar sus licencias de conducir, el orden de llegada es:
M,M,H,M,M,H,M,M,H,M,M,H,H,M,H,H,H,M,M,M,M.
¿Es la disposición de llegada aleatoria?
Solución:
1) Hipótesis:
Ho: La disposición de llegada ocurre al azar
H1: La disposición de llegada no ocurre al azar.
2) Nivel de significancia: α = 0.05
3) Estadístico de contraste.
Variable explicativa: Llegada
Variable de respuesta: Hombre, Mujer
N = 21.
Orden MM H MM H MM H MM HH M HHH MMMM
Signos - - + -- + -- + - - ++ - +++ - - - -
Rachas 1 2 3 4 5 6 7 8 9 10 11
r = 11; n1 = 13; n2= 8
4) Los puntos críticos usando las tablas FI y FII: 6 < C < 16.
r = 11, cae dentro del intervalo de puntos críticos, no se rechaza Ho. La
disposición de llegada de las personas es al azar.

En código R. Prueba de rachas para datos cualitativos


# prueba de rachas para valores cualitativos
library(randtests)

# 1:hombre; 0:mujer
rachas<-c(rachas<-c(0,0,1,0,0,1,0,0,1,0,0,1,1,0,1,1,1,0,0,0,0))
runs.test(rachas, alternative = "left.sided", threshold=0.5, pvalue = "normal",
plot=T)

Figura 19. Diagrama de representación para rachas

Los puntos se distribuyen por encina y abajo de la línea central en forma


discontinua, posiblemente implica aleatoriedad.

## Runs Test
##
## data: rachas
## statistic = 0.045352, runs = 11, n1 = 8, n2 = 13, n = 21, p-value
## = 0.5181
## alternative hypothesis: trend

Resumen:
Numero de datos Estadístico Cola p-value
21 0.045352 Dos colas 0.5181

𝑝(0.5181) > 𝛼(0.05). La prueba estadística es no significativa al 5%, no se


rechaza Ho. La disposición de llegada es al azar.

Ejemplo muestra grande. Interesa descubrir el carácter ordenado y azaroso de la


colocación de hombres y mujeres en la cola frente a la taquilla de un cine. Los
datos se obtuvieron simplemente anotando el sexo de 50 personas al momento de
acercarse a la taquilla.
MFMFMMMFFMFMFMFMMMMFMFMFMMFFFMFMFMFMMFMMFMM
MMFMFMM.
Solución
1) Hipótesis:
Ho: La serie de hombres y mujeres en la cola es al azar (aleatoria)
H1: La serie de hombre y mujeres no es al azar:
2) Nivel de significancia: α = 0.05
3) Prueba Estadística. Muestras grandes.
Variable explicativa: sexo
Variable de respuesta: Hombre, Mujer
M F M F MMM FF M F M F M F MMMM F M F M F MM FFF M
12 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
F M F M F MM F MM F MMMM F M F MM.
22 23 24 25 26 27 28 29 30 31 32 33 34 35

1,0,1,0,1,1,1,0,0,1,0,1,0,1,0,1,1,1,1,0,1,0,1,0,1,1,0,0,0,1,0,1,0,1,0,1,1,0,1,1,0
,1,1,1,1,0,1,0,1,1
Rachas: r = 35; n1=30; n2 =20; N = 50
Como n1 es mayor que 20 y se desea probar la aleatoriedad se usa la prueba
de rachas con aproximación normal.
𝑃 = 𝑛1 𝑛2 = (30)(20) = 600 y 𝑆 = 𝑛1 + 𝑛2 = 30 + 20 = 50
2𝑃 2(600)
𝑀𝑒𝑑𝑖𝑎 = 𝜇𝑟 = +1= + 1 = 25
𝑆 50
2𝑃(2𝑃 − 𝑛1 − 𝑛2 ) 2(600)(2(600) − 30 − 20)
𝜎𝑟 = √ = √
𝑆 2 (𝑆 − 1) 502 (50 − 1)
= 3.356382892
(𝑟 − 𝜇𝑟 ) − 0.5 (35 − 25) − 0.5
𝑍= = = 2.83
𝜎𝑟 3.356382892
4) La tabla A muestra la probabilidad conforme Ho. Para 2.83 es 0.0023.
p = 2(0.0023) = 0.0046 (por necesitar dos colas)
Como P(0.0046) < α(0.05), se rechaza Ho. Concluimos que la fila no era al
azar entre hombres y mujeres.

En código R
# Rachas muestras grandes cualitativas
################################
library(randtests)
# 1:hombre; 0:mujer
rachas<-c(rachas<-c(1,0,1,0,1,1,1,0,0,1,0,1,0,1,0,1,1,1,1,0,1,
0,1,0,1,1,0,0,0,1,0,1,0,1,0,1,1,0,1,1,0,1,1,1,1,0,1,0,1,1))
runs.test(rachas,alternative = "left.sided",threshold = 0.5,pvalue = "normal",
plot=T)
Figura 20. diagrama de rachas

Los puntos se distribuyen por encina y abajo de la línea central en forma


discontinua, posiblemente implica aleatoriedad.

## Runs Test
## data: rachas
## statistic = 2.9794, runs = 35, n1 = 30, n2 = 20, n = 50, p-value = 0.9986
## alternative hypothesis: trend

Por muestra grande utilizamos la aproximación a la normal

#usando estos resultados


n1=30
n2=20
p = n1*n2
s = n1+n2
r= 35
media = ((2*p)/s)+1
media

## [1] 25

ds = sqrt(((2*p)*(2*p-n1-n2))/(s^2*(s-1)))
ds

## [1] 3.356383

# Si,r<media se suma 0.5


# Si,r>media se resta 0.5
if(r > media){
Z <- ((r - media)-0.5)/ds
}else Z <- ((x + media)+ 0.5)/ds
cat("Z= ",Z)
## [1] 2.830428

# como el valor es positivo se resta de uno


# para hallar la probabilidad
p = 1- pnorm(Z)
p

## [1] 0.002324289

𝑝 = 2 ∗ (0.0023) = 0.0046) (por necesitar dos colas)

Resumen:
Numero de datos Estadístico Cola p-value
50 2.830428 Dos colas 0.0046
Como 𝑝(0.0046) < 𝛼(0.05), la prueba estadística es significativa al 5%, se
rechaza Ho. Concluimos que la fila no se ha formado al azar.
1.5 Ejercicios del capítulo.
1. En un Laboratorio de investigación se prueba un antiinflamatorio nuevo. Los
resultados son aceptables si al segundo día de aplicado al paciente se observa
una reducción del 90% en la inflamación; se le asigna (+) a ese caso. Se quiere
testear la hipótesis que la sucesión de signos positivos y negativos se produce
al azar. La sucesión de los 24 casos analizados fue:
Sucesión: + - + + + + - + + + - - - - + - - + + + - - - -
Use un test dos colas para observar si los datos se produjeron al azar.
2. En un hospital se forma todas las mañanas temprano, una cola de pacientes
esperando su turno para la extracción de sangre. La bioquímica a cargo decide
verificar si la colocación de hombres y mujeres es al azar. Anota el sexo de
cada uno de los primeros 50 pacientes que entraron al laboratorio. Los
resultados fueron:
Sucesos:
HH M H M HHH MM H MM H M HH MMM HH MM HHMM H M H M
H MM H M HH M HH M H M H M H MM
¿Los sexos guardan un orden aleatorio al formar la fila?. Use 5% de
significancia
3. Recientes estudios sobre el ejercicio de la Medicina en centros en los que no
actúan estudiantes, indican que la duración media de la visita por paciente es
de 22 minutos. Se cree que en centros donde con un elevado número de
estudiantes en prácticas esta cifra es menor. Se obtuvieron los siguientes datos
sobre las visitas de 20 pacientes aleatoriamente seleccionados:
Duración en minutos de la vista: 21.6 13.4 20.4 16.4 23.5 26.8 24.8 19.3
23.4 9.4 16.8 21.9 24.9 15.6 20.1 16.2 18.7 18.1 19.1 18.1
¿Constituyen estos datos una muestra aleatoria?
4. Recientes estudios sobre el ejercicio de la Medicina en centros en los que no
actúan estudiantes, indican que la duración media de la visita por paciente es
de 22 minutos. Se cree que en centros donde con un elevado número de
estudiantes en prácticas esta cifra es menor. Se obtuvieron los siguientes datos
sobre las visitas de 38 pacientes aleatoriamente seleccionados:
Duración en minutos de la visita
21.6 13.4 20.4 16.4 23.5 26.8 24.8 19.3 23.4 9.4 16.8 21.9 24.9 15.6 20.1 16.2
18.7 18.1 19.1 18.9 20.1 16.2 18.7 18.1 19.1 18.9 24.8 19.3 23.4 9.4 16.8 21.9
24.9 13.4 20.4 16.4 23.5 26.8
¿Constituyen estos datos una muestra aleatoria?

También podría gustarte