Pruebas de Hipotesis Con R Commander PDF
Pruebas de Hipotesis Con R Commander PDF
Pruebas de Hipotesis Con R Commander PDF
POBLACIONES NORMALES.
Para realizar pruebas de hipótesis acerca de la media o de la diferencia entre medias cuando los
tamaños de las muestras son pequeños, es necesario el supuesto de normalidad en las muestras.
Supongamos que es una muestra aleatoria de una población normal con media y
varianza , y que es otra muestra aleatoria de otra población normal con media y
varianza , ambas muestras independientes entre sí.
Si es desconocida, entonces .
y R.C.=
y R.C.= , donde
Ejemplo 1: Se tomó una muestra aleatoria de 1000 estudiantes de una universidad a los cuales se
les registró: Valor de la matrícula (VMATRI), Estrato Socioeconómico (ESTRATO), Número de
horas dedicadas semanalmente a estudiar (HORAS), Facultad a la cual pertene (FAC), si trabajaba
(TRAB, SI o NO) y el Promedio obtenido en el semestre anterior (PROM). Una parte de los datos
se muestra a continuación. Observe que en este caso no se sabe nada acerca de la distribución de
las variables. Suponga que se desea probar si el valor de la matrícula promedio real de los
estudiantes en dicha comunidad es superior a los 640.000 pesos con base en esta muestra
aleatoria, con un nivel de significancia de .
Para decidir que estadístico de prueba utilizar se debe realizar una prueba de Normalidad de las
observaciones de la variable, la prueba más utilizada es la prueba de Shapiro Wilk.
: el valor de la matricula se distribuye normalmente
El procedimiento para realizar una prueba t para una media se muestra en la siguiente gráfica:
El en cuadro de opciones, se selecciona la variable de Interés (X: Valor de la matricula), el valor de
De nuevo, supongamos que es una muestra aleatoria de una población normal con
media y varianza y que es otra muestra aleatoria de otra población normal con
media y varianza , ambas muestras independientes entre sí.
Caso I: ,
Bajo el supuesto de Normalidad, y . Y como ambas variables son
, entonces:
Caso II:
Bajo el supuesto de normalidad en las muestras aleatorias se puede demostrar que:
donde,
Para probar si las varianzas de ambas muestras son iguales o diferentes, aunque sean
desconocidas, podemos realizar una prueba de hipótesis para igualdad de Varianzas:
Si la hipótesis Nula es rechazada, se concluye que las varianzas poblacionales no son iguales. En
caso contrario podemos asumir que las varianzas poblacionales son iguales.
Usualmente se toma como cero y entonces hablamos de una prueba de Igualdad de Medias.
Ejemplo 2: Se tomó una muestra aleatoria de 1000 estudiantes de una universidad a los cuales se
les registró: Valor de la matrícula (VMATRI), Estrato Socioeconómico (ESTRATO), Número de
horas dedicadas semanalmente a estudiar (HORAS), Facultad a la cual pertene (FAC), si trabajaba
(TRAB, SI o NO) y el Promedio obtenido en el semestre anterior (PROM). Observe que en este
caso no se sabe nada acerca de la distribución de las variables. Suponga que se desea probar si el
valor de la matrícula promedio real de los estudiantes que trabajan es superior al promedio de los
que no trabajan con base en esta muestra aleatoria, usando .
Si definimos:
: el valor de la matricula promedio de los estudiantes que trabajan
: vs
Para elegir el estadístico de prueba primero debemos verificar si las dos muestras aleatorias
provienen de poblaciones normales, es decir,
Luego como las dos muestras aleatorias son normales y las varianzas poblacionales son
desconocidas, se debe probar si las varianzas son iguales o no.
Para verificar si las varianzas son iguales se debe realizar la siguiente prueba de hipótesis:
: vs :
: vs
Como las dos muestras aleatorias provienen de poblaciones normales con varianzas desconocidas
pero iguales, el estadístico de prueba es:
Usando el R commander realizamos los siguientes pasos:
En ésta ventana seleccionamos la variable VMATRI y el grupo TRAB, y luego hacemos clic en
opciones y se abre la siguiente ventana:
Luego seleccionamos Diferencia NO - SI < 0, y en suponer que las varianzas son iguales
seleccionar Sí, y se obtiene:
Como el valor P es mayor que , no se rechaza la hipótesis nula, es decir, no hay evidencia
muestral suficiente para sugerir que el valor de la matricula promedio de los estudiantes que
trabajan es superior al valor de la matricula de los estudiantes que no trabajan, con un nivel de
significancia de 0.01.
POBLACIONES NO NORMALES
Para todos los casos suponemos que es una muestra aleatoria de una población con
media y varianza , y que es otra muestra aleatoria de otra población con media
y varianza , ambas muestras independientes entre si.
Sea una muestra aleatoria de una de una población con media y varianza . Si el
tamaño de la muestra es grande y es conocida, el Teorema Central del Límite garantiza que
, y de esta manera un Intervalo de confianza aproximado al
para es de la forma:
, donde .
Si es un valor particular para , podemos establecer tres hipótesis alternativas respecto al valor
real de :
Estadístico de prueba .
Cabe Anotar que R commander asume que las poblaciones involucradas SON NORMALES
independiente del tamaño de la muestra. Si las poblaciones no son normales, para realizar pruebas
de hipótesis para la Media con muestras grandes, debe hacerse manualmente. Similarmente pasa
para la diferencia de medias de dos poblaciones con muestras grandes.
Ejemplo 3: Se tomó una muestra aleatoria de 1000 estudiantes de una universidad a los cuales se
les registró: Valor de la matrícula (VMATRI), Estrato Socioeconómico (ESTRATO), Número de
horas dedicadas semanalmente a estudiar (HORAS), Facultad a la cual pertene (FAC), si trabajaba
(TRAB, SI o NO) y el Promedio obtenido en el semestre anterior (PROM). Observe que en este
caso no se sabe nada acerca de la distribución de las variables. Suponga que se desea probar si el
número de horas semanales promedio real que los estudiantes de dicha universidad dedican a
estudiar es inferior a 32 horas, con base en esta muestra aleatoria, use un .
Como el valor P es menor que , se rechaza la hipótesis nula, es decir, el número de horas
dedicado a estudiar no se distribuye normalmente.
Definamos
Como el valor P es menor que , se rechaza la hipótesis nula, es decir, hay evidencia
muestral suficiente para decir que, el promedio de los estudiantes que trabajan no se distribuye
normalmente, con .
Verifiquemos si el promedio de los estudiantes que no trabajan se distribuye normalmente, para
ello se realiza la siguiente prueba de hipótesis:
Como el valor P es menor que , se rechaza la hipótesis nula, es decir, hay evidencia
muestral suficiente para decir que, el promedio de los estudiantes que no trabajan no se distribuye
normalmente, con .
Como las dos muestras aleatorias no se distribuyen normalmente, la prueba de hipótesis sobre las
medias no se puede realizar en R commander, pero se puede utilizar el R commander para realizar
algunos cálculos como la media y la desviación estándar muestrales, de cada una de las muestras,
dando clic en: Estadísticos > Resúmenes > Resúmenes numéricos. y eligiendo la variable PROM y
discriminando por los grupos de la variable TRAB
obteniéndose:
mean sd n
NO 3.402473 0.4121154 647
SI 3.408782 0.3958692 353
Como las muestras aleatorias no provienen de poblaciones normales, ,
, y las varianzas poblacionales son desconocidas, se debe usar como estadístico de
prueba:
Ejemplo 6. Se tomó una muestra aleatoria de 1000 estudiantes de una universidad a los cuales se
les registró: Valor de la matrícula (VMATRI), Estrato Socioeconómico (ESTRATO), Número de
horas dedicadas semanalmente a estudiar (HORAS), Facultad a la cual pertenece (FAC), si
trabajaba (TRAB, SI o NO) y el Promedio obtenido en el semestre anterior (PROM). Observe que
en este caso no se sabe nada acerca de la distribución de las variables. Suponga que se desea
probar si la proporción de estudiantes que trabajan es inferior a 0.4, con base en esta muestra
aleatoria, use un .
Como el R ordena los niveles de las variables en orden alfabético, cuando se realiza la prueba de
hipótesis sobre la proporción de éxito de la binomial, implícitamente define el éxito el nivel de la
variable que aparece primero, en este caso el éxito es que no trabaje, y por lo tanto se debe probar
si la proporción de estudiantes que no trabajan es superior a 0.6.
vs
Como , se puede usar el teorema del límite central, el estadístico de prueba es:
Como el valor P es 0.001343, menor que , se rechaza la hipótesis nula, es decir, hay
evidencia muestral suficiente para sugerir que la proporción de estudiantes que no trabajan es
superior a 0.6.
Ejemplo 7. Se tomó una muestra aleatoria de 1000 estudiantes de una universidad a los cuales se
les registró: Valor de la matrícula (VMATRI), Estrato Socioeconómico (ESTRATO), Número de
horas dedicadas semanalmente a estudiar (HORAS), Facultad a la cual pertenece (FAC), si
trabajaba (TRAB, SI o NO) y el Promedio obtenido en el semestre anterior (PROM). Observe que
en este caso no se sabe nada acerca de la distribución de las variables. Suponga que se desea
probar si los estudiantes que dedican más de 20 horas al estudio, la proporción de estudiantes que
no trabajan es diferente a la proporción de estudiantes que trabajan, con base en esta muestra
aleatoria, use un .
Sea Número de estudiantes que No trabajan en la muestra y sea Número de estudiantes que
trabajan en la muestra. Suponga que y , donde y , son las
proporciones de estudiantes en la universidad que dedican más de 20 horas al estudio que No
trabajan y Trabajan respectivamente, y son los tamaños de muestra respectivos. e son
variables aleatorias Estadísticamente Independientes.
Como y son desconocidos, no podemos evaluar directamente este estadístico de prueba. Dos
alternativas pueden ser propuestas para resolver este problema.
2. Bajo la hipótesis nula, sabemos que y son iguales. Al reemplazar a y por el valor
común , el estadístico de prueba será:
Como también es desconocido puede ser estimado por usando un promedio ponderado
. Así, el estadístico de Prueba será:
Para aplicar el procedimiento en R commander primero debemos crear una variable categórica que
indique si el estudiante dedica más de 20 horas al estudio. En la opción Datos creamos la variable
MAYOR:
Para realizar esta re codificación realizamos los siguientes pasos: Datos—Modificar variable de
conjunto de datos activo—Recodificar variables…
“ Parte de la Base de Datos de los 1000 estudiantes encuestados con la variable re codificada”
Los resultados obtenidos son los siguientes:
Tanto el Valor P de la Prueba como el Intervalo de Confianza para indica que las
proporciones no son diferentes. Es decir no hay evidencia muestral suficiente para sugerir que de
los estudiantes que dedican más de 20 horas al estudio, la proporción de estudiantes que no
trabajan es diferente a la proporción de estudiantes que trabajan.