Pruebas de Hipotesis Con R Commander PDF

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 24

ALGUNOS PROCEDIMIENTOS DE PRUEBAS DE HIPOTESIS

USO DEL PAQUETE R-R COMMANDER

POBLACIONES NORMALES.

Para realizar pruebas de hipótesis acerca de la media o de la diferencia entre medias cuando los
tamaños de las muestras son pequeños, es necesario el supuesto de normalidad en las muestras.
Supongamos que es una muestra aleatoria de una población normal con media y
varianza , y que es otra muestra aleatoria de otra población normal con media y
varianza , ambas muestras independientes entre sí.

De la teoría de distribuciones muestrales sabemos que si es conocida entonces

Si es desconocida, entonces .

Si es un valor particular para , Tres hipótesis puedes ser planteadas respecto a

Si es conocida entonces el estadístico de prueba y la Región Crítica para un valor dado de


son:

y R.C.=

Si es desconocida entonces el estadístico de prueba y la Región Crítica para un valor dado de


son:

y R.C.= , donde

Ejemplo 1: Se tomó una muestra aleatoria de 1000 estudiantes de una universidad a los cuales se
les registró: Valor de la matrícula (VMATRI), Estrato Socioeconómico (ESTRATO), Número de
horas dedicadas semanalmente a estudiar (HORAS), Facultad a la cual pertene (FAC), si trabajaba
(TRAB, SI o NO) y el Promedio obtenido en el semestre anterior (PROM). Una parte de los datos
se muestra a continuación. Observe que en este caso no se sabe nada acerca de la distribución de
las variables. Suponga que se desea probar si el valor de la matrícula promedio real de los
estudiantes en dicha comunidad es superior a los 640.000 pesos con base en esta muestra
aleatoria, con un nivel de significancia de .

Las hipótesis a probar son .

Para decidir que estadístico de prueba utilizar se debe realizar una prueba de Normalidad de las
observaciones de la variable, la prueba más utilizada es la prueba de Shapiro Wilk.
: el valor de la matricula se distribuye normalmente

: el valor de la matricula no se distribuye normalmente

Para realizar la prueba de normalidad usando R commander se procede de la siguiente forma:

Después de seleccionar el test de Shapiro Wilk aparece la siguiente ventana:

Seleccionamos la variable VMATRI y le damos aceptar y se obtiene un valor P de 0.4841, como se


muestra a continuación con este valor P se decide aceptar la hipótesis nula de normalidad
Como los datos se distribuyen normalmente y la varianza poblacional es desconocida entonces el
estadístico de prueba es:

El procedimiento para realizar una prueba t para una media se muestra en la siguiente gráfica:
El en cuadro de opciones, se selecciona la variable de Interés (X: Valor de la matricula), el valor de

Además podemos indicar el cálculo de un Intervalo de Confianza al 95% para .

Los resultados obtenidos son los siguientes:


Como el Valor P es mayor que , No tenemos suficiente evidencia para rechazar Ho, es
decir, no hay evidencia muestral suficiente para sugerir que el valor de la matrícula promedio real
de un estudiante en dicha comunidad es superior a los 640.000 pesos, con un nivel de significancia
de .

Para Diferencia de Medias.


Si lo que se desea es comparar el comportamiento promedio de una misma característica en dos
poblaciones diferentes, cuando los tamaños de muestra son pequeños, no podemos usar el
Teorema Central del Límite para construir un Estadístico de Prueba adecuado.

De nuevo, supongamos que es una muestra aleatoria de una población normal con
media y varianza y que es otra muestra aleatoria de otra población normal con
media y varianza , ambas muestras independientes entre sí.

Un estimador insesgado para , es , pero ¿Cuál es la distribución Muestral de ?


Consideremos dos casos:

Caso I: ,
Bajo el supuesto de Normalidad, y . Y como ambas variables son

independientes entre si, y entonces . Además:

, entonces:

Caso II:
Bajo el supuesto de normalidad en las muestras aleatorias se puede demostrar que:

donde,

tiene una distribución aproximada, vía simulación

Las hipótesis a probar son entonces:

Para probar si las varianzas de ambas muestras son iguales o diferentes, aunque sean
desconocidas, podemos realizar una prueba de hipótesis para igualdad de Varianzas:

Estadístico de Prueba: dado.

Si la hipótesis Nula es rechazada, se concluye que las varianzas poblacionales no son iguales. En
caso contrario podemos asumir que las varianzas poblacionales son iguales.

Las hipótesis de interés a ser probadas son:

donde es un valor particular.

Usualmente se toma como cero y entonces hablamos de una prueba de Igualdad de Medias.

Caso I: , El estadístico de prueba es: .

La región crítica es similar al caso de una muestra aleatoria: , dado. El


valor P de esta prueba se calcula como .

Caso II: .El estadístico de Prueba es:

La región crítica es similar al caso anterior:: , dado. El valor P de esta prueba


se calcula como .

Ejemplo 2: Se tomó una muestra aleatoria de 1000 estudiantes de una universidad a los cuales se
les registró: Valor de la matrícula (VMATRI), Estrato Socioeconómico (ESTRATO), Número de
horas dedicadas semanalmente a estudiar (HORAS), Facultad a la cual pertene (FAC), si trabajaba
(TRAB, SI o NO) y el Promedio obtenido en el semestre anterior (PROM). Observe que en este
caso no se sabe nada acerca de la distribución de las variables. Suponga que se desea probar si el
valor de la matrícula promedio real de los estudiantes que trabajan es superior al promedio de los
que no trabajan con base en esta muestra aleatoria, usando .

Si definimos:
: el valor de la matricula promedio de los estudiantes que trabajan

: el valor de la matricula promedio de los estudiantes que no trabajan

: vs

Para elegir el estadístico de prueba primero debemos verificar si las dos muestras aleatorias
provienen de poblaciones normales, es decir,

: el valor de la matricula de los que trabajan se distribuye normalmente

: el valor de la matricula de los que trabajan no se distribuye normalmente

Para realizar la prueba de normalidad usando R commander se procede de la siguiente forma:

En la ventana superior llamada R Scrip se digita:

shapiro.test(Datos$VMATRI[Datos$TRAB=="SI"]), luego se le da ejecutar y se obtiene:


Como se obtiene un valor P de 0.3668, con este valor P se decide aceptar la hipótesis nula de
normalidad.

Ahora realizamos la prueba de hipótesis de normalidad para los que no trabajan

: el valor de la matricula de los que no trabajan se distribuye normalmente

: el valor de la matricula de los que no trabajan no se distribuye normalmente

Para realizar la prueba de normalidad usando R commander se procede de la siguiente forma:

En la ventana superior llamada R Scrip se digita:

shapiro.test(Datos$VMATRI[Datos$TRAB=="NO"]), luego se le da ejecutar y se obtiene:


Como se obtiene un valor P de 0.4578, con este valor P se decide aceptar la hipótesis nula de
normalidad.

Luego como las dos muestras aleatorias son normales y las varianzas poblacionales son
desconocidas, se debe probar si las varianzas son iguales o no.

Para verificar si las varianzas son iguales se debe realizar la siguiente prueba de hipótesis:

: vs :

Para realizar esta prueba de hipótesis en R commander se procede de la siguiente manera:


Al seleccionar test F para dos varianzas aparece la siguiente ventana

En esta ventana seleccionamos la variable VMATRI y en grupos seleccionamos la variable TRAB,


y le damos aceptar, obteniéndose:
Como el valor P es mayor que , se acepta la hipótesis nula, es decir hay evidencia
muestral suficiente para sugerir que las varianzas son iguales.

Luego retomando la hipótesis que deseamos probar es:

: vs

Como las dos muestras aleatorias provienen de poblaciones normales con varianzas desconocidas
pero iguales, el estadístico de prueba es:
Usando el R commander realizamos los siguientes pasos:

Después de seleccionar el Test t para muestras independientes aparece la siguiente ventana:

En ésta ventana seleccionamos la variable VMATRI y el grupo TRAB, y luego hacemos clic en
opciones y se abre la siguiente ventana:
Luego seleccionamos Diferencia NO - SI < 0, y en suponer que las varianzas son iguales
seleccionar Sí, y se obtiene:
Como el valor P es mayor que , no se rechaza la hipótesis nula, es decir, no hay evidencia
muestral suficiente para sugerir que el valor de la matricula promedio de los estudiantes que
trabajan es superior al valor de la matricula de los estudiantes que no trabajan, con un nivel de
significancia de 0.01.

POBLACIONES NO NORMALES

Para todos los casos suponemos que es una muestra aleatoria de una población con
media y varianza , y que es otra muestra aleatoria de otra población con media
y varianza , ambas muestras independientes entre si.

Pruebas de Hipótesis para Medias.

Sea una muestra aleatoria de una de una población con media y varianza . Si el
tamaño de la muestra es grande y es conocida, el Teorema Central del Límite garantiza que
, y de esta manera un Intervalo de confianza aproximado al

para es de la forma:

, donde .

Si es desconocida, esta es estimada usando la varianza Muestral: y un


Intervalo de Confianza aproximado al para es de la forma: .

Si es un valor particular para , podemos establecer tres hipótesis alternativas respecto al valor
real de :

Estadístico de prueba .

Cabe Anotar que R commander asume que las poblaciones involucradas SON NORMALES
independiente del tamaño de la muestra. Si las poblaciones no son normales, para realizar pruebas
de hipótesis para la Media con muestras grandes, debe hacerse manualmente. Similarmente pasa
para la diferencia de medias de dos poblaciones con muestras grandes.

Usando R commander se pueden calcular y para ser usados en la inferencia respecto a la


media de la población.

Ejemplo 3: Se tomó una muestra aleatoria de 1000 estudiantes de una universidad a los cuales se
les registró: Valor de la matrícula (VMATRI), Estrato Socioeconómico (ESTRATO), Número de
horas dedicadas semanalmente a estudiar (HORAS), Facultad a la cual pertene (FAC), si trabajaba
(TRAB, SI o NO) y el Promedio obtenido en el semestre anterior (PROM). Observe que en este
caso no se sabe nada acerca de la distribución de las variables. Suponga que se desea probar si el
número de horas semanales promedio real que los estudiantes de dicha universidad dedican a
estudiar es inferior a 32 horas, con base en esta muestra aleatoria, use un .

Las hipótesis a probar son vs .


Primero debemos verificar si el número de horas dedicado a estudiar se distribuye normalmente,
para ello se realiza la siguiente prueba de hipótesis:

: el número de horas dedicado a estudiar se distribuye normalmente

: el número de horas dedicado a estudiar no se distribuye normalmente

Usando el R commander se obtiene:

Como el valor P es menor que , se rechaza la hipótesis nula, es decir, el número de horas
dedicado a estudiar no se distribuye normalmente.

Como la variable, el número de horas dedicado a estudiar no se distribuye normalmente, la prueba


de hipótesis sobre la media no se puede realizar en R commander, pero se puede utilizar el R
commander para realizar algunos cálculos como la media y la desviación estándar muestrales,
obteniéndose:

numSummary(Datos[,"HORAS"], statistics=c("mean", "sd"), quantiles=c(0,.25,.5,.75,1))


mean sd n
29.971 7.091858 1000

Como la muestra aleatoria no proviene de una población normal, , y la varianza


poblacional es desconocida, se debe usar como estadístico de prueba:

Al reemplazar los valores se obtiene: .

Valor P= la cual es aproximadamente igual a cero, como el valor P es menor que


, se rechaza la hipótesis nula, es decir, hay evidencia muestral suficiente para sugerir que
el número de horas semanales promedio real que los estudiantes de dicha universidad dedican a
estudiar es inferior a 32 horas, con un nivel de significancia de 0.05.
Ejemplo 4: Se tomó una muestra aleatoria de 1000 estudiantes de una universidad a los cuales se
les registró: Valor de la matrícula (VMATRI), Estrato Socioeconómico (ESTRATO), Número de
horas dedicadas semanalmente a estudiar (HORAS), Facultad a la cual pertenece (FAC), si
trabajaba (TRAB, SI o NO) y el Promedio obtenido en el semestre anterior (PROM). Observe que
en este caso no se sabe nada acerca de la distribución de las variables. Suponga que se desea
probar si la media del promedio de los estudiantes que trabajan es superior a la media del
promedio de los estudiantes que no trabajan, con base en esta muestra aleatoria, use un .

Definamos

: la media del promedio de los estudiantes que trabajan

: la media del promedio de los estudiantes que no trabajan

Las hipótesis a probar son vs .

Primero debemos verificar si el promedio de los estudiantes que trabajan se distribuye


normalmente, para ello se realiza la siguiente prueba de hipótesis:

: el promedio de los estudiantes que trabajan se distribuye normalmente

: el promedio de los estudiantes que trabajan no se distribuye normalmente

Usando el R commander se obtiene:

Como el valor P es menor que , se rechaza la hipótesis nula, es decir, hay evidencia
muestral suficiente para decir que, el promedio de los estudiantes que trabajan no se distribuye
normalmente, con .
Verifiquemos si el promedio de los estudiantes que no trabajan se distribuye normalmente, para
ello se realiza la siguiente prueba de hipótesis:

: el promedio de los estudiantes que no trabajan se distribuye normalmente

: el promedio de los estudiantes que no trabajan no se distribuye normalmente

Usando el R commander se obtiene:

Como el valor P es menor que , se rechaza la hipótesis nula, es decir, hay evidencia
muestral suficiente para decir que, el promedio de los estudiantes que no trabajan no se distribuye
normalmente, con .

Como las dos muestras aleatorias no se distribuyen normalmente, la prueba de hipótesis sobre las
medias no se puede realizar en R commander, pero se puede utilizar el R commander para realizar
algunos cálculos como la media y la desviación estándar muestrales, de cada una de las muestras,
dando clic en: Estadísticos > Resúmenes > Resúmenes numéricos. y eligiendo la variable PROM y
discriminando por los grupos de la variable TRAB

obteniéndose:

numSummary(Datos[,"PROM"], groups=Datos$TRAB, statistics=c("mean", "sd"),


quantiles=c(0,.25,.5,.75,1))

mean sd n
NO 3.402473 0.4121154 647
SI 3.408782 0.3958692 353
Como las muestras aleatorias no provienen de poblaciones normales, ,
, y las varianzas poblacionales son desconocidas, se debe usar como estadístico de
prueba:

Al reemplazar los valores se obtiene: .

Valor P= , como el valor P es mayor que , no se rechaza la


hipótesis nula, es decir, no hay evidencia muestral suficiente para sugerir que, la media del
promedio de los estudiantes que trabajan es superior a la media del promedio de los estudiantes
que no trabajan, con un nivel de significancia de 0.05.

Ejemplo 6. Se tomó una muestra aleatoria de 1000 estudiantes de una universidad a los cuales se
les registró: Valor de la matrícula (VMATRI), Estrato Socioeconómico (ESTRATO), Número de
horas dedicadas semanalmente a estudiar (HORAS), Facultad a la cual pertenece (FAC), si
trabajaba (TRAB, SI o NO) y el Promedio obtenido en el semestre anterior (PROM). Observe que
en este caso no se sabe nada acerca de la distribución de las variables. Suponga que se desea
probar si la proporción de estudiantes que trabajan es inferior a 0.4, con base en esta muestra
aleatoria, use un .

Como el R ordena los niveles de las variables en orden alfabético, cuando se realiza la prueba de
hipótesis sobre la proporción de éxito de la binomial, implícitamente define el éxito el nivel de la
variable que aparece primero, en este caso el éxito es que no trabaje, y por lo tanto se debe probar
si la proporción de estudiantes que no trabajan es superior a 0.6.

Sea P: la probabilidad de que un estudiante seleccionado al azar no trabaje.

vs

Como , se puede usar el teorema del límite central, el estadístico de prueba es:

Usando el R commander se procede de la siguiente manera:


Luego aparece la siguiente ventana:

Se selecciona la variable y se eligen las opciones, obteniéndose:


En opciones selecciono un test de cola derecha , y que utilice la aproximación normal, y
luego se obtiene:

Como el valor P es 0.001343, menor que , se rechaza la hipótesis nula, es decir, hay
evidencia muestral suficiente para sugerir que la proporción de estudiantes que no trabajan es
superior a 0.6.

Ejemplo 7. Se tomó una muestra aleatoria de 1000 estudiantes de una universidad a los cuales se
les registró: Valor de la matrícula (VMATRI), Estrato Socioeconómico (ESTRATO), Número de
horas dedicadas semanalmente a estudiar (HORAS), Facultad a la cual pertenece (FAC), si
trabajaba (TRAB, SI o NO) y el Promedio obtenido en el semestre anterior (PROM). Observe que
en este caso no se sabe nada acerca de la distribución de las variables. Suponga que se desea
probar si los estudiantes que dedican más de 20 horas al estudio, la proporción de estudiantes que
no trabajan es diferente a la proporción de estudiantes que trabajan, con base en esta muestra
aleatoria, use un .

Sea Número de estudiantes que No trabajan en la muestra y sea Número de estudiantes que
trabajan en la muestra. Suponga que y , donde y , son las
proporciones de estudiantes en la universidad que dedican más de 20 horas al estudio que No
trabajan y Trabajan respectivamente, y son los tamaños de muestra respectivos. e son
variables aleatorias Estadísticamente Independientes.

Las hipótesis que se desea contrastar son: . El estadístico de


Prueba en este caso es:

Como y son desconocidos, no podemos evaluar directamente este estadístico de prueba. Dos
alternativas pueden ser propuestas para resolver este problema.

1. Cambiar y por sus estimadores de máxima verosimilitud: y . Así el


estadístico de prueba será:

2. Bajo la hipótesis nula, sabemos que y son iguales. Al reemplazar a y por el valor
común , el estadístico de prueba será:

Como también es desconocido puede ser estimado por usando un promedio ponderado
. Así, el estadístico de Prueba será:

Para aplicar el procedimiento en R commander primero debemos crear una variable categórica que
indique si el estudiante dedica más de 20 horas al estudio. En la opción Datos creamos la variable
MAYOR:

Para realizar esta re codificación realizamos los siguientes pasos: Datos—Modificar variable de
conjunto de datos activo—Recodificar variables…
“ Parte de la Base de Datos de los 1000 estudiantes encuestados con la variable re codificada”
Los resultados obtenidos son los siguientes:
Tanto el Valor P de la Prueba como el Intervalo de Confianza para indica que las
proporciones no son diferentes. Es decir no hay evidencia muestral suficiente para sugerir que de
los estudiantes que dedican más de 20 horas al estudio, la proporción de estudiantes que no
trabajan es diferente a la proporción de estudiantes que trabajan.

También podría gustarte