Analisis de Datos Categoricos

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 18

6 de agosto de 2012 [BIOESTADISTICA]

ANALISIS DE DATOS CATEGORICOS

INTRODUCCION

El estudio de la Estadstica ,no slo se ocupa de variables cuyo comportamiento est


determinado por ciertos parmetros que la definen. Se ocupa tambin de variables
cuya distribucin no es conocida, pero con las cuales se podra formular ciertas
hiptesis que pueden ser validadas con ayuda de las distribuciones como la Distribucin
Chi Cuadrado, que proporciona una colaboracin eficiente para estos temas. Por otro
lado, no siempre el anlisis estadstico se realiza sobre datos cuantitativos, en muchos
casos stos son de naturaleza cualitativa.

El conjunto de estas variables se clasifican por categoras, cada una de las cuales
pueden pertenecer a una determinada poblacin. Si bien el anlisis comparativo de dos
poblaciones lo cubre la diferencia de medias o proporciones poblacionales, en este caso
estamos hablando de una comparacin de ms de dos poblaciones. De manera que, an
en el caso de que tuviramos variables con un determinado comportamiento, se trata
de plantear comparaciones de mltiples variables cada una de las cuales podran tener
una distribucin conocida: Se pueden realizar pruebas de Bondad de Ajuste para
variables multinomiales, para variables normales o con una distribucin de Poisson.
Tambin se puede probar la afirmacin de que un conjunto de datos se ajusta a una de
estas distribuciones conocidas.

Por ello estamos interesados en medir la independencia de estas variables categricas;


se trata de analizar su homogeneidad o el tipo de ajuste que pudieran tener. Esto
significa realizar prueba de hiptesis para la independencia de variables, para la
homogeneidad de las mismas o, probar la bondad de su ajuste hacia alguna distribucin
conocida.

Por otro lado, desde el punto de vista de la estadstica, luego de conocer el valor del
estadstico en una muestra, interesa medir el desvo que presentan respecto de su

valor esperado; es decir, interesa medir, por ejemplo , en el caso de la media. Y


como esta diferencia puede ser cero (como en este), es ms importante analizar

que constituye la suma de los errores en la estimacin del parmetro.

Pgina 1
6 de agosto de 2012 [BIOESTADISTICA]

La distribucin Chi Cuadrado ser un instrumento que nos permitir evaluar este tipo
de comparaciones y determinar la aceptacin o rechazo de las hiptesis de igualdad,
como lo veremos en las siguientes secciones

Datos categricos representan atributos o categoras. Cuando se consideran


dos variables categricas, entonces los datos se organizan en tablas
Llamadas tablas de contingencia o tablas de clasificacin cruzada.
Primero se discutirn la relacin entre las variables que definen las filas y
Las columnas de tablas de contingencia y luego se estudian medidas que
dan una idea del grado de asociacin entre las dos variables categricas.
Finalmente se estudiara la prueba de bondad de ajuste que permite ver si un
Conjunto de datos sigue una distribucin conocida agrupando previamente los datos en
categoras

OBJETIVOS:

Generales
Que el estudiante aprenda a reconocer problemas de respuesta discreta y a
formular modelos estadsticos adecuados para su resolucin.
Aprender el manejo de paquetes de programas estadsticos, como R o SAS, para
el Anlisis de Datos Categricos.
Interpretar los resultados del ajuste de modelos para datos categricos en
problemas aplicados.
Aprender a seguir los diferentes pasos del proceso que va desde la formulacin
del problema real por otros profesionales, hasta la solucin estadstica y su
comunicacin

MARCO TEORICO

DATOS CATEGRICOS.

En este tema nos iniciaremos en el anlisis estadstico de un tipo especial de


datos a los que nos referiremos de una forma genrica como datos categricos.
Primeramente, como ilustracin, consideraremos diferentes situaciones practicas
en las que surgen de forma natural datos categricos, estudiaremos despus algunos
Anlisis estadsticos clsicos con tales tipos de datos y, finalmente, nos
Introduciremos en la teora sobre modelos log-lineales de gran inters en el
Tratamiento estadstico de problemas con datos categricos.

ESCALAS DE MEDIDA CATEGORICAS

Los datos categricos son datos que provienen de resultados de experimentos en que
sus resultados se miden en escalas categricas. Medir en una escala categrica

Pgina 2
6 de agosto de 2012 [BIOESTADISTICA]

consiste en observar el resultado de un experimento y asignarle una clase o categora,


de entre un nmero finito de clases posibles. Esta escala es no numrica, y puede ser
categrica ordinal, es decir, sus categoras tienen un orden natural, o en caso contrario
la escala es categrica nominal.
EJEMPLO 1.
Una encuesta revel las opiniones de un grupo de personas respecto de mayores
limitaciones en la venta de armas de fuego. Entre otras, se midieron las siguientes dos
variables: Una es el grado de restriccin esperado por el encuestado, en la venta de
armas de fuego. La otra es el nivel educacional del encuestado.
La variable grado de restriccin esperado tiene los valores:
a) Mucho ms restringida,
b) moderadamente ms restringida,
c) tal como est
d) moderadamente menos restringida,
e) mucho menos restringida.
La variable nivel educacional tiene los valores:
a) Hasta 4 Bsico,
b) bsico completo,
c) hasta segundo medio,
d) medio completo,
e) estudios universitarios incompletos,
f) titulado universitario

El tipo de anlisis que se suele hacer con datos categricos consiste en determinar el
tipo de asociacin existente entre pares de variables, lo que se denomina cruzar las
variables. Las posibilidades son, que no haya asociacin alguna, en tal caso se dice que
las variables son independientes, o que haya diferentes grados de asociacin.
En el caso de independencia entre dos variables, el valor que tome una de ellas no
predispone el valor de la otra. En el Ejemplo 1, podra ser que el grado de restriccin
esperado sea independiente de la otra variable, nivel educacional. Es decir, cualquiera
sea su nivel educacional, la probabilidad de que opine que la venta de armas debiera ser
mucho ms restringida, es la misma. Lo mismo ocurrir con las otras categoras.
Si dos variables no son independientes, estn asociadas, y el grado de asociacin no es
nico. Puede haber diversos grados de asociacin. Si hay asociacin, quiere decir que
algunos valores de una de las variables predispones a que la otra variable tome ciertos
valores de la otra variable, ms que otros. Esta predisposicin es mayor cuanto mayor
es el grado de asociacin.
EJEMPLO 2.
Se hizo un estudio de nios de 10 a 12 aos, consistente en experimentar la efectividad
de dos mtodos de higiene bucal en la prevencin de caries, el mtodo A y el mtodo

Pgina 3
6 de agosto de 2012 [BIOESTADISTICA]

B. Despus de un ao, se observ el desarrollo de caries. El resultado observado se


clasific en tres categoras: Bajo, moderado, alto.
Si los nios con el tratamiento A tienden a tener desarrollo de caries moderado o alto,
mientras que los nios con tratamiento B tienden a tener bajo desarrollo de caries,
entonces hay un cierto grado de asociacin.

En la metodologa estadstica se suele utilizar el trmino variable respuesta o


Dependiente cuando nos referimos a una variable aleatoria cuyos valores pueden
estar influenciados por otras variables, usualmente de naturaleza no aleatoria,
a las que se denomina variables independientes, implicatorias o predictoras. Las
tcnicas utilizadas en el anlisis estadstico de la informacin recogida depender
de la escala de medida en la que los datos de la variable respuesta y de las
variables explicitaras hayan sido expresados. En general distinguiremos tres
escalas de medida:
Escala Nominal
Los datos expresados en esta escala solo son susceptibles de ser clasificados.
Escala Ordinal
Los datos expresados en esta escala son susceptibles de ser clasificados y
ordenados.
Escala Numrica
Los datos expresados en esta escala pueden ser clasificados, ordenados y
adems, con ellos se pueden establecer relaciones de proporcionalidad.
Cuando hablamos de datos categricos nos referimos a datos que solo pueden
tomar un numero finito o infinito numerable de posibles valores. Suelen ser los
datos procedentes de los recuentos (frecuencias absolutas) derivados de informacin
recogida en escala nominal u ordinal.

Pruebas de Independencia y Homogeneidad

Cuando consideramos que los valores de nuestra tabla han sido extrados de una
poblacin, entonces nos interesara probar las siguientes dos hiptesis:
La prueba de Independencia, que se efecta para probar si hay asociacin entre las
variables categricas A y B, y
La prueba de Homogeneidad, que es una generalizacin de la prueba de igualdad de dos
proporciones. En este caso se trata de probar si para cada nivel de la variable B, la
proporcin con respecto a cada nivel de la variable A es la misma.
Las hiptesis de independencia son:
Ho: No hay asociacin entre las variables A y B (hay independencia)
Ha: S hay relacin entre las variables A y B
Las hiptesis de Homogeneidad son:
Ho: Las proporciones de cada valor de la variable A son iguales en cada columna.
Ha: Al menos una de las proporciones para cada valor de la variable a no son iguales en
cada columna

Pgina 4
6 de agosto de 2012 [BIOESTADISTICA]

Prueba de homogeneidad

Ocurre cuando una de las 2 variables es controlada por el investigador, de modo que los
totales por fila o por columna estan predeterminados
El analisis es idntico al de las tablas de contingencia para independencia
La hipotesis nula que se plantea en este caso consiste en sostener que la distribucin
de proporciones entre las categorias de la variable no controlada (por fila o por
columna) es la misma para cada categoria de la variable controlada
Otra manera de abordar el mismo problema es preguntarse si las muestras provienen
de la misma poblacin

Prueba de hiptesis para prueba de homogeneidad

Hiptesis. H0: las i-muestras son extradas de la misma poblacin. H1: son extradas de
diferentes poblaciones.
H0: 1j= 2j= 3j= ...= ij
H1: H0 no es verdadera
Nivel de significacin. = 0.05.
Estadstica de la prueba. que se distribuye aproximadamente como. Aqu = (i - 1)(j -
1)
Regla de decisin. Rechazamos H0 si, y solo si, el valor de calculado es mayor que
,(i-1)*(j-1). En caso contrario, se acepta H0.

El esperado es estimado en cada celda

Ejemplo para prueba de homogeneidad

Objetivo: establecer si las preferencias acerca del envase de dulce de leche son
similares para hombres y mujeres

Envase lata plastico carton vidrio Total


27 (19,5)30 (29,5)19 (22,5)24 (28,5) 100
varones
mujeres12 (19,5)29 (29,5)26 (22,5)33 (28,5) 100

39 59 45 57 200
Total

Pgina 5
6 de agosto de 2012 [BIOESTADISTICA]

h0: las preferencias (%) acerca del envase de dulce de leche no difieren entre hombres
y mujeres

ha: las preferencias (%) acerca del envase de dulce de leche difieren entre hombres y
mujeres

Estadistico *: 8,296 tabla ( = 0,05; gl = 3): 7,81

Valor p: 0,0402

Conclusin: se rechaza h0: las preferencias acerca del envase de dulce de leche
difieren entre hombres y mujeres

Prueba de independencia

Este tipo de prueba se aplica cuando existe inters en determinar si dos atributos
categricos presentan algn tipo de asociacin entre ellos o, por el contrario, son
independientes.
Este tipo de informacin se suele presentar en tablas de doble entrada.
El estadstico que se utiliza en estas pruebas es el mismo que el empleado en las
pruebas de bondad del ajuste y homogeneidad.
Se estudia la relacin entre dos factores diferentes de la misma poblacin
A diferencia de las pruebas de homogeneidad donde en general los totales de filas
estn fijos por anticipado, en las pruebas de independencia solo el tamao muestral es
fijo. Por lo tanto los totales de filas como de columnas son variables aleatorias
Hipotesis nula H0: ij = i.* .j las variables son independientes

Hipotesis
Ha: ij i.* .j las variables no son independientes
alternativa

= (O - E)/E
Estadistico de
donde O y E representan las Frecuencias observadas y esperadas
prueba
para cada celda

Esta determinada por la distribucin , con un determinado y


Regin de rechazo
(i -1)(j -1) grados de libertad

Ejemplo para prueba de independencia

Una muestra de 500 estudiantes ingresantes en una universidad particip en un estudio


diseada con el fin de evaluar el grado de conocimiento en matemticas. La siguiente
tabla muestra los estudiantes clasificados segn su formacin secundaria (escuelas

Pgina 6
6 de agosto de 2012 [BIOESTADISTICA]

tcnicas, bachiller y otras) y el nivel de conocimiento en matemticas (bueno=aprob el


examen; deficiente = no aprob el examen):

BuenoDeficiente

Tcnicas 20 60
Bachiller 15 150
Otras 25 230

Confirman estos datos que la aptitud en matemticas depende de la orientacin de los


estudios secundarios?

H0: La aptitud en matemticas es independiente de la orientacin del secundario

H1: La aptitud en matemticas es dependiente de la orientacin del secundario

Estadistico *: 15,289 tabla ( = 0,05; gl = 2): 5.99

Valor p: 0,00047845

Conclusin: se rechaza h0: La aptitud en matemticas es independiente de la


orientacin del secundario, por lo tanto las variables son dependientes.

Precauciones en la interpretacin de resultados

Los grados de libertad dependen de la cantidad de categoras de las variables y no del


nmero de casos, de modo que el valor de tabla no se modifica al aumentar el nmero
de casos
Utilizando muestras grandes, se dice poca cosa al decir que una relacin es
significativa, ya que es relativamente fcil establecer significacin, an en el caso de
que la relacin existente sea muy superficial.

Apunte de Probabilidades y estadsticas: Distribucin -cuadrado. Pruebas de Bondad


del Ajuste. Caractersticas de la multinomial. Prueba de hipotesis para el experimento
multinomial. Estadistico de prueba. Tablas de contingencia con dos criterios de
clasificacin. Ejemplo para prueba de homogeneidad. Ejemplo para prueba de
independencia.

TABLAS DE CONTINGENCIA

El primer paso en el cruce de dos variables categricas, para medir el grado de


asociacin entre ellas, es construir una tabla de contingencia, que consta de un cuadro
en que una de las variables se representa en el lado izquierdo, y la otra en la parte

Pgina 7
6 de agosto de 2012 [BIOESTADISTICA]

superior, cada una con todos sus respectivos valores. El cuadro contiene, en cada
casilla, el conteo del nmero de casos en cada una de las combinaciones de valores de
ambas variables.

Adems, se muestran los totales verticales (por columnas) en la parte inferior, y los
totales horizontales (por filas), en el lado derecho. Estas, por aparecer en los
mrgenes, se denominan frecuencias marginales.
En el extremo inferior derecho, se muestra el total de casos, N, que corresponde a la
suma de las frecuencias marginales fila, o a la suma de las frecuencias columna, que son
iguales.
EJEMPLO 3.
Supngase que en el Ejemplo 2, participaron en el estudio un total de 200 nios.
Con los resultados obtenidos, se construy la siguiente tabla de contingencia:

Podemos observar que al tratamiento A le corresponden ms casos con desarrollo de


caries moderado y alto, mientras que al tratamiento B le corresponden ms casos de
bajo desarrollo de caries.
En la tabla se muestran las sumas por columnas, que son las frecuencias distintos
grados de desarrollo de caries, y los totales por filas, que son las frecuencias de nios
con cada uno de los dos tipos de tratamientos. La suma de los totales, tanto por fila
como por columna, es iguales a 200, el total de casos.

EL ESTADSTICO JI-CUADRADO COMO MEDIDA DE ASOCIACIN

Como primer pas en el clculo de una medida del grado de asociacin entre las dos
variables, se debe construir una tabla de frecuencias esperadas, que es una tabla que
muestra las frecuencias que habra si fuera cierto que ambas variables son
independientes. En tal caso, las proporciones en las casillas de todas las filas (o
columnas) son proporcionales. En contraste con la tabla de contingencia, que tambin

Pgina 8
6 de agosto de 2012 [BIOESTADISTICA]

toma el nombre de tabla de frecuencias observadas. La tabla de frecuencias esperadas


se construye de la siguiente forma; la frecuencia esperada eij de la casilla
correspondiente a la fila i y a la columna j, est dada por la frmula

Si calculamos las frecuencias marginales de la tabla de frecuencias esperadas, sumando


las filas y las columnas, se podr observar que son iguales a las frecuencias marginales
de la tabla de frecuencias observadas.
Si ambas variables son independientes, las tablas de frecuencias esperadas y
observadas sern parecidas. Si difieren, entonces hay asociacin entre la variable fila
y la variable columna.
Mientras ms difieren las dos tablas, mayor ser el grado de asociacin entre las
variables.
EJEMPLO 4.
Se calcular la tabla de frecuencias esperadas, a partir de la tabla de frecuencias
observadas del Ejemplo 3, sobre el estudio de prevencin de caries.

Esta tabla se construye multiplicando las frecuencias de la fila y la columna respectiva,


y dividiendo por el total. De esta forma, la frecuencia esperada correspondiente al
tratamiento A y al desarrollo de caries bajo, es igual a 92x82/200 = 37.72. As se
construye toda la tabla, que da los siguientes valores, redondeados a un decimal:

Pgina 9
6 de agosto de 2012 [BIOESTADISTICA]

Hay una sola poblacin de inters, y cada individuo es clasificado respecto a dos
factores diferentes (i-categoras de un factor j-categoras de otro). Se toma una sola
muestra y se anota el nmero de individuos en cada categora de ambos factores.

PRUEBAS DE HIPTESIS DE INDEPENDENCIA


Con el estadstico ji-cuadrado se pueden efectuar pruebas de hiptesis para confirmar
si hay asociacin entre las dos variables que se estn cruzando. Esta prueba se
denomina prueba ji cuadrado.
Las hiptesis que se van a poner a prueba son:
H0: Hay independencia entre las variables.
H1: No hay independencia.

Para hacer la prueba, se debe comparar el estadstico con el valor obtenido de la Tabla
Ji cuadrado correspondiente. Para obtener el valor de tabla, se calcula el parmetro
grados de libertad, que es el producto (nmero de filas 1)*(nmero de columnas1)

Este valor se busca en la fila correspondiente de la tabla ji-cuadrado, que se muestra


ms adelante. Si el estadstico ji-cuadrado es mayor que el valor de la tabla, se rechaza
la hiptesis H0, y por lo tanto, se concluye que no hay independencia entre las dos
variables. Si no es mayor, se asume que no hay evidencia muestral para rechazar esa
hiptesis, por lo tanto se asume que si hay independencia entre las variables.

Siempre que se hace una prueba de hiptesis, es posible rechazar errneamente la


hiptesis de independencia, siendo que es verdadera. Se puede cuantificar la
probabilidad de cometer este tipo de error. Esta probabilidad se denomina nivel de
significacin de la prueba. No es posible eliminar la probabilidad de este error, pero se
espera que sea pequea.
La tabla siguiente corresponde a un nivel de significacin de 0.05 (probabilidad de
rechazar errneamente la hiptesis H0). Hay tablas ms completas, que entregan otras
probabilidades de rechazar H0 errneamente, sin embargo, el valor mayormente
aceptado es 0.05 o 5%.

Pgina 10
6 de agosto de 2012 [BIOESTADISTICA]

Una precaucin que se debe tomar con las pruebas ji-cuadrado es que frecuencia
esperada en cada casilla sea de a lo menos 5. En caso contrario, el estadstico ji-
cuadrado se estar distorsionado, y el nivel de significacin no ser el correcto.

OTRAS MEDIDAS DE ASOCIACIN

Como alternativa a efectuar una prueba ji-cuadrado, se puede simplemente cuantificar


el grado de asociacin, utilizando alguna medida de asociacin adecuada. O puede servir
como complemento a la prueba, que slo concluye si hay o no asociacin, pero no dice
cunta asociacin.
Se dispone de tres medidas, todas basadas en el estadstico ji-cuadrado.
La primera medida de asociacin es el coeficiente , definido como en que N es el total
de observaciones. El coeficiente es mayor que 0, y aunque es mucho menor que el
estadstico ji-cuadrado, no est acotado superiormente. Puede ser mayor que uno.

Otra medida de asociacin es el coeficiente de contingencia, que se define como

Este coeficiente toma valores entre 0 y 1, sin embargo nunca alcanza el valor 1. Su
mximo depende del nmero de filas y columnas. Por ejemplo, en tablas de 4 filas por 4
columnas, su valor mximo es de 0.87.
Por ltimo, est el coeficiente V de Cramer, en que k es el mnimo entre el nmero de
filas y el nmero de columnas. Este coeficiente est acotado entre 0 y 1, y puede
alcanzar ambas cotas, por lo tanto es el mejor de las medidas de asociacin, por ser
ms fcil de interpretar.

Si hay dos filas o dos columnas, los coeficientes y V de Cramer son iguales.
EJEMPLO 7. Calcularemos los tres ndices para los datos del estudio de prevencin de
caries en nios, a partir del estadstico ji-cuadrado calculado en el Ejemplo 6:

Coeficiente

Pgina 11
6 de agosto de 2012 [BIOESTADISTICA]

Coeficiente de contingencia

Coeficiente V de Cramer

En este caso hay dos filas, por eso coinciden los coeficientes y V de Cramer.
Recordar que esta ltima toma valores entre 0 y 1, por lo tanto el valor 0.612 se ve
suficientemente grande como para concluir que hay asociacin entre las variables
tratamiento y desarrollo de caries. Recordar que la prueba de hiptesis dio como
resultado que no hay independencia entre las variables.

Distribucin -cuadrado

Para resolver estos problemas utilizaremos la distribucin -cuadrado.

La aplicaremos bsicamente:

Pruebas con probabilidades de cada categora


completamente especificada
Bondad de Ajuste Bondad de ajuste a una variable discreta
- Bondad de ajuste a una variable continua
cuadrado
Pruebas de Homogeneidad
Tablas de
contingencia Pruebas de Independencia

Propiedades -cuadrado

Antes de dar una descripcin ms detallada de estas pruebas repasemos algunas


propiedades de esta distribucin:

No toma valores negativos


Tiene una distribucin diferente para cada nmero de grados de libertad

Pgina 12
6 de agosto de 2012 [BIOESTADISTICA]

Pruebas de Bondad del Ajuste

(Inferencias acerca del Experimento Multinomial)

Se desea contrastar una distribucin de frecuencias observada en una muestra con una
distribucin de frecuencias terica
Verificar si responde a un determinado modelo o situacin preconcebida.
Es una generalizacin del experimento binomial.
Para aplicar la prueba se necesita una tabla donde se encuentren registradas las
frecuencias observadas y las frecuencias tericas o esperadas segn el modelo. El
estadstico que se utiliza en estas pruebas es el siguiente:

donde k es el nmero de categoras y oi y ei son las frecuencia observada y esperada en


la i-sima categora, respectivamente.

Caractersticas de la multinomial

Consta de n ensayos independientes e idnticos.


El resultado de cada ensayo cae en una de las k categoras posibles (medidas en escala
nominal) de la nica variable, donde k>2.
Hay una probabilidad asociada a cada categoria, la cual es constante de un ensayo a
otro
Las categorias son exhaustivas y excluyentes, por lo cual la suma de sus probabilidades
es 1
Se obtienen frecuencias observadas para cada categora, siendo su suma igual a n.
El nmero esperado de intentos que resulten en la categora i es E(Ni)= n*i,, donde i
es la probabilidad de que cualquier observacin en particular pertenezca a la categora

Pgina 13
6 de agosto de 2012 [BIOESTADISTICA]

Prueba de hipotesis para el experimento multinomial

Hipotesis nula H0: 1, 2, ... , k poseen valores especificados (iguales o no)

Hipotesis Ha: alguna probabilidad de las celdas. Difiere de los valores


alternativa especificados en H0

Estadistico de
prueba
donde o y e representan las Frecuencias observadas y esperadas
para cada celda

Esta determinada por la distribucin , con un determinado y k -


Regin de rechazo
1 grados de libertad

Las frecuencias esperadas no pueden ser en ningn caso inferiores a


Supuesto
5

Prueba de hipotesis para el experimento multinomial

Bajo la hiptesis nula los ni deben estar razonablemente cerca de n*i


Cuando los valores de i difieran marcadamente de lo especificado en la hiptesis nula,
los valores observados diferirn de los esperados.
El procedimiento de prueba implica medir las discrepancias entre ni y n*i, rechazando
la hiptesis nula cuando la discrepancia sea suficientemente grande
Hay solo k -1 valores de celda determinadas libremente y por lo tanto k -1 grados de
libertad.
Dado que grandes discrepancias entre valores observados y esperados conducen a gran
valor de ji-cuadrado el rechazo de H0 es apropiado cuando , k -1(unilateral a la
derecha)

Veamos un ejemplo utilizado en gentica acerca de los experimentos clsicos


conducidos por Mendel resuelto en la gua terica.

Mendel tena arvejas con dos tipos de tegumento, rugoso y liso y, segn su hiptesis, en
cruzamientos realizados entre ciertos tipos de plantas, el esperaba que aparecieran en
la descendencia de dichos cruzamientos, arvejas de tegumento liso y rugoso en la
proporcin 3:1, es decir, 3 semillas de tegumento liso por cada semilla de tegumento
rugoso.

Pgina 14
6 de agosto de 2012 [BIOESTADISTICA]

Supongamos que en un experimento en el cual se obtiene una descendencia compuesta


por 400 semillas, un genetista encuentra 285 semillas de tegumento liso y 125, de
tegumento rugoso. Sera razonable, con = 0.05, pensar que esa proporcin observada
no est demasiado alejada de la proporcin 3:1 dictada por la ley de Mendel?

Hiptesis. H0: la proporcin es 3:1; H1: la proporcin no es 3:1.


Nivel de significacin. = 0.05.
Estadstica de la prueba. que se distribuye compuesto que, para esta prueba k = 2 y,
por consiguiente, = 2 - 1 = 1.
Regla de decisin. Rechazamos H0 si, y solo si, el valor de 2 calculado es mayor que
3.84. En caso contrario, se acepta H0.
Clculos.
Tegumento oi ei oi - e(o
i i - ei)/ei

285400.(3/4) = 300 15
Liso 0,75
Rugoso 115 400.(1/4) = 100 15 2,25

Total 400 400 - 3,00


Decisin. Puesto que 3.0 < 3.84 no puede rechazarse H0 con = 0.05. Los datos de la
muestra no constituyen una prueba suficiente como para dudar de que las proporciones
verdaderas son 3:1.

An cuando hemos desarrollado la prueba -cuadrado para situaciones donde k>2,


tambin se puede utilizar cuando k = 2.

La hiptesis nula en este caso se puede expresar como H0: 1= 10.

Estas hiptesis tambin se pueden probar utilizando una prueba z de dos colas con
estadsticos de prueba

De manera sorprendente, los dos procedimientos de prueba son completamente


equivalentes. Esto es porque se puede demostrar que Z= y (z/2)= 1 de modo
que , k -1 si y slo si Z z/2.

Caso 1: Prueba de homogeneidad

Ocurre cuando una de las 2 variables es controlada por el investigador, de modo que los
totales por fila o por columna estan predeterminados
El analisis es idntico al de las tablas de contingencia para independencia

Pgina 15
6 de agosto de 2012 [BIOESTADISTICA]

La hipotesis nula que se plantea en este caso consiste en sostener que la distribucin
de proporciones entre las categorias de la variable no controlada (por fila o por
columna) es la misma para cada categoria de la variable controlada
Otra manera de abordar el mismo problema es preguntarse si las muestras provienen
de la misma poblacin

Prueba de hiptesis para prueba de homogeneidad

Hiptesis. H0: las i-muestras son extradas de la misma poblacin. H1: son extradas de
diferentes poblaciones.
H0: 1j= 2j= 3j= ...= ij
H1: H0 no es verdadera
Nivel de significacin. = 0.05.
Estadstica de la prueba. que se distribuye aproximadamente como. Aqu = (i - 1)(j -
1)
Regla de decisin. Rechazamos H0 si, y solo si, el valor de calculado es mayor que
,(i-1)*(j-1). En caso contrario, se acepta H0.

El esperado es estimado en cada celda

Ejemplo para prueba de homogeneidad

Objetivo: establecer si las preferencias acerca del envase de dulce de leche son
similares para hombres y mujeres

Envase lata plastico carton vidrio Total


27 (19,5)30 (29,5)19 (22,5)24 (28,5) 100
varones
mujeres12 (19,5)29 (29,5)26 (22,5)33 (28,5) 100

39 59 45 57 200
Total

h0: las preferencias (%) acerca del envase de dulce de leche no difieren entre hombres
y mujeres

ha: las preferencias (%) acerca del envase de dulce de leche difieren entre hombres y
mujeres

Pgina 16
6 de agosto de 2012 [BIOESTADISTICA]

Estadistico *: 8,296 tabla ( = 0,05; gl = 3): 7,81

Valor p: 0,0402

Conclusin: se rechaza h0: las preferencias acerca del envase de dulce de leche
difieren entre hombres y mujeres

Caso 2: Prueba de independencia

Este tipo de prueba se aplica cuando existe inters en determinar si dos atributos
categricos presentan algn tipo de asociacin entre ellos o, por el contrario, son
independientes.
Este tipo de informacin se suele presentar en tablas de doble entrada.
El estadstico que se utiliza en estas pruebas es el mismo que el empleado en las
pruebas de bondad del ajuste y homogeneidad.
Se estudia la relacin entre dos factores diferentes de la misma poblacin
A diferencia de las pruebas de homogeneidad donde en general los totales de filas
estn fijos por anticipado, en las pruebas de independencia solo el tamao muestral es
fijo. Por lo tanto los totales de filas como de columnas son variables aleatorias
Hipotesis nula H0: ij = i.* .j las variables son independientes

Hipotesis
Ha: ij i.* .j las variables no son independientes
alternativa

= (O - E)/E
Estadistico de
donde O y E representan las Frecuencias observadas y esperadas
prueba
para cada celda

Esta determinada por la distribucin , con un determinado y


Regin de rechazo
(i -1)(j -1) grados de libertad

Ejemplo para prueba de independencia

Una muestra de 500 estudiantes ingresantes en una universidad particip en un estudio


diseada con el fin de evaluar el grado de conocimiento en matemticas. La siguiente
tabla muestra los estudiantes clasificados segn su formacin secundaria (escuelas
tcnicas, bachiller y otras) y el nivel de conocimiento en matemticas (bueno=aprob el
examen; deficiente = no aprob el examen):

BuenoDeficiente

Tcnicas 20 60

Pgina 17
6 de agosto de 2012 [BIOESTADISTICA]

Bachiller 15 150
Otras 25 230

Confirman estos datos que la aptitud en matemticas depende de la orientacin de los


estudios secundarios?

H0: La aptitud en matemticas es independiente de la orientacin del secundario

H1: La aptitud en matemticas es dependiente de la orientacin del secundario

Estadistico *: 15,289 tabla ( = 0,05; gl = 2): 5.99

Valor p: 0,00047845

Conclusin: se rechaza h0: La aptitud en matemticas es independiente de la


orientacin del secundario, por lo tanto las variables son dependientes.

Resultados:

Los grados de libertad dependen de la cantidad de categoras de las variables y no del


nmero de casos, de modo que el valor de tabla no se modifica al aumentar el nmero
de casos
Utilizando muestras grandes, se dice poca cosa al decir que una relacin es
significativa, ya que es relativamente fcil establecer significacin, an en el caso de
que la relacin existente sea muy superficial.

Pgina 18

También podría gustarte