Analisis de Datos Categoricos
Analisis de Datos Categoricos
Analisis de Datos Categoricos
INTRODUCCION
El conjunto de estas variables se clasifican por categoras, cada una de las cuales
pueden pertenecer a una determinada poblacin. Si bien el anlisis comparativo de dos
poblaciones lo cubre la diferencia de medias o proporciones poblacionales, en este caso
estamos hablando de una comparacin de ms de dos poblaciones. De manera que, an
en el caso de que tuviramos variables con un determinado comportamiento, se trata
de plantear comparaciones de mltiples variables cada una de las cuales podran tener
una distribucin conocida: Se pueden realizar pruebas de Bondad de Ajuste para
variables multinomiales, para variables normales o con una distribucin de Poisson.
Tambin se puede probar la afirmacin de que un conjunto de datos se ajusta a una de
estas distribuciones conocidas.
Por otro lado, desde el punto de vista de la estadstica, luego de conocer el valor del
estadstico en una muestra, interesa medir el desvo que presentan respecto de su
Pgina 1
6 de agosto de 2012 [BIOESTADISTICA]
La distribucin Chi Cuadrado ser un instrumento que nos permitir evaluar este tipo
de comparaciones y determinar la aceptacin o rechazo de las hiptesis de igualdad,
como lo veremos en las siguientes secciones
OBJETIVOS:
Generales
Que el estudiante aprenda a reconocer problemas de respuesta discreta y a
formular modelos estadsticos adecuados para su resolucin.
Aprender el manejo de paquetes de programas estadsticos, como R o SAS, para
el Anlisis de Datos Categricos.
Interpretar los resultados del ajuste de modelos para datos categricos en
problemas aplicados.
Aprender a seguir los diferentes pasos del proceso que va desde la formulacin
del problema real por otros profesionales, hasta la solucin estadstica y su
comunicacin
MARCO TEORICO
DATOS CATEGRICOS.
Los datos categricos son datos que provienen de resultados de experimentos en que
sus resultados se miden en escalas categricas. Medir en una escala categrica
Pgina 2
6 de agosto de 2012 [BIOESTADISTICA]
El tipo de anlisis que se suele hacer con datos categricos consiste en determinar el
tipo de asociacin existente entre pares de variables, lo que se denomina cruzar las
variables. Las posibilidades son, que no haya asociacin alguna, en tal caso se dice que
las variables son independientes, o que haya diferentes grados de asociacin.
En el caso de independencia entre dos variables, el valor que tome una de ellas no
predispone el valor de la otra. En el Ejemplo 1, podra ser que el grado de restriccin
esperado sea independiente de la otra variable, nivel educacional. Es decir, cualquiera
sea su nivel educacional, la probabilidad de que opine que la venta de armas debiera ser
mucho ms restringida, es la misma. Lo mismo ocurrir con las otras categoras.
Si dos variables no son independientes, estn asociadas, y el grado de asociacin no es
nico. Puede haber diversos grados de asociacin. Si hay asociacin, quiere decir que
algunos valores de una de las variables predispones a que la otra variable tome ciertos
valores de la otra variable, ms que otros. Esta predisposicin es mayor cuanto mayor
es el grado de asociacin.
EJEMPLO 2.
Se hizo un estudio de nios de 10 a 12 aos, consistente en experimentar la efectividad
de dos mtodos de higiene bucal en la prevencin de caries, el mtodo A y el mtodo
Pgina 3
6 de agosto de 2012 [BIOESTADISTICA]
Cuando consideramos que los valores de nuestra tabla han sido extrados de una
poblacin, entonces nos interesara probar las siguientes dos hiptesis:
La prueba de Independencia, que se efecta para probar si hay asociacin entre las
variables categricas A y B, y
La prueba de Homogeneidad, que es una generalizacin de la prueba de igualdad de dos
proporciones. En este caso se trata de probar si para cada nivel de la variable B, la
proporcin con respecto a cada nivel de la variable A es la misma.
Las hiptesis de independencia son:
Ho: No hay asociacin entre las variables A y B (hay independencia)
Ha: S hay relacin entre las variables A y B
Las hiptesis de Homogeneidad son:
Ho: Las proporciones de cada valor de la variable A son iguales en cada columna.
Ha: Al menos una de las proporciones para cada valor de la variable a no son iguales en
cada columna
Pgina 4
6 de agosto de 2012 [BIOESTADISTICA]
Prueba de homogeneidad
Ocurre cuando una de las 2 variables es controlada por el investigador, de modo que los
totales por fila o por columna estan predeterminados
El analisis es idntico al de las tablas de contingencia para independencia
La hipotesis nula que se plantea en este caso consiste en sostener que la distribucin
de proporciones entre las categorias de la variable no controlada (por fila o por
columna) es la misma para cada categoria de la variable controlada
Otra manera de abordar el mismo problema es preguntarse si las muestras provienen
de la misma poblacin
Hiptesis. H0: las i-muestras son extradas de la misma poblacin. H1: son extradas de
diferentes poblaciones.
H0: 1j= 2j= 3j= ...= ij
H1: H0 no es verdadera
Nivel de significacin. = 0.05.
Estadstica de la prueba. que se distribuye aproximadamente como. Aqu = (i - 1)(j -
1)
Regla de decisin. Rechazamos H0 si, y solo si, el valor de calculado es mayor que
,(i-1)*(j-1). En caso contrario, se acepta H0.
Objetivo: establecer si las preferencias acerca del envase de dulce de leche son
similares para hombres y mujeres
39 59 45 57 200
Total
Pgina 5
6 de agosto de 2012 [BIOESTADISTICA]
h0: las preferencias (%) acerca del envase de dulce de leche no difieren entre hombres
y mujeres
ha: las preferencias (%) acerca del envase de dulce de leche difieren entre hombres y
mujeres
Valor p: 0,0402
Conclusin: se rechaza h0: las preferencias acerca del envase de dulce de leche
difieren entre hombres y mujeres
Prueba de independencia
Este tipo de prueba se aplica cuando existe inters en determinar si dos atributos
categricos presentan algn tipo de asociacin entre ellos o, por el contrario, son
independientes.
Este tipo de informacin se suele presentar en tablas de doble entrada.
El estadstico que se utiliza en estas pruebas es el mismo que el empleado en las
pruebas de bondad del ajuste y homogeneidad.
Se estudia la relacin entre dos factores diferentes de la misma poblacin
A diferencia de las pruebas de homogeneidad donde en general los totales de filas
estn fijos por anticipado, en las pruebas de independencia solo el tamao muestral es
fijo. Por lo tanto los totales de filas como de columnas son variables aleatorias
Hipotesis nula H0: ij = i.* .j las variables son independientes
Hipotesis
Ha: ij i.* .j las variables no son independientes
alternativa
= (O - E)/E
Estadistico de
donde O y E representan las Frecuencias observadas y esperadas
prueba
para cada celda
Pgina 6
6 de agosto de 2012 [BIOESTADISTICA]
BuenoDeficiente
Tcnicas 20 60
Bachiller 15 150
Otras 25 230
Valor p: 0,00047845
TABLAS DE CONTINGENCIA
Pgina 7
6 de agosto de 2012 [BIOESTADISTICA]
superior, cada una con todos sus respectivos valores. El cuadro contiene, en cada
casilla, el conteo del nmero de casos en cada una de las combinaciones de valores de
ambas variables.
Adems, se muestran los totales verticales (por columnas) en la parte inferior, y los
totales horizontales (por filas), en el lado derecho. Estas, por aparecer en los
mrgenes, se denominan frecuencias marginales.
En el extremo inferior derecho, se muestra el total de casos, N, que corresponde a la
suma de las frecuencias marginales fila, o a la suma de las frecuencias columna, que son
iguales.
EJEMPLO 3.
Supngase que en el Ejemplo 2, participaron en el estudio un total de 200 nios.
Con los resultados obtenidos, se construy la siguiente tabla de contingencia:
Como primer pas en el clculo de una medida del grado de asociacin entre las dos
variables, se debe construir una tabla de frecuencias esperadas, que es una tabla que
muestra las frecuencias que habra si fuera cierto que ambas variables son
independientes. En tal caso, las proporciones en las casillas de todas las filas (o
columnas) son proporcionales. En contraste con la tabla de contingencia, que tambin
Pgina 8
6 de agosto de 2012 [BIOESTADISTICA]
Pgina 9
6 de agosto de 2012 [BIOESTADISTICA]
Hay una sola poblacin de inters, y cada individuo es clasificado respecto a dos
factores diferentes (i-categoras de un factor j-categoras de otro). Se toma una sola
muestra y se anota el nmero de individuos en cada categora de ambos factores.
Para hacer la prueba, se debe comparar el estadstico con el valor obtenido de la Tabla
Ji cuadrado correspondiente. Para obtener el valor de tabla, se calcula el parmetro
grados de libertad, que es el producto (nmero de filas 1)*(nmero de columnas1)
Pgina 10
6 de agosto de 2012 [BIOESTADISTICA]
Una precaucin que se debe tomar con las pruebas ji-cuadrado es que frecuencia
esperada en cada casilla sea de a lo menos 5. En caso contrario, el estadstico ji-
cuadrado se estar distorsionado, y el nivel de significacin no ser el correcto.
Este coeficiente toma valores entre 0 y 1, sin embargo nunca alcanza el valor 1. Su
mximo depende del nmero de filas y columnas. Por ejemplo, en tablas de 4 filas por 4
columnas, su valor mximo es de 0.87.
Por ltimo, est el coeficiente V de Cramer, en que k es el mnimo entre el nmero de
filas y el nmero de columnas. Este coeficiente est acotado entre 0 y 1, y puede
alcanzar ambas cotas, por lo tanto es el mejor de las medidas de asociacin, por ser
ms fcil de interpretar.
Si hay dos filas o dos columnas, los coeficientes y V de Cramer son iguales.
EJEMPLO 7. Calcularemos los tres ndices para los datos del estudio de prevencin de
caries en nios, a partir del estadstico ji-cuadrado calculado en el Ejemplo 6:
Coeficiente
Pgina 11
6 de agosto de 2012 [BIOESTADISTICA]
Coeficiente de contingencia
Coeficiente V de Cramer
En este caso hay dos filas, por eso coinciden los coeficientes y V de Cramer.
Recordar que esta ltima toma valores entre 0 y 1, por lo tanto el valor 0.612 se ve
suficientemente grande como para concluir que hay asociacin entre las variables
tratamiento y desarrollo de caries. Recordar que la prueba de hiptesis dio como
resultado que no hay independencia entre las variables.
Distribucin -cuadrado
La aplicaremos bsicamente:
Propiedades -cuadrado
Pgina 12
6 de agosto de 2012 [BIOESTADISTICA]
Se desea contrastar una distribucin de frecuencias observada en una muestra con una
distribucin de frecuencias terica
Verificar si responde a un determinado modelo o situacin preconcebida.
Es una generalizacin del experimento binomial.
Para aplicar la prueba se necesita una tabla donde se encuentren registradas las
frecuencias observadas y las frecuencias tericas o esperadas segn el modelo. El
estadstico que se utiliza en estas pruebas es el siguiente:
Caractersticas de la multinomial
Pgina 13
6 de agosto de 2012 [BIOESTADISTICA]
Estadistico de
prueba
donde o y e representan las Frecuencias observadas y esperadas
para cada celda
Mendel tena arvejas con dos tipos de tegumento, rugoso y liso y, segn su hiptesis, en
cruzamientos realizados entre ciertos tipos de plantas, el esperaba que aparecieran en
la descendencia de dichos cruzamientos, arvejas de tegumento liso y rugoso en la
proporcin 3:1, es decir, 3 semillas de tegumento liso por cada semilla de tegumento
rugoso.
Pgina 14
6 de agosto de 2012 [BIOESTADISTICA]
285400.(3/4) = 300 15
Liso 0,75
Rugoso 115 400.(1/4) = 100 15 2,25
Estas hiptesis tambin se pueden probar utilizando una prueba z de dos colas con
estadsticos de prueba
Ocurre cuando una de las 2 variables es controlada por el investigador, de modo que los
totales por fila o por columna estan predeterminados
El analisis es idntico al de las tablas de contingencia para independencia
Pgina 15
6 de agosto de 2012 [BIOESTADISTICA]
La hipotesis nula que se plantea en este caso consiste en sostener que la distribucin
de proporciones entre las categorias de la variable no controlada (por fila o por
columna) es la misma para cada categoria de la variable controlada
Otra manera de abordar el mismo problema es preguntarse si las muestras provienen
de la misma poblacin
Hiptesis. H0: las i-muestras son extradas de la misma poblacin. H1: son extradas de
diferentes poblaciones.
H0: 1j= 2j= 3j= ...= ij
H1: H0 no es verdadera
Nivel de significacin. = 0.05.
Estadstica de la prueba. que se distribuye aproximadamente como. Aqu = (i - 1)(j -
1)
Regla de decisin. Rechazamos H0 si, y solo si, el valor de calculado es mayor que
,(i-1)*(j-1). En caso contrario, se acepta H0.
Objetivo: establecer si las preferencias acerca del envase de dulce de leche son
similares para hombres y mujeres
39 59 45 57 200
Total
h0: las preferencias (%) acerca del envase de dulce de leche no difieren entre hombres
y mujeres
ha: las preferencias (%) acerca del envase de dulce de leche difieren entre hombres y
mujeres
Pgina 16
6 de agosto de 2012 [BIOESTADISTICA]
Valor p: 0,0402
Conclusin: se rechaza h0: las preferencias acerca del envase de dulce de leche
difieren entre hombres y mujeres
Este tipo de prueba se aplica cuando existe inters en determinar si dos atributos
categricos presentan algn tipo de asociacin entre ellos o, por el contrario, son
independientes.
Este tipo de informacin se suele presentar en tablas de doble entrada.
El estadstico que se utiliza en estas pruebas es el mismo que el empleado en las
pruebas de bondad del ajuste y homogeneidad.
Se estudia la relacin entre dos factores diferentes de la misma poblacin
A diferencia de las pruebas de homogeneidad donde en general los totales de filas
estn fijos por anticipado, en las pruebas de independencia solo el tamao muestral es
fijo. Por lo tanto los totales de filas como de columnas son variables aleatorias
Hipotesis nula H0: ij = i.* .j las variables son independientes
Hipotesis
Ha: ij i.* .j las variables no son independientes
alternativa
= (O - E)/E
Estadistico de
donde O y E representan las Frecuencias observadas y esperadas
prueba
para cada celda
BuenoDeficiente
Tcnicas 20 60
Pgina 17
6 de agosto de 2012 [BIOESTADISTICA]
Bachiller 15 150
Otras 25 230
Valor p: 0,00047845
Resultados:
Pgina 18