López Roldán y Fachelli - Tablas de Contingencia
López Roldán y Fachelli - Tablas de Contingencia
López Roldán y Fachelli - Tablas de Contingencia
INVESTIGACIÓN
SOCIAL
CUANTITATIVA
Pedro López-Roldán
Sandra Fachelli
METODOLOGÍA DE LA
INVESTIGACIÓN
SOCIAL
CUANTITATIVA
Pedro López-Roldán
Sandra Fachelli
Pedro López-Roldán
Centre d'Estudis Sociològics sobre la Vida Quotidiana i el Treball (http://quit.uab.cat)
Institut d’Estudis del Treball (http://iet.uab.cat/)
Departament de Sociologia. Universitat Autònoma de Barcelona
[email protected]
Sandra Fachelli
Departament de Sociologia i Anàlisi de les Organitzacions
Universitat de Barcelona
Grup de Recerca en Eduació i Treball (http://grupsderecerca.uab.cat/gret)
Departament de Sociologia. Universitat Autònoma de Barcelona
[email protected]
PRESENTACIÓN
PARTE I. METODOLOGÍA
I.1. FUNDAMENTOS METODOLÓGICOS
I.2. EL PROCESO DE INVESTIGACIÓN
I.3. PERSPECTIVAS METODOLÓGICAS Y DISEÑOS MIXTOS
I.4. CLASIFICACIÓN DE LAS TÉCNICAS DE INVESTIGACIÓN
Pedro López-Roldán
Sandra Fachelli
Capítulo III.6
Análisis de tablas de contingencia
Índice de contenidos
PARTE III
Capítulo 6
Análisis de tablas de
contingencia
E
l análisis de tablas de contingencia (ATC) es una técnica destinada al estudio
de la relación entre dos o más variables cualitativas o categóricas, es decir,
medidas a nivel nominal y ordinal. En el capítulo anterior vimos que existen
diversas técnicas estadísticas que tratan también el análisis de la relación entre
variables cualitativas como el análisis log-lineal o el análisis de correspondencias. El
análisis de las tablas de contingencia se puede considerar como una técnica de base
destinada a la lectura y estudio de las relaciones entre unas pocas variables, entre dos y
tres habitualmente, que se utiliza en un ejercicio de análisis descriptivo de sus relaciones
así como tratamiento previo para cualquier análisis más complejo de relaciones
multidimensionales.
El ATC es una de las técnicas de análisis estadístico más habitual en los trabajos
sociológicos y, en general, de tratamiento de los datos de encuesta, donde es habitual
que la mayoría de las variables sean cualitativas. Son muchos los ejemplos que se
podrían presentar, destacaremos las encuestas del Centro de Investigaciones
Sociológicas1 y la Enquesta de Condiciones de Vida i Hàbits de la Població de
Catalunya del Institut d’Estudis Regionals i Metropolitans de Barcelona2. Por supuesto
los institutos de estadística de los diferentes territorios y otras instituciones y
organismos nacionales e internacionales de producción de información estadística son
referencias igualmente de la publicación y difusión de este tipo de información3.
Analizar la relación entre dos o más variables a partir de una taula de contingencia nos
conducirá a adquirir la habilidad de lectura de este tipo de información y a interpretar
los datos que aparecen en la tabla a partir de los cálculos de porcentajes que se pueden
obtener en cada casilla de una tabla. Así podremos determinar la existencia y la
naturaleza de la relación de asociación entre las variables consideradas. En segundo
1 En la página web del CIS (http://www.cis.es) se puede acceder a numerosa información y a las bases de datos.
Se puede consultar http://pagines.uab.cat/plopez/content/bases-de-datos-para-la-investigaci%C3%B3n-y-la-
docencia#cis.
2 Desde el año 1985 numerosos análisis y publicaciones han visto la luza en las 6 ediciones de la encuesta. Se pueden
consultar las últimas publicaciones de datos que se presentan sistemáticamente con formato de tablas de
contingencia en la página http://www.iermb.uab.es/htm/descargaBinaria.asp?idPub=197 y también en
http://www.iermb.uab.es/htm/descargaBinaria.asp?idPub=225.
3 En http://pagines.uab.cat/plopez/content/bases-de-datos-para-la-investigaci%C3%B3n-y-la-docencia se
pueden consultar numerosos enlaces a fuentes de información.
lugar, esta lectura e interpretación inicial de la posible asociación entre las variables
requerirá una fundamentación estadística que se establecerá mediante la prueba de chi-
cuadrado cuyo resultado determinará la significación estadística de la relación. En
tercer lugar, el análisis se completa con el cálculo de otros estadísticos destinados a
establecer la fuerza de la asociación, ya sea a nivel global, entre variables, o nivel local,
en casillas concretas para combinaciones de categorías o valores concretos de estas
variables.
Este tipo de análisis lo aplicaremos primero al estudio de las relaciones entre dos
variables y lo extenderemos al caso de la introducción de una tercera variable que
cumplirá en particular el papel de variable de control de una relación bivariable. De
esta forma completaremos lo que podemos denominar como el análisis clásico de las
tablas de contingencia. Completaremos esta exposición con dos aspectos de interés
que complementan este tipo de análisis: el análisis de diferencias de proporciones y el
análisis de razones. El primero dará pie a establecer la significación de las diferencias
observadas entre porcentajes, en particular en una tabla de contingencia, y el segundo
nos introducirá en un cálculo alternativo de la información de la tabla que nos conduce
a fundamentar el razonamiento de base de los denominados modelos log-lineales que
veremos en el capítulo siguiente.
Todas estas técnicas permiten además plasmar modelos de análisis destinados tanto al
análisis de relaciones de dependencia como de interdependencia. El análisis clásico de
tablas de contingencia, si bien nos permitirá razonar en términos de variable
dependiente e independiente, se trata de un análisis estadístico esencialmente de
carácter simétrico. A este mismo tipo de modelos de interdependencia pertenecen el
análisis log-lineal general y el análisis de correspondencias. Cuando nos planteamos un
modelo de dependencia que explicita los factores explicativos de otra variable
resultado, entonces consideraremos el denominado análisis log-lineal logit o bien el
análisis de regresión logística.
Al final del capítulo se incluyen los apartados destinados a precisar cómo obtener tablas
de contingencia y representaciones gráficas de las mismas mediante los softwares SPSS
y R.
Una tabla de contingencia con dos variables (de dos dimensiones) es una tabla de doble
entrada que relaciona dos variables cualitativas (medidas a nivel nominal u ordinal o
que son tratadas en esa escala de medición) dando lugar a la distribución conjunta de
frecuencias dispuestas en filas y en columnas según las categorías o valores de cada una
de las variables, con tantas celdas como combinaciones de categorías o valores de
ambas variables haya.
4 Los datos se han extraído de la Enquesta Metropolitana sobre Condicions de Vida i Hàbits de la Població de la Regió
Metropolitna de Barcelona 1990, elaborada por el Institut d’Estudis Metropolitans de Barcelona. El formato de
presentación sería apropiado para un informe o artículo de investigación.
El cruce de ambas variables genera una tabla cruzada de dimensión 2×3, es decir, con
un total de 6 casillas en cada una de las cuales aparece la frecuencia absoluta, entre
paréntesis, debajo de la frecuencia relativa, el porcentaje. La tabla se completa con el
total por filas y por columnas. De la observación de esa información se constata, en
primer lugar, que las personas que poseían coche en área metropolitana de Barcelona
en el año 1990 representaba el 70% de la población5, y en segundo lugar, que esa
distribución global no se corresponde con una situación igualitaria entre las diferentes
clases sociales, se concluye que las clases altas poseen en mayor proporción coche que
las clases medias y sobre todo que las bajas, es decir, que a medida que aumenta la clase
social aumenta la posesión de coche.
5 Los datos de la encuesta en 2011 para la región metropolitana arroja prácticamente el mismo dato, que el 68,3%
tiene automóvil.
El ejemplo que hemos presentado corresponde a una tabla de 2 filas, indexadas por i,
con i 1...2 , y de 3 columnas, indexadas por j, con j 1...3 , que cruza dos variables
cualitativas Posesión de coche (Coche) y Clase social (Clase), siendo la tabla de frecuencias
absolutas N 2,3 :
6 Para facilitar la identificación de la información de la tabla se emplea el color verde para las frecuencias absolutas
de cada casilla, el azul para referirse a las filas, el granate para las columnas y el negro para el total.
2 p 21 p 22 p2 j p2 J
p2+
F
pi 1 pi 1
C F
pi 2 pi 2
C
… F
p ij p ij
C
… F C
i pi 1 pi 2 p ij
p iJ p iJ
p iJ
pi+
F C F C
… F
p Ij p Ij
C
… F C
I pI 1 pI 1
pI 1
pI 2 pI 2
pI 2 p Ij
p IJ p IJ
p IJ
pI+
Las frecuencias relativas, expresadas bien como proporciones (el tanto por uno) o bien
como porcentajes (el tanto por ciento), son:
• Porcentaje total ( pij ): número casos de cada casilla dividido por el total de
casos n (y multiplicado por 100 en el caso del porcentaje).
• Porcentaje por fila ( pijF ): número casos de cada casilla sobre el total de casos
de la fila. El conjunto de estos valores se denomina distribución condicional
de filas.
• Porcentaje por columna ( pijC ): número casos de cada casilla sobre el total de
casos de la columna. El conjunto de estos valores se denomina distribución
condicional de columnas.
Los diferentes cálculos que se pueden realizar para obtener las sumas de frecuencias
absolutas y los porcentajes de una taula de contingencia se expresan a través de las
fórmulas siguientes:
n
j 1
ij ni para cualquier fila i n
j 1
ij n j para cualquier columna j
I J
nij nij
pijF proporción por fila pijC proporción por columna
ni n j
n n j
pi i proporción marginal de p j proporción marginal de
n n
fila columna
nij
pij proporción total
n
Por tanto, al plantearnos el análisis de la relación entre dos variables cualitativas en una
tabla de contingencia lo primero que debemos establecer es, sustantivamente, la
direccionalidad, qué variable es la dependiente, qué quiero explicar. Eso significa
formular una hipótesis para ser contrastada en un análisis de tablas de contingencia.
Según la hipótesis, y la direccionalidad afirmada, la lectura de la tabla y la comparación
de los porcentajes que comporta serán diferentes: o bien compararemos porcentajes o
distribuciones condicionales por fila o bien por columna.
Al considerar los porcentajes para leer la relación entre las variables existe una regla
general para determinar la elección de qué porcentaje utilizar: si se considera a una de
las variables como factor explicativo (variable independiente) de la distribución de la
otra variable (variable dependiente) entonces los porcentajes se calcularán en el sentido
de la variable o factor causal. Así, la suma de los porcentajes en cada categoría de la
variable independiente referidos al total marginal de esta categoría, tiene que dar el
100%.
7 De lo que se deriva que elegiríamos los porcentajes por fila si la variable independiente se coloca en las filas.
Estas diferencias las podemos calcular y así se obtienen los valores de la tabla adjunta.
La distribución porcentual marginal de la variable dependiente, Coche, da que el 69,8%
de las personas tiene coche y que un 30,2% no tiene. Como hemos dicho, la ausencia
de asociación implicaría que estos porcentajes globales se reproducirían entre las
categorías altas, medias y bajas, es decir, independientemente de la categoría social a la
que se pertenece siempre se poseería coche en la misma proporción.
Pero como podemos ver nada más lejos de la realidad. Las distribuciones condicionales
se alejan del comportamiento general: resulta que las categorías altas tienen un 21,2%
más coche que el conjunto de la población, de forma similar se comportan las
categorías medias, pero con una diferencia menor, un 8,9% por encima; finalmente
son las categorías bajas las que poseen menos coche que el total, un 11,8% por debajo8.
Es decir, a medida que aumenta la clase social disminuye la proporción de personas
que tienen coche. Similares conclusiones se afirman considerando la no posesión de
coche, de hecho es una información complementaria que arroja el mismo resultado y,
por ello, redundante. Por lo tanto, hemos podido poner de manifiesto la existencia de
una asociación, de diferencias entre las categorías socioeconómicas, la dirección y cuya
naturaleza acabamos de describir.
8 Obsérvese que las diferencias positivas se compensan con las negativas para dar el valor 0, como sucede siempre
que tenemos un cuestión de distribución de un conjunto, en este caso, el reparto de los poseedores de coches se
realiza de forma desigual, las clases que más tienen lo poseen “a costa” de los que menos tienen, en un juego de
suma cero.
9 La variable independiente se coloca en el eje de categorías y la dependiente en la leyenda.
3. La prueba de chi-cuadrado ( 2 )
Si este cálculo los realizamos en cada una de las casillas de la tabla obtenemos la
distribución de frecuencias esperadas:
Por tanto, hemos observado que 650 personas de clase alta tienen coche y que
“deberían” ser 498,5 para que hubiera igualdad social en la posesión de coche. La
diferencia entre estos valores, entre la frecuencia observada y la frecuencia esperada,
151,5 en este caso, se denomina residuo. Más adelante profundizaremos sobre este
concepto, fundamental en el razonamiento estadístico. En la Tabla III.6.7 se recogen
las tablas con los tres tipos de datos que acabamos de comentar.
En palabras, la Ecuación 3 es la suma de todas las casillas donde se calcula en cada una
de ellas la diferencia entre la frecuencia observada y esperada (el residuo) que se eleva
al cuadrado y se divide por el número de casos esperados en cada casilla. Al elevar al
cuadrado los residuos se consigue que no se compensen los positivos con los negativos
y sumen cero, y al dividir por las frecuencias esperadas se consigue relativizar las las
casillas con mayores y menores contribuciones. El resultado es un valor numérico que
llamaremos chi-cuadrado observado ( o2 ) que expresa la distancia media entre los
valores y que será objeto de valoración como veremos seguidamente.
o2 (650-498,5)
2 2 2 2 2 2
(1234-1094) (1430-1721,6) (64-215,5) (333-473) (1036-744,4)
+ + + + +
498,5 1094 1721,6 215,5 473 744,4
Este valor se puede obtener consultando una tabla teórica de los valores de chi-
cuadrado como la que se adjunta en el anexo del capítulo. Para localizar nuestro valor
crítico además de fijar una significación se deben considerar los grados de libertad, que
es un indicador de la dimensión de la tabla y de las sumas que por tanto se realizan al
calcular el 2, circunstancia que afecta a la distribución teórica.
I J nij2 nij2
I J
2
e n
i 1 j 1 n
2
n 1
ij i 1 j 1 ni n j
Dadas 714 personas de clase alta “puedo decidir” que, por ejemplo, 650 vayan a la
primera casilla: primer grado de libertad. Entonces en la casilla (2,1) no puede haber
más que 64 personas pues el total son 714. Lo mismo puedo hacer con las clases
medias, decido poner 1234 en la casilla (1,2): segundo grado de libertad, pero con ello
determino inmediatamente los efectivos de la casilla (2,2), los 333 que completan el
total de 1567. Finalmente las casillas de la clase baja están determinadas por las
decisiones anteriores, no tengo más libertad de decisión y serán respectivamente 1430
y 1036. En total pues 2 grados de libertad.
12 La tabla de distribución teórica de o “distribución muestral teórica” es una distribución de probabilidades
2
que indica la probabilidad de obtener un valor del estadístico en el supuesto de que la hipótesis nula fuera cierta
con =(I-1)×(J-1) grados de libertad.
T2 5,991
//
o2 375,58
Valor de chi-cuadrado
Insistiremos en este último punto. Por un lado destacaremos cuáles son los valores
inferiores y superiores del 2. El valor del estadístico es siempre mayor o igual que
cero, siendo el valor cero el que indica que hay independencia perfecta entre les
variables pues las frecuencias observadas y esperadas coinciden exactamente. Pero el
límite superior del 2 varía en cada caso, pues depende del tamaño de la muestra n y
del número de casillas de la tabla (de hecho, del número menor entre el número de
filas y el número de columnas menos 1), y se expresa en el producto n·(k-1), con
k=mín{I,J}.
Por otro lado de esta propiedad se deriva que con muestras con un elevado número
de casos es fácil establecer la significatividad de la relación entre variables, por débil
que ésta sea, de ahí que es importante conocer la fuerza de la relación. Este efecto de
tamaño se pone de manifiesto en el siguiente comportamiento: si el número de casillas
y los porcentajes de una tabla no varían, cuando se duplica la muestra, el valor del
estadístico 2 se duplica, o se triplica, etc., es siempre k veces, como muestra la fórmula
adjunta:
(k nij k nije )2
k 2
I J
2'
e
Ecuación 4
i 1 j 1 k nij
13 Técnicamente se dice que la distribución teórica de 2 de hecho es una familia de distribuciones para los
diferentes grados de libertad con un rango de valores que varía desde 0 hasta el infinito, asintóticamente hacia a la
derecha, dibujando una curva (polígono de frecuencias que se aproxima a la curva matemática) y un área que nos
indica la probabilidad de que la suma de cuadrados de n puntuaciones z escogidas aleatoriamente de la distribución
normal sea superior a un valor dado y unos grados de libertad dados. La distribución de con grados de libertad
2
El valor medio de una distribución de con grados de libertad es , y su error típico es 2 . Cuando es
2
► Ejercicio 1. 15
A partir de la tabla de contingencia que relaciona la posesión de ordenador y el nivel
de ingresos:
Ingresos
Ordenador Altos Bajos
Sí 27 9
No 9 15
Analizar la relación de asociación calculando los porcentajes y los residuos
absolutos. Calcular del valor del estadístico chi-cuadrado ¿es significativo?
► Ejercicio 2.
A partir de la tabla de contingencia que relaciona el uso del transporte público para
ir a trabajar y la clase social:
Clase social
Transporte Alta Media Baja
Sí 10 50 120
No 40 50 30
15 Como se comentará más adelante todos los ejercicios propuestos se pueden reproducir con la ayuda del software
estadístico.
► Ejercicio 3.
Construye tres tablas de contingencia en donde se relacione el abstencionismo
electoral y la edad:
Edad
Abstención Joven Mayor
Sí
No
inventando las frecuencias de las casillas para satisfacer cada una de las condiciones
siguientes: ausencia de relación, relación moderada y alta asociación. Calcula en cada
caso el estadístico de chi-cuadrado.
En general estas medidas tienen dos propiedades que las caracterizan como medidas
del grado de intensidad de la relación. Por un lado es la simplicidad de la información
que proporcionan al resumir la tabla de contingencia en un solo valor numérico, lo que
por un lado es útil en aras de la parsimonia, pero al mismo tiempo no permiten ver el
detalle de la relación entre las categorías de las variables. Por otra parte este valor
resumen debería tener un significado claro, y no siempre es así, además de que cada
una lo hace “a su manera” por lo general son medidas “pesimistas” del grado de
asociación ya que rara vez llegan a los valores más altos, si bien ello depende también
de la misma naturaleza social de lo medido.
V
2 Ecuación 5
n ( k 1)
Donde k=mín{I,J}, es decir, el valor más pequeño entre el número de filas y el número
de columnas. La V de Cramer alcanza un valor máximo de 1 en caso de máxima
asociación o asociación perfecta y un valor mínimo de 0 en una situación de
independencia perfecta. La experiencia muestra que con la V es poco frecuente
encontrar valores de alta intensidad próximos a 1, de hecho pocas veces se alcanza un
valor de 0,6. En términos empíricos por tanto y tomando el valor de V en sí mismo
podemos considerar al 0,6 prácticamente como un valor máximo habitual, por lo que
un valor de 0,3, antes que considerarlo como bajo por su proximidad a 0 conviene
interpretarlo más bien como un valor empírico intermedio.
una situación donde las clases altas tendrían todas 2 o más coches, las clases medias 1
y las clases bajas no tendrían. Es decir, un determinismo absoluto de la variable
dependiente por la independiente, por lo que la posesión de coche sería un clasificador
social total: si no tengo coche seguro que seré de clase baja, si tengo uno de clase media
y más de un coche significa, “tautológicamente”, ser de clase alta. Una realidad poco
V
2
375,53
0,281
n ( k 1) 4747×(2-1)
2 Ecuación 6
n
2 (n n n n )
11 22 21 12
2
n n1+ n +1 n2+ n +2
Medidas simétricas
Error estándar Aprox. Aprox.
Valor asintóticoa Sb Sig.
Nominal por Phi 0,281 0,00
Nominal V de Cramer 0,281 0,00
Coeficiente de contingencia 0,271 0,00
Ordinal por Tau-b de Kendall 0,269 0,12 21,534 0,00
ordinal Tau-c de Kendall 0,270 0,13 21,534 0,00
Gamma 0,541 0,23 21,534 0,00
Correlación de Spearman 0,281 0,13 20,190 0,00c
Intervalo por R de persona 0,278 0,12 19,962 0,00c
intervalo
MEdida de Kappa 0,03 0,05 0,543 0,587
acuerdo
N de casos válidos 4747
a. No se supone la hipótesis nula.
b. Utilización del error estándar asintótico que asume la hipótesis nula.
c. Se basa en aproximación normal.
C
2 Ecuación 7
2 n
Los valores del estadístico se mueven entre el mínimo 0 y un valor máximo variable
que aumenta cuando lo hace el número de casillas de la tabla, sin alcanzar el valor 1.
Para tablas cuadradas con I=J, el valor máximo es ( I 1) / I (para: 2×2 es 0,707,
par 3×3 es 0,816, para 4×4 es 0,870, etc.).
C S k 2 Ecuación 8
2 n k 1
► Ejercicio 4.
Calcula la V de Cramer de las tablas de contingencia de los ejercicios 1, 2 y 3.
¿Cómo se determina la significatividad del estadístico?
¿Qué sucede con el 2 y la V de Cramer si los casos de cada casilla se multiplican
por 10? Comprobarlo en una de las tablas de contingencia.
Los valores obtenidos con estas dos transformaciones (véase la Tabla III.6.11) siguen
una distribución aproximadamente normal, por tanto, para un nivel de significación
del 0,05, todos aquellos valores superiores a ±1,96 son estadísticamente significativos,
constituye un test donde se contrasta si el valor obtenido difiere significativamente de
0 con un nivel de confianza del 95%.
Total 0 0 0 0
► Ejercicio 5.
Calcular los residuos tipificados y ajustados de las tablas de contingencia de los
ejercicios 1, 2 y 3 ¿Cómo se relacionan los residuos tipificados en el estadístico de
2? ¿Qué residuos son estadísticamente significativos?
Si realizamos los mismos cálculos de diferencias entre los que no tienen coche
obtendríamos el mismo resultado absoluto pero con signo negativo.
Una vez obtenidas las diferencias se trata de ver si éstas son significativas. La prueba
de significación supone calcular un intervalo de variación donde se encuentre la
diferencia calculada entre dos proporciones P1 y P2. Si este intervalo incluye el valor
cero se concluye que la diferencia entre dos proporciones no es significativamente
distinta de cero. La prueba supone contrastar las hipótesis nula y alternativa siguientes:
H0: d = P1 − P2 = 0
HA: d = P1 − P2 0
En una tabla de contingencia bidimensional este contraste implica fijar una fila i de la
variable dependiente y comparar dos columnas j y j’ donde hemos obtenido dos
porcentajes por columna de la variable independiente18. Para contrastar si ambas
proporciones difieren se trata de buscar el intervalo de confianza donde se encontrará
el valor poblacional ( PijC PijC' ) a partir de los datos muestrales estimados, dados un
nivel de significación y un error muestral de la diferencia:
ˆpijC ˆpijC' z sd Ecuación 12
17 Sánchez Carrión (1984b: 295, 1989) basándose en el trabajo de J. A. Davis, y anteriormente de Lazarsfeld y
Rosenberg, desarrolla el denominado Sistema de Diferencias de Proporciones donde la base son estos cálculos que
comentamos y en donde se aplican ecuaciones lineales y la teoría de grafos para modelizar relaciones múltiples de
dependencia entre variables cualitativas en tablas de contingencia. Véase también Latiesa (1991a).
18 Es una generalización a cualquier par de categorías de una tabla de contingencia del contraste de homogeneidad
de dos probabilidades binomiales independientes basados en la aproximación Normal a la distribución binomial
(Alvarez, 2001: 62).
proporciones es también normal del tipo N PijC PijC' , 2p j 2p j' . Las proporciones
C
y varianzas poblacionales son estimadas a través de p̂ , p̂ , s y s 2p j' siendo el error
ij
C
ij'
2
pj
típico de la diferencia:
pijC pij'C
z
p C 1 p C
i( jj')
i( jj')
p C 1 p C
i( jj')
i( jj')
Ecuación 15
n j n j'
Además existe la opción de ajustar el nivel de significación por la transformación de
Bonferroni cuando se realizan múltiples comparaciones, cuyo efecto es establecer un
nivel de significación más exigente para no cometer errores de aceptación de la
hipótesis alternativa (diferencias significativas) cuando es falsa:
sig J ( J 1) Ecuación 16
sig B mín ,1
2
► Ejercicio 6.
Realiza un análisis de diferencia de proporciones con los datos de las tablas de
contingencia de los ejercicios 1 y 2.
19 En los acontecimientos deportivos, sobre todo en el ámbito anglosajón, son habituales las apuestas sobre los
resultados de éstos y se expresan con afirmaciones como: Manchester United vs Manchester City Odds: Man United to win
has been priced at 6/5, the draw is valued at 12/5 while Man City to get the win stands at 11/4.
La doble relación que expresa la razón de razones constituye una medida de asociación.
A partir de cuatro casillas de una tabla:
j j’
i nij nij’
i' ni’j ni’j’
20 Otras denominaciones utilizadas de razón y razón de razones son ratios: chances y chances relativas, ventajas y
razón de ventajas (o ventajas relativas), momios y razones de momios.
la medida es:
nij ni' j
Ecuación 17
nij' ni' j'
* log log( nij ) log( ni' j ) log( nij' ) log( ni' j' )
Una vez obtenidas las medidas se trata de ver si éstas son significativas, calcular el
intervalo de posibles valores donde se encontrará el valor poblacional. Para ello es
necesario estimar la varianza que se obtiene con la fórmula:
1 1 1 1
ˆ 2 (log ˆ ) Ecuación 19
n11 n12 n21 n22
El intervalo de confianza es: log ˆ 1,96 ˆ 2 (log ˆ ) ,log ˆ 1,96 ˆ 2 (log ˆ ) con
un nivel de significación del 0,05. Es decir, el valor poblacional se encuentra en un
intervalo que si no incluye el valor cero se puede concluir que log ˆ es
significativamente distinto de cero.
► Ejercicio 7.
Realiza un análisis de razones con los datos de las tablas de contingencia de los
ejercicios 1 y 2.
A partir de esta relación expresada en una tabla de contingencia se puede analizar tanto
la movilidad absoluta como la movilidad relativa. Presentaremos a continuación un
ejemplo de movilidad absoluta.
Vemos que la muestra total es de 8.391 titulados, los totales marginales de fila reflejan
la clase de Origen representada por la máxima categoría ocupacional del padre o la
madre y en los totales marginales de columna se representan los valores absolutos de
la clase de Destino, expresada por la categoría ocupacional de los titulados
universitarios. Cabe destacar que el 97,2% de los titulados se acumula en tres de las
cinco categorías ocupacionales: dirección, técnico superior y cualificado.
Si bien existe asociación entre origen y destino, el hecho que la V de Cramer sea tan
baja, nos está hablando de que los graduados universitarios han logrado una movilidad
que se acerca a los niveles de independencia, es decir, que el origen no los está
condicionando para insertarse en el mercado laboral.
(Padres)
Al observar las distintas tareas realizadas por los titulados según origen social es
interesante advertir que la influencia del origen de los padres sobre la ocupación del
hijo no es muy importante, pues los titulados están relativamente representados en
forma similar provengan del origen que provengan. La excepción se constata en las
categorías extremas de los hijos directores, pues provienen de padres directores en un
31% mientras que lo que provienen de padres no cualificados son un 24%.
22 A este tipo de movilidad Carabaña (1999) lo denomina movilidad particular, es decir, cuando nos preguntamos
por los destinos de las personas que proceden de cada una de las categorías. La movilidad sería global cuando se
toma en cuenta a un país entero o a cualquier unidad geográfica tomando a todos sus individuos conjuntamente,
analizando el cambio de los porcentajes totales de origen y destino.
diferencia hay en la probabilidad de ocupar un lugar más que otro entre las personas
provenientes de diferentes orígenes de clases?23. Es decir, expresa la diferencia en la
oportunidad de ocupar un lugar en destino según el origen social de los padres.
El supuesto sobre el que se basan los modelos de movilidad relativa es que ésta se
independiza del problema que tiene la movilidad absoluta, este es, depender de dos
momentos históricos diferentes y de varias estructuras laborales muy diferentes. Al
dejar de lado los marginales de las tablas de movilidad absoluta y concentrarnos en
medidas de independencia de las casillas interiores, observamos la dinámica entre
origen y destino en forma pura, esto es, independiente de la influencia de la estructura
social de los momentos en que los padres y los hijos estudiaron o trabajaron
respectivamente. En otras palabras, refleja la apertura de una estructura de clases, es
decir, la facilidad con que la gente pasa de unas clases a otras (Carabaña, 1999: 33)24
23 Cabe destacar que estas probabilidades son ex post, dado que se trata de un análisis de un hecho, esto es
importante porque las ventajas o desventajas asociadas a haber nacido en una clase más que otra o de tener un nivel
educativo más que otro es un dato observado. Estos resultados reflejan la desigualdad de oportunidades pero
también son el producto de otras cosas y por eso debemos ser cuidadosos en su interpretación (Breen, 2004: 20).
24 Carabaña, J. (1999). Dos estudios sobre movilidad intergeneracional. Madrid: Fundación Argentaria, Visor.
25 Breen, R. (2004). Social Mobility in Europe. New York: Oxford University Press.
26 Lipset, S. M.; Zetterberg, H. L. (1959). Social mobility in industrial societies. En S. M. Lipset y R. Bendix, Social
mobility in industrial society. Berkeley: University of California Press.
27 Featherman, D. L.; Jones, F. L.; Hauser, R. M. (1975) Assumptions of Mobility Research in the US: The Case of
Occupational Status. Social Science Research, 4, 329-360.
28 Erikson, R.; Golthorpe, J. H. (1993). The constant flux. New York: Oxford University Press.
Como comentamos previamente la movilidad relativa se mide a partir de los odds ratio
o razón de razones, cálculo que nos permite eliminar el efecto de los marginales, es
decir, los cambios de estructura ocupacional en el tiempo entres padres y madres e
hijos e hijas. Habiendo cambiado esta estructura la pregunta es ¿en qué medida las
oportunidades de llegar a un destino han aumentado o disminuido, existe mayor o
menor fluidez social? Para ilustrar esta idea seguiremos un sencillo ejemplo ilustrativo
presentado por Vallet (2001: 18-19)29. Consideramos 2 clases ocupacionales de origen
y dos de destino (profesional y trabajador) y analizamos el cambio en el tiempo entre
t1 y t2:
Como se puede observar entre t1 y t2, teniendo el mismo número de casos total (1000),
se produce un aumento de los profesionales (y la consecuente disminución de los
trabajadores). Si calculamos la movilidad absoluta en t1: (125+75)/1000 obtenemos
que es del 20%, mientras que en t2: (200+50)/1000 obtenemos que es del 25%.
Podemos concluir que la movilidad absoluta aumenta y que la sociedad ha
experimentado una mejora de ascenso social. Ahora la pregunta es ¿en términos de
movilidad relativa han aumentado las oportunidades de llegar a la clase profesional
viniendo de clase trabajadora y de clase profesional? Realicemos los cálculos:
¿Podemos decir que entre los dos momentos ha aumentado las oportunidades de llegar
a profesional, ya sea viniendo de padres profesionales o de padres trabajadores? En
términos relativos, calculando la razón de razones, resulta que las oportunidades son
idénticas:
125/75 150/50 1,7 3
= 9 o bien =9=
125/75 200/60 0,2 0,3
29 Vallet, L. A. (2001). Forty Years of Social Mobility in France: Change in Social Fluidity in the Light of Recent
Models. Revue Française de Sociologie, 42, 5-64.
► Ejercicio 8.
Con datos del Panel de Desigualtats 2009 de la Fundació Jaume Bofill, Martínez
Celorrio y Marín Saldo (2010)30 analizan la movilidad social a partir de las clases o
categorías ocupacionales de Erikson, Golthorpe y Portocarero (1979)31 y tratadas
por estos autores de forma extensa en Erikson y Golthorpe (1993).
Con la siguiente tabla:
Relación entre la categoría ocupacional de los pares (Origen) e hijos (Destino)
Personas de 25 a 64 años
Clase de Destino (Hijos)
III-V
Cataluña, 2009 I-II IV VI-VII Total
Clase
Directivos y Pequeña Obreros
media
Profesionales Burguesía manuales
funcional
I-II Directivos y
149 37 107 41 334
Clase de origen (Padre)
Profesionales
IV Pequeña
93 78 96 99 366
Burguesía
III-V Clase media
126 57 191 112 486
funcional
VI-VII Obreros
153 148 318 381 1000
manuales
Total 521 320 712 633 2186
Nota: categorías ocupacionales de Erikson, Goldthorpe y Portocarero
Fuente: Martínez Celorrio y Marín Saldo, Panel de Desigualtats, 2009
- Analizar la movilidad social a partir de la lectura y la interpretación de los
porcentajes de la tabla.
- Calcular las frecuencias esperadas y comparalas con las observadas y calcular los
residuos.
- Obtener los residuos estandarizados y ajustados y analizarlos.
- Calcular los odds ratio e interpretarlos.
30 Martínez Celorrio, X.; Marín Saldo, A. (2010). Educació i mobilitat social a Catalunya. Barcelona: Fundació Jaume
Bofill.
31 Erikson, R.; Golthorpe, J. H.; Portocarero, L. (1979). Intergenerational Class Mobility in Three Western
European Societies: England, France and Sweden. The British Journal of Sociology, 30, 4: 415-441.
La forma de realizar este control ofrece distintas posibilidades que han caracterizado
diversas disciplinas. Hay al menos tres métodos posibles de controlar este tipo de
relaciones:
Z
k=1 k=2
N(I,J,K)
X X
j=1 j=2 Total j=1 j=2 Total
i=1 n111 n121 n1+1 n112 n122 n1+2
Y
i=2 n211 n221 n2+1 n212 n222 n2+2
Total n+11 n+21 n++1 n+12 n+22 n++2
En este caso tenemos dos subtablas, para k=1 y k=2, donde se analiza por separado
la relación entre Y y X. Los totales hacen referencia a la relación bidimensional de Y y
X en cada subgrupo.
X Z Z
N(I,J) N(I,K) N(J,K)
j=1 j=2 Total k=1 k=2 Total k=1 k=2 Total
i=1 n11+ n12+ n1++ i=1 n1+1 n1+2 n1++ j=1 n+11 n+12 n+1+
Y Y X
i=2 n21+ n22+ n2++ i=2 n2+1 n2+2 n2++ j=2 n+21 n+22 n+2+
Total n+1+ n+2+ n+++ Total n++1 n++2 n+++ Total n++1 n++2 n+++
32 Este comportamiento diferenciado se fue incrementando en el tiempo hasta nuestros días: en Barcelona el 50%
dispone de automóvil frente al 74% del resto del área metropolitana de Barcelona y el 82% más amplio de la región
metropolitana.
Y tiene una traducción en las medidas de intensidad de la relación que se observa entre
Coche y Clase. En relación a la V de Cramer global de 0,281 obtenida de la relación
bivariable, cuando se diferencian los dos territorios se concluye un aumento del grado
de relación en Barcelona ciudad (V de Cramer parcial de 0,296) y una atenuación en el
área metropolitana (V de Cramer parcial de 0,263) como se recoge en la Tabla III.6.20.
Consideremos ahora la relación entre la variable Ingresos, con dos categorías: altos y
bajos, y las variables Sexo y Ocupación, con dos categorías también: alta y baja. Para
explicar el nivel de ingresos nuestro modelo contempla una hipótesis inicial (Hipótesis
1) que establece que la distribución de los ingresos es diferente entre varones y mujeres,
siendo inferiores en el caso de estas últimas33:
H1
Ingresos Sexo
Ocupación
2 , V
Alta parciales Comparación:
= Independencia
≠ Interacción
Ocupación Espuria
2 , V
,V
2 Baja
parciales
Aquí las hipótesis a testar pueden ser varias pues nos podríamos encontrar en
diferentes situaciones:
- Que la relación original no cambiara, en este caso tanto entre las ocupaciones altas
como entre las ocupaciones bajas las diferencias de ingresos se mantendrían
constantes y el grado de asociación parcial sería similar al global. La hipótesis
establecería que en cualquier nivel ocupacional la desigualdad de ingresos entre
varones y mujeres se mantiene constante con igual intensidad. La conclusión sería
por tanto que la tercera variable no introduce nueva información, Ocupación es
independiente de la relación entre Ingresos y Sexo. No existe relación entre las tres
variables simultáneamente. Por otro lado, podrían darse (o no) diferencias entre
pares de ellas, constatando por ejemplo que las ocupaciones más altas tienen
mayores niveles de ingresos (Hipótesis 2) y que las categorías ocupacionales son
diferentes entre varones y mujeres (Hipótesis 3):
H1
Ingresos Sexo
H2 H3
Ocupación
33 Con el análisis de tablas de contingencia estamos aplicando una técnica que trata simétricamente a las variables
y nos permite hablar de interrelación, por ello se representa gráficamente el vínculo con una doble flecha y no
unidireccional que expresaría una relación entre variable dependiente e independiente.
- Que la relación cambiara para cada categoría ocupacional; estaríamos ante una
situación de interacción en donde la intensidad de la relación original sería más
fuerte en una tabla que en otra. Podríamos hipotetizar por ejemplo que las en
niveles ocupacionales superiores, en la medida en que las mujeres no suelen
desempeñar puestos de mando y no alcanzan los mayores niveles de ingresos, las
diferencias entre varones y mujeres se acentúan. En cambio en los niveles
ocupacionales inferiores las diferencias se atenúan pues no se dan tanto las
situaciones de discriminación. Pero podríamos formular la hipótesis en sentido
contrario, lo que nos daría igualmente una situación de interacción, afirmando que
en los niveles ocupacionales superiores las diferencias de ingresos persisten pero
no generan tantas diferencias entre varones y mujeres como en los niveles
inferiores: en las ocupaciones altas no hay tantas diferencias ocupacionales y, en
consecuencia, de ingresos, mientras que en las ocupaciones bajas se producen
mayores diferencias pues las mujeres desempeñan mayoritariamente las
ocupaciones menos cualificadas y menos remuneradas. Tanto en uno como en otro
caso estamos ante una relación de asociación entre las tres variables que
denominamos interacción y que implica un cambio de la relación bidimensional
inicial (Ingresos y Sexo) a cada nivel de la tercera variable (Ocupación). Tendríamos
así una hipótesis adicional (Hipótesis 4) que representamos de la forma siguiente:
H1
Ingresos Sexo
H4
H2 H3
Ocupación
Ingresos Sexo
H1
Ingresos Sexo H2 H3
Ocupación
La hipótesis que formularíamos sería que las diferencias de ingresos de varones y
mujeres de hecho existen pero no por un efecto directo sino a través de la
mediación de la ocupación estableciendo un “mecanismo causal” como el
siguiente: en la medida en que las mujeres ocupan profesiones menos cualificadas
y éstas son menos remuneradas finalmente ingresan menos que los varones, pero
a igual ocupación (variable de control) no existen diferencias de ingresos entre
varones y mujeres.
Tres situaciones distintas, tres posibles modelos de análisis a probar con la realidad
empírica. Veámoslo con los datos del Barómetro del CIS de la matriz de datos
CIS3041. Relacionaremos la variable Ingresos (la variable original P46 de ingresos
personales recodificada en dos valores: nivel de ingresos alto y bajo), la variable P31
del sexo y la variable Ocupación2 donde se han agrupado las diferentes ocupaciones
de la variable original OCUMAR11 en nivel ocupacional alto y bajo. Analizaremos
primero todas las relaciones bivariables entre les tres variables formulando las tres
primeras hipótesis bidimensionales y a continuación analizaremos la relación
multidimensional entre las tres para ver si se da una relación de interacción o no.
H1
Ingresos P31
H4
H2 H3
Ocupación2
(a) Ingresos según sexo (b) Ingresos según ocupación (c) Ocupación según sexo
La hipótesis 1 se confirma, el 49,8% de los varones tiene nivel de ingresos alto frente
al 22,3% de las mujeres, una brecha de 27,5 puntos porcentuales, con un grado de
asociación de 0,288 medido a través de la V de Cramer.
La hipótesis 2 se valida igualmente, entre quienes tienen una ocupación alta existe una
probabilidad del 55% de alcanzar niveles de ingresos altos, mientras que esa
probabilidad se reduce al 26% cuando el nivel ocupacional es bajo. En este caso la
intensidad de la asociación es de 0,284.
H1
Ingresos P31
H2
Ocupación2
Seguidamente analizaremos la relación simultánea entre las tres variables. Ante todo
cabe destacar que una relación bivariable con dos variables solamente no tiene que
arrojar los mismos resultados cuando su relación se examina en el conjunto de tres
variables. La introducción de una tercera variable puede alterar completamente la
relación inicial bidimensional. Nuestro interés inicial era preguntarnos hasta qué punto
los ingresos diferían entre hombres y mujeres como resultado de ocupar categorías
ocupacionales diferentes, entendiendo que a igual ocupación los ingresos de varones y
mujeres deberían ser los mismos. Podemos formular nuestra cuarta hipótesis en este
sentido y afirmar que la desigualdad de ingresos entre varones y mujeres se acentúa en
los niveles ocupacionales más bajos mientras se atenúa en los más altos, poniendo de
manifiesto la existencia de una interacción entre las variables.
Si analizamos los datos de la Tabla III.6.24 y Tabla III.6.25 parece que podemos validar
nuestra hipótesis pues las diferencias de ingresos entre varones y mujeres son de un
29,2% entre las ocupaciones bajas y de un 21,5% entre las altas. Estas diferencias son
estadísticamente significativas e implican distintos grados de intensidad que se cifran
en 0,332 y 0,216 respectivamente según se obtiene de la V de Cramer. Por lo tanto, las
diferencias de ingresos se mantienen al mirar el tipo de ocupación y se agravan entre
las ocupaciones menos cualificadas. La explicación de este comportamiento viene dado
en parte por la variabilidad interna de las ocupaciones y la segregación ocupacional
34 Invitamos al lector/a a que analice la relación entre las variables OCUMAR11 y Ocupación, ésta última creada
en el capítulo III.2 y disponible en matriz CIS3041+.sav, con el sexo. Con la variable original desagregada los niveles
ocupacionales más bajos diferencian a hombres y mujeres especialmente: ellas están más presentes en las
ocupaciones elementales y como trabajadoras de servicios frente a los varones que predominan en las categorías de
operadores y trabajadores cualificados. En los niveles ocupacionales altos sin embargo, las diferencias internas
apenas se observan. Un análisis más a fondo comparando las ocupaciones en el tiempo mostraría tanto el aumento
de los niveles altos y bajos de nuestra estructura ocupacional, hecho que alimentaría la hipótesis de la polarización,
y de la incorporación creciente de la mujer al mercado de trabajo siguiendo este patrón pero alcanzado
especialmente niveles ocupacionales altos.
entre varones y mujeres, y en parte por el inferior nivel de ingresos que reciben las
mujeres para trabajos que tienen un nivel ocupacional similar al de los varones35.
35 Un análisis más detallado de los niveles ocupacionales con la variable OCUMAR11 permite ver este aspecto.
H1
Ingresos P31
H4
H2 H3
Ocupación2
► Ejercicio 9.
El 14 de abril del año 1912 el barco del correo real Titanic se hundió en su viaje
inaugural. Disponemos de los datos sobre si sobrevivió el pasajero en relación a la
su clase del pasaje y su sexo que presentamos a continuación en la tabla de
contingencia que las relaciona:
Sexo del Sobrevive al Clase del pasaje
Total
pasajero hundimiento 1a 2a 3a
Sí 61 22 85 168
Varón
No 111 150 419 680
Sí 126 40 101 267
Mujer
No 6 13 107 126
Total 304 225 712 1241
Analizar si sobrevive el pasajero en función de la clase, por un lado, y de su sexo,
por el otro, y contestar a las cuestiones siguientes:
- De la lectura de los porcentajes ¿a qué conclusión se llega?, ¿cuál es el perfil del
"no superviviente"?
- ¿Qué fue más importante para sobrevivir, la clase social o el sexo? Calcula las
medidas de asociación de cada tabla bivariable para determinarlo.
- Calcula manualmente los valores del chi-cuadrado observado de cada tabla y la
V de Cramer.
- ¿Cuántos grados de libertad se consideran en cada tabla? ¿Cómo se determinan?
¿Por qué son diferentes?
- En cada caso calcula el valor máximo del chi-cuadrado. ¿Cuál es el valor
mínimo?
- En cada caso ¿cuál es el valor del chi-cuadrado observado y del chi-cuadrado
teórico? Considera un nivel de significación del 0,05.
Analizar la mortandad según el sexo para cada clase de pasaje ¿qué conclusión se
extrae? Obtener los estadísticos de chi-cuadrado y V de Cramer parciales para
realizar las comparaciones.
1. Modelo de independencia mutua: las tres variables son independientes entre sí.
X Z
X Z X Z X Z
X Z X Z X Z
X Z
5. Modelo de interacción (de asociación triple, de orden 3). Cualquier par de variables
que se considere están relacionadas y esta relación varía en intensidad o en su
naturaleza para cada valor o categoría de la tercera variable. Se trata del modelo
más complejo:
Y
X Z
X Y
1. Para evidenciar relaciones espurias que revelen la inexistencia de una relación inicial
entre una pareja de variables. En un análisis de relaciones de dependencia, un
primer trabajo de análisis consiste en determinar si la relación aparente e inicial
relación entre X e Y por una tercera variable Z que hace que la relación
desaparezca, sea puramente estadística, pues aquéllas dependen de ésta.
X Y
X Y
Z
X Z Y
4. Para plasmar, de forma similar al caso anterior, situaciones donde se produce una
supresión de la relación en un cierto grado.
5. Para modelizar causas múltiples donde dos de las variables son variables
independientes que simultáneamente actúan en el comportamiento de la tercera.
No se trata estrictamente de analizar la relación entre dos variables según una
tercera, sino de una sola variable dependiente en función de otras dos.
X a
Y
Z b
En próximos capítulos veremos cómo otras técnicas como el análisis log-lineal logit o
el análisis de regresión logística nos facilitaran el tratamiento simultáneo y más amplio
de relaciones de dependencia.
Agrupados
Grupo 2
Grupo 1
La información original que detonó la denuncia de los resultados fue la relación entre
la admisión y el sexo que se recoge en la Tabla III.6.26, donde observamos los
resultados comentados de admisión entre varones y mujeres.
Una de las informaciones adicionales disponibles sugirió analizar qué había sucedido
en los distintos departamentos de la universidad donde se realizaron las pruebas de
admisión. La variable del departamento diferencia seis valores, de A a F. Si miramos
en primer lugar el porcentaje de admisión según el departamento (Tabla III.6.27)
constatamos que algunos departamentos rechazaron a más candidatos, el C y el D y
sobre todo el E y F.
36 Todos estos resultados se pueden reproducir con el archivo ATC-Berkeley.sps de la página web. En
http://www.math.usu.edu/~schneit/CTIS/SP/index.html o en http://vudlab.com/simpsons/ se puede
reproducir un applet de éste y otros ejemplos que reproducen gráficamente la paradoja.
► Ejercicio 10.
Radelet (1981)37 analiza la relación entre la pena impuesta (pasillo de la muerte o
prisión) a un grupo de condenados que se clasifican según la raza de éstos (blanca o
negra) y la raza de las víctimas a partir de los datos siguientes:
Comparar la tabla bidimensional que relaciona la pena impuesta con la raza del
condenado y contrastarla con los resultados de introducir la raza de la víctima.
37 Radelet, M. L. (1981). Racial characteristics and imposition of the death penalty. American Sociological Review, 46,
6, 918-927. Radelet, M. L., Pierce, G. L. (1991). Choosing Those Who Will Die: Race and the Death
Penalty in Florida. Florida Law Review, 43, 1, 1-34.
38 Todos los ejercicios propuestos hasta ahora se pueden reproducir con el software estadístico como veremos en
este apartado, permitiendo verificar los resultados del análisis y ejercitar el uso del mismo software.
39 Tablas cruzadas es la traducción directa del inglés de crosstabs. que se utiliza desde la versión 22 en lengua española
para identificar este procedimiento que siempre se llamó Tablas de contingencia.
El cuadro de diálogo inicial que aparece a continuación nos muestra por un lado el
recuadro con el listado de variables de la matriz de datos y unos recuadros donde se
trasladarán las variables según se sitúen en filas o en columnas, o bien en capas si se
consideran tablas de más de dos variables o dimensiones. Situaremos la variable
dependiente en las filas (Ocupación), y la variable independiente en las columnas
(ESTUDIOS)40. Podemos marcar igualmente sobre Mostrar los Gráficos de barras
Agrupados para obtener una representación gráfica.
1ª variable(s) en fila
2ª variable(s) en columna
Gráficos de barras
No presenta las tablas
Coloca la 3ª variable en 3ª variable(s) y sucesivas
en los resultados
capa en las tablas pivote en capa
40 Qué variable se coloca en fila o en columna es pura convención, el análisis y el resultado es simétrico y se genera
la misma información.
Análisis de
Frecuencia diferencia de
absolutas proporciones
observadas y
esperadas
Análisis de
% por fila,
residuos
por columna
o sobre el
total Opciones de
redondeo de
las frecuencias
Si nos fijamos en los porcentajes de la tabla observamos cómo a medida que el nivel
de estudios es más alto va aumentando el porcentaje de personas con mayor nivel
ocupacional. Así por ejemplo, entre los que tienes estudios superiores casi el 60%
puede alcanzar la clase ocupacional alta, y a medida que baja el nivel de estudios se va
reduciendo hasta la situación donde, si no se tienen estudios, no es solo poco probable
sino imposible alcanzar dicha categoría profesional. Semejante lectura pero en sentido
inverso podemos extraer al considerar en nivel inferior de los trabajadores no
cualificados, donde observamos en particular que si no se tienen estudios es el nivel
ocupacional más probable que se puede alcanzar.
41 Adicionalmente, si no la cambia automáticamente, hay que cambiar la etiqueta Recuento por Porcentaje o bien
suprimirla como en este caso.
► Ejercicio 11.
Con la matriz de datos CIS3041+.sav analizar la relación entre parejas de variables
cualitativas. Por ejemplo se puede analizar el comportamiento electoral según
diversas variables independientes como la edad, el sexo, la ocupación, el lugar de
residencia, etc. En relación a cada tabla:
- Observa los totales marginales.
- Calcula los porcentajes marginales.
- Calcula los porcentajes condicionales (fila y columna).
- Comenta la distribución condicional que hay que interpretar en cada tabla según
la definición de la variable dependiente y la independiente para determinar la
existencia de asociación entre las variables.
- Crea un gráfico de barras apiladas al 100%.
Hemos creado tantas filas, 22, como casillas tiene la distribución conjunta, es decir, 11
categorías de edad × 2 categorías de sexo = 22 categorías de la distribución conjunta.
Una vez introducidos los datos asignamos etiquetas a los valores numéricos con los
que hemos codificado cada variable, asignamos el formato y extraemos la tabla de
contingencia. Lo que se presenta a continuación (Gráfico III.6.7) es el programa de
instrucciones del SPSS para reproducir el análisis de las dos variables del ejemplo
mediante el lenguaje de comandos42. El programa incluye el comando CROSSTABS
con la especificación de la tabla de contingencia bivariable, con las opciones de
contenido de las casillas que habíamos detallado al comentar el menú del
procedimiento. Pero además se han incluido una serie de instrucciones previas
destinadas a identificar los datos que son objeto de tratamiento en el procedimiento.
Una vez identificada la tabla de esta forma lo que tenemos, de hecho, son 22 individuos
que se caracterizan por el perfil de cada casilla de la tabla. El paso siguiente consistirá
en indicarle al SPSS que no contabilice cada uno de estos 22 individuos como uno solo,
sino que cuente tantos individuos como especifique la tercera variable de la matriz, es
decir, la variable Frecuencia que detalla la frecuencia de cada casilla. Esto se hace
mediante el comando WEIGHT (Ponderar casos en el menú), el cual transforma el peso
original que cada individuo tiene, de una unidad, en el peso que se especifica en una
variable, en este caso Frecuencia. Por tanto, el primer individuo que identifica a la
primera casilla (1,1) de la tabla pasa de valer 1 a valer 85,9, tendremos por tanto 85,9
individuos -de hecho en miles- con las mismas características en las dos variables. El
segundo individuo que identifica a la segunda casilla (1,2) de la tabla pasa de valer 1 a
valer 341,4, y así sucesivamente. De esta forma pasamos, una vez hecha la ponderación,
de tener 22 individuos a tener los 5.457 que es el total de la tabla que utilizamos de
ejemplo.
De esta forma podemos introducir cualquier tabla de contingencia que podamos ver
publicada, tan sólo hay que saber la frecuencia absoluta de cada casilla de la tabla para
poder tratarla mediante este procedimiento. Estas mismas instrucciones se podrían
ejecutar mediante los menús. Hay primero que introducir los datos en la ventana del
editor de datos del SPSS, a continuación se identifican las variables, sus valores y el
formato, y por último, se ejecuta la ponderación a través de: Datos / Ponderar casos.
En el cuadro de diálogo sólo hay que marcar primero Ponderar casos mediante y a
continuación traspasar la variable de ponderación, en este caso la variable Frecuencia.
Una vez ejecutado el comando tendremos los individuos ponderados y en la barra de
estado de la ventana del editor de datos aparecerá la indicación Ponderación activada.
Solo queda pedir la tabla de contingencia.
► Ejercicio 12.
Introduce los datos de la tabla de contingencia siguiente y analiza la relación entre
las variables:
P31 Sexo
Hombre Mujer Total
Buena 19 13 32
P1 Valoración de la
Regular 203 196 399
situación económica
Mala 510 480 990
general de España
Muy mala 474 576 1050
Total 1206 1265 2471
El objetivo es saber si, con un cierto nivel de confianza, tenemos evidencias suficientes
como para rechazar la hipótesis nula y concluir que las diferencias porcentuales son
significativas. Una vez constatada la significación de la relación tiene sentido contestar
a la segunda pregunta, se trata de calcular una medida de la intensidad de la relación.
Consideraremos la V de Cramer, la cual incorpora también una prueba de significación,
de hecho, la misma que la del chi-cuadrado ya que se trata de una medida basada en
aquel estadístico.
Vamos a ver cómo realizar este test con el SPSS. En el procedimiento de Tablas
cruzadas pulsamos sobre el botón de Estadísticos y marcamos las opciones Chi-
cuadrado y Phi y V de Cramer:
Como la significación es de 0,000 <0,05, podemos concluir que hay relación entre las
variables, que las diferencias porcentuales son significativas con un nivel de confianza
del 95% (con un 5% de riesgo). Esta afirmación se mantiene siempre y cuando las
condiciones para interpretar el test se den: la frecuencia mínima esperada en cada casilla
sea 1 como mínimo y el porcentaje de casillas con una frecuencia esperada inferior a 5
sea inferior al 20% como se puede comprobar en la nota a pie de la tabla de la prueba
de chi-cuadrado. Finalmente, el grado de esta relación observada es de 0,384, un valor
intermedio, importante y significativo (0,000), pero que no alcanza un valor elevado
como 0,6. Es decir, el grado en que se determina el nivel ocupacional por el nivel
educativo existe pero es limitado.
Además de la V de Cramer se pueden elegir otros estadísticos que tienen una función
similar de evaluación de la intensidad de la relación y varían según la escala de medición
de las variables. También en el cuadro de diálogo inicial disponemos de una opción
adicional: las pruebas exactas43. Si clicamos sobre Exacta se visualiza un cuadro diálogo
como el siguiente:
43 Las pruebas exactas aparecen si se tiene instalado un módulo específico del SPSS.
► Ejercicio 13.
Con la matriz de datos CIS3041+.sav y siguiendo el ejemplo del Ejercicio 11
completar el análisis con los aspectos siguientes:
- Interpreta si hay relación entre las variables según el estadístico Chi cuadrado.
- Interpreta la fuerza de la relación (si es que la hay) observando el estadístico V
de Cramer.
Con estas variables podríamos plantear un modelo de análisis con diferentes hipótesis.
Dos de estas hipótesis nos conducen inicialmente a explicar el abandono como variable
dependiente en función de la actividad laboral (Hipótesis 1: trabajar penaliza con
mayor abandono) y en función del horario de clases (Hipótesis 2: el estudiantado de la
tarde y de la noche abandona más). Adicionalmente podemos plantear una tercera
relación entre las variables independientes (Hipótesis 3: el estudiantado que tiene una
actividad laboral tiende a matricularse sobre todo en los grupos de tarde y de noche).
Ahora bien, cabe preguntarse hasta qué punto la razón del abandono tiene que ver
realmente con el horario de clases, de hecho podemos pensar que se está dando un
mecanismo secuencial donde los trabajadores tienden a matricularse por la tarde-noche
y en consecuencia estos grupos tienen una mayor tasa de abandono, por tanto, que la
verdadera razón es la actividad laboral y no el grupo de clase. En este sentido una
posible y aparente relación entre abandono y horario deberá desaparecer al controlar
por la actividad laboral, poniendo de manifiesto una relación espúrea. En este sentido
nuestra Hipótesis 4 afirmaría que no existe una relación de interacción entre las
variables y que el modelo que cabe esperar es aquel donde el abandono viene explicado
44 Información extraída de un estudio sobre los alumnos de la Facultad de Ciencias Políticas y Sociología de la
Universidad Complutense de Madrid. El ejemplo está publicado en la revista Papers por Latiesa (1991).
Planteamos así dos posibles alternativas de modelo de análisis con hipótesis distintas
que se trata de verificar seguidamente. La representación gráfica en ambos modelos
sería la siguiente:
ABA ABA
Abandono Abandono
universitario universitario
No / Sí No / Sí
H1 H2 H1
H4
A través del procedimiento Tablas cruzadas del menú cuando consideramos sólo
relaciones bivariables, las tablas de contingencia que se obtienen relacionan todas las
combinaciones de las variables incluidas en los recuadros de Filas y Columnas. Si por
ejemplo colocamos la variable A en el recuadro de Filas y las variables B y C en el
cuadro Columnas, obtendremos dos tablas de contingencia, las que relacionan AB y
AC. Y si por ejemplo colocamos las variables A y Z en el cuadro Filas y las variables
B y C en el cuadro Columnas, obtendremos cuatro tablas de contingencia, las que
relacionan AB, AC, ZB y ZC.
Si consideramos ahora relaciones entre tres o más variables entonces debemos utilizar
el recuadro de Capa para trasladar las variables que definen la tercera y sucesivas
dimensiones. Así, por ejemplo, si colocamos las variable A y Z en el cuadro Filas, la
variable B en el cuadro Columnas, y la variable C en el cuadro Capa 1 de 1,
obtendremos dos tablas de contingencia, las que relacionan ABC y ZBC. Si
además deseáramos reproducir las mismas tablas con una cuarta variable D deberíamos
colocar de nuevo las variable A y Z en el recuadro Filas, la variable B en el cuadro
Columnas, la variable C en el cuadro Capa 1 de 1, la que se convertirá más tarde en la
Capa 1 de 2, y la variable D en el cuadro Capa 2 de 2 , obtendremos así dos tablas de
contingencia, las que relacionan ABCD y ZBCD. Recordemos que la
obtención de tablas de contingencia de tres (o más dimensiones) significa reproducir
tantas tablas y estadísticos bivariables como valores (o combinaciones de valores) tiene
la tercera variable (o combinaciones entre valores de las variables de tercera y sucesivas
dimensiones). A continuación se ilustra el caso de la especificación de la tabla
tridimensional que cruza ABAACTHOR:
Por defecto, si no hacemos ninguna especificación, el SPSS nos sacará las frecuencias
absolutas observadas. En este caso hemos pedido también las frecuencias esperadas
bajo la hipótesis de independencia entre las variables, los porcentajes por columna ya
que consideraremos, por convención, a la variable colocada en filas como la variable
dependiente y la variable de las columnas como la variable independiente, y también el
valor de las frecuencias esperadas y los residuos tipificados corregidos.
Por su parte también pediremos los estadísticos que nos determinan de un lado la
existencia de asociación y de la otra la intensidad de ésta. En el primer caso marcaremos
la opción Chi-cuadrado que nos proporciona la prueba de chi-cuadrado de Pearson
junto con el chi-cuadrado de la razón de verosimilitud, que es una reformulación del
de Pearson con resultados similares45. Estas pruebas se aplican a tablas con cualquier
número de filas o columnas, pero también se calculan dos estadísticos más destinados
a establecer la existencia de asociación en el caso particular de que disponemos de una
mesa de 22: la prueba exacta Fisher, que se utiliza cuando una casilla tiene una
frecuencia esperada menor que 5, y el chi-cuadrado corregido de Yates para el resto de
tablas 22. Por último, si ambas variables de la tabla fueran cuantitativas entonces se
interpreta la prueba de asociación lineal por lineal.
45 Sobre este estadístico, llamado también L2 o G2, volveremos en el capítulo siguiente pues con él estableceremos
la significatividad de los modelos log-lineales.
Se observa ante todo que los grupos más numerosos son el de tarde y sobre todo el de
noche. Cuando los separamos entre trabajadores y no trabajadores vemos como el
porcentaje de estudiantes que trabajan se reduce al 13% en el grupo de la mañana y
sube al 38% y al 49% en los de la tarde y la noche, respectivamente. Por tanto se
evidencia un comportamiento diferenciado con residuos significativos en la mañana y
en la noche (el de tarde no porque tiene un comportamiento cercano al promedio). La
relación es significativa según el test de independencia de chi-cuadrado y la V de
Cramer arroja valor de asociación de 0,280.
Por ello analizaremos esta relación controlando por actividad para intentar evidenciar
que el abandono se debe al hecho de trabajar y que si analizamos solo al estudiantado
que trabaja, entre ellos, deben tener tasas de abandono similares, y lo mismo entre los
que no trabajan. Veámoslo. La tabla de contingencia y los gráficos de barras que se
obtienen se presentan seguidamente.
La tasa de abandono entre los que trabajan se observan algo superior entre el
estudiantado del grupo de noche en relación a la mañana y la tarde. El residuo local es
significativo pero globalmente la prueba de chi-cuadrado que relaciona abandono con
horario, entre los que sí trabajan, no resulta significativa estadísticamente. Es decir, a
pesar de observar ciertas diferencias en la muestra para el grupo de noche debemos
considerar que las diferencias se deben al azar y no son extrapolables al conjunto del
alumnado. Por tanto, desaparece la relación entre abandono y horario. ¿Y entre los que
Este resultado nos permite llegar a la conclusión de que existen dos comportamientos
diferenciados, el de los que no tienen actividad laboral (existe asociación) y el de los
que tienen actividad laboral (desaparece la relación). En consecuencia, al observar dos
patrones de comportamiento, la relación original entre abandono y horario varía a cada
nivel de la tercera variable, concluimos la existencia de una interacción verificándose
el modelo de interacción.
Podemos comprobar que los porcentajes son los mismos que en la tabla trivariable
anterior pero se disponen en subtablas diferentes. En este caso la lectura de la
información nos dice que entre los de la mañana y los de la noche existen diferencias
de abandono según se trabaje o no se trabaje, así lo muestra el test de chi-cuadrado.
Pero en el de la tarde las diferencias desaparecen. No tenemos más información para
dilucidar qué está pasando en el grupo de tarde, pero sigue una pauta diferente de la
esperada que se verifica en el de la mañana y la noche. De esta forma, el
comportamiento diferente de la tarde está provocando la interacción y que no
podamos validar el modelo de independencia condicional.
Dicho lo cual, y como anunciamos al inicio, el hecho de que observemos dos patrones
distintos ¿hasta qué punto es un resultado concluyente estadísticamente en un análisis
de tablas de contingencia como el realizado? Los resultados estadísticos parciales de
las subtablas no son objeto de contraste entre sí en un análisis clásico de tablas de
contingencia por lo que no podemos establecer con certeza un posible modelo de
interacción como este:
ABA
Abandono
universitario
No / Sí
H1 H2
¿H4?
ACT HOR
Actividad H3 Horario
laboral Mañana
No / Sí Tarde / Noche
► Ejercicio 14.
Proponer un modelo de relación entre las variables ACT (actitud: grado de acuerdo
con la afirmación “Las mujeres deben quedarse en su casa”), EST (el nivel de estudios)
y SEX (el sexo de la persona entrevistada) y contrastar las hipótesis con los datos
siguientes de forma similar al ejercicio realizado con el ejemplo del abandono
universitario. El archivo de sintaxis ATC-Actitud.sps de la página web contiene la
sintaxis que genera los datos y obtiene las tablas de contingencia.
1ª variable(s) en fila
2ª variable(s) en columna
Contenido de
las casillas
Estadísticos
de asociación
Gestión de los
resultados
47 Qué variable se coloca en fila o en columna es pura convención, el análisis y el resultado es simétrico y se genera
la misma información.
% por fila,
por columna Análisis de
o sobre el residuos
total
Suprime la
tabla
Si nos fijamos en los porcentajes de la tabla observamos cómo a medida que el nivel
de estudios es más alto va aumentando el porcentaje de personas con mayor nivel
ocupacional. Así por ejemplo, entre los que tienen estudios superiores casi el 60%
puede alcanzar la clase ocupacional alta, y a medida que baja el nivel de estudios se va
reduciendo hasta la situación donde, si no se tienen estudios, no solo es poco probable,
sino imposible alcanzar dicha categoría profesional. Semejante lectura pero en sentido
inverso podemos extraer al considerar el nivel inferior de los trabajadores no
cualificados, donde observamos en particular que si no se tienen estudios es el nivel
ocupacional más probable que se puede alcanzar.
Por defecto Deducer extrae los porcentajes por fila y por columna. Nosotros hemos
solicitado solamente éstos últimos para simplificar la información de la tabla. Pero de
esta forma no tenemos la información del marginal de fila. Si queremos disponer de él
deberemos pedir también los porcentajes por fila. La tabla es la siguiente:
Presionaremos sobre el botón Position y elegimos del menú desplegable la opción fill.
Clicamos OKay, sobre OK y luego sobre Run, obtendremos finalmente el siguiente
gráfico:
Observamos que se incluyen los valores perdidos (NA) y que la escala ha cambiado a
proporciones entre 0 y 1. Modificaremos ambos aspectos con la ayuda de la sintaxis
de R48. Para obtener un gráfico sin los valores perdidos recurriremos a la línea de
comandos para ejecutar la misma instrucción seleccionando los casos válidos.
Podemos recuperar la instrucción que ejecutó Deducer y que aparece en la consola:
48 Plot Builder de Deducer corresponde al comando de elaboración de gráficos ggplot de R, se puede ampliar la
información en: http://ggplot2.org/.
> dev.new()
> ggplot() +
+ geom_bar(aes(y = ..count..,x = ESTUDIOS,fill =
OCUPACION),data=CIS3041a,position = position_fill())
> dev.new()
> ggplot() + geom_bar(aes(y = ..count..,x = ESTUDIOS,fill =
OCUPACION),data=subset(CIS3041a,!is.na(ESTUDIOS) &
!is.na(OCUPACION)), position = position_fill())
> dev.new()
> ggplot() + geom_bar(aes(y = ..count..,x = ESTUDIOS,fill =
OCUPACION),data=subset(CIS3041a,!is.na(ESTUDIOS) &
!is.na(OCUPACION)), position = position_fill())+
scale_y_continuous(labels = percent_format()) + ylab ("") + xlab
("Nivel de estudios")
► Ejercicio 15.
Con la matriz de datos CIS3041a.rda analizar la relación entre parejas de variables
cualitativas. Por ejemplo se puede analizar el comportamiento electoral según
diversas variables independientes como la edad, el sexo, la ocupación, el lugar de
residencia, etc. En relación a cada tabla:
- Observa los totales marginales y calcula los porcentajes marginales.
- Calcula los porcentajes condicionales (fila y columna).
- Comenta la distribución condicional que hay que interpretar en cada tabla según
la definición de la variable dependiente y la independiente para determinar la
existencia de asociación entre las variables.
- Crea un gráfico de barras apiladas al 100%.
> tabla=as.table(matrix(c(650,64,1234,333,1430,1036),
nrow=2,ncol=3))
> colnames(tabla)=c("Alta","Media","Baja")
> rownames(tabla)=c("Sí","No")
> tabla
Alta Media Baja
Sí 650 1234 1430
No 64 333 1036
Las instrucciones que siguen se destinan a obtener las proporciones de la tabla con el
comando prop.table que en el último caso se multiplica por 100 para convertirlos
en porcentajes con un decimal:
49 Las instrucciones que comentaremos se recogen en el script Coche.R que se enceuntraen la página web. Podemos
editar y ejecutar las instrucciones desde la consola de R a través de Deducer o desde R-Studio.
data: tabla
X-squared = 375.5831, df = 2, p-value < 2.2e-16
> summary(tabla)
Number of cases in table: 4747
Number of factors: 2
Test for independence of all factors:
Chisq = 375.6, df = 2, p-value = 2.774e-82
► Ejercicio 16.
Introduce los datos de la tabla de contingencia siguiente y analiza la relación entre
las variables:
P31 Sexo
Hombre Mujer Total
Buena 19 13 32
P1 Valoración de la
Regular 203 196 399
situación económica
Mala 510 480 990
general de España
Muy mala 474 576 1050
Total 1206 1265 2471
El objetivo es saber si, con un cierto nivel de confianza, tenemos evidencias suficientes
como para rechazar la hipótesis nula y concluir que las diferencias porcentuales son
significativas. Una vez constatada la significación de la relación tiene sentido contestar
a la segunda pregunta, se trata de calcular una medida de la intensidad de la relación.
Consideraremos la V de Cramer, la cual incorpora también una prueba de significación,
de hecho, la misma que la del chi-cuadrado ya que se trata de una medida basada en
aquel estadístico.
Vamos a ver cómo realizar este test con Deducer. En el procedimiento de Contingency
Tables primero pulsamos sobre el botón Cells para pedirle todos los cálculos de
frecuencias esperadas y residuos en el recuadro de Chi-Squared. A continuación en
Statistics podemos marcar todas las opciones de medidas de asociación disponibles
para ver los resultados. Junto con el chi-cuadrado disponemos de la razón de
verosimilitud o Likelihood ratio, que es una reformulación del de Pearson con resultados
similares50. Estas pruebas se aplican a tablas con cualquier número de filas o columnas,
pero también se calculan dos estadísticos más destinados a establecer la existencia de
asociación en el caso particular de que disponemos de una tabla de 22: la prueba
exacta de Fisher (Fisher’s Exact), que se utiliza cuando una casilla tiene una frecuencia
esperada menor que 5, y la prueba de Mantel-Haenszel. Con variables ordinales se
calcula la Tau de Kendall o la Rho de Spearman, combinando una nominal con una
ordinal utilizamos el estadístico de Kruskal-Wallis. En nuestro caso las dos variables
son ordinales y los diferentes estadísticos son interpretables, excepto los de tablas de
2×2.
50 Sobre este estadístico, llamado también L2 o G2, volveremos en el capítulo siguiente pues con él estableceremos
la significatividad de los modelos log-lineales.
> install.packages("vcd")
> library(vcd)
> assocstats(table(CIS3041a$OCUPACION, CIS3041a$ESTUDIOS))
X^2 df P(> X^2)
Likelihood Ratio 1010.8 15 0
Pearson 1075.8 15 0
Phi-Coefficient : 0.665
Contingency Coeff.: 0.554
Cramer's V : 0.384
Además de la V de Cramer se pueden elegir otros estadísticos que tienen una función
similar de evaluación de la intensidad de la relación y varían según la escala de medición
de las variables y que deben ser interpretados desde la lógica de su construcción que
es diferente en cada caso. Así, el coeficiente de contingencia por ejemplo arroja un
valor más alto de 0,554 o la tau de Kendall de -0,43.
Dentro de las opciones del procedimiento también es posible realizar una simulación
de Montecarlo a partir de 10000 muestras aleatorias de nuestros datos que generan una
51 vcd corresponde al acrónimo de Visualizing Categorical Data ya que se trata de un paquete inspirado en el libro
del mismo nombre de Michael Friendly (2000, 2013). Se puede ver en ver http://www.datavis.ca/books/vcd/.
52 El valor 7,51e-220 es 7,51 por 10-220 , es decir, un número muy bajo que podemos considerar 0 (es 0,0000…
hasta 219 ceros a la derecha de la coma y 751) y representar por 0,000.
► Ejercicio 17.
Con la matriz de datos CIS3041+.sav y siguiendo el ejemplo del ejercicio del
Ejercicio 15 completar el análisis con los aspectos siguientes:
- Interpreta si hay relación entre las variables según el estadístico Chi cuadrado.
- Interpreta la fuerza de la relación (si es que la hay) observando el estadístico V
de Cramer.
Con estas variables podríamos plantear un modelo de análisis con diferentes hipótesis.
Dos de estas hipótesis nos conducen inicialmente a explicar el abandono como variable
dependiente en función de la actividad laboral (Hipótesis 1: trabajar penaliza con
53 Información extraída de un estudio sobre los alumnos de la Facultad de Ciencias Políticas y Sociología de la
Universidad Complutense de Madrid. El ejemplo está publicado en la revista Papers por Latiesa (1991).
Planteamos así dos posibles alternativas de modelo de análisis con hipótesis distintas
que se trata de verificar seguidamente. La representación gráfica en ambos modelos
sería la siguiente:
ABA ABA
Abandono Abandono
universitario universitario
No / Sí No / Sí
H1 H2 H1
H4
Por defecto, si no hacemos ninguna especificación, Deducer nos sacará las frecuencias
absolutas observadas y los porcentajes por fila y por columna, si bien interpretaremos
los de columna ya que consideraremos, por convención, a la variable colocada en filas
como la variable dependiente y la variable de las columnas como la variable
independiente. En este caso hemos pedido también las frecuencias esperadas bajo la
hipótesis de independencia entre las variables, el valor de la frecuencia esperada y los
residuos tipificados corregidos.
Por su parte también pediremos los estadísticos que nos determinan de un lado la
existencia de asociación y, por otro, la intensidad de ésta. En el primer caso
marcaremos la opción Chi-Squared que nos proporciona la prueba de chi-cuadrado de
Pearson. En el segundo caso consideraremos la V de Cramer que ejecutaremos con el
lenguaje de comandos a partir del paquete vcd. En estos diferentes análisis
solicitaremos igualmente los gráficos de barras para completar la descripción visual de
la relación entre las variables54.
54 Todos los análisis se han recogido mediante instrucciones de R que se presentan en el script Abandono.R que se
encuentra en la página web.
55 Para algunos de los valores se ha mantenido el acento y se ha empleado la letra ñ. Ejecutando sobre RStudio no
hemos encontrado problemas, en Deducer se pueden encontrar en algún momento. Como alternativa se pueden
suprimir los acentos y no utilizar la ñ. Si se trabaja en RStudio para que funcione en particular el comando
contingency.tables de Deducer es necesario tener instalado y cargar el paquete Deducer desde la consola de RStudio,
junto a los paquetes rJava, JGR y ggplot2.
Phi-Coefficient : 0.212
Contingency Coeff.: 0.207
Cramer's V : 0.212
56 Se presentan dos cálculos de chi-cuadrado, el que ofrece Deducer es el que tiene una corrección de continuidad
que se aplica sólo en tablas de 2×2, como es el caso. El paquete vcd lo calcula sin la corrección. En ambos casos la
conclusión es la misma.
Los datos muestran que la tasa de abandono efectivamente aumenta en los grupos de
clase de la tarde y la noche, frente a un porcentaje del 12,7% de la mañana, el de tarde
tiene un valor del 27,3% y similar al de noche con un 25,7%. Estas diferencias en
grupos de clase son claramente significativas para el horario de mañana, 12,7% difiere
del comportamiento global de 22,6%. Pero en los grupos de tarde y noche, si bien sus
tasas de abandono son superiores al promedio, las diferencias son reducidas en relación
a la mañana y resultan localmente no significativas estadísticamente (los residuos
corregidos son inferiores a 1,96). Por tanto, las casillas de tarde y noche contribuyen a
generar asociación y es el grupo de la mañana el que genera la fuente de asociación
entre las variables.
Phi-Coefficient : 0.149
Contingency Coeff.: 0.148
Cramer's V : 0.149
Se observa ante todo que los grupos más numerosos son el de tarde y sobre todo el de
noche. Cuando los separamos entre trabajadores y no trabajadores vemos que el
porcentaje de estudiantes que trabajan se reduce al 13% en el grupo de la mañana y
sube al 38% y al 49% en los de la tarde y la noche, respectivamente. Por tanto se
evidencia un comportamiento diferenciado con residuos significativos en la mañana y
en la noche (el de tarde no porque tiene un comportamiento cercano al promedio). La
relación es significativa según el test de independencia de chi-cuadrado y la V de
Cramer arroja valor de asociación de 0,280.
Phi-Coefficient : 0.28
Contingency Coeff.: 0.27
Cramer's V : 0.28
La tasa de abandono entre los que trabajan se observan algo superior entre el
estudiantado del grupo de noche en relación a la mañana y la tarde. El residuo local es
significativo pero globalmente la prueba de chi-cuadrado que relaciona abandono con
horario, entre los que sí trabajan, no resulta significativa estadísticamente. Es decir, a
pesar de observar ciertas diferencias en la muestra para el grupo de noche debemos
considerar que las diferencias se deben al azar y no son extrapolables al conjunto del
alumnado. Por tanto, desaparece la relación entre abandono y horario. ¿Y entre los que
no trabajan, su comportamiento también se puede considerar similar y podemos
concluir que desaparece la relación? Pues no. Si nos fijamos en el gráfico o en la tabla
vemos que el grupo de la tarde tiene un comportamiento claramente diferenciado, su
tasa de abandono es del 26,3% cuando los que no trabajan de la mañana y de la noche
tienen porcentajes del 9,1% y del 11,8%. En este caso el chi-cuadrado confirma que
las diferencias son significativas y existe una asociación que la V de Cramer parcial cifra
en 0,21057.
57 El paquete vcd solamente analiza tablas bidimensionales por lo que en las instrucciones que se adjuntan se ha
ejecutado el comando assocstats seleccionando la submuestra que corresponde a cada categoría de la tercera
variable con el comando subset.
Este resultado nos permite llegar a la conclusión de que existen dos comportamientos
diferenciados, el de los que no tienen actividad laboral (existe asociación) y el de los
que tienen actividad laboral (desaparece la relación). En consecuencia, al observar dos
patrones de comportamiento, la relación original entre abandono y horario varía a cada
nivel de la tercera variable, concluimos la existencia de una interacción verificándose
el modelo de interacción.
> summary(subset(abandono,subset=ACT=="No"))
ABA ACT HOR
No:245 No:290 Mañana:110
Sí: 45 Sí: 0 Tarde : 95
Noche : 85
> ACT1=subset(abandono,subset=ACT=="No")
> assocstats(table(ACT1$ABA, ACT1$HOR))
X^2 df P(> X^2)
Likelihood Ratio 12.216 2 0.0022255
Pearson 12.829 2 0.0016380
Phi-Coefficient : 0.21
Contingency Coeff.: 0.206
Cramer's V : 0.21
> summary(subset(abandono,subset=ACT=="Sí"))
ABA ACT HOR
No:122 No: 0 Mañana:24
Sí: 62 Sí:184 Tarde :70
Noche :90
> ACT2=subset(abandono,subset=ACT=="Sí")
> assocstats(table(ACT2$ABA, ACT2$HOR))
X^2 df P(> X^2)
Likelihood Ratio 2.1335 2 0.34412
Pearson 2.1295 2 0.34482
Phi-Coefficient : 0.108
Contingency Coeff.: 0.107
Cramer's V : 0.108
Podemos comprobar que los porcentajes son los mismos que en la tabla trivariable
anterior pero se disponen en subtablas diferentes. En este caso la lectura de la
información nos dice que entre los de la mañana y los de la noche existen diferencias
de abandono según se trabaje o no se trabaje, así lo muestra el test de chi-cuadrado.
Pero en el de la tarde las diferencias desaparecen. No tenemos más información para
dilucidar qué está pasando en el grupo de tarde, pero sigue una pauta diferente de la
esperada que se verifica en el de la mañana y la noche. De esta forma, el
comportamiento diferenciado de la tarde está provocando la interacción y que no
podamos validar el modelo de independencia condicional.
> summary(subset(abandono,subset=HOR=="Mañana"))
ABA ACT HOR
No:117 No:110 Mañana:134
Sí: 17 Sí: 24 Tarde : 0
Noche : 0
> HOR1=subset(abandono,subset=HOR=="Mañana")
> assocstats(table(HOR1$ABA, HOR1$ACT))
X^2 df P(> X^2)
Likelihood Ratio 5.9486 1 0.0147291
Pearson 7.1683 1 0.0074202
Phi-Coefficient : 0.231
Contingency Coeff.: 0.225
Cramer's V : 0.231
> summary(subset(abandono,subset=HOR=="Tarde"))
ABA ACT HOR
No:120 No:95 Mañana: 0
Sí: 45 Sí:70 Tarde :165
Noche : 0
> HOR2=subset(abandono,subset=HOR=="Tarde")
> assocstats(table(HOR2$ABA, HOR2$ACT))
X^2 df P(> X^2)
Likelihood Ratio 0.10314 1 0.74810
Pearson 0.10338 1 0.74781
Phi-Coefficient : 0.025
Contingency Coeff.: 0.025
Cramer's V : 0.025
> summary(subset(abandono,subset=HOR=="Noche"))
ABA ACT HOR
No:130 No:85 Mañana: 0
Sí: 45 Sí:90 Tarde : 0
Noche :175
> HOR3=subset(abandono,subset=HOR=="Noche")
> assocstats(table(HOR3$ABA, HOR3$ACT))
X^2 df P(> X^2)
Likelihood Ratio 17.656 1 2.6468e-05
Pearson 16.837 1 4.0738e-05
Phi-Coefficient : 0.31
Contingency Coeff.: 0.296
Cramer's V : 0.31
Dicho lo cual, y como anunciamos al inicio, el hecho de que observemos dos patrones
diferentes ¿hasta qué punto es un resultado concluyente estadísticamente en un análisis
de tablas de contingencia como el realizado? Los resultados estadísticos parciales de
las subtablas no son objeto de contraste entre sí en un análisis clásico de tablas de
contingencia por lo que no podemos establecer con certeza un posible modelo de
interacción como este:
ABA
Abandono
universitario
No / Sí
H1 H2
¿H4?
ACT HOR
Actividad H3 Horario
laboral Mañana
No / Sí Tarde / Noche
► Ejercicio 18.
Proponer un modelo de relación entre las variables ACT (actitud: grado de acuerdo
con la afirmación “Las mujeres deben quedarse en su casa”), EST (el nivel de
estudios) y SEX (el sexo de la persona entrevistada) y contrastar las hipótesis con
los datos siguientes de forma similar al ejercicio realizado con el ejemplo del
abandono universitario. El archivo de sintaxis ATC-Actitud.R de la página web
contiene la sintaxis que genera los datos y obtiene las tablas de contingencia.
7. Bibliografía
Agresti, A. (2002). Categorical Data Analysis. Hoboken, New Jersey: John Wiley & Sons.
Andersen, P. B. (1990). The Statistical Analysis of Categorical Data. Berlin: Springer-Verlag.
Aguilera, A. M. (2001). Tablas de contingencia bidimensionales. Madrid: La Muralla.
Aguilera, A. M. (2006). Modelización de tablas de contingencia multidimensionales. Madrid: La
Muralla.
Alvira Martín, F. (1989). Introducción al anàlisis de los datos. En El análisis de la realidad
social. Métodos y técnicas de investigación, editado por M. García Ferrando, J. Ibáñez
i F. Alvira. 2a edición. Madrid: Alianza. Alianza Universidad Textos, 105, 325-
358.
Ato, M.; López, J. J. (1996). Análisis estadístico para datos categóricos. Madrid: Síntesis.
Bardina, X.; Farré, M.; López-Roldán, P. (2005). Estadística: un curs introductori per a
estudiants de ciències socials i humanes. Volum 2: Descriptiva i exploratòria bivariant.
Introducció a la inferència. Bellaterra (Cerdanyola del Vallès): Servei de
Publicacions de la Universitat Autónoma de Barcelona.
Bickel, P. J., Hammel, E. A., and O'Connell, J. W. (1975). Sex Bias in Graduate
Admissions: Data from Berkeley. Science, 187 (4175), 398-404.
http://www.unc.edu/~nielsen/soci708/cdocs/Berkeley_admissions_bias.pdf
Bishop, Y. M.; Fienberg, S. E.; Holland, P. W. (1975). Discrete Multivariate Analysis:
Theory and Practice. Cambridge: Cambridge University Press.
Blalock, H. M. Jr. (1981). Estadística Social. México: Fondo de Cultura Económica.
Blyth, C.R. (1972), On Simpson's Paradox and the Sure-Thing Principle. Journal of the
American Statistical Association, 67 (338), 364-366.
Bryman, A.; Cramer, D. (1990). Quantitative Data Analysis for Social Scientist. London:
Routledge.
Boudon, R.; Lazarsfeld, P. (1985). Metodología de las ciencias sociales. II. Análisis empírico de
la causalidad. Barcelona: Laia.
Cochran, W. G. (1952). The 2 test of goodness of fit. Annals of Mathematical Statistics,
23 (3), 315-345.
Davis, J. (1980). Contingency tables analysis: proportions and flow graphs. Quality &
Quantity, 14, número especial, 117-153.
Everitt, B. S. (1992). The Analysis of Contingency Tables. London: Chapman and Hall.
Fachelli, S.; López-Roldán, P. (2013). Análisis de datos estadísticos. Análisis de movilidad
social. Bellaterra: Universitat Autònoma de Barcelona.
http://ddd.uab.cat/record/88747
Friendly. M. (2000). Visualizing Categorical Data. SAS Insitute, Carey, NC.
http://www.math.yorku.ca/SCS/vcd/
Friendly. M. (2013). Working with categorical data with R and the vcd and vcdExtra
packages.
http://cran.us.r-project.org/web/packages/vcdExtra/vignettes/vcd-
tutorial.pdf
Fienberg, S. E. (1980). The Analysis of Cross-Classified Categorical Data. Cambridge: MIT
Press.
García Ferrando, M. (1987). Socioestadística. Introducción a la estadística en sociología. 2a
edición amp. Madrid: Alianza. Alianza Universidad Textos, 96.
Goodman, L. A.; Kruskal, W. H. (1954). Measures of Association for cross-
clessifications. Journal of American Statistical Association, 49, 732-764.
Goodman, L. A. (1963). On methods for comparing contingency tables. The Journal of
the Royal Statistical Society, series A, 126.
Goodman, L. A. (1972). A General Model for the Analysis of Surveys. American Journal
of Sociology, 77, 6, 1035-1086.
Goodman, L. A. (1973). The analysis of multidimensional contingency tables when
some variables are posterior to others: a modified path analysis approach.
Biometrika, 60, 179–192.
Goodman, L. A. (2011). Measures, Models, and Graphical Displays in the Analysis of
Cross-Classified Data. Journal of the American Statistical Association, 86 (416),
1085–1111.
Haberman, S. J. (1979). Analysis of Qualitative Data. New York: Academic Press.
Hellevik, O. (1988). Introduction to Causal Analysis. Exploring Survey Data by Crosstabulation.
Oslo: Norwegian University Press.
Hildebrand, D. K.; Laing, J. D.; Rosenthal, H. (1977). Analysis of ordinal data. Beverly
Hills: Sage Publications.
Kateri, M. (2014). Contingency Table Analysis: Methods and Implementation Using R. New
York: Springer. http://cta.isw.rwth-aachen.de/
Latiesa, M. (1991a). El análisis multivariable de tablas de contingencia: sistema de
ecuaciones y grafos. Papers. Revista de Sociologia, 37, 77-96.
http://ddd.uab.cat/pub/papers/02102862n37/02102862n37p77.pdf
Latiesa, M. (1991b). Introducción a los modelos logarítmicos lineales. Papers. Revista de
Sociologia, 37, 97-112.
http://ddd.uab.cat/pub/papers/02102862n37/02102862n37p97.pdf
Liebetrau, A. M. (1983). Measures of Association. Beverly Hills: Sage Publications.
López-Roldán, P.; Lozares Colina, C. (1999). Anàlisi bivariable de dades estadístiques.
Bellaterra (Barcelona): Universitat Autònoma de Barcelona. Colección
Materials, 79.
Powers, D.; Xie, Y. (2008). Statistical Methods for Categorical Data Analysis. Bingley (UK):
Emeral. 2a. edición.
Reynolds, H. T. (1977). The Analysis of Cross-classifications. New York: Free-Press.
Reynolds, H. T. (1984). Analysis of Nominal Data. Sage Publications, Beverly Hills.
Rudas, T. (1998). Odds ratios in the analysis of contingency tables. Thousand Oaks: Sage.
Ruiz-Maya, L. et al. (1991). Metodología estadística para el análisis de datos cualitativos. Madrid:
Centro de Investigaciones Sociológicas.
Ruiz-Maya, L. et al. (1995). Análisis estadístico de encuestas: datos cualitativos. Madrid:
Editorial AC.
Sánchez Ramos, M. A. (2005). Uso metodológico de las tablas de contingencia en la
ciencia política. Espacios Públicos, 8 (16), agosto, 60-84.
Sánchez Carrión, J. J. (1984). Análisis de Tablas de Contingencia: Sistema de las
Diferencias de Proporciones (Exégesis del trabajo de James A. Davis). En
Introducción a les tècniques de anàlisi multivariable aplicadas a las ciencias sociales, editado
per J. J. Sánchez Carrión. Madrid: Centro de Investigaciones Sociológicas, 295-
321.
Sánchez Carrión, J. J. (1989a). Técnicas de análisis de datos nominales. Revista Española
de Investigaciones Sociológicas, 45, enero-marzo, 133-155.
http://www.reis.cis.es/REIS/PDF/REIS_045_08.pdf
Sánchez Carrión, J. J. (1989b). Análisis de tablas de contingencia. El uso de los percentatges en
ciencias sociales. Madrid: Centro de Investigaciones Sociológicas-Siglo XXI.
Sánchez Carrión, J. J. (1999). Manual de análisis de datos. Madrid: Alianza.
Simpson, E. H. (1951). The Interpretation of Interaction in Contingency Tables.
Journal of the Royal Statistical Society, Series B, 13, 238–241.
Schneiter, K.; Symanzik, J. (2013). An Applet for the Investigation of Simpson's
Paradox. Journal of Statistics Education, 21 (1).
http://www.amstat.org/publications/jse/v21n1/schneiter.pdf
Wainer, H. (1986). Minority Contributions to the SAT Score Turnaround: An Example
of Simpson's Paradox. Journal of Educational Statistics, 11 (4), 239-244.
Upton, G. (1978). The Analysis of Cross-Tabulated Data. New York: John Wiley.
Yule, G.U. (1903), Notes on the Theory of Association of Attributes in Statistics.
Biometrika, 2 (2), 121-134.