Incasi Working Paper Series: Introducción A La Lógica Multinivel: Un Análisis Longitudinal Con SPSS y R
Incasi Working Paper Series: Introducción A La Lógica Multinivel: Un Análisis Longitudinal Con SPSS y R
Incasi Working Paper Series: Introducción A La Lógica Multinivel: Un Análisis Longitudinal Con SPSS y R
INCASI
Working Paper Series
2018, No. 2
Mattia Vacchiano1
Jordi Merino Noé2
1
Centre d'Estudis Sociològics sobre la Vida Quotidiana i el Treball (QUIT)
Institut del Treball (IET)
UniversitatAutònoma de Barcelona, Spain
[email protected]
2
Unitat de Sociologia. Departamentd’Empresa.
Universitat de Girona, Spain
[email protected]
This working paper was elaborated in the context of INCASI Network, a European project that
has received funding from the European Union’s Horizon 2020 research and innovation
programme under the Marie Skłodowska-Curie GA, No. 691004, and coordinated by
Dr. Pedro López-Roldán. This article reflects only the author’s view and the Agency is not
responsible for any use that may be made of the information it contains.
Resumen
Este artículo propone una breve introducción al análisis multinivel. El objetivo del
texto es facilitar algunos principios teóricos y metodológicos básicos para el uso de
esta técnica de análisis en la investigación sociológica. La potencialidad de esta
técnica se fundamenta en una lógica que permite medir la importancia del contexto
en el que se generan las observaciones, midiendo la influencia e interacción entre los
distintos niveles en el que se articulan los datos. En este sentido, los modelos
multinivel constituyen la metodología de análisis más adecuada en el momento actual
para tratar datos estructurados de forma jerárquica. El texto se divide en dos partes:
una primera sección argumenta los conceptos teóricos de base de la técnica
multinivel. En una segunda sección se propone un ejemplo de aplicación de un
modelo de regresión logística multinivel (RLM) a un estudio sobre la inserción
laboral juvenil en el Área Metropolitana de Barcelona.
Palabras clave
Análisis multinivel, SPSS, R, Inserción juvenil, Datos longitudinales, Redes sociales
Índice
1. Introducción. La lógica multinivel: la importancia del contexto. Los modelos
multinivel: conceptos clave. ¿Cuándo se puede aplicar el análisis multinivel? 2. La
inserción juvenil en Barcelona: una guía al análisis multinivel con SPSS y R. El
modelo multinivel: estructura, objetivos e hipótesis. El proceso de modelaje en R. El
proceso de modelaje en SPSS. 3. Conclusiones. 4. Referencias.
INCASI Network |5
INCASI Working Paper Series, 2018, No. 2
variables están agrupadas dentro otras variables enseñanza y docentes que pueden determinar o
y, en este sentido, los datos que estamos influir en los resultados escolares. Es decir,
analizando se organizan en un orden jerárquico. estos factores contextuales pueden incidir en la
Es el caso, por ejemplo, de una investigación variabilidad de la característica que queremos
que quiera analizar la nota media en historia del investigar: la nota en historia del arte. Con ello,
arte de un grupo de estudiantes: (i) los ejemplificando, puede que se observe una cierta
estudiantes están agrupados en aulas o cursos; homogeneidad en los resultados en historia del
(ii) las aulas están agrupadas en escuelas o arte entre los estudiantes que frecuentan la
centros educativos; (iii) las escuelas están misma clase. Tener en cuenta esta
agrupadas en distritos o provincias (Figura 1). homogeneidad e influencia estructural (clase,
docentes, experiencias compartida) sobre ella
Aulas, escuelas o distritos no son simple es, en definitiva, el objetivo principal del análisis
atributos de los estudiantes. En una misma aula multinivel.
se comparten experiencias, métodos de
Figura 1. Ejemplo de datos estructurados en dos niveles. Estudiantes (nivel 1) y clases (nivel 2).
1.2. Los modelos multinivel: conceptos ampliaciones de los modelos de regresión lineal
clave y logística, ya que nos permiten elaborar
modelos de regresión para cada nivel de
Si las observaciones que investigamos se análisis, permitiéndonos entender la interacción
articulan en múltiples niveles, entonces la en cada uno de ellos(Murillo Torrecilla, 2008).
estrategia de análisis multinivel nos permite Para comprender la aportación de una lógica de
trabajar con dos (o más) unidades de análisis, este tipo al análisis, es necesario ilustrar dos
dependiendo del número de niveles en el que se aspectos capaces de evidenciar la potencialidad
articula la estructura jerárquica de nuestros de la técnica multinivel: (1) la diferencia entre
datos. Es el investigador/a el que establece la random effect y fixed effect y (2) la correlación
clasificación de los niveles según sus objetivos, intraclase (Snijders et al., 1995):
modelo de análisis y bagaje teórico. Con ello, en
definitiva, los modelos multinivel1 representan 1. Para entender la distinción entre random effect
(coeficiente aleatorio) y fixed effect (coeficiente
fijo), cabe considerar que en los modelos de
1 A nivel general se habla de modelos multinivel, pero
también son denominados modelos jerárquicos (por la
estructuración de los datos), modelos mixtos o mixtos parámetros aleatorios) y también de regresión lineal o
categóricos (porque utilizan parámetros fijos y logística multinivel (Merino, 2017).
6| INCASI Network
Mattia Vacchiano & Jordi Merino Noé
regresión lineal clásicos los parámetros, el evaluar un modelo ya que facilita una medida
intercepto y la pendiente, son comunes a de la similitud entre los grupos, indicando
todos los sujetos: es decir, son estimados a qué parte de la variabilidad total es debida a
partir de todas las observaciones y se la variabilidad de las observaciones en cada
asumen como coeficientes fijos, nivel2.
representativo de toda la muestra. En una
estructura multinivel, en cambio, estos Tabla 1. Comparación entre probabilidad, odds
coeficientes son aleatorios: es decir, cada y log odds.
grupo tiene su propio intercepto y Probabilidad odds log odds
pendiente, como representación específica .001 .0010010 -6.906755
de cada contexto. Con ello, los coeficientes .01 .0101010 -4.595120
de regresión del nivel “uno” se regresan en .15 .1764706 -1.734601
.2 .25 -1.386294
el nivel superior, y así sucesivamente hasta .25 .3333333 -1.098612
obtener un modelo general. Esta distinción .30 .4285714 -.8472978
representa la gran aportación del análisis .35 .5384616 -.6190392
multinivel, ya que la composición de los .4 .6666667 -.4054651
modelos multinivel en dos partes (una parte .45 .8181818 -.2006707
.5 1 0
general, fija, y una variable, que varía en cada .55 1.222222 .2006707
grupo) implica que las variables interactúan .6 1.5 .4054651
en distintos niveles (interacción internivel). Así .65 1.857143 .6190392
pues, básicamente se puede estimar el efecto .7 2.333333 .8472978
de las variables — ó factores — explicativas .75 3 1.098612
.8 4 1.386294
del fenómeno a través de los efectos fijos y .85 5.666667 1.734601
la estimación de qué parte de la variabilidad .999 999 6.906755
podría ser imputable a cada nivel a través de .9999 9999 9.210240
los efectos aleatorios. Fuente: Fuente (última consulta Marzo 2017): Institute
for Digital Research (http://stats.idre.ucla.edu/).
2. La correlación intraclase es la medida del grado
de dependencia de los individuos (Murillo Aunque la intención inicial de los modelos
Torrecilla, 2008). Es una estimación que multinivel fue la de ampliar los modelos de
interpreta qué similares pueden ser las regresión lineal, los investigadores/as han ido
unidades de análisis en un mismo grupo y, extendiendo la lógica multinivel también a los
en este sentido, nos ayuda a comprender estudios con variables dependientes de tipo
cuanto los resultados de nuestro modelo categórico des de hace algunos años (Heck et al.,
general podrían depender de la 2012). En este caso, siendo la variable respuesta
homogeneidad del contexto. Si el valor de de carácter dicotómico, se asume que su
esta medida se acerca a cero, significa que transformación logarítmica realiza una relación
los grupos no son homogéneos lineal con los factores predictores. Con ello, los
internamente y por lo tanto este nivel grupal resultados de los modelos de RLM se basan en
(este contexto) no influye en los resultados, coeficientes de regresión, cuya interpretación se
ya que ser o no ser parte de un grupo es basa en los conceptos de probabilidad, odds ratio
prácticamente irrelevante en el análisis. Es (u Oportunidades Relativas Asociadas, ORA) y
decir, si pertenecer a un grupo o contexto es
importante y hay puntuaciones en los datos
bastante similares a nivel interno la 2 El coeficiente de correlación intraclase (ICC) se aplica
diferencia entre grupos será más acentuada principalmente en los modelos de regresión lineal
al existir una mayor variabilidad entre ellos, multinivel, puesto que su estimación proviene del análisis
por tanto, un valor mayor. Este valor de la varianza residual. En este sentido, la capacidad del
ICC de medir la homogeneidad interna de los grupos o
ofrecido por el coeficiente de correlación niveles en modelos con variables categóricas (esto es, en
intraclase (ICC) es uno de los aspectos más los modelos de regresión logística multinivel) es objeto
importantes de tener en cuenta a la hora de de debate (Bauer y Sterba, 2011; Berkhof y Snijders,
2001)
INCASI Network |7
INCASI Working Paper Series, 2018, No. 2
log odds. Muy brevemente, asumido el concepto como contextuales sobre una variable
de probabilidad como un valor que varía entre dependiente (interacción intranivel).
0 y 1, el odds ratio se define como la posibilidad 3. Se quiera observar por separado la incidencia
de que un evento ocurra frente a la posibilidad y varianza dentro del grupo con los otros
de que no ocurra (Szumilas, 2010), esto es, la niveles de agrupación (correlación intraclase).
posibilidad que nuestra variable respuesta
asuma un valor en base a la referencia. La 2. La inserción juvenil en Barcelona: una
transformación desde la probabilidad al odds guía al análisis multinivel con SPSS y R
implica que al aumentar la probabilidad
aumenta también el valor del odds. Con ello, En esta segunda sección proponemos un
los resultados de los modelos RLM pueden ejemplo de aplicación de un modelo de
expresarse también mediante el logaritmo del regresión logística multinivel en un estudio
odds (log odds), el cual puede asumir la forma sobre la inserción laboral juvenil de 250
negativa o positiva (Tabla 1), o también a partir jóvenes entre 20 y 34 años en el Área
de la interpretación exponencial de éste con un Metropolitana de Barcelona. El estudio,
intervalo de confianza para estudios que buscan denominado «Redemas»3 y realizado por el
proporciones de que el fenómeno suceda. Centre d'Estudis Sociològics sobre la Vida
Quotidiana i el Treball (QUIT) ha sido
1.3. ¿Cuándo se puede aplicar el análisis financiado por el Ministerio de Economía y
multinivel? Competitividad (Ref: CSO2012-36055) con el
objetivo, entre los demás aspectos, de
Como se ha mencionado, para realizar un comprender el peso de los contactos
análisis multinivel cabe considerar y definir la personales como vía de acceso al empleo antes
estructura jerárquica en la que se organizan y durante la crisis económica. Con ello, el
nuestros datos. En primer lugar, cuando las estudio obtuvo información socioeconómica
observaciones se generan en un determinado sobre la persona encuestada, reconstruyó las
contexto (o nivel) es necesario tener en cuenta trayectorias laborales de los entrevistados/as
el problema de la dependencia entre las de manera retrospectiva y obtuvo, mediante un
observaciones. Significa que el comportamiento generador de nombres, el listado de 20
de una determinada observación puede influir o personas que componen la red social de los
depender del comportamiento de otra, aspecto encuestados/as, analizando el peso de estos
que puede observarse precisamente entre contactos como vía de acceso al empleo.
observaciones que se generan en el mismo
contexto. Los datos longitudinales obtenidos para
reconstruir las trayectorias laborales –que
El análisis multinivel, entonces, se aplica para utilizamos para construir nuestro modelo
todos aquellos conjuntos de datos en el que las multinivel– se basan en una life history grid, esto
observaciones no son independientes, y que es, una parrilla temporal en que se van
además puedan estar agrupadas en diferentes situando todas las actividades laborales (y
niveles. Esta atención hacía el tipo de formativas) que componen la trayectoria de la
estructuración de los datos soluciona el persona encuestada. De esta manera, la
problema de la dependencia entre los datos, y muestra de datos recoge los eventos educativos
permite obtener resultados más robustos y o de empleo, los acontecimientos laborales de
fiables (Cebolla, 2013). El análisis multinivel, carácter informal y los períodos de desempleo,
por tanto, se puede utilizar en todos aquellos con o sin prestación. Asimismo, para cada
estudios en el que: actividad laboral (además de conocer sus
8| INCASI Network
Mattia Vacchiano & Jordi Merino Noé
INCASI Network |9
INCASI Working Paper Series, 2018, No. 2
10 | INCASI Network
Mattia Vacchiano & Jordi Merino Noé
library(foreign)
library(lme4)
library(optimx)
library(RVAideMemoire)
library(sjPlot)
library(MASS)
library(arm)
library(VGAM)
INCASI Network | 11
INCASI Working Paper Series, 2018, No. 2
Una vez instalados y cargados los paquetes, el Figura 5. Visualización de la matriz de datos
paso siguiente es cargar en R nuestra matriz de
datos, a través los comandos:
12 | INCASI Network
Mattia Vacchiano & Jordi Merino Noé
Una vez ejecutado este comando notaremos Akaike’s information criterion (AIC)
haber creado el objeto “MODELO1” en la Schwarz’s Bayesian criterion (BIC)
ventana “Environment”. Significa que ya Ninguno de los dos test puede ser
disponemos de nuestros resultados y solo intrínsecamente interpretable. Esencialmente
necesitamos visualizarlo a través el comando: valores más bajos señalan una mayor bondad de
summary (MODELO1) ajuste, aunque algunos autores señalan que
estos indicadores son más adecuados en el caso
Comentamos punto por punto los resultados de regresiones lineales donde tiene más sentido
obtenidos: apreciar las sensibilidades en los procesos
secuenciales a medida que se incorporan nuevas
1. Como en una regresión logística para variables o covariables en el modelo (Bauer y
conocer la bondad de ajuste disponemos de Sterba, 2011).
distintos test. Dos son los principales:
INCASI Network | 13
INCASI Working Paper Series, 2018, No. 2
14 | INCASI Network
Mattia Vacchiano & Jordi Merino Noé
En la segunda pestaña se definen los campos y Se aconseja no añadir ninguna variable para
los efectos (Figura 10). Estos están compuestos obtener el modelo nulo si se deseara hacer un
por cuatro acciones que aparecen en el cuadro análisis paso a paso. El modelo nulo indicaría la
de diálogo de la banda izquierda. En la primera variabilidad del contexto sin los predictores.
acción (destino) cabe definir la variable Para modelos más complejos, con agrupaciones
independiente y remarcar que la regresión que de factores y covariables (variable cualitativa y
se ejecutará será logística binaria. La segunda cuantitativa, respectivamente), en este apartado
acción (efectos fijos) será indicar que variables se podrían ir incorporando según los pasos que
son los predictores en el modelo. se quiera seguir.
INCASI Network | 15
Mattia Vacchiano & Jordi Merino Noé
Figura 10. Cuadro de diálogo de diseño de las variables independientes en los efectos fijos.
16 | INCASI Network
Mattia Vacchiano & Jordi Merino Noé
Una vez realizado el modelo se puede proceder clicar dos veces en el cuadro de resultados que
a indicar “ejecutar” para realizar los resultados aparece.
o “pegar” para trasladarlo a lenguaje de sintaxy
(ver Figura 13). En la parte izquierda del visor aparece el
diálogo estructurado por parámetros (Figura
b. Visor de resultados. 14), y permite ir directamente a la consulta de
los datos. Para las primeras veces se aconseja ir
Una vez ejecutado el análisis en la ventana de a la última ventana dónde hay un resumen de
resultados aparece la información genérica del todos los pasos que se han realizado en el
modelo y de los casos incorporados. Hay que
INCASI Network | 17
INCASI Working Paper Series, 2018, No. 2
modelo y las opciones de construcción, así los modelos mixtos (no se ofrece figura). Esto
como las variables que se han utilizado, además ayudará a ir familiarizándose y ayudar a ser más
de una información básica sobre el método y ejecutivo en futuros análisis.
En la ventana de resumen del modelo se facilita asocian con la inserción por redes personales,
poder consultar la bondad de ajuste del modelo siendo esta relación estadísticamente
a través de los criterios de información, pero significativa:
como ya se ha expuesto anteriormente en los
casos de RLM no son muy procedentes. – Se aprecia que el sexo determina la inserción
por mecanismo informal (redes), siendo la
En la ventana de los coeficientes fijados la proporción de ORA significativa para los
visualización de datos aparece de forma gráfica hombres con un valor de 1,47 (IC95%=
y coloreada según la asociación sea positiva o 1,08-1,98) sobre la referencia de mujeres.
negativa y con un grosor proporcional a su
peso sobre la variable dependiente. Poniendo el – Se observa también que cuando el empleo
cursor encima de las líneas aparecerá la no es una actividad laboral principal su
información sobre dicho valor. Además, en la asociación con la variable dependiente es
parte inferior aparece una opción para preservadora. Esto es, una actividad laboral
visualizar la información del modelo mediante principal se obtiene con menor probabilidad
una tabla (Figura 15). mediante contactos personales. Otra lectura
de este dato nos permite decir que si el
A través de la tabla de resultados (Figura 16) se empleo obtenido es una actividad laboral
pueden interpreter las estimaciones o las principal la probabilidad de encontrar
Oportunidades Relativas Asociadas (ORA), que trabajo mediante redes será de un 68%
son la elevación exponencial de las menor en comparación con una actividad
estimaciones. A nivel inicial tanto el sexo como laboral secundaria.
la actividad principal o el tipo de contrato se
18 | INCASI Network
Mattia Vacchiano & Jordi Merino Noé
Figura 16. Distribución de las estimaciones y las ORA de los efectos fijados.
A través de la tabla de resultados (Figura 16) se – Se aprecia que el sexo determina la inserción
pueden interpreter las estimaciones o las por mecanismo informal (redes), siendo la
Oportunidades Relativas Asociadas (ORA), que proporción de ORA significativa para los
son la elevación exponencial de las hombres con un valor de 1,47 (IC95%=
estimaciones. A nivel inicial tanto el sexo como 1,08-1,98) sobre la referencia de mujeres.
la actividad principal o el tipo de contrato se – Se observa también que cuando el empleo
asocian con la inserción por redes personales, no es una actividad laboral principal su
siendo esta relación estadísticamente asociación con la variable dependiente es
significativa: preservadora. Esto es, una actividad laboral
19 | INCASI Network
INCASI Working Paper Series, 2018, No. 2
20 | INCASI Network
Mattia Vacchiano & Jordi Merino Noé
INCASI Network | 21