Incasi Working Paper Series: Introducción A La Lógica Multinivel: Un Análisis Longitudinal Con SPSS y R

Download as pdf or txt
Download as pdf or txt
You are on page 1of 21

Mattia Vacchiano & Jordi Merino Noé

INCASI
Working Paper Series
2018, No. 2

Introducción a la lógica multinivel:


un análisis longitudinal con SPSS y R
Mattia Vacchiano
Jordi Merino Noé

Marie Skodowska-Curie Actions (MSCA)


Research and Innovation Staff Exchange (RISE)
H2020-MSCA-RISE-2015
GA-691004
Grup de Recerca
en Educació i
Treball

Introducción a la lógica multinivel:


un análisis longitudinal con SPSS y R

Mattia Vacchiano1
Jordi Merino Noé2

1
Centre d'Estudis Sociològics sobre la Vida Quotidiana i el Treball (QUIT)
Institut del Treball (IET)
UniversitatAutònoma de Barcelona, Spain
[email protected]
2
Unitat de Sociologia. Departamentd’Empresa.
Universitat de Girona, Spain
[email protected]

Marie Skodowska-Curie Actions (MSCA)


Research and Innovation Staff Exchange (RISE)
H2020-MSCA-RISE-2015
GA-691004
INCASI Working Paper Series is an online publication under Creative Commons license. Any
person is free to copy, distribute or publicly communicate the work, according to the following
conditions:
Attribution. All CC licenses require that others who use your work in any way
must give you credit the way you request, but not in a way that suggests you
endorse them or their use. If they want to use your work without giving you
credit or for endorsement purposes, they must get your permission first.
NonCommercial. You let others copy, distribute, display, perform, and (unless
you have chosen NoDerivatives) modify and use your work for any purpose
other than commercially unless they get your permission first.
NoDerivatives. You let others copy, distribute, display and perform only
original copies of your work. If they want to modify your work, they must
get your permission first.
There are no additional restrictions. You cannot apply legal terms or technological measures
that legally restrict doing what the license allows.

This working paper was elaborated in the context of INCASI Network, a European project that
has received funding from the European Union’s Horizon 2020 research and innovation
programme under the Marie Skłodowska-Curie GA, No. 691004, and coordinated by
Dr. Pedro López-Roldán. This article reflects only the author’s view and the Agency is not
responsible for any use that may be made of the information it contains.

Digital edition: https://ddd.uab.cat/record/188612

Dipòsit Digital de Documents


Bellaterra, Cerdantola del Vallès (Barcelona)
Universitat Autònoma de Barcelona
INCASI Working Paper Series
2018, No. 2
Published online: https://ddd.uab.cat/record/188612

Introducción a la lógica multinivel: un análisis longitudinal


con SPSS y R
Mattia Vacchiano
Jordi Merino Noé

Resumen
Este artículo propone una breve introducción al análisis multinivel. El objetivo del
texto es facilitar algunos principios teóricos y metodológicos básicos para el uso de
esta técnica de análisis en la investigación sociológica. La potencialidad de esta
técnica se fundamenta en una lógica que permite medir la importancia del contexto
en el que se generan las observaciones, midiendo la influencia e interacción entre los
distintos niveles en el que se articulan los datos. En este sentido, los modelos
multinivel constituyen la metodología de análisis más adecuada en el momento actual
para tratar datos estructurados de forma jerárquica. El texto se divide en dos partes:
una primera sección argumenta los conceptos teóricos de base de la técnica
multinivel. En una segunda sección se propone un ejemplo de aplicación de un
modelo de regresión logística multinivel (RLM) a un estudio sobre la inserción
laboral juvenil en el Área Metropolitana de Barcelona.
Palabras clave
Análisis multinivel, SPSS, R, Inserción juvenil, Datos longitudinales, Redes sociales
Índice
1. Introducción. La lógica multinivel: la importancia del contexto. Los modelos
multinivel: conceptos clave. ¿Cuándo se puede aplicar el análisis multinivel? 2. La
inserción juvenil en Barcelona: una guía al análisis multinivel con SPSS y R. El
modelo multinivel: estructura, objetivos e hipótesis. El proceso de modelaje en R. El
proceso de modelaje en SPSS. 3. Conclusiones. 4. Referencias.

1. Introducción países) con otras variables de contexto, si bien


estas últimas no se configuran únicamente
1.1. La lógica multinivel: la importancia del como un atributo de la unidad misma. Los
contexto análisis de este tipo resultan inexactos, ya que
tratan los datos como si estos se articulasen en
Una de las preocupaciones de la sociología, en un único nivel cayendo en la llamada «falacia
tanto que disciplina, ha sido intentar medir las ecológica»: es decir, atribuyen erróneamente
regularidades sociales y procurar entender qué que las características de un contexto inciden en
factores contextuales inciden y ayudan a todas las unidades de análisis (Murillo
mejorar la comprensión de un fenómeno. Con Torrecilla, 2008).
ello, tradicionalmente, las ciencias sociales han
utilizado técnicas de análisis cuantitativas para Para obviar este problema cabe considerar que
analizar conjuntamente las características de las observaciones que investigamos se articulan
una unidad de análisis (personas, organizaciones, en múltiples niveles. Significa que algunas

INCASI Network |5
INCASI Working Paper Series, 2018, No. 2

variables están agrupadas dentro otras variables enseñanza y docentes que pueden determinar o
y, en este sentido, los datos que estamos influir en los resultados escolares. Es decir,
analizando se organizan en un orden jerárquico. estos factores contextuales pueden incidir en la
Es el caso, por ejemplo, de una investigación variabilidad de la característica que queremos
que quiera analizar la nota media en historia del investigar: la nota en historia del arte. Con ello,
arte de un grupo de estudiantes: (i) los ejemplificando, puede que se observe una cierta
estudiantes están agrupados en aulas o cursos; homogeneidad en los resultados en historia del
(ii) las aulas están agrupadas en escuelas o arte entre los estudiantes que frecuentan la
centros educativos; (iii) las escuelas están misma clase. Tener en cuenta esta
agrupadas en distritos o provincias (Figura 1). homogeneidad e influencia estructural (clase,
docentes, experiencias compartida) sobre ella
Aulas, escuelas o distritos no son simple es, en definitiva, el objetivo principal del análisis
atributos de los estudiantes. En una misma aula multinivel.
se comparten experiencias, métodos de

Figura 1. Ejemplo de datos estructurados en dos niveles. Estudiantes (nivel 1) y clases (nivel 2).

Fuente: Elaboración propia

1.2. Los modelos multinivel: conceptos ampliaciones de los modelos de regresión lineal
clave y logística, ya que nos permiten elaborar
modelos de regresión para cada nivel de
Si las observaciones que investigamos se análisis, permitiéndonos entender la interacción
articulan en múltiples niveles, entonces la en cada uno de ellos(Murillo Torrecilla, 2008).
estrategia de análisis multinivel nos permite Para comprender la aportación de una lógica de
trabajar con dos (o más) unidades de análisis, este tipo al análisis, es necesario ilustrar dos
dependiendo del número de niveles en el que se aspectos capaces de evidenciar la potencialidad
articula la estructura jerárquica de nuestros de la técnica multinivel: (1) la diferencia entre
datos. Es el investigador/a el que establece la random effect y fixed effect y (2) la correlación
clasificación de los niveles según sus objetivos, intraclase (Snijders et al., 1995):
modelo de análisis y bagaje teórico. Con ello, en
definitiva, los modelos multinivel1 representan 1. Para entender la distinción entre random effect
(coeficiente aleatorio) y fixed effect (coeficiente
fijo), cabe considerar que en los modelos de
1 A nivel general se habla de modelos multinivel, pero
también son denominados modelos jerárquicos (por la
estructuración de los datos), modelos mixtos o mixtos parámetros aleatorios) y también de regresión lineal o
categóricos (porque utilizan parámetros fijos y logística multinivel (Merino, 2017).

6| INCASI Network
Mattia Vacchiano & Jordi Merino Noé

regresión lineal clásicos los parámetros, el evaluar un modelo ya que facilita una medida
intercepto y la pendiente, son comunes a de la similitud entre los grupos, indicando
todos los sujetos: es decir, son estimados a qué parte de la variabilidad total es debida a
partir de todas las observaciones y se la variabilidad de las observaciones en cada
asumen como coeficientes fijos, nivel2.
representativo de toda la muestra. En una
estructura multinivel, en cambio, estos Tabla 1. Comparación entre probabilidad, odds
coeficientes son aleatorios: es decir, cada y log odds.
grupo tiene su propio intercepto y Probabilidad odds log odds
pendiente, como representación específica .001 .0010010 -6.906755
de cada contexto. Con ello, los coeficientes .01 .0101010 -4.595120
de regresión del nivel “uno” se regresan en .15 .1764706 -1.734601
.2 .25 -1.386294
el nivel superior, y así sucesivamente hasta .25 .3333333 -1.098612
obtener un modelo general. Esta distinción .30 .4285714 -.8472978
representa la gran aportación del análisis .35 .5384616 -.6190392
multinivel, ya que la composición de los .4 .6666667 -.4054651
modelos multinivel en dos partes (una parte .45 .8181818 -.2006707
.5 1 0
general, fija, y una variable, que varía en cada .55 1.222222 .2006707
grupo) implica que las variables interactúan .6 1.5 .4054651
en distintos niveles (interacción internivel). Así .65 1.857143 .6190392
pues, básicamente se puede estimar el efecto .7 2.333333 .8472978
de las variables — ó factores — explicativas .75 3 1.098612
.8 4 1.386294
del fenómeno a través de los efectos fijos y .85 5.666667 1.734601
la estimación de qué parte de la variabilidad .999 999 6.906755
podría ser imputable a cada nivel a través de .9999 9999 9.210240
los efectos aleatorios. Fuente: Fuente (última consulta Marzo 2017): Institute
for Digital Research (http://stats.idre.ucla.edu/).
2. La correlación intraclase es la medida del grado
de dependencia de los individuos (Murillo Aunque la intención inicial de los modelos
Torrecilla, 2008). Es una estimación que multinivel fue la de ampliar los modelos de
interpreta qué similares pueden ser las regresión lineal, los investigadores/as han ido
unidades de análisis en un mismo grupo y, extendiendo la lógica multinivel también a los
en este sentido, nos ayuda a comprender estudios con variables dependientes de tipo
cuanto los resultados de nuestro modelo categórico des de hace algunos años (Heck et al.,
general podrían depender de la 2012). En este caso, siendo la variable respuesta
homogeneidad del contexto. Si el valor de de carácter dicotómico, se asume que su
esta medida se acerca a cero, significa que transformación logarítmica realiza una relación
los grupos no son homogéneos lineal con los factores predictores. Con ello, los
internamente y por lo tanto este nivel grupal resultados de los modelos de RLM se basan en
(este contexto) no influye en los resultados, coeficientes de regresión, cuya interpretación se
ya que ser o no ser parte de un grupo es basa en los conceptos de probabilidad, odds ratio
prácticamente irrelevante en el análisis. Es (u Oportunidades Relativas Asociadas, ORA) y
decir, si pertenecer a un grupo o contexto es
importante y hay puntuaciones en los datos
bastante similares a nivel interno la 2 El coeficiente de correlación intraclase (ICC) se aplica
diferencia entre grupos será más acentuada principalmente en los modelos de regresión lineal
al existir una mayor variabilidad entre ellos, multinivel, puesto que su estimación proviene del análisis
por tanto, un valor mayor. Este valor de la varianza residual. En este sentido, la capacidad del
ICC de medir la homogeneidad interna de los grupos o
ofrecido por el coeficiente de correlación niveles en modelos con variables categóricas (esto es, en
intraclase (ICC) es uno de los aspectos más los modelos de regresión logística multinivel) es objeto
importantes de tener en cuenta a la hora de de debate (Bauer y Sterba, 2011; Berkhof y Snijders,
2001)

INCASI Network |7
INCASI Working Paper Series, 2018, No. 2

log odds. Muy brevemente, asumido el concepto como contextuales sobre una variable
de probabilidad como un valor que varía entre dependiente (interacción intranivel).
0 y 1, el odds ratio se define como la posibilidad 3. Se quiera observar por separado la incidencia
de que un evento ocurra frente a la posibilidad y varianza dentro del grupo con los otros
de que no ocurra (Szumilas, 2010), esto es, la niveles de agrupación (correlación intraclase).
posibilidad que nuestra variable respuesta
asuma un valor en base a la referencia. La 2. La inserción juvenil en Barcelona: una
transformación desde la probabilidad al odds guía al análisis multinivel con SPSS y R
implica que al aumentar la probabilidad
aumenta también el valor del odds. Con ello, En esta segunda sección proponemos un
los resultados de los modelos RLM pueden ejemplo de aplicación de un modelo de
expresarse también mediante el logaritmo del regresión logística multinivel en un estudio
odds (log odds), el cual puede asumir la forma sobre la inserción laboral juvenil de 250
negativa o positiva (Tabla 1), o también a partir jóvenes entre 20 y 34 años en el Área
de la interpretación exponencial de éste con un Metropolitana de Barcelona. El estudio,
intervalo de confianza para estudios que buscan denominado «Redemas»3 y realizado por el
proporciones de que el fenómeno suceda. Centre d'Estudis Sociològics sobre la Vida
Quotidiana i el Treball (QUIT) ha sido
1.3. ¿Cuándo se puede aplicar el análisis financiado por el Ministerio de Economía y
multinivel? Competitividad (Ref: CSO2012-36055) con el
objetivo, entre los demás aspectos, de
Como se ha mencionado, para realizar un comprender el peso de los contactos
análisis multinivel cabe considerar y definir la personales como vía de acceso al empleo antes
estructura jerárquica en la que se organizan y durante la crisis económica. Con ello, el
nuestros datos. En primer lugar, cuando las estudio obtuvo información socioeconómica
observaciones se generan en un determinado sobre la persona encuestada, reconstruyó las
contexto (o nivel) es necesario tener en cuenta trayectorias laborales de los entrevistados/as
el problema de la dependencia entre las de manera retrospectiva y obtuvo, mediante un
observaciones. Significa que el comportamiento generador de nombres, el listado de 20
de una determinada observación puede influir o personas que componen la red social de los
depender del comportamiento de otra, aspecto encuestados/as, analizando el peso de estos
que puede observarse precisamente entre contactos como vía de acceso al empleo.
observaciones que se generan en el mismo
contexto. Los datos longitudinales obtenidos para
reconstruir las trayectorias laborales –que
El análisis multinivel, entonces, se aplica para utilizamos para construir nuestro modelo
todos aquellos conjuntos de datos en el que las multinivel– se basan en una life history grid, esto
observaciones no son independientes, y que es, una parrilla temporal en que se van
además puedan estar agrupadas en diferentes situando todas las actividades laborales (y
niveles. Esta atención hacía el tipo de formativas) que componen la trayectoria de la
estructuración de los datos soluciona el persona encuestada. De esta manera, la
problema de la dependencia entre los datos, y muestra de datos recoge los eventos educativos
permite obtener resultados más robustos y o de empleo, los acontecimientos laborales de
fiables (Cebolla, 2013). El análisis multinivel, carácter informal y los períodos de desempleo,
por tanto, se puede utilizar en todos aquellos con o sin prestación. Asimismo, para cada
estudios en el que: actividad laboral (además de conocer sus

1. Los datos se estructuren de forma jerárquica.


2. Se quiera trabajar en un mismo modelo 3 El nombre completo del proyecto es: «Las redes
diferentes predictores tanto individuales sociales, en sus diferentes modalidades, como recursos y
mecanismos de búsqueda laboral e inserción laboral en el
empleo y de apoyo social en los jóvenes».

8| INCASI Network
Mattia Vacchiano & Jordi Merino Noé

características), la muestra recoge el trayectoria laboral de pertenencia de los


mecanismo de acceso al empleo (por vía empleos. En este caso consideramos:
formal o por contacto personal).
– los empleos (eventos laborales) como
nuestra unidad de análisis (nivel 1)
2.1. El modelo multinivel: estructura,
objetivos e hipótesis – los jóvenes como el “contexto” en el que
se generan las observaciones (nivel 2)
En el marco de este estudio, por tanto,
¿Por qué aplicamos la lógica multinivel?
aplicamos la lógica multinivel para comprender
Porqué nuestras observaciones o unidades de
los factores explicativos de la inserción laboral
análisis (los empleos) no son independientes.
juvenil mediante las redes personales.
Precisamente, los empleos, como primer nivel
Precisamente, nos preguntamos si la obtención
en la estructuración de nuestros datos, se
de empleos (tanto formales como informales)
generan en el contexto de la trayectoria laboral
mediante contactos puede explicarse por
de un joven, que por tanto representa el
alguna característica de los jóvenes
segundo nivel de nuestros datos. Por lo tanto,
entrevistados/as, o bien por las características
cabe considerar como la variabilidad de las
de los empleos obtenidos o, diversamente por
características de los empleos que componen
qué estas inserciones laborales se han
una trayectoria es dependiente de las
producido durante o antes de la crisis
características del joven, que en este caso
económica4.
representaría nuestro contexto.
Para responder a esta pregunta, considerada la En definitiva, aplicamos un análisis multinivel
estructura de los datos del proyecto Redemas, ya que:
necesitamos implementar un modelo de
regresión logística multinivel, como 1. Los casos no son independientes y se
especificamos más adelante5. estructuran de forma jerárquica o
anidada. Los eventos laborales tienen
a. Organización de los datos algo en común, la pertenencia a la
Como primer paso, cabe identificar la trayectoria laboral de un joven.
estructura jerárquica en el que se organizan los 2. Se quiere trabajar en un mismo modelo
datos de la matriz Redemas.sav. Nótese que en diferentes predictores, relacionados tanto
las primeras dos columnas se señalan los con las características de los empleos
niveles que componen la matriz: las filas como con las características de los
representan los empleos (o eventos laborales) jóvenes sobre una variable dependiente
que componen la carrera laboral, y por lo tanto (interacción internivel).
representan el nivel más bajo de la estructura 3. Se quiere observar por separado la
(ID_evento_Nivel1). En la primera columna, incidencia y varianza de los eventos
en cambio, la variable (ID_caso_Nivel2) laborales, a nivel grupal, como al nivel de
representa el número de identificación de los los jóvenes (correlación intraclase).
250 jóvenes de la muestra, lo cual nos indica la
b. Objetivos, hipótesis y modelo
El planteamiento de un modelo multinivel,
como toda técnica de análisis, responde de los
4La inserción mediante redes personales ha sido asociada objetivos de investigación y las hipótesis
tanto a los ciclos económicos (Requena, 1991) como a la
obtención de empleos poco cualificados (Rieucau, 2008) especificas relacionadas con el objeto de
o a las características de las personas que buscan empleo, estudio. En este caso hemos decidido centrar
especialmente aquellos pertenecientes a grupos más nuestro interés en una variable: el canal de
vulnerables (Smith, 2000). acceso al empleo (V7.Metodo.de.inserción en
5
Es posible acceder a la matriz de datos Redemas.sav a la matriz Redemas.sav).
través del siguiente enlace:
http://incasi.uab.cat/sites/incasi.uab.cat/files/Redemas.
sav. Esta variable nos indica como ha sido

INCASI Network |9
INCASI Working Paper Series, 2018, No. 2

obtenido el empleo, distinguiendo entre: los contactos se asocien con mayor


mecanismos formales (anuncios, convocatorias probabilidad a empleos precarios, irregulares o
u ofertas públicas de empleo) o mecanismos complementarios.
informales (contactos personales). Nuestra
hipótesis de partida es que las redes, por sus A partir de estas hipótesis, planteamos un
características de informalidad y rapidez, se modelo de regresión logística binomial
han convertido en un canal de acceso al multinivel. La variable dependiente (VD) es el
empleo prioritario en tiempos de crisis. En este mecanismo de acceso al empleo (formales o
sentido, planteamos un modelo de regresión informales) mientras las variables
logística multinivel para medir si los eventos independientes (VI) están relacionadas con las
laborales obtenidos a través los contactos características del evento y las características de
personales han aumentado en los años de los y las jóvenes. En este caso, incluimos en
recesión económica. Además, también nuestro modelo cuatro variables dicotómicas
esperamos que los empleos obtenidos a través (Tabla 2).

Tabla 2. Definición de variables


Variables Nivel Definición
Dependiente
Mecanismo formal o informal uno El empleo ha sido obtenido por contacto personal [1] o por
de acceso al empleo otros mecanismos de inserción [0]
V7.Metodo.de.inserción
Independientes
Importancia de la actividad uno Indica si el empleo es una actividad laboral principal [1] o una
V5. Importancia.actividad. actividad secundaria y complementaria [0]
Relación laboral uno Identifica la relación laboral del empleo: con contrato [0] o sin
V9.1. Tipodecontrato_illegal. contrato [1]
Inserción en contexto de crisis uno Señala si el empleo se ha obtenido antes de la crisis (1996 –
V10.Crisis. 2008) [0] o durante la crisis (2008-2014) [1]
Sexo del entrevistado/a dos El sexo del entrevistado, mujer [0] o hombre [1]
V13.Sexo.

2.2. El proceso de modelaje en R diferenciadas6:


1. En el área en alto a la izquierda podemos
a. Instalación de RStudio abrir y editar ficheros con código R,
Presentamos el procedimiento para construir el denominados Scripts. Este código representa
modelo multinivel con R. Sabemos que este el lenguaje de R.
programa es un lenguaje de programación 2. En la parte inferior izquierda podemos
orientado a objetos y que es un software libre y observar la console de R, a través la cual
abierto, lo cual representa una primera ventaja ejecutamos las operaciones en R y
en comparación al uso del programa SPSS. visualizamos los resultados.
3. En alto a la derecha encontramos las
En primer lugar, necesitamos instalar el ventanas del History (el historial de las
programa RStudio a través: http://rstudio.org/. operaciones en R, con las líneas de código
Este programa permite la visualización ejecutada) y Environment (donde
simultánea de los entornos de trabajo de R, y visualizamos el listado de objetos creados
mejora la eficiencia y usabilidad del programa. en R).
RStudio se organiza en cuatro áreas de trabajo

6 Esta información se ha extraído del material de la


asignatura “Mètodes Quantitatius de Recerca en
Criminologia” del Dr. Pedro López-Roldán y Dra.
Sandra Fachelli.

10 | INCASI Network
Mattia Vacchiano & Jordi Merino Noé

4. Bajo a la derecha, finalmente, encontramos Script.R.7


cuatro ventanas:
 Files: para acceder a los ficheros del Sucesivamente, será posible visualizar el
disco duro; contenido de este texto a través el menú
contextual File  Open File…
 Plots: para visualizar los gráficos;
 Packages: para la gestión de los paquetes Después de haber seleccionado nuestra working
instalados. directory, si queremos ejecutar una función es
 Help: para acceder a la ayuda en línea. necesario cumplir dos pasos: (i) instalar los
paquetes necesarios y (ii) cargarlos. En el
b. Ejecutar el modelo lenguaje de R, un paquete es una recolección de
funciones, datos y códigos que nos permiten
Procedemos paso a paso para ejecutar el operar en el entorno de R. Solo necesitamos
modelo. En primer lugar, cabe controlar instalar el paquete la primera vez, mientras cabe
nuestra working directory. La working directory es la cargarlo todas las veces que abrimos R.
carpeta donde guardamos todos los archivos
con los cuales trabajamos en R. Para saber cuál Por lo tanto, el paso siguiente es instalar los
es nuestra working directory ejecutamos el paquetes necesarios para poder ejecutar la
comando: getwd() en la consola de R (ventana función que nos permite calcular nuestro
baja a la izquierda). modelo multinivel. Con ello, tenemos que
Con todo, podemos elegir la carpeta donde ejecutar en la consola el siguiente código:
trabajar a través el comando setwd (“Nombre
carpeta” o bien a través el Menú, a través Session install.packages("lme4")
install.packages("optimx")
Set Working directory  Choose Directory… install.packages("RVAideMemoire")
install.packages("sjPlot")
Elegiremos la carpeta donde tenemos guardado install.packages("arm")
nuestra matriz de datos Redemas.sav. install.packages("VGAM")
install.packages("MASS")
Figura 2. Visualización del código del fichero
Script.R Sucesivamente, el comando “Library” nos
permite cargar los paquetes:

library(foreign)
library(lme4)
library(optimx)
library(RVAideMemoire)
library(sjPlot)
library(MASS)
library(arm)
library(VGAM)

Podemos comprobar que los paquetes hayan


sido instalados y cargados correctamente a
través la ventana “Packages” en la parte baja a la
derecha de Rstudio (Figura 3).

Una vez seleccionada la working directory,


podemos guardar en la carpeta tambiém el file
7
Mediante el enlace a la página
http://incasi.uab.cat/sites/incasi.uab.cat/files/Script.R
es posible acceder también al file Script.R para visualizar
todos los comandos necesarios a la realización del
modelo presentado en este texto.

INCASI Network | 11
INCASI Working Paper Series, 2018, No. 2

Una vez instalados y cargados los paquetes, el Figura 5. Visualización de la matriz de datos
paso siguiente es cargar en R nuestra matriz de
datos, a través los comandos:

Matriz <- read.spss("Redemas.sav", to.data.frame=TRUE)


attach (Matriz)

Figura 3. La ventana “Packages”

La fórmula separa la variable dependiente, a la


izquierda, con el operador ~ y las variables
independientes con el operador +, a la derecha.
Los efectos aleatorios se distinguen a través la
barra vertical (“|”).

MODELO <- glmer(VD ~ VI + VI + VI + VI + (1


|”VARIABLE_NIVEL2”), family = binomial(logit),
control=glmerControl(optimizer="bobyqa", optCtrl =
Una vez instalados y cargados los paquetes, el list(maxfun = 100000)))
paso siguiente es cargar en R nuestra matriz de
datos, a través los comandos: Creamos el objeto “MODELO1” e insertamos
las variables del modelo en las partes
Matriz <- read.spss("Redemas.sav", to.data.frame=TRUE) correspondientes:
attach (Matriz)
MODELO1<- glmer(V7.Metodo.de.insercion ~ V13.Sexe +
Podemos averiguar que la matriz ha sido V5.Importancia.actividad + V9.1.TipodeContrato_Illegal +
cargada correctamente a través la ventana V10.Crisis + (1 | ID_caso_Nivel2), family = binomial(logit),
control=glmerControl(optimizer="bobyqa", optCtrl = list(maxfun
“Environment” (Figura 4). = 100000)))

Figura 4. La ventana “environment”8 Es importante saber que todos estos pasos


pueden ser ejecutados directamente a través el
código presente en el Script. En este caso
podemos subrayar la línea de código del
Modelo y clicar el botón RUN, en alto a la
derecha de la ventana.

Figura 6. La línea de código del modelo


Visualizamos la matriz en la ventana en alto a la
derecha clicando dos veces sobre el objeto
Matriz a través la misma ventana (Figura 5).

Una vez cumplidos todos estos pasos podemos


efectivamente ejecutar el código de la función
glmer (Generalized Linear Mixed-Effects Models).

8 En la visualización el objeto Matriz se nombra


Matriz_taller

12 | INCASI Network
Mattia Vacchiano & Jordi Merino Noé

Una vez ejecutado este comando notaremos  Akaike’s information criterion (AIC)
haber creado el objeto “MODELO1” en la  Schwarz’s Bayesian criterion (BIC)
ventana “Environment”. Significa que ya Ninguno de los dos test puede ser
disponemos de nuestros resultados y solo intrínsecamente interpretable. Esencialmente
necesitamos visualizarlo a través el comando: valores más bajos señalan una mayor bondad de
summary (MODELO1) ajuste, aunque algunos autores señalan que
estos indicadores son más adecuados en el caso
Comentamos punto por punto los resultados de regresiones lineales donde tiene más sentido
obtenidos: apreciar las sensibilidades en los procesos
secuenciales a medida que se incorporan nuevas
1. Como en una regresión logística para variables o covariables en el modelo (Bauer y
conocer la bondad de ajuste disponemos de Sterba, 2011).
distintos test. Dos son los principales:

Figura 7. Visualización de los resultados

2. Como sabemos los modelos multinivel se formula:


componen de dos partes: una parte fija y una (STdev)^2 / (3.29 + (STdev)^2).
variable. El apartado “Random effect” señala la
desviación estándar de la parte variable, En nuestro modelo, esto es: ICC= 0.6458/
permitiéndonos calcular el coeficiente de (3,29 + 0.6458) = 0.164. Esto se puede
correlación intraclase (ICC), es decir el interpretar de forma porcentual indicando que
porcentaje (%) de varianza de la VD explicada el 16,4% de la probabilidad que un empleo se
por el factor aleatorio (en este caso, los consiga por contacto personal depende de las
jóvenes). Para calcular el ICC usamos la características del joven.

INCASI Network | 13
INCASI Working Paper Series, 2018, No. 2

3. En este apartado visualizamos efectivamente modelos multinivel con variables respuesta de


nuestro modelo general. En el modelo se tipo categórico a través de los denominados
evidencian: modelos lineales mixtos generalizados
(GLMM). Con las versiones posteriores se han
– Estimate: los coeficientes estimados por ido mejorando los procesos y el manejo de
cada variable. diferentes tipos de variables y funciones, como
– St. Error: la desviación estándar es el caso de la versión 22.0.
– Z value: los residuos
– P value: la significación Es central que antes de proceder a la
explotación estadística el investigador/a tenga
Notamos que nuestra hipótesis se confirma clara la estructura del modelo que desea
solo parcialmente. Los coeficientes señalan una realizar. En primer lugar, hay que tener en
asociación positiva de las variables “sexo”, cuenta que la composición de las variables
“tipo de contrato” y “crisis” (aunque solo las disponga de la estructura necesaria para
primeras dos son significativas tal y como se proceder a su análisis. La variable respuesta ha
aprecia en el valor Pr donde están por debajo de ser dicotómica y las variables predictoras
de 0,05) y una asociación negativa en la variable han de ser categóricas (nominales u ordinales) o
“importancia de la actividad”. En este caso: también variables de tipo lineal.

– el modelo destaca una mayor probabilidad Este modelo responderá a la pregunta de


que los empleos obtenidos por contacto investigación que el investigador/a quiera hacer
personal sean trabajos sin contrato, y ha de estar sustentado en algún bagaje teórico
obtenido por hombres, y que no sean una que facilite la posterior interpretación de los
actividad principal, sino secundaria o resultados. Siguiendo el modelo anterior
complementar a otra actividad de estudio o realizaremos el modelo paso a paso con SPSS.
de trabajo, como planteado en nuestra
hipótesis. a. Ejecución del modelo
– Sin embargo, la variable crisis, si bien se
Los datos se estructuran en diferentes ventanas:
asocia positivamente, no es significativa,
una de visualización de la información (dónde
por lo tanto, no podemos afirmar que
se puede apreciar la matriz de datos y el listado
obtener empleos por contacto personal sea
de variables), una ventana de sintaxis (que
más probable en una época de crisis, sino
recoge los procedimientos utilizados) y una
más bien este mecanismo de acceso al
ventana de resultados (ver Figura 8).
empleo se configura como una
característica estructural del mercado
Figura 8. Distribución de la información de las
laboral en el contexto investigado.
variables en la pestaña “vista de variables”.
4. Finalmente, en el último apartado
visualizamos las correlaciones entre las
variables. Esta matriz nos permite identificar
problemas de multicolinealidad en el modelo
general. En nuestro modelo no se observan.

2.3. El proceso de modelaje en SPSS

El procesador IBM SPSS es un paquete


estadístico históricamente utilizado en las
universidades, en combinación con otros
paquetes, y con una implantación considerable
en el mercado privado. A partir de su versión
19.2 incorpora la posibilidad de poder realizar

14 | INCASI Network
Mattia Vacchiano & Jordi Merino Noé

Realizamos las operaciones a partir de la Si es la primera vez que se realiza el


secuencia de comandos de la barra superior (o procedimiento en un procesador SPSS es
bien a través la ventana de sintaxy). Existen posible que aparezca una ventana de diálogo
diferentes rutas para realizar modelos para recordar que el nivel de medición cabe
multinivel, pero en el caso de variables realizarlo manualmente. En este caso se
dependientes categóricas (dicotómicas) la ruta aconseja indicar “asignar manualmente”.
es la siguiente: Después aparecerá una ventana de diálogos
donde hay diferentes pestañas para proceder
Analizar > Modelos Mixtos > Lineales generalizados al análisis paso a paso. En los cuadros de las
(modelos mixtos según versión) pestañas hay diferentes opciones, pero solo se
hará mención a las que tienen a ver con el
Realizamos las operaciones a partir de la modelo que se está realizando.
secuencia de comandos de la barra superior (o
bien a través la ventana de sintaxy). Existen La primera pestaña es la de estructura de datos.
diferentes rutas para realizar modelos En el cuadro hay que arrastrar las variables en
multinivel, pero en el caso de variables los niveles que se quiera agrupar. Se entiende
dependientes categóricas (dicotómicas) la ruta que el primer nivel lo conforman los empleos
es la siguiente: por tanto solo hay que incorporar el segundo
nivel de nuestros datos, en este caso el número
Analizar > Modelos Mixtos > Lineales generalizados de identificación los jóvenes (ID_Entrevistado).
(modelos mixtos según versión)

Figura 9. Cuadro de dialogo de estructuración de los datos.

En la segunda pestaña se definen los campos y Se aconseja no añadir ninguna variable para
los efectos (Figura 10). Estos están compuestos obtener el modelo nulo si se deseara hacer un
por cuatro acciones que aparecen en el cuadro análisis paso a paso. El modelo nulo indicaría la
de diálogo de la banda izquierda. En la primera variabilidad del contexto sin los predictores.
acción (destino) cabe definir la variable Para modelos más complejos, con agrupaciones
independiente y remarcar que la regresión que de factores y covariables (variable cualitativa y
se ejecutará será logística binaria. La segunda cuantitativa, respectivamente), en este apartado
acción (efectos fijos) será indicar que variables se podrían ir incorporando según los pasos que
son los predictores en el modelo. se quiera seguir.

INCASI Network | 15
Mattia Vacchiano & Jordi Merino Noé

Figura 10. Cuadro de diálogo de diseño de las variables independientes en los efectos fijos.

Figura 11. Cuadro de dialogo de efectos aleatorios.

La acción tercera (Figura 11) corresponde a la suficiente el intercepto por su tipo de


elección del intercepto del modelo en los distribución en dos valores.
parámetros aleatorios (se aconseja en el tipo de
componentes de la varianza en relación a los La cuarta opción es por si hubiera que ponderar
efectos aleatorios, aunque hay otras opciones). la muestra, elección que también puede hacerse
Para modelos más compuestos se podrían mediante otros comandos de SPSS. Las
incorporar otros bloques de efectos aleatorios, opciones de generación, que son la última
pero en el caso de modelos dicotómicos es pestaña, indican cómo se desea ver los

16 | INCASI Network
Mattia Vacchiano & Jordi Merino Noé

resultados. Es importante remarcar el intervalo los resultados en función de la categoría de


de confianza al 95% (que nos ayudará, por referencia que deseemos comparar, por
ejemplo, a interpretar las Oportunidades ejemplo, hombres = 1, mujeres = 0 (ver Figura
Relativas Asociadas, ORA) y la composición de 12).

Figura 12. Opciones de generación de los resultados.

Figura 13. Ventana de Sintaxy.

Una vez realizado el modelo se puede proceder clicar dos veces en el cuadro de resultados que
a indicar “ejecutar” para realizar los resultados aparece.
o “pegar” para trasladarlo a lenguaje de sintaxy
(ver Figura 13). En la parte izquierda del visor aparece el
diálogo estructurado por parámetros (Figura
b. Visor de resultados. 14), y permite ir directamente a la consulta de
los datos. Para las primeras veces se aconseja ir
Una vez ejecutado el análisis en la ventana de a la última ventana dónde hay un resumen de
resultados aparece la información genérica del todos los pasos que se han realizado en el
modelo y de los casos incorporados. Hay que

INCASI Network | 17
INCASI Working Paper Series, 2018, No. 2

modelo y las opciones de construcción, así los modelos mixtos (no se ofrece figura). Esto
como las variables que se han utilizado, además ayudará a ir familiarizándose y ayudar a ser más
de una información básica sobre el método y ejecutivo en futuros análisis.

Figura 14. Clasificación del visor de resultados según parámetros.

En la ventana de resumen del modelo se facilita asocian con la inserción por redes personales,
poder consultar la bondad de ajuste del modelo siendo esta relación estadísticamente
a través de los criterios de información, pero significativa:
como ya se ha expuesto anteriormente en los
casos de RLM no son muy procedentes. – Se aprecia que el sexo determina la inserción
por mecanismo informal (redes), siendo la
En la ventana de los coeficientes fijados la proporción de ORA significativa para los
visualización de datos aparece de forma gráfica hombres con un valor de 1,47 (IC95%=
y coloreada según la asociación sea positiva o 1,08-1,98) sobre la referencia de mujeres.
negativa y con un grosor proporcional a su
peso sobre la variable dependiente. Poniendo el – Se observa también que cuando el empleo
cursor encima de las líneas aparecerá la no es una actividad laboral principal su
información sobre dicho valor. Además, en la asociación con la variable dependiente es
parte inferior aparece una opción para preservadora. Esto es, una actividad laboral
visualizar la información del modelo mediante principal se obtiene con menor probabilidad
una tabla (Figura 15). mediante contactos personales. Otra lectura
de este dato nos permite decir que si el
A través de la tabla de resultados (Figura 16) se empleo obtenido es una actividad laboral
pueden interpreter las estimaciones o las principal la probabilidad de encontrar
Oportunidades Relativas Asociadas (ORA), que trabajo mediante redes será de un 68%
son la elevación exponencial de las menor en comparación con una actividad
estimaciones. A nivel inicial tanto el sexo como laboral secundaria.
la actividad principal o el tipo de contrato se

18 | INCASI Network
Mattia Vacchiano & Jordi Merino Noé

Figura 15. Visión gráfica de los coeficientes fijados.

Figura 16. Distribución de las estimaciones y las ORA de los efectos fijados.

A través de la tabla de resultados (Figura 16) se – Se aprecia que el sexo determina la inserción
pueden interpreter las estimaciones o las por mecanismo informal (redes), siendo la
Oportunidades Relativas Asociadas (ORA), que proporción de ORA significativa para los
son la elevación exponencial de las hombres con un valor de 1,47 (IC95%=
estimaciones. A nivel inicial tanto el sexo como 1,08-1,98) sobre la referencia de mujeres.
la actividad principal o el tipo de contrato se – Se observa también que cuando el empleo
asocian con la inserción por redes personales, no es una actividad laboral principal su
siendo esta relación estadísticamente asociación con la variable dependiente es
significativa: preservadora. Esto es, una actividad laboral

19 | INCASI Network
INCASI Working Paper Series, 2018, No. 2

principal se obtiene con menor probabilidad – Como hemos señalado precedentemente, el


mediante contactos personales. Otra lectura momento en que se ha obtenido el empleo
de este dato nos permite decir que si el (evento) de manera informal no es
empleo obtenido es una actividad laboral significativo, por tanto, la inserción por
principal la probabilidad de encontrar redes se manifiesta como una característica
trabajo mediante redes será de un 68% estructural del mercado del trabajo, pues no
menor en comparación con una actividad depende de la coyuntura económica.
laboral secundaria.
Otra ventana interesante es la que facilita la
– La irregularidad del empleo es el factor información de los parámetros de covarianza y
explicativo más relevante para explicar la los efectos aleatorios. Gracias al valor del
variable dependiente. Jóvenes que tienen una intercepto, si es significativo, se puede proceder
relación laboral sin contrato tienen una a hacer la ecuación para calcular la ICC y la
probabilidad 4,7 veces superior de haber MOR (mediana de la ORA), que SPSS no
obtenido el empleo mediante un contacto ejecuta. Las ecuaciones se ofrecen encuadradas
personal. en la Figura 17.

Figura 17. Visor de los parámetros de covarianza de los efectos aleatorios.

El parámetro MOR es discutible en algunas Como se aprecia en los resultados, al utilizar un


disciplinas de las Ciencias Sociales, pero en enlace logit diferente a R, hay alguna pequeña
epidemiologia social y sociología de la salud se diferencia en los resultados. En el caso de la
considera un buen indicador gráfico de la ICC nos indica que la varianza debida al nivel
variabilidad entre grupos, ya que es una segundo en relación a la varianza total es del
mediana que muestra cuanto varía la 14,47%. Además, la proporción que ofrece la
proporción de un grupo a otro si el individuo MOR es de 2,03.
(o estructura del primer nivel) son similares. Es
decir, ayuda a explicar la varianza del segundo
nivel.

20 | INCASI Network
Mattia Vacchiano & Jordi Merino Noé

3. Conclusiones Murillo, F. J. (2008). Los modelos multinivel


como herramienta para la investigación
Se ha realizado una breve introducción a la educativa. Magis, Revista Internacional de
lógica multinivel y se ha propuesto un ejemplo Investigación en Educación, 1, 45-62.
de aplicación de un modelo de regresión Ohlsson, H., Beckman, A.; Johnell, K.; Hjerpe,
logística multinivel (RLM) a un estudio sobre la P., Larsen, K. (2006). A brief conceptual
inserción laboral juvenil en el Área tutorial of multilevel analysis in social
Metropolitana de Barcelona. Con este fin, se ha epidemiology: using measures of clustering
utilizado el procesador estadístico SPSS y el in multilevel logistic regression to investigate
software R. Principalmente, el texto ayuda a contextual phenomena. Journal of Epidemiology
comprender la lógica de base del análisis and Community Health, 60(4), 290–297.
multinivel, observando las diferencias entre un Bauer, D. J. y Sterba, S. K. (2011).
procesador y otro en un modelo simple de dos Fittingmultilevel models with ordinal
niveles. outcomes: Performance of
alternativespecificationsandmethods of
El procesador estadístico SPSS permite al estimation. PsychologicalMethods.
investigador/a trabajar poco a poco el análisis Berkhof, J. y Snijders, T. a. B. (2001). Variance
multinivel a partir de su pregunta de Component Testing in Multilevel Models.
investigación. Desde este punto de vista facilita Journal of Educationaland BehavioralStatistics,
el proceso secuencial desde el modelo nulo 26(2), 133–152.
(modelo inicial sin variables predictores) hasta Cebolla, H. (2013). Introducción al análisis
el modelo final y observar cómo van multinivel. Madrid: Centro de Investigaciones
interfiriendo factores o covariables. Por el Sociológicas (CIS).
contrario, el entorno de trabajo R, por sus Heck, R. H. y Thomas, S. L. (2009). An
mismas características, propone un proceso de introduction to multilevel modeling techniques. New
modelaje más rápido, centrándose únicamente York: Routledge.
en la definición de las variables independientes Heck, R. H, et al. (2012): Multilevel modeling
y la variable dicotómica dependiente. of categorical outcomes using IBM SPSS,
New York: Routledge.
En relación a la visualización de los resultados, Pardo, A., Ángel, M., San, R. (2007). Cómo
SPSS ofrece al investigador/a centrar la ajustar e interpretar modelos multinivel con
atención en aquellos parámetros que desea SPSS. Psicotherma, 19(2), 308–321.
observar, al mismo tiempo que facilita mayor Requena, F. (1991). Redes sociales y mercado de
dinamismo en la expresión gráfica y visual, si trabajo. Elementos para una teoría del capital
bien, el formato flash de visualización de los relacional. Madrid: Centro de Investigaciones
datos dificulta su posterior explotación en Sociológicas.
presentaciones u otras composiciones. En Rieucau, G. (2008). Job advertisements and
comparación, el entorno de trabajo R permite personal networks: two specific channels in
una visualización rápida de los resultados a the Spanish labour market. Transfer: European
través la consola, permitiendo una menor Review of Labour and Research, 14(3), 469-480.
inversión de tiempo una vez adquirida la Smith, S. S. (2000). Mobilizing social resources:
alfabetización básica del lenguaje y de la lógica Race, ethnic, and gender differences in social
multinivel. capital and persisting wage inequalities. The
Sociological Quarterly, 41(4), 509-537.
4. Referencias Szumilas, M. (2010). Explaining odds ratios.
Journal of the Canadia Academy of Child and
Andréu, J. (2011). El análisis multinivel: una Adolescent Psychiatry, 19(3), 227-229.
revisión actualizada en el ámbito
sociológico. Metodología de Encuestas, 13, 161–
176.

INCASI Network | 21

You might also like