Regresion Lineal Simple y Multiple
Regresion Lineal Simple y Multiple
Regresion Lineal Simple y Multiple
MULTIVARIANTE.
MODELOS DE REGRESIÓN LINEAL Y
REGRESIÓN LOGÍSTICA MULTIVARIANTE
INTRODUCCIÓN
Con frecuencia se pretende estudiar la posible relación entre diversas variables objeto de
estudio. La forma en que se pretenda estudiar la posible relación entre las mismas y el
número de variables consideradas determinará si se trata de un análisis basado en
modelos de dependencia o interdependencia y si éste es bivariado o multivariado.
Métodos multivariantes
y y y
x x x
y (2) (1)
𝑦̅
(𝑥̅ , 𝑦̅)
(3) (4)
x
𝑥̅
Como puede observarse, el punto (𝑥̅ , 𝑦̅) se sitúa en el centro de gravedad de la
distribución de los datos (nube de puntos). Si se calcula la cantidad (𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)
para cada uno de los pares de observaciones (puntos) se obtendría que para todos los
puntos situados en el cuadrante (1) y en el cuadrante (3) estas cantidades tendrán signo
positivo (Obsérvese, por ejemplo, que para todos los puntos situados en el primer
cuadrante se verifica 𝑥𝑖 > 𝑥̅ y 𝑦𝑖 > 𝑦̅ por lo que (𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) > 0). Sin embargo,
en el caso de los puntos situados en los cuadrantes (2) y (4) estas cantidades serán
negativas. Se dispondría, por tanto, de una cantidad para cada par de observaciones
(𝑥𝑖 , 𝑦𝑖 ) que tomaría un valor positivo o negativo en función del cuadrante en el que se
posicionara. Se define como covarianza entre dos variables cuantitativas a la media de
todas las cantidades (𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅). Así se tendrá que:
De la misma forma, si se hubiera trabajado con los datos de la situación (b) de la figura
1, la mayoría de las observaciones se hubieran situado en los cuadrantes (2) y (4) y sus
distancias al punto (𝑥̅ , 𝑦̅) serían superiores a las de los puntos situados en los
cuadrantes (1) y (2). En consecuencia la 𝐶𝑜𝑣(𝑥, 𝑦) tendría un valor negativo compatible
con una relación inversa.
Si bien la covarianza permite detectar la posible relación lineal entre dos variables y el
sentido de la misma, presenta dos problemas importantes:
Para obtener una medida que resuelva los problemas descritos anteriormente se realizará
una modificación de la covarianza (que jugará un papel importante) de la siguiente
forma:
𝐶𝑜𝑣(𝑥, 𝑦)
𝑟=
𝑆𝑥 𝑆𝑦
Esta medida r se conoce como el coeficiente de correlación lineal de Pearson y tomará
un valor positivo sólo si el valor de la 𝐶𝑜𝑣(𝑥, 𝑦) lo es y, por tanto, la relación entre las
variables es directa. Por otra parte, r toma valores entre -1 y 1, de forma que cuanto más
se acerque el valor de 𝑟 a 1 ó −1, mayor será la magnitud de la relación entre las dos
variables y, gráficamente, más cerca se encuentran de describir la relación lineal
perfecta. Por otro lado, si el valor de 𝑟 se acerca a 0 será porque la 𝐶𝑜𝑣(𝑥, 𝑦) también lo
hace y se supone una ausencia de relación lineal entre las mismas.
Cuando se pretende extraer conclusiones sobre la posible relación entre dos variables a
partir de un conjunto de datos observados hay que tener en cuenta que el coeficiente de
correlación lineal de Pearson calculado varía en función de la muestra aleatoria
seleccionada. Será por tanto necesario realizar un contraste de hipótesis para determinar
si las dos variables se relacionan de forma significativa o no. El contraste de interés, en
este caso, quedaría de la siguiente forma:
𝐻0 : 𝜌 = 0
𝐻1 : 𝜌 ≠ 0
𝑟√𝑛 − 2
𝐸𝐶 =
√1 − 𝑟 2
Esta cantidad se distribuye, bajo la hipótesis nula, según un modelo de distribución 𝑡 de
Student con 𝑛 − 2 grados de libertad y se precisaría que cada una de las variables se
distribuyera según un modelo de probabilidad normal. Como puede observarse, en caso
de rechazar la hipótesis nula, el coeficiente de correlación lineal poblacional sería
significativamente distinto de cero y se concluiría que existe relación significativa entre
las dos variables.
EL MODELO DE REGRESIÓN LINEAL SIMPLE
El modelo de regresión lineal simple establece que la forma en que se relacionan dos
variables es lineal y, por tanto, la expresión funcional quedaría:
𝑦 = 𝛽0 + 𝛽1 𝑥
Esta expresión funcional establece que el valor de 𝑦 depende del valor de 𝑥. Esto es
importante porque, a diferencia del análisis de correlación lineal donde las dos variables
jugaban el mismo papel, el análisis de regresión requiere que se establezca qué variable
representará el papel de variable dependiente o explicada y qué variable jugará el papel
de variable independiente o explicativa.
Para determinar los valores de 𝛽0 y 𝛽1 y obtener la recta que mejor resume los datos
observados suele utilizarse el método de mínimos cuadrados en el que, básicamente, se
minimizan los errores que se cometerían al proporcionar el valor estimado por la recta
𝑦̂𝑖 en lugar del verdadero valor observado 𝑦𝑖 . Gráficamente podría expresarse de la
siguiente forma:
̂ 𝒊 )𝟐
Figura 3. Ajuste de la recta de regresión lineal simple. Minimización de (𝒚𝒊 − 𝒚
𝑦𝑖
y=Triglicéridos
𝑦̂𝑖
x=IMC
El objetivo sería por tanto hallar los valores de 𝛽0 y 𝛽1que hicieran mínima la siguiente
cantidad:
𝐶𝑜𝑣(𝑥, 𝑦)
𝛽1 =
𝑆𝑥2
𝛽0 = 𝑦̅ − 𝛽1 𝑥̅
Ejemplo 1
El valor del correlación lineal de Pearson toma un valor positivo por lo que se espera
que la nube de puntos esté ligeramente inclinada hacia arriba indicando la posibilidad de
una relación directa entre las variables. Para obtener la recta de regresión lineal será
necesario, en primer lugar, establecer qué variable será la dependiente. Parece lógico
pensar que, en este caso, sea el nivel de triglicéridos el que pudiera ser explicado por el
IMC. Si se utilizan los cálculos realizados hasta el momento se tendrá que:
𝐶𝑜𝑣(𝑥, 𝑦) 7,70
𝛽1 = 2
= = 1,504
𝑆𝑥 2,262
Puede observarse que, por cada unidad adicional de IMC del individuo el nivel de
triglicéridos que le pronostica la recta aumenta en 1,504 unidades, coincidiendo con el
valor de 𝛽1 . En consecuencia, el coeficiente 𝛽1 podría interpretarse, en general, como el
cambio en la variable dependiente por unidad de cambio en la variable independiente,
que a su vez coincide con la pendiente de la recta de regresión lineal simple. .
Como es lógico, el coeficiente de correlación lineal de Pearson y el coeficiente 𝛽1de la
recta de regresión guardan una estrecha relación, sobre todo si se tiene en cuenta que la
𝐶𝑜𝑣(𝑥, 𝑦) interviene en el cálculo de ambas cantidades. Dado que los denominadores
que intervienen en el cálculo de 𝑟 y 𝛽1 son siempre positivos, su signo estará
determinado por el valor de la 𝐶𝑜𝑣(𝑥, 𝑦), de forma que, si la covarianza es positiva (lo
que indica una posible relación lineal directa) también lo será el valor del coeficiente de
correlación lineal de Pearson y el valor 𝛽1 que es la pendiente de la recta. Si por el
contrario el valor de la 𝐶𝑜𝑣(𝑥, 𝑦) es negativo, también lo serán los valores de 𝑟 y 𝛽1.
y y
x x
(a) (b)
En la figura 5 se presentan dos situaciones en las que se analiza la relación entre dos
variables continuas. Puede observarse que la pendiente de la recta es la misma y, por
tanto, al tratarse de las mismas variables la magnitud del efecto de la variable 𝑥 sobre la
variable 𝑦 que queda recogido en el coeficiente 𝛽1 será el mismo. Sin embargo, la recta
correspondiente al caso (b) ajusta mejor a los datos observados que la recta del caso (a).
Esto es así porque en el caso (b) los datos se disponen alrededor de la recta de forma
más agrupada a lo que lo hacen en el caso (a) y, en consecuencia, los residuos
𝑒𝑖 tomarán valores más pequeños.
y
𝑦𝑖
𝑦𝑖 − 𝑦̂𝑖
𝑦̂𝑖
𝑦̂𝑖 − 𝑦̅
𝑦̅
𝑦̅
x
Una forma de obtener un resumen de las distancias sería consistiría en calcular la suma
de todas las distancias (una para cada observación):
Sin embargo, dado que la media de las observaciones se sitúa en el centro de gravedad
de los datos, las distancias positivas cancelarían las distancias negativas y esta cantidad
sería siempre cero. Para eliminar el efecto del signo pero conservar la magnitud de la
distancia se eleva al cuadrado, de forma que se obtiene la siguiente expresión:
(𝑦𝑖 − 𝑦̅)2 = (𝑦𝑖 − 𝑦̂𝑖 )2 + (𝑦̂𝑖 − 𝑦̅)2 + 2(𝑦𝑖 − 𝑦̂𝑖 )(𝑦̂𝑖 − 𝑦̅)
Si se calcula la suma de todas estas distancias, ahora al cuadrado y por tanto positivas,
se tendrá que:
∑(𝑦𝑖 − 𝑦̅)2 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 + ∑(𝑦𝑟 − 𝑦̅)2 + 2 ∑(𝑦𝑖 − 𝑦̂𝑖 )(𝑦̂𝑖 − 𝑦̅)
𝑉𝑇 = 𝑉𝑁𝐸 + 𝑉𝐸
Para obtener una medida de la bondad del ajuste del modelo que pueda ser interpretada
como la proporción de variabilidad explicada bastará con dividir la variabilidad
explicada VE por la variabilidad total VT.
∑(𝑦̂𝑖 − 𝑦̅)2 𝑉𝐸
𝑅2 = =
∑(𝑦𝑖 − 𝑦̅)2 𝑉𝑇
De donde:
Se concluirá, por tanto, que el modelo de regresión lineal simple logra explicar en torno
al 2,6% de la variabilidad observada en el nivel de triglicéridos de los pacientes. Si se
tiene en cuenta que el modelo cuenta con tan sólo una variable explicativa (en este caso
el IMC), podrá concluirse que el IMC logra explicar el 2,6% de la variabilidad
observada en el nivel de triglicéridos de los pacientes estudiados.
Es importante tener en cuenta que el modelo de regresión lineal simple ajustado para un
determinado conjunto de datos depende de la muestra aleatoria seleccionada, de forma
que, si se seleccionara otra muestra aleatoria de la misma población se ajustaría un
modelo con un valor de sus coeficientes 𝛽0 𝑦 𝛽1 distintos.
En definitiva, los valores de 𝛽0 y 𝛽1 , así como el del coeficiente de determinación de la
recta 𝑅 2 , serán variables aleatorias que varían de muestra a muestra de la población
(estadísticos) y será necesario hacer inferencia para extraer conclusiones sobre los
parámetros poblacionales de interés.
𝐻0 : 𝜌2 = 0
𝐻1 : 𝜌2 ≠ 0
Dado que se trata de un cociente de varianzas (cada una distribuida según una
distribución ji-cuadrado), la distribución muestral asociada sería un F de Snedecor con 1
y n-2 grados de libertad, en el caso de verificarse las hipótesis necesarias que se
abordadas con posterioridad. Puede observarse que si la VE por el modelo es cero o
cerca de cero el valor del estadístico de contraste será cero o próximo a cero (Situación
compatible con la hipótesis nula), mientras que si la VE aumenta la VNE disminuirá y
el valor de EC aumentará hasta el punto alcanzar un valor que lleve a rechazar, en su
caso, la hipótesis nula.
𝐸(𝑦|𝑥) = 𝛽0 + 𝛽1 𝑥
En la figura 7(a) puede observarse que la media de la variable dependiente 𝑦 para cada uno de
los valores de la variable independiente 𝑥 (𝑦̅|𝑥𝑖 ) se sitúa sobre la recta de regresión lineal.
y y
𝑦̅|𝑥𝑐 𝑦̅|𝑥𝑐
x
𝑥𝑖 𝑥𝑗 𝑥𝑘 𝑥𝑐 𝑥𝑖 𝑥𝑗 𝑥𝑘 𝑥𝑐 x
(a) (b)
Sin embargo, en la figura 6 (b) puede observarse que las medias de 𝑦 para cada uno de
los valores de la variable independiente 𝑥 (𝑦̅|𝑥𝑖 ) no se encuentran sobre la recta de
regresión lineal en todos los casos, violándose la hipótesis de linealidad. Se hace notar
que la imagen del diagrama de dispersión sugiere en este caso una relación no lineal (ej.
cuadrática) entre las variables consideradas.
(2) Homocedasticidad
𝑉𝑎𝑟(𝑦|𝑥) = 𝜎 2
En la figuras 7 (a) y 7 (b) puede observarse que la varianza permanece constante aunque
varíe el valor de la variable independiente 𝑥. Sin embargo en las figuras 8 (a) y 8 (b) la
varianza es distinta dependiendo del valor de la variable independiente.
y y
𝑦̅|𝑥𝑐
𝑦̅|𝑥𝑐
x
𝑥𝑖 𝑥𝑗 𝑥𝑘 𝑥𝑐 𝑥𝑖 𝑥𝑗 𝑥𝑘 𝑥𝑐 x
(a) (b)
(3) Normalidad
𝑦|𝑥 ∼ 𝑁𝑜𝑟𝑚𝑎𝑙
En la figura 9 (a) puede observarse que la distribución de la variable dependiente 𝑦 es la
normal para cada valor de 𝑥. Sin embargo, en la figura 9 (b) la distribución de 𝑦 varía
en función del valor de 𝑥.
y y
x x
𝑥𝑖 𝑥𝑖 𝑥𝑖 𝑥𝑖 𝑥𝑖 𝑥𝑖 𝑥𝑖 𝑥𝑖
(a) (b)
(4) Independencia
1) Linealidad: 𝐸(𝑒|𝑥) = 0
2) Homocedasticidad: 𝑉𝑎𝑟(𝑒|𝑥) = 𝑐𝑡𝑒
3) Normalidad: 𝑒|𝑥 ∼ 𝑁𝑜𝑟𝑚𝑎𝑙
4) Independencia: 𝑒𝑖 , 𝑒𝑗 independientes para cualquier 𝑖, 𝑗
Para el estudio de las dos primeras hipótesis (linealidad y homocedasticidad) suele
construirse un gráfico de dispersión en el que se representa la variable 𝑦̂ (valor que
predice la recta) en el eje de abcisas y la variable 𝑒 (error o residuo del modelo) en el eje
de ordenadas. La figura 10 (a) evidencia el caso en que se cumplirían las dos hipótesis
planteadas (Los datos se disponen alrededor de la horizontal en cero que actúa de forma
similar a un eje de simetría y, además, se sitúan en una banda que se mantiene constante
a lo largo de toda la recta).
𝑒 𝑒
𝑒|𝑦̂𝑖
𝑒|𝑦̂𝑖
0
(a) 𝑦̂ 𝑦̂
(b)
𝑒 𝑒|𝑦̂𝑖 𝑒
𝑒|𝑦̂𝑖
0
𝑦̂ 𝑦̂
(c) (d)
Por último, en la figura 10 (c) puede apreciarse que se verifica la hipótesis de linealidad
pero no la de homocedasticidad., mientras que en la figura 10 (d) se incumplirían ambas
hipótesis.
El análisis gráfico de la linealidad puede completarse comprobando que la media de los
residuos del modelo es cero ∑ 𝑒𝑖 = 0, (aunque esto no sería suficiente porque se
precisaría que fuera cero para cada valor de la variable independiente 𝑥).
|𝑒| = 𝛽0 + 𝛽1 𝑥
Trabajando con el valor absoluto de los residuos se consigue que todos los datos sean
positivos y se sitúen por encima de la horizontal en cero. Si se cumpliera la hipótesis de
homocedasticidad la recta que ajustaría estos nuevos datos sería otra recta en la
horizontal (en un valor mayor que cero). En caso de que se produjera algún tipo de
aumento o disminución lineal de la varianza con el valor de 𝑥, el ajuste de este modelo
describiría una recta con pendiente positiva o negativa (en función de si la relación es
directa o inversa). El contraste sobre el coeficiente de determinación de esta recta
permitiría decidir si la pendiente es significativa o no y concluir si se incumple la
hipótesis de homocedasticidad.
(a) (b)
Entre los gráficos utilizados pueden encontrarse el histograma de los residuos con
superposición de la curva normal (ver figura 11 (a) y el grafíco P-P de probabilidad
Normal (ver figura 11 (b) que compara la función de distribución de los datos
(observada) con la función de distribución del modelo normal (esperada).
∑(𝑒𝑡 − 𝑒𝑡−1 )2
𝐸𝐶 = ≃ 2(1 − 𝑟)
∑ 𝑒𝑡2
Si 𝑟 = 1 ⟶ 2(1 − 𝑟) = 2(1 − 1) = 0
Si 𝑟 = 0 ⟶ 2(1 − 𝑟) = 2(1 − 0) = 2
Ejemplo 2.
Se propone trabajar con las variables del ejemplo 1. El objetivo será comprobar las
hipótesis sobre el modelo de regresión que abarcarán: pertinencia de la linealidad,
homocedasticidad, normalidad e independencia.
∑ 𝑒𝑖 = 3.197−15 ≃ 0
Si se construye el modelo de regresión que utiliza la variable |𝑒| como dependiente y la
variable 𝑦̂ como independiente con objeto de detectar algún aumento o disminución
progresivo de la varianza de los residuos se obtiene que:
𝑅 2 = 0,0004; 𝑝 = 0,932
Puede observarse que el valor de 𝑅 2 es muy pequeño (0,0004) y la p del contraste muy
elevada (0,932) por lo que el modelo no ajusta de forma significativa a los datos,
concluyéndose una ausencia de aumento o disminución lineal de la varianza.
Figura 13. Histograma y gráfico P-P Normal para los datos del ejemplo
Puede observarse que ambas pruebas obtienen un valor de p superior a 0,05 por lo que
no se podría rechazar la normalidad.
Por último, en el caso de que las observaciones hubieran sido introducidas en la base de
datos en el mismo orden en el que se produjeron las observaciones tendría sentido
valorar la independencia de las mismas mediante el estadístico de Durbin-Watson. En
este caso se obtiene un valor de 2,203 que permitiría concluir independencia entre las
observaciones.
Predicciones
La obtención de la ecuación de una recta que describe la relación entre dos variables
permite la realización de predicciones. Piense el lector que bastaría proporcionar una
valor de la variable independiente para obtener, gracias a la ecuación de la recta, un
valor de la variable dependiente (pronosticado). Lo cierto es que, cuanto mejor ajuste el
modelo (mayor R cuadrado) mejores serán las predicciones obtenidas, puesto que se
reducirá notablemente la varianza asociada a la estimación de la predicción.
A la hora de realizar predicciones debe distinguirse entre una predicción sobre una
nueva observación y una predicción sobre la media de una conjunto de observaciones
con un mismo valor de la variable independiente. Por ejemplo, una posibilidad sería
predecir el valor de nivel de triglicéridos de un individuo con un IMC de 29,6 y otra
predecir el promedio de nivel de triglicéridos de los individuos con un IMC de 29,6. Por
otra parte, será útil hacer inferencia sobre las predicciones de forma que pueda
obtenerse un intervalo de confianza para las mismas. Así se tendrá que:
1 (𝑥 − 𝑥̅ )2 1 (𝑥 − 𝑥̅ )2
𝐼1−𝛼 (𝑦) = [𝑦̂ − 𝑡𝑛−2 𝑆𝑟 √1 + (1 + ) , 𝑦
̂ + 𝑡 𝑆
𝑛−2 𝑟 √1 + (1 + )
𝑛 𝑆𝑥2 𝑛 𝑆𝑥2
Intervalo de confianza para la predicción de una media
1 (𝑥 − 𝑥̅ )2 1 (𝑥 − 𝑥̅ )2
𝐼1−𝛼 (𝑦̅) = [𝑦̂ − 𝑡𝑛−2 𝑆𝑟 √ (1 + ) , 𝑦
̂ + 𝑡𝑛−2 𝑆𝑟 √ (1 + )]
𝑛 𝑆𝑥2 𝑛 𝑆𝑥2
Valores de influencia
𝑥 𝑥
(a) (b)
En la figura (a) la recta de regresión ajustada a los datos observados es horizontal y, por
tanto, la variable independiente no tendría ningún efecto sobre la variable dependiente
al tener pendiente nula. La figura (b) representa el modelo ajustado en el caso de que se
hubiera observado el dato A. Como puede observarse, la pendiente de la recta se
modifica enormemente como consecuencia del “esfuerzo” del modelo por contemplar el
dato A. En consecuencia, el efecto de la variable independiente podría pasar de nulo a
significativo únicamente por una observación.
En general, el efecto de una variable sobre otra (no tiene por qué ser nulo) podría verse
enormemente afectado por la presencia de algún o algunos valores de influencia sobre el
modelo. Por otra parte, si estas observaciones influyentes corresponden, por ejemplo, a
errores de observación, pueden resolverse de forma clara. En general la forma de
proceder ante la presencia de valores de influencia (no siempre habría que excluirlos del
análisis) dependerá de cada caso. Se hace necesario, por tanto, un estudio de los
posibles valores de influencia en el modelo de regresión lineal
En primer lugar será útil analizar la existencia de observaciones atípicas en los datos
analizados. Estas observaciones atípicas son susceptibles de jugar el papel de valores de
influencia (son observaciones que, tal y como ocurre con el dato A, se alejan del resto
de forma considerable), aunque no tendrían por qué ser necesariamente influyentes.
A
𝑦 𝑦 𝑦
A
A
𝑥 𝑥 𝑥
(a) (b) (c)
En las figuras (a) y (c) el dato A es una observación atípica e influyente en el modelo
(si se omitiera se modificaría la pendiente de la recta). Sin embargo, en la figura (b) el
dato A es una observación atípica pero no influyente (si se omitiera no se modificaría la
pendiente de la recta de regresión). Es importante señalar que en todos los casos el
punto A se aleja de forma considerable del conjunto de la nube de puntos (observación
atípica) pero no de la misma forma. Mientras que en la figura (a) el dato A es un valor
atípico con respecto a la variable 𝑦 en la figura (b) y (c) lo es respecto a la variable 𝑥.
𝑒𝑖 < 3. 𝑆𝑒 ó 𝑒𝑖 > 3. 𝑆𝑒
A los valores atípicos que superan 3𝑑 se les suele denominar “extremos”. Para la
identificación de valores atípicos con posible influencia sobre el modelo basados en el
criterio anterior suele utilizarse el diagrama de cajas o “Box-Plot” que se interpreta tal y
como se describe en la figura siguiente:
𝑝75
𝑝50
𝑝25 d
Valores
atípicos
Distancia de Mahalanobis
𝐷𝑖 = (𝑥𝑖 − 𝑥̅ )𝑇 𝛴 −1 (𝑥𝑖 − 𝑥̅ )
𝑥2
(𝑥̅ , 𝑦̅)
𝑥1 ⬚
Obsérvese que las rectas en rojo representarían las dos componentes principales para los
datos observados. La componente 𝐶1 se dispone en el sentido de la correlación de forma
que la distancia de Mahalanobis irá aumentando ligeramente a medida que nos alejamos
del punto (𝑥̅1 , 𝑥̅2 ) en esa dirección. Por el contrario, si nos alejamos en la dirección de
la componente principal 𝐶2 la distancia de Mahalanobis aumentará de forma muy
importante a medida que nos alejamos del punto (𝑥̅1 , 𝑥̅ 2 ). Se estarían, por tanto,
penalizando las observaciones que no se disponen en el sentido de la correlación
existente entre las dos variables.
Apalancamiento (Leverage)
1 (𝑥𝑖 − 𝑥̅ )2
ℎ𝑖 = +
𝑛 ∑(𝑥𝑖 − 𝑥̅ )2
1 (𝑥𝑖 − 𝑥̅ )2 1 (𝑥𝑖 − 𝑥̅ )2
𝐴𝑝𝑎𝑙𝑎𝑛𝑐𝑎𝑚𝑖𝑒𝑛𝑡𝑜 𝑐𝑒𝑛𝑡𝑟𝑎𝑑𝑜 = + − =
𝑛 ∑(𝑥𝑖 − 𝑥̅ )2 𝑛 ∑(𝑥𝑖 − 𝑥̅ )2
𝑛−1
Que tomará valores en el intervalo [0, ]. Cuando el número de observaciones del que
𝑛
se dispone es elevado tomará valores entre [0,1].
A A
𝑦 𝑦
𝑥̅ 𝑥 𝑥̅ 𝑥
(a) (b)
En la figura anterior se representan dos situaciones en las que existe un valor que se
aleja del conjunto de la nube de puntos. Como puede observarse, en la figura (a) el
punto A no modifica prácticamente la pendiente de la recta ajustada aunque tiene un
efecto sobre el término de interceptación (En rojo se representa el ajuste sin el punto A
y en verde con el punto A), mientras que en el caso de la figura (b) la pendiente (y por
tanto el efecto de la variable independiente sobre la dependiente) se modifica de forma
considerable. Nótese que en este segundo caso el valor de la coordenada 𝑥 está muy
alejado de la media 𝑥̅ . En consecuencia, valores alejados de la media de la variable
independiente tendrán mayor influencia sobre la pendiente de la recta que los que están
cerca.
Distancia de Cook
Donde 𝛽̂ es el vector de parámetros del modelo, para el caso de una única variable
explicativa (𝛽0 , 𝛽1 , ) ajustados con todas las observaciones y 𝛽̂(𝑖) es el vector de
parámetros del modelo ajustados sin la observación (i). Por otra parte ℎ𝑖𝑖 es el elemento
correspondiente de la diagonal de la matriz 𝑋(𝑋´𝑋)−1 𝑋. Un valor próximo a cero de
esta distancia indicará que los parámetros del modelo no varían prácticamente cuando se
elimina del ajuste a la observación (i) y, por tanto, la observación (i) no será influyente
en el modelo. Un valor cada vez mayor indicará que existe mayor diferencia entre los
parámetros ajustados con todas las observaciones y sin la observación (i) y, por tanto, la
observación (i) tendrá una influencia considerable en el modelo. Es importante tener en
cuenta que la distancia de Cook es una medida de conjunto que involucra a la vez a
todos los parámetros del modelo, en este caso, 𝛽0 𝑦 𝛽1.
DfBetas
A diferencia del estadístico de Cook, que proporcionaba una medida del cambio
conjunto de los coeficientes del modelo al excluir una determinada observación, los
Delta-Betas constituyen una medida de la influencia de una observación en el modelo
de regresión lineal media en términos de cambio en cada uno de los coeficientes del
modelo al excluir una determinada observación. Por tanto, para cada una de las
observaciones se obtendrán, en el caso de la regresión lineal simple, dos valores de
Delta Betas: uno para el cambio en el coeficiente 𝛽0 y otro para el cambio en 𝛽1. La
expresión para el cálculo de estas medidas quedará:
𝛽𝑘 − 𝛽𝑘(𝑖)
𝐷𝑓𝐵𝑒𝑡𝑎𝑖 =
𝑆(𝑖) √𝑎𝑘𝑘
DfAjuste
Los DfAjuste proporcionan una medida del cambio en el valor pronosticado como
consecuencia de la eliminación de una observación. La expresión para el cálculo de
estas medidas quedará:
𝑦̂𝑖 − 𝑦̂𝑖(𝑖)
𝐷𝑓𝐴𝑗𝑢𝑠𝑡𝑒𝑖 =
𝑆(𝑖) √ℎ𝑖𝑖
Razón de covarianzas
2 ′ −1
|𝑆(𝑖) (𝑋(𝑖) 𝑋(𝑖) ) |
𝐶𝑜𝑣𝑅𝑎𝑡𝑖𝑜 =
|𝑆 (𝑋 𝑋)−1 |
2 ′
Resulta de utilidad la construcción de los gráficos Box-Plot para cada una de estas
medidas de influencia. Así se tendrá que:
Puede observarse que la distancia de Mahalanobis y el valor del apalancamiento
centrado tienen un comportamiento muy similar. Esto es debido a que sólo hay una
variable explicativa en el modelo y, por tanto, están midiendo lo mismo.
𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + ⋯ + 𝛽𝑘 𝑥𝑘
Al igual que en el caso de la regresión lineal simple estos coeficientes se obtendrán por
el método de mínimos cuadrados. Si se tiene en cuenta que 𝑒𝑖 = 𝑦𝑖 − 𝑦̂𝑖 , se tratará de
hallar los valores de 𝛽0, 𝛽1, 𝛽2, ….𝛽𝑘 que hacen mínima la siguiente expresión:
∑ 𝑒𝑖2 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 = ∑(𝑦𝑖 − (𝛽0 + 𝛽1 𝑥1𝑖 + 𝛽2 𝑥2𝑖 + ⋯ + 𝛽𝑘 𝑥𝑘𝑖 ))2
Para obtener la solución final debe derivarse parcialmente ∑(𝑦𝑖 − (𝛽0 + 𝛽1 𝑥1𝑖 +
𝛽2 𝑥2𝑖 + ⋯ + 𝛽𝑘 𝑥𝑘𝑖 ))2 con respecto a cada uno de los coeficientes del modelo e igualar
a cero De estas 𝑘 + 1 expresiones se obtendrá un sistema de 𝑘 + 1 ecuaciones con
𝑘 + 1 incógnitas. Para que el sistema de ecuaciones tenga solución única serán
necesarias hipótesis adicionales sobre las variables independientes incluidas en el
modelo de regresión:
𝐶𝑜𝑣(𝑥1 , 𝑥2 )
𝑟𝑥1 𝑥2 = =1
𝑆𝑥1 𝑆𝑥2
Por otra parte, ¿ si la relación lineal entre las dos variables explicativas fuera nula el
valor del coeficiente de correlación lineal de Pearson sería cero y, por tanto, la
covarianza entre las dos variables explicativas sería cero. Sustituyendo el valor cero de
la covarianza en las expresiones para el cálculo de los coeficientes del modelo se
obtendría:
En este caso, los coeficientes del modelo de regresión lineal múltiple que recogen los
efectos de cada una de las variables explicativas consideradas coincidirían con los
coeficientes obtenidos en los correspondientes modelos de regresión lineal simple entre
la variable dependiente y cada una de las variables explicativas por separado. Además, a
la vista de los resultados, podría afirmarse que cuanta mayor relación exista entre las
variables explicativas mayormente se verán afectados los coeficientes del modelo en
comparación con los que se obtendrían en sus respectivas regresiones lineales simples.
Los resultados obtenidos anteriormente implican que el efecto de cada una de las
variables explicativas puede verse afectado por la presencia o no de otra u otras
variables explicativas, dependiendo de si éstas últimas tienen algún tipo de relación
lineal con las primeras. ¿Cómo se puede interpretar, por tanto, el valor de cada uno de
los coeficientes?
Supóngase que ha sido ajustado el siguiente modelo de regresión lineal múltiple con dos
variables explicativas:
𝑦 = 4 + 3𝑥1 + 5𝑥2
Si 𝑥1 = 1 Si 𝑥1 = 4
𝑦 = 4 +3 .1 + 5 .0 = 7 si 𝑥2 = 0 𝑦 = 4 + 3 . 4 + 5 . 0 = 16 si 𝑥2 = 0
𝑦 = 4 + 3 . 1 + 5 . 1 = 12 si 𝑥2 = 1 𝑦 = 4 + 3 . 4 + 5 . 1 = 21 si 𝑥2 = 1
𝑦 = 4 + 3 . 1 + 5 . 2 = 17 si 𝑥2 = 2 𝑦 = 4 + 3 . 4 + 5 . 2 = 26 si 𝑥2 = 2
Por tanto, el valor de cada uno de los coeficientes del modelo de regresión lineal
múltiple que acompañan a las correspondientes variables explicativas incluidas en el
mismo, por ejemplo 𝑥𝑘 , podría interpretarse como el cambio en la variable dependiente
por unidad de cambio en la variable independiente 𝑥𝑘 manteniendo constantes el resto
de variables explicativas. Además, teniendo en cuenta el resultado obtenido con
anterioridad que establecía que cada uno de los coeficientes del modelo puede verse
afectado por la presencia o ausencia de otra u otras variables explicativas se concluye
que, para interpretar cada uno de los coeficientes del modelo de regresión lineal
múltiple, será necesario mencionar el resto de variables explicativas incluidas. Cada uno
de los coeficientes estará “ajustado” por el resto de variables explicativas del modelo.
Del mismo modo que en el caso del modelo de regresión lineal simple, podrá definirse
una medida de la bondad del ajuste del modelo de regresión lineal múltiple ( 𝑦 = 𝛽0 +
𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + ⋯ + 𝛽𝑘 𝑥𝑘 ) de la siguiente forma:
∑(𝑦̂𝑖 − 𝑦̅)2 𝑉𝐸
𝑅2 = =
∑(𝑦𝑖 − 𝑦̅)2 𝑉𝑇
Donde 𝑦̂𝑖 es el valor predicho por el modelo de regresión lineal múltiple para la
observación 𝑥𝑖 . Esta medida se conoce como coeficiente de determinación múltiple y su
interpretación es idéntica a la del modelo de regresión lineal simple, es decir, como la
proporción de variabilidad de la variable dependiente explicada por el modelo (en este
caso por el conjunto de las variables explicativas).
2
𝑛−1
𝑅𝑐𝑜𝑟𝑟𝑒𝑔 = 1 − (1 − 𝑅 2 )
𝑛−𝑘−1
Coeficiente de correlación múltiple
𝑟𝑚𝑢𝑙𝑡𝑖𝑝𝑙𝑒 = √𝑅 2
Al igual que ocurriera en el caso del modelo de regresión lineal simple, debe tenerse en
cuenta que cuando se construye un modelo de regresión lineal múltiple a partir de los
datos contenidos en una muestra aleatoria de la población los valores de
𝛽0 , 𝛽1 , 𝛽2 , … , 𝛽𝑘 , así como el del coeficiente de determinación múltiple 𝑅 2 dependerán
de la muestra seleccionada. Un contraste de interés trataría de establecer si el modelo de
regresión lineal múltiple explica de forma significativa parte de la variabilidad
observada en la variable dependiente de la forma:
𝐻0 : 𝜌2 = 0
𝐻1 : 𝜌2 ≠ 0
Este contraste es idéntico al construido para la regresión lineal simple, salvo por el
hecho de que, en este caso, en el modelo se cuenta con más de una variable explicativa.
Al igual que en la regresión lineal simple, suele ser habitual, presentar los resultados
anteriores en forma de tabla conocida como la tabla de ANOVA de la regresión. Así se
tendrá que:
Sin embargo, debe tenerse en cuenta que concluir que el modelo explica no significa
que todas y cada una de las variables explicativas incluidas en el mismo lo hagan. Será
necesario, por tanto, averiguar qué variables de las incluidas en el modelo tienen un
efecto significativo sobre la variable dependiente. Para ello se cuenta con contrastes
individuales sobre los coeficientes del modelo de la forma:
𝐻0 : 𝛽𝑖 = 0
𝐻1 : 𝛽𝑖 ≠ 0
1) Linealidad: 𝐸(𝑒|𝑥1 𝑥2 𝑥3 … 𝑥𝑘 ) = 0
2) Homocedasticidad: 𝑉𝑎𝑟(𝑒|𝑥1 𝑥2 𝑥3 … 𝑥𝑘 ) = 𝑐𝑡𝑒
3) Normalidad: 𝑒|𝑥1 𝑥2 𝑥3 . . 𝑥𝑘 ∼ 𝑁𝑜𝑟𝑚𝑎𝑙
4) Independencia: 𝑒𝑖 , 𝑒𝑗 independientes para cualquier 𝑖, 𝑗
5) Estudio de la posible colinealidad o multicolinealidad No existen relaciones
lineales exactas entre las variables explicativas. Sería también problemático
que, aunque no fueran exactas, presentaran buenas relaciones lineales entre
ellas (multicolinealidad).
Ejemplo 5.3.
A continuación se muestran los resultados del ajuste del modelo obtenidos utilizando el
SPSS.
b
Resumen del modelo
nsi
on
0
a. Variables predictoras: (Constante), quetelet, edad
b. Variable dependiente: colestot
b
ANOVA
a
Coeficientes
Modelo Coeficientes
Coeficientes no estandarizados tipificados
Según el modelo ajustado, para individuos de la misma edad, por incrementar en una
unidad el imc se produciría un aumento del nivel de colesterol de 2,704 unidades. Por su
parte, para individuos del mismo ímc, por cada año más de edad aumentaría en 0,989
unidades el nivel de colesterol.
A la hora de valorar qué variable contribuye más a la explicación de la variabilidad
observada en los niveles de colesterol debe tenerse especial cuidado ya que, a partir del
resultado obtenido en este caso podría concluirse erróneamente que la variable ‘imc’
tendría un mayor efecto sobre el ‘nivel de colesterol’ que la variable ‘edad’ puesto que
el coeficiente que la acompaña es mayor (2,704 unidades para el imc frente a las 0,989
unidades en para la edad). ¿Por qué esto no es cierto en este caso? Debe tenerse en
cuenta que cada uno de los coeficientes 𝛽𝑖 depende no sólo de las unidades de medida
de la variable dependiente, sino también de las unidades de medida de la variable a la
que acompañan. En este sentido, es lógico que variables explicativas con un rango de
valores superior presenten un coeficiente ajustado inferior como consecuencia de las
unidades de medida.
Para intentar analizar qué variable contribuye más (tiene un mayor peso) en el modelo
de regresión lineal múltiple podrían compararse los modelos sin cada una de las
variables explicativas y valorar cuál contribuye a un mayor cambio en 𝑅 2 . Otra
alternativa sería eliminar las unidades de medida estandarizando todas las variables de
forma que todas tengan media 0 y desviación típica 1 y construir el modelo con estas
variables estandarizadas.
En el ejemplo pueden observarse los valores de los coeficientes del modelo que se
habrían obtenido en el caso de trabajar con las variables estandarizadas (columna beta).
Como puede observarse el coeficiente que acompaña a la ‘edad’ es 0,312 frente a 0,176
para el que acompaña a la variable ‘imc’ y, por tanto, sería la variable ‘edad’ la que
tendría un mayor peso en el modelo.
∑ 𝑒𝑖 = 5.024251888954554 . 10−15 ≃ 0
Por otra parte, parece que los residuos se mueven en una banda horizontal en la que no
parecen observarse ‘embudos’ (tendencia creciente o decreciente de la dispersión a
medida que aumenta el valor predicho por la recta) , situación compatible con la
hipótesis de homocedasticidad. Suele ser útil, en el caso de dudas sobre el cumplimiento
de la hipótesis de homocedasticidad, construir gráficos parciales de residuos respecto de
cada una de las variables explicativas.
Las figuras 15 (a) y 15 (b) muestran los gráficos parciales de los residuos con respecto a
cada una de las variables explicativas.
En ambos gráficos la horizontal en cero actúa como eje de simetría con respecto a los
residuos. Tanto en el gráfico parcial para ‘edad’ como en el correspondiente al ‘imc’ no
se observan cambios en la dispersión de los mismos a los largo del valor pronosticado
por el modelo, resultado coherente con el obtenido en el gráfico general de residuos
frente a valor predico por el modelo.
La Colinealidad o Multicolinealidad
Un caso extremo en un análisis de regresión lineal múltiple sería obtener un valor del
coeficiente de determinación múltiple significativo (el modelo explica) y, sin embargo,
ser no significativos todos los contrastes individuales. La existencia de una fuerte
multicolinealidad entre las variables explicativas podría ser la causa, pudiéndose
resolver la situación identificando la variables responsables (estarían explicando
prácticamente los mismo sobre la variabilidad observada en la variable dependiente) y
excluir las que no aportarían nada nuevo.
Para el estudio de la colinealidad o multicolinealidad se pueden adoptar varias
estrategias, algunas de ellas más sencillas y otras más complejas.
Correlaciones bivariadas
De este modo podrían identificarse las variables con una buena relación lineal, eso sí,
por pares. Sin embargo, la inexistencia de buenas relaciones lineales por pares no
implica que no exista un problema de multicolinealidad, ya que sería igualmente
problemático que una variable explicativa tuviera una buena relación lineal con una
combinación lineal del resto de variables explicativas incluidas en el modelo.
Tolerancia
𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + ⋯ + 𝛽𝑘 𝑥𝑘
Deberían construirse los siguientes modelos de regresión lineal múltiple, obteniendo los
respectivos coeficientes de determinación múltiple:
𝑥1 = 𝛽0 + 𝛽1 𝑥2 + 𝛽2 𝑥3 + 𝛽3 𝑥4 + ⋯ + 𝛽𝑘 𝑥𝑘 𝑅𝑥21 . 𝑥2 𝑥3…𝑥𝑘
……………………………………………… ……………..
Una variable sería bien tolerada en el modelo de regresión lineal múltiple (atendiendo a
la posible multicolinealidad) si el coeficiente de determinación múltiple correspondiente
a su regresión con respecto al resto de variables explicativas del modelo toma un valor
próximo a cero
Figura 17. Representación de las Componentes principales basadas en dos variables explicativas
𝐶2
𝐶2
𝑥2 𝐶1 𝑥2 𝐶1
𝑥1 𝑥1
(a) (b)
A pesar de que en los dos casos son necesarias dos componentes principales para
explicar el 100% de la variabilidad observada, en la figura 17 (b) la primera
componente 𝐶1 logra explicar un porcentaje de variabilidad muy elevado. Esto es
debido a que entre las variables 𝑥1 y 𝑥2 existe una muy buena relación lineal. En
consecuencia, si se realiza un análisis de componentes principales para las k variables
explicativas en el modelo de regresión lineal múltiple y el número de componentes
necesarias para explicar un alto porcentaje de la variabilidad total es inferior al número
de variables explicativas, será indicativo de que alguna o algunas de ellas son una buena
combinación lineal de las restantes.
La varianza explicada por cada una de las componentes principales queda recogida en
los valores propios de la matriz 𝑋′𝑋, que en el caso de k variables explicativas
proporcionará k componentes principales y los correspondientes valores propios
𝜆1 , 𝜆2 , 𝜆3 , … , 𝜆𝑘 tal que:
𝜆1
𝑁𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑜𝑛𝑑𝑖𝑐𝑖ó𝑛𝑖 = 𝑁𝐶𝑖 = √
𝜆𝑖
Cuanto menor sea el valor de 𝜆𝑖 en comparación con el primer valor propio (varianza
explicada por la primera componente principal que es la que más explica) mayor será el
valor de 𝑁𝐶𝑖 . Valores elevados de este número de condición serán indicativos por tanto
de multicolinealidad.
𝜆1
Í𝑛𝑑𝑖𝑐𝑒 𝑑𝑒 𝑐𝑜𝑛𝑑𝑖𝑐𝑖ó𝑛 = 𝐼𝐶 = √
𝜆𝑘
Si se trabaja con los datos del ejemplo y se incluye, además, información sobre el nivel
de triglicéridos entre las variables explicativas se tendrá que:
Puede observarse que el modelo ajustado logra explicar de forma significativa (Véase
tabla de ANOVA) en torno al 23,3% de la variabilidad observada en el nivel de
colesterol. Por su parte, los contrastes individuales de los coeficientes indican que las
sólo las variables edad y triglicéridos tendrían un efecto significativo sobre el nivel de
colesterol. Si se compara con el modelo con dos variables explicativas ajustado con
anterioridad (colesterol vs edad e imc) se observa que al introducir el nivel de
triglicéridos el efecto del imc pasa a ser no significativo.
nsi
on
b
ANOVA
Modelo Suma de Media
cuadrados gl cuadrática F Sig.
a
1 Regresión 105394,493 3 35131,498 16,721 ,000
En la tabla siguiente se muestran los valores de las tolerancias que son superiores en
todos los casos a 0,70.
Dimensión
Proporciones de la varianza
Índice de
Autovalores condición (Constante) edad imc triglice
1 3,655 1,000 ,00 ,01 ,00 ,02
2 ,279 3,619 ,01 ,02 ,00 ,93
3 ,058 7,961 ,07 ,88 ,02 ,00
4 ,008 21,541 ,92 ,09 ,97 ,05
Puede apreciarse que, aunque el modelo incluye únicamente tres variables explicativas,
la tabla xx proporciona cuatro componentes principales. Esto se debe a que ha incluido
una dimensión adicional que tendría en cuenta la constante 𝛽0 del modelo (en el caso de
la componente asociada a la constante se trabaja como si tuviera asociada una variable
que tomara el valor constante 1).
Los valores propios (autovalores) que cuantifican la varianza explicada por cada una de
las componentes principales son en este caso:
𝜆1 = 3,655; 𝜆2 = 0,279; 𝜆3 = 0,058; 𝜆4 = 0,008
𝜆
Í𝑛𝑑𝑖𝑐𝑒 𝑑𝑒 𝑐𝑜𝑛𝑑𝑖𝑐𝑖ó𝑛 = 𝐼𝐶 = √ 1⁄𝜆 = 3,656⁄0,008 = 21,541
4
Los tres primeros números de condición son inferiores a 10, sugiriendo ausencia de
multicolinelidad. Sin embargo, el último número de condición asociado a la última
componente principal (equivalente al índice de condición) toma un valor entre 10 y 30
sugiriendo una multicolinealidad moderada. Si se observan las proporciones de la
varianza puede apreciarse como cada variable explicativa está bien representada en una
componentes principal distinta (‘edad’ en la tercera, ‘imc’ en la cuarta y ‘triglicéridos’
en la segunda). Además en la cuarta componente principal estaría bien representada la
variable que acompaña a la constante 𝛽0. Esto indicaría, en principio, una buena
relación lineal entre ambas. ¿Qué quiere decir esto?
Para ilustrar el procedimiento supóngase que se trabaja con los datos del ejemplo xx. Se
pretende estudiar el posible efecto de la edad y el sexo sobre el nivel de triglicéridos. El
modelo de regresión lineal múltiple quedaría:
Donde sexo está codificada como 1’Hombre’ y 2’Mujer’. Los resultados obtenidos
serían los siguientes:
nsi
on
b
ANOVA
Modelo Coeficientes
Coeficientes no estandarizados tipificados
Para individuos del mismo sexo, por cada año más de edad se pronosticaría 0,967
unidades más en el nivel de triglicéridos.
Sin embargo, ¿qué ocurriría si se introdujera una variable cualitativa de más de dos
categorías en el modelo de regresión lineal múltiple de forma directa?
Supóngase que a partir de los datos del ejemplo xx se pretende incluir una variable
‘nivel de obesidad’ clasificada en 3 categorías (delgado, normal, obeso). Si se
introdujera la variable directamente en el modelo se tendría que:
a
Coeficientes
Modelo Coeficientes
Coeficientes no estandarizados tipificados
La forma de conseguir separar esos efectos de manera que puedan ser distintos para
cada paso de una categoría a la siguiente, es generar las que se conocen como variables
ficticias o dummys. Se selecciona una categoría como la categoría de referencia que
tomará valores 0 en las dos variables ficticias. En el caso del ejemplo será necesario
generar dos variables ficticias. Si se considera la primera categoría ‘delgado’ como la
categoría de referencia, se tendrá que:
Así, por pasar de ‘delgado’ a ‘normal’ el efecto será 𝛽21, por pasar de ‘delgado’ a
‘obeso’ 𝛽22 y por pasar de ‘normal’ a ‘obseso’ 𝛽22 − 𝛽21
Es muy importante tener en cuenta que el efecto de una variable cualitativa con más de
dos categorías (en este caso el ‘nivel de obesidad’) debe ser valorado a través de los
resultados de todas sus variables ficticias o dummys a las que ha dado lugar, es decir, no
pueden eliminarse unas dummys e incluir otras (actúan como un conjunto).
a
Coeficientes
Modelo Coeficientes
Coeficientes no estandarizados tipificados
Para valorar si una variable cualitativa de más de dos categorías tiene un aporte
significativo en el modelo de regresión lineal múltiple es necesario realizar un contraste
de hipótesis sobre el 𝑅 2 de cambio, es decir, comparando la proporción de variabilidad
explicada por el modelo sin la variable obesidad (en este caso sin las dos variables
dummys) con la proporción de variabilidad explicada por el modelo con la variable
obesidad (con las dos variables dummys).
2 2 2
𝑅𝑐𝑎𝑚𝑏𝑖𝑜 = 𝑅𝑒𝑑𝑎𝑑,𝑜𝑏𝑠1,𝑜𝑏𝑠2 − 𝑅𝑒𝑑𝑎𝑑
Estadísticos de cambio
Modelo
Cambio en R Sig. Cambio
R R cuadrado cuadrado Cambio en F gl1 gl2 en F
1 ,161 ,026 ,026 5,257 1 197 ,023
2 ,323 ,104 ,078 8,501 2 195 ,000
Aunque, en general, un efecto de interacción entre dos o más variables podría darse con
independencia del tipo de variables consideradas, habitualmente suele ser objeto de
estudio cuando se incluyen variables cualitativas o una combinación de variables
cualitativas y cuantitativas. Pero ¿qué es la interacción?
Para ilustrar esta cuestión supóngase que se pretende estudiar el posible efecto del
‘índice de masa corporal’ y el ‘sexo’ sobre el ‘nivel de colesterol’. El modelo propuesto
sería:
Se dirá que existe interacción entre la ‘edad’ y el ‘sexo’ si el efecto de la ‘edad’ sobre el
‘nivel de colesterol’ no es el mismo para cada uno de los niveles de la variable ‘sexo’,
es decir, no es el mismo en hombres que en mujeres.
nsi
on
b
ANOVA
a
Coeficientes
Modelo Coeficientes
Coeficientes no estandarizados tipificados
Así, mientras que en hombres por cada año más se estimaría un aumento del nivel de
colesterol de 0,382 unidades, en el caso de las mujeres este aumento sería de
0,382+1,497=1,879.
Confusión (confounding)
nsi
on
b
ANOVA
Modelo Suma de Media
cuadrados gl cuadrática F Sig.
a
1 Regresión 46245,929 1 46245,929 19,031 ,000
a
Coeficientes
Modelo Coeficientes
Coeficientes no estandarizados tipificados
Sin embargo, al ajustar por edad (incluyendo además la ‘edad’ en el modelo se tiene
que:
nsi
on
b
ANOVA
Modelo Coeficientes
Coeficientes no estandarizados tipificados
Puede observarse, al ajustar por edad (incluyendo la edad en el modelo además del imc),
el efecto del ‘imc’ sobre el ‘nivel de colesterol’ disminuye de forma considerable
pasando de 4,546 a 2,501 (-45%). Podría decirse que el efecto del ‘imc’ sobre el ‘nivel
de colesterol’ estaba confundido por ausencia de la ‘edad’ en el modelo. Es razonable
pensar que la ‘edad’ se relaciona tanto con un mayor ‘imc’ como con un mayor ‘nivel
de colesterol’.
Según esta estrategia de construcción del modelo el investigador debe definir un orden
de introducción de las variables que responden a unos objetivos bien definidos. Por
ejemplo, en primer lugar se introducirían los posibles factores de riesgo, en segundo
lugar las posibles variables confundientes, en tercer lugar los posibles efectos de
interacción, etc y evaluar en cada paso la significación del 𝑅 2 de cambio.
Método de construcción automática
Así, el método hacia delante (forward) incluiría en primer lugar, de entre las variables
predictoras, aquélla que contribuyera a una mayor 𝑅 2 y su efecto fuera significativo. En
segundo lugar, estando presente la primera variable, incluiría de entre las restantes, la
que más aumentara el 𝑅 2 y su efecto fuera significativo y, así, sucesivamente. Debe
tenerse en cuenta que una vez una variable ha sido incluida en el modelo ya no puede
salir. El proceso se parará cuando ninguna de las variables restantes contribuya a un
aumento significativo del 𝑅 2 .
El método de pasos sucesivos (stepwise) es una técnica similar al método hacia delante
pero en el que, en cada paso, se da la posibilidad de ‘repensar el modelo’. Esto quiere
decir que aunque una variable haya sido introducida en el modelo puede ser eliminada
del mismo en un paso posterior si con ello se consigue mejorar el valor de 𝑅 2 . Este
método, sin duda, conducirá al mejor modelo predictivo (con mayor 𝑅 2 ).
La estructura del modelo de regresión lineal múltiple puede adaptarse a una serie de
situaciones mediante una transformación de la variable dependiente. Por ejemplo, el
investigador podría estar interesado en explorar qué variables se relacionan con la
ocurrencia de una determinada patología. En este caso, la variable respuesta, a
diferencia de lo estudiado hasta ahora, sería dicotómica (Sí/No). Del mismo modo
podría interesar relacionar la tasa de incidencia de una determinada característica o el
tiempo de supervivencia de un grupo de pacientes con una serie de variables
sociodemográficas y/o factores de riesgo.
En general, los modelos lineales generalizados serán una familia de modelos cuya
componente estructural podría expresarse de la siguiente forma:
𝑓(𝑦) = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + ⋯ + 𝛽𝑘 𝑥𝑘
Donde:
y= Variable respuesta sobre la que se pretende medir el efecto de otras variables (tasa
de incidencia, ocurrencia de un suceso, etc). Cuando 𝑓(𝑦) = 𝑦 reproduciría el caso de
regresión lineal múltiple analizado hasta el momento.
El modelo de regresión logística binaria permitirá analizar la relación entre una variable
dependiente dicotómica y un conjunto de variables explicativas (cuantitativas y/o
cualitativas). Es evidente que no podrá incluirse la variable dependiente tal cual en el
modelo de la forma:
𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + ⋯ + 𝛽𝑘 𝑥𝑘
Las razones son de diferente índole. Por ejemplo, en para la construcción de un modelo
de regresión lineal múltiple se precisaba que la variable respuesta o dependiente fuera
continua y que siguiera una distribución normal. Por otra parte, aún dejando de lado esta
cuestión, el ajuste de un modelo como el propuesto en la expresión anterior podría
llevar a pronosticar valores que no fueran 0 ó 1 e, incluso, que estuvieran fuera del
rango {0,1}.
Para conseguir aprovechar la estructura lineal del modelo de regresión lineal múltiple se
hará una transformación de la variable dependiente mediante la denominada función
logística. ¿Cómo es esta función?
Función logística
1
𝑓(𝑥) =
1 + 𝑒 −𝑥
10
Puede observarse que esta función siempre tomará valores entre 0 y 1 y, por tanto,
puede ser útil para modelizar proporciones o probabilidades. Por otra parte, el rango de
valores que puede tomar 𝑥 se mueve entre -∞ y + ∞, es decir, puede tomar cualquier
valor.
Por tanto, si se parte de una variable respuesta de interés cualitativa dicotómica del tipo
𝑦 = 1 si ocurre el suceso en cuestión (infarto, mala salud mental, cáncer, etc) e 𝑦 = 0 si
no ocurre, podrá modelizarse la probabilidad de ocurrencia del suceso en función de una
serie de variables explicativas 𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑘 de la forma:
1
𝑃(𝑦 = 1|𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑘 ) =
1+ 𝑒 −(𝛽0 +𝛽1𝑥1 +𝛽2𝑥2 +𝛽3𝑥3 +⋯+𝛽𝑘𝑥𝑘)
Si se hace:
𝑃(𝑦 = 1|𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑘 )
= 𝑒 𝛽0 +𝛽1 𝑥1+𝛽2 𝑥2 +𝛽3 𝑥3 +⋯+𝛽𝑘𝑥𝑘
1 − 𝑃(𝑦 = 1|𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑘 )
𝑃(𝑦 = 1|𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑘 )
𝑙𝑛 ( ) = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + ⋯ + 𝛽𝑘 𝑥𝑘
1 − 𝑃(𝑦 = 1|𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑘 )
Obsérvese que esta expresión evidencia la generalización del modelo lineal a través de
una transformación de la variable cualitativa dicotómica de interés mediante una
función de enlace del tipo:
𝑝
𝑙𝑛 ( )
1−𝑝
Donde:
𝑃(𝑦 = 1)
Ejemplo
a
Tabla de clasificación
Observado Pronosticado
Hipoglucemia Porcentaje
No Sí correcto
Sí 100 0 ,0
Variables en la ecuación
𝑝
𝑙𝑛 ( ) = −2,147 + 0,479 . 𝑖𝑛𝑠𝑢𝑙𝑖𝑛𝑎
1−𝑝
Donde: 𝑝 = 𝑃(𝑦 = 1|𝑥) = 𝑃(ℎ𝑖𝑝𝑜𝑔𝑙𝑢𝑐𝑒𝑚𝑖𝑎|𝑥)
1
𝑃(𝑦 = 1|𝑖𝑛𝑠𝑢𝑙𝑖𝑛𝑎) =
1+ 𝑒 −(−2,147+0,479 .𝑖𝑛𝑠𝑢𝑙𝑖𝑛𝑎)
Así, para los pacientes que se administran una dosis de insulina inferior a 30
(insulina=0) se pronosticará una probabilidad de ocurrencia de hipoglucemia de:
1
𝑃(𝑦 = 1|𝑖𝑛𝑠𝑢𝑙𝑖𝑛𝑎 = 0) = = 0,1046
1 + 𝑒 −(−2,147)
Mientras que para los pacientes que se administran una dosis de insulina igual o
superior a 30, la probabilidad de ocurrencia de hipoglucemia se estimará:
1
𝑃(𝑦 = 1|𝑖𝑛𝑠𝑢𝑙𝑖𝑛𝑎 = 1) = = 0,1587
1+ 𝑒 −(−2,147+0,479)
Para interpretar los coeficientes del modelo será útil profundizar en el concepto de odds.
En realidad odds es una medida de riesgo que cuantifica cuántas veces es más probable
que ocurra un suceso respecto a que no ocurra. Podría expresarse de la siguiente forma:
𝑃(𝑦 = 1) 𝑃(𝑦 = 1)
𝑜𝑑𝑑𝑠 = =
𝑃(𝑦 = 0) 1 − 𝑃(𝑦 = 1)
De aquí podría definirse, para una variable explicativa determinada que representase la
exposición a riesgo (1=Sí/0=No), una medida de asociación conocida como la odds-
ratio de la forma:
𝑂𝑅 = 𝑒 𝛽1 = 𝑒 0,479 = 1,615
En consecuencia, los pacientes con una dosis de insulina igual o superior a 30 unidades
tendrían un 61,5% más de riesgo de hipoglucemia durante el ingreso que los pacientes
con una dosis inferior.
Este resultado podría extenderse al caso de más de una variable explicativa de forma
que 𝑒 𝛽𝑖 se interpretaría como la 𝑂𝑅 correspondiente a la variable 𝑥𝑖 ajustada por el
resto de variable presentes en el modelo de regresión logística.
Si para los datos del ejemplo se ajustara un modelo con todas las variables disponibles
se tendría que:
𝑝
𝑙𝑛 ( ) = 𝛽0 + 𝛽1 𝐹𝐺𝑒 + 𝛽2 𝑖𝑛𝑠𝑢𝑙𝑖𝑛𝑎 + 𝛽3 𝑡𝑖𝑒𝑚𝑝𝑜_ℎ𝑜𝑠𝑝 + 𝛽4 ℎ𝑖𝑝𝑜𝑔𝑙3𝑚𝑒𝑠𝑒𝑠
1−𝑝
En las siguientes tablas se muestran los resultados del ajuste del modelo de regresión
logística multivariante propuesto.
Observado Pronosticado
Hipoglucemia Porcentaje
No Sí correcto
Sí 78 4 4,9
Variables en la ecuación
𝑝
𝑙𝑛 ( ) = −2,851 + 0,841 𝐹𝐺𝑒 + 0,554 𝑖𝑛𝑠𝑢𝑙𝑖𝑛𝑎 + 0,024 𝑡𝑖𝑒𝑚𝑝𝑜_ℎ𝑜𝑠𝑝
1−𝑝
+ 1,840 ℎ𝑖𝑝𝑜𝑔𝑙3𝑚𝑒𝑠𝑒𝑠
Los 𝑂𝑅 para cada una de las variables explicativas ajustados por el resto de variables
presentes en el modelo podrán obtenerse de la forma descrita anteriormente y aparecen
reflejados en la columna 𝐸𝑥𝑝(𝐵). Puede observarse, por ejemplo que manteniendo
constantes el resto de variables, los pacientes que han experimentado un episodio de
hipoglucemia en los últimos tres meses tienen un 529,4% más de riesgo de sufrir
hipoglucemia (𝑂𝑅 = 6,294) durante el ingreso que los que no. Del mismo modo,
ajustando por el resto de variables, se estima que por cada día más de hospitalización
aumenta el riesgo de hipoglucemia en un 2,6% (𝑂𝑅 = 1,026).
Deviance
La bondad del ajuste del modelo suele valorarse a través de una medida conocida como
Deviance (discrepancia). No es objeto de este curso profundizar en el procedimiento de
maximización de la verosimilitud para la estimación de parámetros en un modelo
multivariante. Bastaría con conocer que el modelo saturado (el que tendría el mismo
número de coeficientes que observaciones y que, por tanto, ajustaría perfectamente los
datos) tendrá un valor de -2ln (verosimilitud) determinado y que será más pequeño que
el obtenido para cualquier modelo con menos coeficientes. Interesaría que la deviance
fuera pequeña puesto que, cuanto más elevada sea menos ajustará el modelo propuesto a
los datos. Para valorar, por tanto, el ajuste de un modelo de regresión logística con k-
variables explicativas será necesario construir dos modelos:
Para los datos del ejemplo con únicamente una variable explicativa (insulina) puede
observarse que la deviance obtenida es (ver tabla resumen del modelo):
Para los datos del ejemplo con las cuatro variables explicativas se obtendría:
1 3,479 8 ,901
X8 = No X8 = Sí
2 65 64,998 4 4,002 69
3 70 67,618 2 4,382 72
4 73 73,914 6 5,086 79
5 66 66,691 6 5,309 72
6 61 59,748 5 6,252 66
7 63 61,812 6 7,188 69
8 58 60,824 11 8,176 69
9 57 58,190 13 11,810 70
10 44 43,703 26 26,297 70
En el caso del modelo ajustado con el resto de variables (FGe, insulina, tiempo de
hospitalización y episodios de hipoglucemia en los últimos tres meses) estas medidas de
R cuadrado proporcionan una valor de 0,059 y 0,133 respectivamente lo que supondría
un porcentaje de variabilidad explicada entre el 5,9% y el 13,3%.
Otra forma de valorar el ajuste del modelo consistiría en construir e interpretar la tabla
de clasificación. Esta tabla trata de clasificar a los individuos en las dos categorías de la
variable dependiente (hipoglucemia sí o no) en función de las probabilidades
pronosticadas y compararlas después con el verdadero estado (hipoglucemia sí o no) del
individuo. Así, a todos los individuos a los que el modelo de regresión logística les
pronostique una probabilidad de ocurrencia del suceso (hipoglucemia) superior o igual a
0,5 serán clasificados como ‘Hipoglucemia Sí’, mientras que aquellos a los que se les
pronostique una probabilidad inferior a 0,5 serán clasificados como ‘Hipoglucemia No’.
Para el modelo con sólo una variable explicativa (insulina) la tabla obtenida es la
siguiente:
a
Tabla de clasificación
Observado Pronosticado
Hipoglucemia Porcentaje
No Sí correcto
Sí 100 0 ,0
Puede observarse que, en este caso, la Sensibilidad de la prueba 𝑃(+⁄𝐸 ) sería del 0%
ya que no se pronostica ningún caso como positivo (‘Hipoglucemia Sí’) entre los 100
individuos con hipoglucemia observados y la Especificidad 𝑃 (−⁄ ̅ ) del 100% puesto
𝐸
que todos los individuos sin hipoglucemia observados fueron clasificados a partir del
modelo como ‘Hipoglucemia No’.
Observado Pronosticado
Hipoglucemia Porcentaje
No Sí correcto
Sí 78 4 4,9
Curva ROC
Sin embargo, si en función de los valores que predice el modelo esto fuera cambiando,
podría determinarse un punto de corte a partir de los valores pronosticados que
maximizara el valor de la sensibilidad y especificidad. El punto de corte que
maximizaría estas cantidades sería el que estuviera más cerca de la coordenada (0,1) que
equivaldría a una sensibilidad y especificidad iguales a 1 (Capacidad de discriminación
perfecta).
Coordenada (0,1)
Sensibilidad
0 1
1-Especificidad
En las curvas ROC obtenidas a partir de los ejemplos anteriores puede apreciarse que en
el primer caso (izquierda) la curva ROC está mucho más ‘pegada’ a la diagonal que la
curva de la derecha y, por tanto, más lejos de la coordenada (0,1). En consecuencia, el
segundo modelo tendría una mejor capacidad de discriminación.
Puede observarse que, en el primer caso, el área bajo la curva es de 0,556 y el intervalo
de confianza al 95% [0,494; 0,517]]. Por su parte el modelo con cuatro variables
predictoras consigue un área bajo la curva de 0,722 con un intervalo de confianza al
95% de [0,660; 0,784]].
Puede observarse que para el primer modelo la 𝑝 del contraste es de 0,07 (no
significativo) lo que es coherente con que el intervalo de confianza contiene al valor 0,5.
En el caso del segundo modelo se obtiene una 𝑝 < 0,001 que implicaría que el área
bajo la curva es significativamente superior a 0,5 y que, por tanto, el modelo tiene una
capacidad de discriminación significativa.