Regresion Lineal Simple y Multiple

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 75

INTRODUCCIÓN AL ANÁLISIS

MULTIVARIANTE.
MODELOS DE REGRESIÓN LINEAL Y
REGRESIÓN LOGÍSTICA MULTIVARIANTE

Joaquín Moncho Vasallo


ANÁLISIS DE REGRESIÓN LINEAL SIMPLE Y MÚLTIPLE

INTRODUCCIÓN

Con frecuencia se pretende estudiar la posible relación entre diversas variables objeto de
estudio. La forma en que se pretenda estudiar la posible relación entre las mismas y el
número de variables consideradas determinará si se trata de un análisis basado en
modelos de dependencia o interdependencia y si éste es bivariado o multivariado.

- ¿Existe relación entre el nivel de colesterol y el índice de masa corporal?


- ¿Existe relación entre el nivel de triglicéridos, la edad y el índice de masa
corporal?
- ¿Cómo influyen la edad y el índice de masa corporal sobre el nivel de
triglicéridos?

La primera de las preguntas planteadas involucra únicamente a dos variables


(cuantitativas en este caso). Se trataría por tanto de un análisis bivariado y, como se
abordará posteriormente, podría abordarse, por ejemplo, mediante el análisis de
correlación o regresión lineal simple.

La segunda situación incluye tres variables. Se trataría, por tanto, de un análisis


multivariado, si bien, dependiendo del objetivo, se resolvería mediante un análisis
basado en modelos de dependencia o interdependencia.

En la tercera de las cuestiones planteadas se incluyen exactamente las mismas tres


variables que en el caso anterior, si bien, se especifica un objetivo claro: analizar la
influencia que dos de ellas (edad e índice de masa corporal) tendrían sobre el nivel de
triglicéridos. En este caso sería necesario utilizar un modelo multivariante de
dependencia (el nivel de triglicéridos dependería del comportamiento de la edad y el
índice de masa corporal).

Métodos multivariantes

Conjunto de técnicas estadísticas basadas en el estudio conjunto de varias variables (3 o


más) con el objetivo de describir o hacer inferencias sobre las características
individuales o colectivas de tales variables.

Modelos de dependencia e interdependencia

Las técnicas de análisis multivariante podrían clasificarse en dos grandes grupos


dependiendo del objetivo. Así, los modelos de interdependencia consideran a todas las
variables objeto de estudio al mismo nivel (Ej. Análisis factorial, análisis de
correspondencias, etc). Por otra parte los modelos de dependencia establecen una
diferenciación clara entre una variable (o grupo de variables) que juega un papel de
variable resultado, dependiente o explicada y otro conjunto de variables que
desempeñarán un papel de variables independientes o explicativas (modelo de regresión
lineal múltiple, modelos de regresión logística multivariante, etc). En el caso propuesto
en la tercera de las preguntas planteadas al inicio de este capítulo la edad y el índice de
masa corporal serían variables independientes o explicativas y el nivel de triglicéridos la
variable dependiente, resultado o explicada.

En este capítulo el interés se centrará en dos de los métodos de análisis multivariante de


dependencia más utilizados como son el modelo de regresión lineal múltiple y el
modelo de regresión logística multivariante. Estos modelos permitirán estudiar la
posible influencia de un conjunto de variables explicativas (cuantitativas y cualitativas)
sobre una variable resultado o dependiente cuantitativa (modelo de regresión lineal
múltiple) o cualitativa (modelo de regresión logística multivariante).

Conceptos previos. Covarianza y coeficiente de correlación lineal de Pearson

Para que el lector pueda familiarizarse con la terminología y elementos básicos de un


modelo de regresión lineal comenzaremos analizando el caso del estudio de la relación
entre dos variables cuantitativas. Dadas dos variables cuantitativas cabría preguntarse,
en primer lugar, qué tendría que ocurrir para concluir que existe una relación entre las
mismas. Sería lógico pensar que existirá una relación, por ejemplo entre la el nivel de
colesterol y índice de masa corporal, si a mayor índice de masa corporal se observa un
mayor nivel de colesterol. En caso afirmativo esta relación sería “directa” (a más más).
En el caso en que a mayor valor de una variable se observara un menor valor de la otra
se hablaría de una relación “inversa”. ¿Qué podría concluirse si al aumentar el valor de
una variable la otra no mostrara ninguna variación significativa en su comportamiento?
En principio, podría decirse que no existe asociación o relación entre las mismas (al
menos lineal).

Figura 1. Diagramas de dispersión

y y y

x x x

(a) (b) (c)


En la figura 1 se muestran tres diagramas de dispersión (representación gráfica en la que
se sitúa una variable cuantitativa en el eje de abcisas y otra en el eje de ordenadas) que
se corresponden con tres posibles escenarios. El caso (a) sería compatible con una
relación directa (a mayor valor de 𝑥 mayor valor de 𝑦), el caso (b) con una relación
inversa, mientras que el caso (c) con una ausencia de relación. Es importante señalar
que se valora el comportamiento conjunto de la nube de puntos.

Covarianza entre dos variables cuantitativas.

El diagrama de dispersión ofrecía información sobre la posible relación entre dos


variables cuantitativas y el sentido de la misma (directa o inversa). Sin embargo, parece
necesario obtener una medida que permita reconocer cada una de las situaciones
anteriores en función de su resultado. Para ilustrar su proceso de cálculo será muy útil
tener en cuenta dónde se sitúa el punto (𝑥̅ , 𝑦̅). Si se considera la situación (a) de la
figura 1, se tiene que:
Figura 2. Situación de cada observación respecto al punto (𝑥̅ ,𝑦̅)

y (2) (1)

𝑦̅
(𝑥̅ , 𝑦̅)

(3) (4)

x
𝑥̅
Como puede observarse, el punto (𝑥̅ , 𝑦̅) se sitúa en el centro de gravedad de la
distribución de los datos (nube de puntos). Si se calcula la cantidad (𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)
para cada uno de los pares de observaciones (puntos) se obtendría que para todos los
puntos situados en el cuadrante (1) y en el cuadrante (3) estas cantidades tendrán signo
positivo (Obsérvese, por ejemplo, que para todos los puntos situados en el primer
cuadrante se verifica 𝑥𝑖 > 𝑥̅ y 𝑦𝑖 > 𝑦̅ por lo que (𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) > 0). Sin embargo,
en el caso de los puntos situados en los cuadrantes (2) y (4) estas cantidades serán
negativas. Se dispondría, por tanto, de una cantidad para cada par de observaciones
(𝑥𝑖 , 𝑦𝑖 ) que tomaría un valor positivo o negativo en función del cuadrante en el que se
posicionara. Se define como covarianza entre dos variables cuantitativas a la media de
todas las cantidades (𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅). Así se tendrá que:

∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)


𝐶𝑜𝑣((𝑥, 𝑦) =
𝑛
En el caso de la figura 2 puede observarse que la mayoría de las observaciones se sitúan
en el primer y tercer cuadrante, presentando además unas distancias al punto
(𝑥̅ , 𝑦̅) 𝑚ayores que las que se obtendrían para los puntos situados en el segundo y
cuarto cuadrante. Por tanto, las cantidades positivas serán superiores a las cantidades
negativas y la media de todas las cantidades tendrá un signo positivo, evidenciándose
una posible relación lineal directa.

De la misma forma, si se hubiera trabajado con los datos de la situación (b) de la figura
1, la mayoría de las observaciones se hubieran situado en los cuadrantes (2) y (4) y sus
distancias al punto (𝑥̅ , 𝑦̅) serían superiores a las de los puntos situados en los
cuadrantes (1) y (2). En consecuencia la 𝐶𝑜𝑣(𝑥, 𝑦) tendría un valor negativo compatible
con una relación inversa.

En definitiva, si la relación entre las dos variables es directa el valor de 𝐶𝑜𝑣(𝑥, 𝑦) es


positivo y, si la relación es inversa, el valor de 𝐶𝑜𝑣(𝑥, 𝑦) es negativo. Por otra parte, si
los datos describen una situación de ausencia de relación como la (c) de la 1, las
cantidades positivas se cancelarían con la negativas y el valor de 𝐶𝑜𝑣(𝑥, 𝑦) sería cero.

Si bien la covarianza permite detectar la posible relación lineal entre dos variables y el
sentido de la misma, presenta dos problemas importantes:

- La covarianza depende de las unidades de medida (no es adimensional). Esto


supone que dos representaciones gráficas idénticas podrían ofrecer dos valores
de la covarianza distintos.
- La covarianza no está acotada (no tiene límite superior e inferior). Esto supone
que no es posible conocer, a partir de la covarianza, lo cerca o lejos que se
encuentran los datos de describir la relación lineal perfecta (todos los puntos se
situarían sobre una recta).

El coeficiente de correlación lineal de Pearson.

Para obtener una medida que resuelva los problemas descritos anteriormente se realizará
una modificación de la covarianza (que jugará un papel importante) de la siguiente
forma:

𝐶𝑜𝑣(𝑥, 𝑦)
𝑟=
𝑆𝑥 𝑆𝑦
Esta medida r se conoce como el coeficiente de correlación lineal de Pearson y tomará
un valor positivo sólo si el valor de la 𝐶𝑜𝑣(𝑥, 𝑦) lo es y, por tanto, la relación entre las
variables es directa. Por otra parte, r toma valores entre -1 y 1, de forma que cuanto más
se acerque el valor de 𝑟 a 1 ó −1, mayor será la magnitud de la relación entre las dos
variables y, gráficamente, más cerca se encuentran de describir la relación lineal
perfecta. Por otro lado, si el valor de 𝑟 se acerca a 0 será porque la 𝐶𝑜𝑣(𝑥, 𝑦) también lo
hace y se supone una ausencia de relación lineal entre las mismas.

Es importante tener en cuenta que un valor de r de 0 o próximo a 0 no indica


necesariamente una ausencia de relación entre las dos variables cuantitativas, sino una
ausencia de relación lineal, pudiéndose relacionar las variables de otra forma (por
ejemplo mediante una relación cuadrática).

Inferencia sobre el coeficiente de correlación lineal de Pearson

Cuando se pretende extraer conclusiones sobre la posible relación entre dos variables a
partir de un conjunto de datos observados hay que tener en cuenta que el coeficiente de
correlación lineal de Pearson calculado varía en función de la muestra aleatoria
seleccionada. Será por tanto necesario realizar un contraste de hipótesis para determinar
si las dos variables se relacionan de forma significativa o no. El contraste de interés, en
este caso, quedaría de la siguiente forma:

𝐻0 : 𝜌 = 0

𝐻1 : 𝜌 ≠ 0

El estadístico de contraste utilizado se basa en una transformación del coeficiente de


correlación lineal de Pearson:

𝑟√𝑛 − 2
𝐸𝐶 =
√1 − 𝑟 2
Esta cantidad se distribuye, bajo la hipótesis nula, según un modelo de distribución 𝑡 de
Student con 𝑛 − 2 grados de libertad y se precisaría que cada una de las variables se
distribuyera según un modelo de probabilidad normal. Como puede observarse, en caso
de rechazar la hipótesis nula, el coeficiente de correlación lineal poblacional sería
significativamente distinto de cero y se concluiría que existe relación significativa entre
las dos variables.
EL MODELO DE REGRESIÓN LINEAL SIMPLE

El coeficiente de correlación lineal de Pearson informa sobre la magnitud o fuerza de la


asociación lineal entre dos variables cuantitativas. Sin embargo, para poder disponer de
información sobre la naturaleza de la relación existente se precisa de otras técnicas,
como el análisis de regresión lineal. Por otra parte, a partir de un modelo que expresara
la relación funcional entre las dos variables (mediante un modelo de regresión lineal
simple en este caso) podrían realizarse predicciones.

- ¿Cuánto aumenta en nivel de triglicéridos por cada unidad más de índice de


masa corporal (IMC)?
- ¿Cuál sería el nivel de triglicéridos estimado para un individuo con un índice de
masa corporal de 28,35? ¿Y el nivel promedio de triglicéridos de los individuos
con un IMC de 28,35?

Estructura del modelo de regresión lineal simple

El modelo de regresión lineal simple establece que la forma en que se relacionan dos
variables es lineal y, por tanto, la expresión funcional quedaría:

𝑦 = 𝛽0 + 𝛽1 𝑥

Esta expresión funcional establece que el valor de 𝑦 depende del valor de 𝑥. Esto es
importante porque, a diferencia del análisis de correlación lineal donde las dos variables
jugaban el mismo papel, el análisis de regresión requiere que se establezca qué variable
representará el papel de variable dependiente o explicada y qué variable jugará el papel
de variable independiente o explicativa.

Para determinar los valores de 𝛽0 y 𝛽1 y obtener la recta que mejor resume los datos
observados suele utilizarse el método de mínimos cuadrados en el que, básicamente, se
minimizan los errores que se cometerían al proporcionar el valor estimado por la recta
𝑦̂𝑖 en lugar del verdadero valor observado 𝑦𝑖 . Gráficamente podría expresarse de la
siguiente forma:

̂ 𝒊 )𝟐
Figura 3. Ajuste de la recta de regresión lineal simple. Minimización de (𝒚𝒊 − 𝒚

𝑦𝑖
y=Triglicéridos

𝑦̂𝑖

x=IMC
El objetivo sería por tanto hallar los valores de 𝛽0 y 𝛽1que hicieran mínima la siguiente
cantidad:

𝑀𝑖𝑛 ∑ 𝑒𝑖 2 = 𝑀𝑖𝑛 ∑(𝑦𝑖 − 𝑦̂𝑖 )2 = 𝑀𝑖𝑛 ∑(𝑦𝑖 − (𝛽0 + 𝛽1 𝑥𝑖 ))2

Donde 𝑒𝑖 = 𝑦𝑖 − 𝑦̂𝑖 se denomina error o residuo del modelo. Nótese que en la


expresión anterior todo son números conocidos excepto 𝛽0 y 𝛽1. Derivando
parcialmente respecto a 𝛽0 y 𝛽1 e igualar a cero, se obtendrá un sistema de dos
ecuaciones con dos incógnitas. Los valores finales para 𝛽0 y 𝛽1 vendrán determinados
por las siguientes expresiones:

𝐶𝑜𝑣(𝑥, 𝑦)
𝛽1 =
𝑆𝑥2

𝛽0 = 𝑦̅ − 𝛽1 𝑥̅

Ejemplo 1

Se cuenta con información sobre el nivel de triglicéridos y el IMC de 28 pacientes


cuyas observaciones se presentan en la tabla 1. Se pretende estudiar la posible
asociación entre el IMC y el nivel de triglicéridos.

Tabla 1. Nivel de triglicéridos e IMC de 20


pacientes
Paciente IMC Triglicéridos
(𝑥𝑖 − 𝑥̅ ) (𝑦𝑖 − 𝑦̅) (𝑥𝑖 − 𝑥̅ )2 (𝑦𝑖 − 𝑦̅)2 (𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)
1 23,62 70 -2,22 0,7 4,93 0,49 -1,55
2 22,23 75 -3,61 5,7 13,03 32,49 -20,58
3 24,17 51 -1,67 -18,3 2,79 334,89 30,56
4 24,17 107 -1,67 37,7 2,79 1421,29 -62,96
5 26,30 55 0,46 -14,3 0,21 204,49 -6,58
6 29,72 100 3,88 30,7 15,05 942,49 119,12
7 24,24 46 -1,6 -23,3 2,56 542,89 37,28
8 25,81 76 -0,03 6,7 0,00 44,89 -0,20
9 29,52 99 3,68 29,7 13,54 882,09 109,30
10 28,76 69 2,92 -0,3 8,53 0,09 -0,88
11 27,06 46 1,22 -23,3 1,49 542,89 -28,43
12 21,05 65 -4,79 -4,3 22,94 18,49 20,60
13 24,03 42 -1,81 -27,3 3,28 745,29 49,41
14 26,04 53 0,2 -16,3 0,04 265,69 -3,26
15 27,47 62 1,63 -7,3 2,66 53,29 -11,90
16 26,78 75 0,94 5,7 0,88 32,49 5,36
17 26,67 40 0,83 -29,3 0,69 858,49 -24,32
18 27,27 70 1,43 0,7 2,04 0,49 1,00
19 27,48 73 1,64 3,7 2,69 13,69 6,07
20 24,34 112 -1,5 42,7 2,25 1823,29 -64,05
Suma 516,73 1386 102,40 8760,20 153,99
Media 25,84 69,3 5,12 438,01 7,70
Desviación típica 2,26 20,93

En primer lugar se calculará el coeficiente de correlación lineal de Pearson para valorar


la magnitud de la asociación lineal entre las dos variables y, posteriormente, se ajustará
un modelo de regresión lineal simple con objeto de obtener información sobre la
naturaleza de la relación, si es que existe.

∑(𝑥𝑖 − 𝑥̅)(𝑦𝑖 − 𝑦̅) 153,99


𝐶𝑜𝑣(𝑥, 𝑦) 𝑛 20 7,70
𝑟= = = = = 0,163
𝑆𝑥 𝑆𝑦 𝑆𝑥 𝑆𝑦 2,26 × 20,93 47,30

El valor del correlación lineal de Pearson toma un valor positivo por lo que se espera
que la nube de puntos esté ligeramente inclinada hacia arriba indicando la posibilidad de
una relación directa entre las variables. Para obtener la recta de regresión lineal será
necesario, en primer lugar, establecer qué variable será la dependiente. Parece lógico
pensar que, en este caso, sea el nivel de triglicéridos el que pudiera ser explicado por el
IMC. Si se utilizan los cálculos realizados hasta el momento se tendrá que:

𝐶𝑜𝑣(𝑥, 𝑦) 7,70
𝛽1 = 2
= = 1,504
𝑆𝑥 2,262

𝛽0 = 𝑦̅ − 𝛽1 𝑥̅ = 69,3 − 1,504 .25,84 = 30,44

Por tanto, el modelo quedará:

𝑡𝑟𝑖𝑔𝑙𝑖𝑐é𝑟𝑖𝑑𝑜𝑠 = 30,44 + 1,504 × 𝐼𝑀𝐶

En la figura 4 se muestra el diagrama de dispersión construido a partir de los datos del


ejemplo y la recta de regresión lineal simple ajustada en el que puede observarse una
posible relación directa entre las dos variables objeto de estudio.
Figura 4. Recta de regresión lineal ajustada a los datos del ejemplo 1

Interpretación del modelo de regresión lineal simple

Los coeficientes ajustados en el modelo de regresión 𝛽0 y 𝛽1 proporcionan información


valiosa sobre la naturaleza de la relación entre las dos variables, especialmente el
coeficiente 𝛽1. Así, mientras que 𝛽0 indica simplemente el punto de corte de la recta de
regresión con el eje de ordenadas (puede observarse que si el IMC fuera 0 el nivel de
triglicéridos sería 30,44), el coeficiente 𝛽1 recoge el efecto de la variable independiente
sobre la variable dependiente. Para ilustrarlo a continuación se proporcionan para los
datos del ejemplo los resultados en la estimación del nivel de triglicéridos cada vez que
se aumenta en una unidad el valor de IMC. Así se tendrá que:

Si 𝐼𝑀𝐶 = 25 → 𝑡𝑟𝑖𝑔𝑙𝑖𝑐é𝑟𝑖𝑑𝑜𝑠 = 30,44 + 1,504 × 25 = 68,040

Si 𝐼𝑀𝐶 = 26 → 𝑡𝑟𝑖𝑔𝑙𝑖𝑐é𝑟𝑖𝑑𝑜𝑠 = 30,44 + 1,504 × 26 = 69,544

Si 𝐼𝑀𝐶 = 27 → 𝑡𝑟𝑖𝑔𝑙𝑖𝑐é𝑟𝑖𝑑𝑜𝑠 = 30,44 + 1,504 × 27 = 71,048

Puede observarse que, por cada unidad adicional de IMC del individuo el nivel de
triglicéridos que le pronostica la recta aumenta en 1,504 unidades, coincidiendo con el
valor de 𝛽1 . En consecuencia, el coeficiente 𝛽1 podría interpretarse, en general, como el
cambio en la variable dependiente por unidad de cambio en la variable independiente,
que a su vez coincide con la pendiente de la recta de regresión lineal simple. .
Como es lógico, el coeficiente de correlación lineal de Pearson y el coeficiente 𝛽1de la
recta de regresión guardan una estrecha relación, sobre todo si se tiene en cuenta que la
𝐶𝑜𝑣(𝑥, 𝑦) interviene en el cálculo de ambas cantidades. Dado que los denominadores
que intervienen en el cálculo de 𝑟 y 𝛽1 son siempre positivos, su signo estará
determinado por el valor de la 𝐶𝑜𝑣(𝑥, 𝑦), de forma que, si la covarianza es positiva (lo
que indica una posible relación lineal directa) también lo será el valor del coeficiente de
correlación lineal de Pearson y el valor 𝛽1 que es la pendiente de la recta. Si por el
contrario el valor de la 𝐶𝑜𝑣(𝑥, 𝑦) es negativo, también lo serán los valores de 𝑟 y 𝛽1.

Bondad del ajuste del modelo de regresión lineal simple. Coeficiente de


determinación 𝑹𝟐 .

El procedimiento de construcción de la recta de regresión lineal simple proporcionará,


para un conjunto de datos cualquiera (correspondiente a dos variables cuantitativas) una
recta, con independencia de que ajuste bien o no a los datos disponibles. Será necesario,
por tanto, construir una medida que ofrezca información sobre la bondad del ajuste de
la recta a los datos observados.

Figura 5. Ajuste del modelo de regresión lineal

y y

x x
(a) (b)

En la figura 5 se presentan dos situaciones en las que se analiza la relación entre dos
variables continuas. Puede observarse que la pendiente de la recta es la misma y, por
tanto, al tratarse de las mismas variables la magnitud del efecto de la variable 𝑥 sobre la
variable 𝑦 que queda recogido en el coeficiente 𝛽1 será el mismo. Sin embargo, la recta
correspondiente al caso (b) ajusta mejor a los datos observados que la recta del caso (a).
Esto es así porque en el caso (b) los datos se disponen alrededor de la recta de forma
más agrupada a lo que lo hacen en el caso (a) y, en consecuencia, los residuos
𝑒𝑖 tomarán valores más pequeños.

Aprovechando esta idea para la construcción de una medida de la bondad el ajuste de la


recta se considerará la distancia de cada observación de la variable dependiente 𝑦𝑖 a la
media de las observaciones de la variable 𝑦̅ para un determinado valor de 𝑥𝑖 puede
expresarse de la forma:

𝑦𝑖 − 𝑦̅ = (𝑦𝑖 − 𝑦̂𝑖 ) + (𝑦̂𝑖 − 𝑦̅)

En el diagrama de dispersión se representaría de la siguiente forma:

Figura 6. Descomposición de la distancia de cada observación a la media

y
𝑦𝑖
𝑦𝑖 − 𝑦̂𝑖
𝑦̂𝑖
𝑦̂𝑖 − 𝑦̅
𝑦̅
𝑦̅

x
Una forma de obtener un resumen de las distancias sería consistiría en calcular la suma
de todas las distancias (una para cada observación):

∑(𝑦𝑖 − 𝑦̅) = ∑(𝑦𝑖 − 𝑦̂𝑖 ) + ∑(𝑦̂𝑖 − 𝑦̅)

Sin embargo, dado que la media de las observaciones se sitúa en el centro de gravedad
de los datos, las distancias positivas cancelarían las distancias negativas y esta cantidad
sería siempre cero. Para eliminar el efecto del signo pero conservar la magnitud de la
distancia se eleva al cuadrado, de forma que se obtiene la siguiente expresión:

(𝑦𝑖 − 𝑦̅)2 = (𝑦𝑖 − 𝑦̂𝑖 )2 + (𝑦̂𝑖 − 𝑦̅)2 + 2(𝑦𝑖 − 𝑦̂𝑖 )(𝑦̂𝑖 − 𝑦̅)

Si se calcula la suma de todas estas distancias, ahora al cuadrado y por tanto positivas,
se tendrá que:

∑(𝑦𝑖 − 𝑦̅)2 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 + ∑(𝑦𝑟 − 𝑦̅)2 + 2 ∑(𝑦𝑖 − 𝑦̂𝑖 )(𝑦̂𝑖 − 𝑦̅)

Dado que se verifica:


∑(𝑦𝑖 − 𝑦̂𝑖 )(𝑦̂𝑖 − 𝑦̅) = 0

La expresión final quedará:

∑(𝑦𝑖 − 𝑦̅)2 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 + ∑(𝑦̂𝑖 − 𝑦̅)2 = 𝑉𝑁𝐸 + 𝑉𝐸

Esta expresión se conoce como la descomposición de la variabilidad ya que, como


puede observarse, a la izquierda de la igualdad se tiene el numerador de la varianza total
de la variable dependiente 𝑦 expresada como suma de dos variabilidades, donde:

∑(𝑦𝑖 − 𝑦̂𝑖 )2 = Variabilidad no explicada por el modelo de regresión. Resume las


distancias al cuadrado entre el verdadero valor observado de la variable
dependiente 𝑦 el valor que pronostica la recta 𝑦̂ (varianza residual).

∑(𝑦̂𝑖 − 𝑦̅)2= Variabilidad explicada por el modelo de regresión. Resume las


distancias entre el valor promedio de la variable dependiente (valor que se
proporcionaría para estimar el valor de 𝑦 si no se tuviera en cuenta el modelo de
regresión) y el valor que pronostica la recta 𝑦̂ (varianza de la regresión).

∑(𝑦𝑖 − 𝑦̅)2= Variabilidad total observada en la variable dependiente. Obsérvese


que coincide con el numerador de la varianza de la variable 𝑦.

En consecuencia, se tendrá que:

𝑉𝑇 = 𝑉𝑁𝐸 + 𝑉𝐸

Para obtener una medida de la bondad del ajuste del modelo que pueda ser interpretada
como la proporción de variabilidad explicada bastará con dividir la variabilidad
explicada VE por la variabilidad total VT.

∑(𝑦̂𝑖 − 𝑦̅)2 𝑉𝐸
𝑅2 = =
∑(𝑦𝑖 − 𝑦̅)2 𝑉𝑇

Esta cantidad se conoce como el coeficiente de determinación de la recta de regresión


lineal simple. Se interpreta como la proporción de variabilidad explicada por el modelo
(recta de regresión) o, si se multiplica el resultado por 100, como porcentaje de
variabilidad explicada por el modelo. Al tratarse de una proporción tomará valores entre
0 y 1 (entre 0% y 100% si se opta por la expresión en forma de porcentaje).

Si se utilizan los datos del ejemplo 1 se tendrá que:


Tabla 2. Descomposición variabilidad datos ejemplo 1
Paciente IMC Triglicéridos
𝑥𝑖 𝑦𝑖 𝑦̂𝑖 (𝑦̂𝑖 − 𝑦̅𝑖 )2 (𝑦𝑖 − 𝑦̅𝑖 )2

1 23,62 70 65,96 11,13 0,49


2 22,23 75 63,87 29,44 32,49
3 24,17 51 66,79 6,29 334,89
4 24,17 107 66,79 6,29 1421,29
5 26,3 55 70,00 0,48 204,49
6 29,72 100 75,14 34,09 942,49
7 24,24 46 66,90 5,77 542,89
8 25,81 76 69,26 0,00 44,89
9 29,52 99 74,84 30,67 882,09
10 28,76 69 73,70 19,32 0,09
11 27,06 46 71,14 3,38 542,89
12 21,05 65 62,10 51,85 18,49
13 24,03 42 66,58 7,39 745,29
14 26,04 53 69,60 0,09 265,69
15 27,47 62 71,75 6,03 53,29
16 26,78 75 70,72 2,01 32,49
17 26,67 40 70,55 1,57 858,49
18 27,27 70 71,45 4,64 0,49
19 27,48 73 71,77 6,10 13,69
20 24,34 112 67,05 5,07 1823,29
Suma 231,62 8760,2

De donde:

𝑉𝐸 ∑(𝑦̂𝑖 − 𝑦̅)2 231,62


𝑅2 = = = = 0,026
𝑉𝑇 ∑(𝑦𝑖 − 𝑦̅)2 8760,2

Se concluirá, por tanto, que el modelo de regresión lineal simple logra explicar en torno
al 2,6% de la variabilidad observada en el nivel de triglicéridos de los pacientes. Si se
tiene en cuenta que el modelo cuenta con tan sólo una variable explicativa (en este caso
el IMC), podrá concluirse que el IMC logra explicar el 2,6% de la variabilidad
observada en el nivel de triglicéridos de los pacientes estudiados.

Inferencia sobre el modelo de regresión lineal simple

Es importante tener en cuenta que el modelo de regresión lineal simple ajustado para un
determinado conjunto de datos depende de la muestra aleatoria seleccionada, de forma
que, si se seleccionara otra muestra aleatoria de la misma población se ajustaría un
modelo con un valor de sus coeficientes 𝛽0 𝑦 𝛽1 distintos.
En definitiva, los valores de 𝛽0 y 𝛽1 , así como el del coeficiente de determinación de la
recta 𝑅 2 , serán variables aleatorias que varían de muestra a muestra de la población
(estadísticos) y será necesario hacer inferencia para extraer conclusiones sobre los
parámetros poblacionales de interés.

Sería interesante establecer si el modelo explica una parte significativa de la


variabilidad observada en la variable dependiente con independencia de los datos
observados (de la muestra seleccionada). Si se considera el siguiente contraste sobre el
coeficiente de determinación poblacional:

𝐻0 : 𝜌2 = 0

𝐻1 : 𝜌2 ≠ 0

Se tiene que, en caso de aceptación de la hipótesis nula no habría evidencia de que el


coeficiente de determinación poblacional sea significativamente distinto de cero. Por
tanto, la variabilidad explicada podría ser cero y el modelo no explicaría nada. Si por el
contrario se rechaza la hipótesis nula el coeficiente de determinación sería
significativamente distinto de cero y el modelo explicaría, de forma significativa, parte
de la variabilidad observada en la variable dependiente.

El estadístico de contraste utilizado para este contraste se basa en la descomposición de


la variabilidad y utiliza la VE y la VNE corregida por sus grados de libertad. Así se
tendrá que:

𝑉𝐸/1 ∑(𝑦̂𝑖 − 𝑦̅)2


𝐸𝐶 = =
𝑉𝑁𝐸/(𝑛 − 2) ∑(𝑦𝑖 − 𝑦̂𝑖 )2 /(𝑛 − 2)

Dado que se trata de un cociente de varianzas (cada una distribuida según una
distribución ji-cuadrado), la distribución muestral asociada sería un F de Snedecor con 1
y n-2 grados de libertad, en el caso de verificarse las hipótesis necesarias que se
abordadas con posterioridad. Puede observarse que si la VE por el modelo es cero o
cerca de cero el valor del estadístico de contraste será cero o próximo a cero (Situación
compatible con la hipótesis nula), mientras que si la VE aumenta la VNE disminuirá y
el valor de EC aumentará hasta el punto alcanzar un valor que lleve a rechazar, en su
caso, la hipótesis nula.

Tabla de ANOVA de la regresión

En el proceso de obtención del estadístico de contraste descrito en el apartado anterior


suele construirse una tabla basada en la descomposición de la variabilidad conocida com
o la tabla de ANOVA de la regresión, tal y como se recoge en la siguiente tabla:
Tabla 3. Tabla de ANOVA de la regresión

Fuente Suma de cuadrados Media de cuadrados Cociente de varianzas


Regresión (VE) ∑(𝑦̂𝑖 − 𝑦̅)2 ∑(𝑦̂𝑖 − 𝑦̅)2 /1
∑(𝑦̂𝑖 − 𝑦̅)2
1 ∑(𝑦𝑖 − 𝑦̂𝑖 )2 /(𝑛 − 2)

Residual (VNE) ∑(𝑦𝑖 − 𝑦̂𝑖 )2


∑(𝑦𝑖 − 𝑦̂𝑖 )2
𝑛−2

Total (VT) ∑(𝑦𝑖 − 𝑦̅)2


∑(𝑦𝑖 − 𝑦̅)2
𝑛−1

En la segunda columna (suma de cuadrados) aparece reflejada la descomposición de la


variabilidad de forma que VE + VNE = VT . En la tercera columna se corrige cada una
de las varianzas por sus grados de libertad (Media de cuadrados). En la última columna
se construye el estadístico de contraste como el cociente entre la varianza explicada y la
no explicada por el modelo de regresión corregidas por sus grados de libertad (medias
de cuadrados).

Si se utilizan los datos del ejemplo 1 se tendrá que:

Fuente Suma de cuadrados Media de cuadrados Cociente de varianzas


Regresión (VE) 231,62
231,62 231,62 = 0,489
473,81
Residual (VNE) 8528,58
473,81
Total (VT) 8760,2 461,06

El estadístico de contraste sería 0,489 que, comprobado en las tablas de la F de


Snedecor con 1 y n-2=18 grados de libertad, proporcionaría un valor de la p de 0,493.
Dado que el valor de la p del contraste es superior al nivel habitual 0,05, se aceptaría la
hipótesis nula y se concluiría que el modelo no explica y, por tanto, que la variable IMC
no tiene un efecto significativo sobre el nivel de triglicéridos.

Requerimientos sobre el modelo de regresión lineal simple.

Los requerimientos necesarios para la realización de inferencias a partir del modelo de


regresión lineal simple contemplan hipótesis sobre la pertinencia del propio modelo
lineal para el estudio de la relación entre las dos variables consideradas e hipótesis sobre
los datos y su distribución. Así deberán comprobarse las siguientes hipótesis:
1) Pertinencia de la linealidad
2) Homocedasticidad
3) Normalidad
4) Independencia de las observaciones

(1) Pertinencia de la linealidad

Se requiere que el modelo de regresión lineal sea pertinente para el estudio de la


relación lineal entre las dos variables cuantitativas consideradas. Matemáticamente esta
hipótesis de pertinencia de la linealidad podría expresarse:

𝐸(𝑦|𝑥) = 𝛽0 + 𝛽1 𝑥

En la figura 7(a) puede observarse que la media de la variable dependiente 𝑦 para cada uno de
los valores de la variable independiente 𝑥 (𝑦̅|𝑥𝑖 ) se sitúa sobre la recta de regresión lineal.

Figura 7. Hipótesis de pertinencia de la linealidad

y y
𝑦̅|𝑥𝑐 𝑦̅|𝑥𝑐

x
𝑥𝑖 𝑥𝑗 𝑥𝑘 𝑥𝑐 𝑥𝑖 𝑥𝑗 𝑥𝑘 𝑥𝑐 x

(a) (b)

Sin embargo, en la figura 6 (b) puede observarse que las medias de 𝑦 para cada uno de
los valores de la variable independiente 𝑥 (𝑦̅|𝑥𝑖 ) no se encuentran sobre la recta de
regresión lineal en todos los casos, violándose la hipótesis de linealidad. Se hace notar
que la imagen del diagrama de dispersión sugiere en este caso una relación no lineal (ej.
cuadrática) entre las variables consideradas.
(2) Homocedasticidad

La hipótesis de homocedasticidad implica que la varianza de la variable dependiente 𝑦


sea constante. Matemáticamente se expresaría:

𝑉𝑎𝑟(𝑦|𝑥) = 𝜎 2

En la figuras 7 (a) y 7 (b) puede observarse que la varianza permanece constante aunque
varíe el valor de la variable independiente 𝑥. Sin embargo en las figuras 8 (a) y 8 (b) la
varianza es distinta dependiendo del valor de la variable independiente.

Figura 8. Hipótesis de homocedasticidad

y y
𝑦̅|𝑥𝑐
𝑦̅|𝑥𝑐

x
𝑥𝑖 𝑥𝑗 𝑥𝑘 𝑥𝑐 𝑥𝑖 𝑥𝑗 𝑥𝑘 𝑥𝑐 x

(a) (b)

Además, en el caso de la figura 8 (b) se violarían tanto la hipótesis de linealidad como la


de homocedasticidad.

La falta de homocedasticidad influye en la varianza de los estimadores, invalidando las


expresiones del contraste F del ANOVA de la regresión..

(3) Normalidad

La hipótesis de normalidad requiere que la distribución de la variable dependiente 𝑦 sea


normal para cada uno de los valores de la variable independiente 𝑥. Matenmáticamente
podría expresarse:

𝑦|𝑥 ∼ 𝑁𝑜𝑟𝑚𝑎𝑙
En la figura 9 (a) puede observarse que la distribución de la variable dependiente 𝑦 es la
normal para cada valor de 𝑥. Sin embargo, en la figura 9 (b) la distribución de 𝑦 varía
en función del valor de 𝑥.

Figura 9. Hipótesis de normalidad

y y

x x
𝑥𝑖 𝑥𝑖 𝑥𝑖 𝑥𝑖 𝑥𝑖 𝑥𝑖 𝑥𝑖 𝑥𝑖

(a) (b)

El incumplimiento de la hipótesis de normalidad influye sobre la eficiencia de los


estimadores (no serían de mínima varianza) y, por tanto, sobre los intervalos de
confianza y contrastes de hipótesis sobre los parámetros del modelo.

(4) Independencia

Se requiere que las observaciones sean independientes, requisito exigido en muchas de


las pruebas estadísticas abordadas con anterioridad.

Comprobación de las hipótesis del modelo. Análisis de los residuos

Tradicionalmente las hipótesis sobre el modelo de regresión lineal han sido


comprobadas mediante el análisis de los residuos del mismo. Las hipótesis se
reformularían de la siguiente forma:

1) Linealidad: 𝐸(𝑒|𝑥) = 0
2) Homocedasticidad: 𝑉𝑎𝑟(𝑒|𝑥) = 𝑐𝑡𝑒
3) Normalidad: 𝑒|𝑥 ∼ 𝑁𝑜𝑟𝑚𝑎𝑙
4) Independencia: 𝑒𝑖 , 𝑒𝑗 independientes para cualquier 𝑖, 𝑗
Para el estudio de las dos primeras hipótesis (linealidad y homocedasticidad) suele
construirse un gráfico de dispersión en el que se representa la variable 𝑦̂ (valor que
predice la recta) en el eje de abcisas y la variable 𝑒 (error o residuo del modelo) en el eje
de ordenadas. La figura 10 (a) evidencia el caso en que se cumplirían las dos hipótesis
planteadas (Los datos se disponen alrededor de la horizontal en cero que actúa de forma
similar a un eje de simetría y, además, se sitúan en una banda que se mantiene constante
a lo largo de toda la recta).

Figura 10. Diagnosis del modelo. Análisis de los residuos

𝑒 𝑒
𝑒|𝑦̂𝑖
𝑒|𝑦̂𝑖
0

(a) 𝑦̂ 𝑦̂
(b)

𝑒 𝑒|𝑦̂𝑖 𝑒
𝑒|𝑦̂𝑖
0

𝑦̂ 𝑦̂
(c) (d)

Sin embargo, el la figura 10 (b) se describe una situación en la que se incumple la


hipótesis de linealidad (la media de los residuos no es cero a lo largo de la recta) aunque
sí se verifica la hipótesis de homocedasticidad (los datos se mantienen en una banda
constante a lo largo de la recta).

Por último, en la figura 10 (c) puede apreciarse que se verifica la hipótesis de linealidad
pero no la de homocedasticidad., mientras que en la figura 10 (d) se incumplirían ambas
hipótesis.
El análisis gráfico de la linealidad puede completarse comprobando que la media de los
residuos del modelo es cero ∑ 𝑒𝑖 = 0, (aunque esto no sería suficiente porque se
precisaría que fuera cero para cada valor de la variable independiente 𝑥).

Para la evaluación analítica de la homocedasticidad existen varias posibilidades como


los contrastes de Gresjer, Brensh-Pagan o White. Una aproximación sencilla al estudio
de la homocedasticidad, si se sospecha de un crecimiento más o menos lineal de la
varianza a medida que aumenta el valor de la variable independiente 𝑥, consiste en
ajustar el siguiente modelo de regresión lineal:

|𝑒| = 𝛽0 + 𝛽1 𝑥

Trabajando con el valor absoluto de los residuos se consigue que todos los datos sean
positivos y se sitúen por encima de la horizontal en cero. Si se cumpliera la hipótesis de
homocedasticidad la recta que ajustaría estos nuevos datos sería otra recta en la
horizontal (en un valor mayor que cero). En caso de que se produjera algún tipo de
aumento o disminución lineal de la varianza con el valor de 𝑥, el ajuste de este modelo
describiría una recta con pendiente positiva o negativa (en función de si la relación es
directa o inversa). El contraste sobre el coeficiente de determinación de esta recta
permitiría decidir si la pendiente es significativa o no y concluir si se incumple la
hipótesis de homocedasticidad.

En cuanto a la hipótesis de normalidad, ésta suele comprobarse sobre el total residuos


del modelo y no sobre cada conjunto de residuos correspondientes a un mismo valor de
𝑥, dado que, en multitud de situaciones es poco probable obtener suficientes
observaciones de la variable dependiente para un mismo valor de la variable
independiente.

Figura 11. Histograma de los residuos y gráfico P-P Normal

(a) (b)
Entre los gráficos utilizados pueden encontrarse el histograma de los residuos con
superposición de la curva normal (ver figura 11 (a) y el grafíco P-P de probabilidad
Normal (ver figura 11 (b) que compara la función de distribución de los datos
(observada) con la función de distribución del modelo normal (esperada).

El estudio de la normalidad puede completarse con algunos de los contrastes habituales


como para el ajuste de una distribución normal como el contraste de Kolomogorv-
Smirnov o Shapiro-Wilks. Sin embargo, cabe mencionar que, si se dispone de un
número elevado de datos, estos contrastes puede llevar a rechazar la hipótesis de
normalidad porque han sido capaces de captar una diferencia muy pequeña (téngase en
cuenta la relación entre tamaño muestral y tamaño del efecto) y, en consecuencia,
irrelevante para el cumplimiento de la hipótesis de normalidad, por lo que será necesario
tener en cuenta los gráficos de distribución presentados con anterioridad.

Para verificar la hipótesis de independencia puede construirse un diagrama de


dispersión con la variable 𝑦̂ en el eje de abcisas y la variable 𝑒 en el eje de ordenadas,
pero teniendo en cuenta que los datos deben haber sido introducidos en la base de datos
en el mismo orden en que se produjeron las observaciones (𝑦̂𝑖 , 𝑒𝑖 ) .Se concluirá una
autocorrelación positiva si las observaciones por encima de la horizontal en cero son
sucedidas sistemáticamente por valores por encima de dicha. Por otra parte, si valores
por encima de la horizontal en cero son sucedidos por valores por debajo y al contrario,
la autocorrelación será negativa.

De forma analítica suele utilizarse un contraste de hipótesis de independencia de las


observaciones basado en el estadístico de Durbin-Watson.

𝐻0 : 𝐿𝑜𝑠 𝑟𝑒𝑠𝑖𝑑𝑢𝑜𝑠 𝑠𝑜𝑛 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠

𝐻1 : 𝐿𝑜𝑠 𝑟𝑒𝑠𝑖𝑑𝑢𝑜𝑠 𝑒𝑠𝑡á𝑛 𝑎𝑢𝑡𝑜𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑑𝑜𝑠

El estadístico de contraste de Durbin-Watson se calcularía:

∑(𝑒𝑡 − 𝑒𝑡−1 )2
𝐸𝐶 = ≃ 2(1 − 𝑟)
∑ 𝑒𝑡2

Donde 𝑟 es el coeficiente de autocorrelación de los residuos del modelo. Este estadístico


toma valores entre 0 y 4.

Si 𝑟 = 1 ⟶ 2(1 − 𝑟) = 2(1 − 1) = 0

Si 𝑟 = 0 ⟶ 2(1 − 𝑟) = 2(1 − 0) = 2

Si 𝑟 = −1 ⟶ 2(1 − 𝑟) = 2(1 − (−1)) = 4

En consecuencia, valores del estadístico de Durbin-Watson próximos a 2 indicarían una


ausencia de autocorrelación entre los residuos del modelo; valores próximos a 4 una
autocorrelación negativa y valores próximos a 0 una autocorrelación positiva. Existen
tablas para el estadístico de Durbin-Watson que permiten establecer márgenes para la
toma de decisiones sobre la independencia de las observaciones que tienen en cuenta el
número de observaciones (casos) y de variables predictoras.

Ejemplo 2.

Se propone trabajar con las variables del ejemplo 1. El objetivo será comprobar las
hipótesis sobre el modelo de regresión que abarcarán: pertinencia de la linealidad,
homocedasticidad, normalidad e independencia.

La figura 12 corresponde al gráfico de dispersión de los residuos con la variable


“residuo” 𝑒𝑖 en el eje de ordenadas y la variable “valor predicho por la recta” 𝑦̂𝑖 en el
eje de abcisas. La hipótesis de linealidad requeriría que la horizontal en cero que
actuara como un eje de simetría entre la parte superior e inferior a medida que se avanza
en valor pronosticado. Por otra parte, se observa que la dispersión de los residuos
permanece aproximadamente constante a lo largo de toda la recta.

Figura 12. Diagrama de dispersión para datos del ejemplo

Además, la media del conjunto de los residuos es aproximadamente cero:

∑ 𝑒𝑖 = 3.197−15 ≃ 0
Si se construye el modelo de regresión que utiliza la variable |𝑒| como dependiente y la
variable 𝑦̂ como independiente con objeto de detectar algún aumento o disminución
progresivo de la varianza de los residuos se obtiene que:

𝐴𝑏𝑠(𝑅𝑒𝑠𝑖𝑑𝑢𝑜) = 21,655 − 0,075. 𝑦̂

𝑅 2 = 0,0004; 𝑝 = 0,932

Puede observarse que el valor de 𝑅 2 es muy pequeño (0,0004) y la p del contraste muy
elevada (0,932) por lo que el modelo no ajusta de forma significativa a los datos,
concluyéndose una ausencia de aumento o disminución lineal de la varianza.

Para la comprobación de la hipótesis de normalidad se proporcionan el histograma de


los residuos y el gráfico P-P normal.

Figura 13. Histograma y gráfico P-P Normal para los datos del ejemplo

Dado el escaso número de observaciones disponibles resulta complicado esperar un


histograma de los residuos que describa una distribución normal más o menos
aproximada (véase el obtenido en la figura 11 basado en 200 observaciones). Lo
importante es que no se produzcan violaciones graves de la hipótesis de normalidad. En
el gráfico P-P normal se observa que los puntos se disponen a lo largo de la bisectriz de
forma aproximada, lo que es compatible con la hipótesis de normalidad.

Las pruebas de normalidad con un reducido número de casos (por debajo de 30


aproximadamente) no aportan demasiada información ya que, en general, tienden a
aceptar normalidad en más ocasiones de las deseadas. A efectos ilustrativos, si se
utilizara la prueba de normalidad de Shapiro Wilk o de Koplomogorov- Smirnov con la
corrección de Lilliefors para los datos del ejemplo se tendría que:
Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk

Estadístico Gl Sig. Estadístico gl Sig.


*
RES_1 ,125 20 ,200 ,945 20 ,298

a. Corrección de la significación de Lilliefors


*. Este es un límite inferior de la significación verdadera.

Puede observarse que ambas pruebas obtienen un valor de p superior a 0,05 por lo que
no se podría rechazar la normalidad.

Por último, en el caso de que las observaciones hubieran sido introducidas en la base de
datos en el mismo orden en el que se produjeron las observaciones tendría sentido
valorar la independencia de las mismas mediante el estadístico de Durbin-Watson. En
este caso se obtiene un valor de 2,203 que permitiría concluir independencia entre las
observaciones.

Predicciones

La obtención de la ecuación de una recta que describe la relación entre dos variables
permite la realización de predicciones. Piense el lector que bastaría proporcionar una
valor de la variable independiente para obtener, gracias a la ecuación de la recta, un
valor de la variable dependiente (pronosticado). Lo cierto es que, cuanto mejor ajuste el
modelo (mayor R cuadrado) mejores serán las predicciones obtenidas, puesto que se
reducirá notablemente la varianza asociada a la estimación de la predicción.

A la hora de realizar predicciones debe distinguirse entre una predicción sobre una
nueva observación y una predicción sobre la media de una conjunto de observaciones
con un mismo valor de la variable independiente. Por ejemplo, una posibilidad sería
predecir el valor de nivel de triglicéridos de un individuo con un IMC de 29,6 y otra
predecir el promedio de nivel de triglicéridos de los individuos con un IMC de 29,6. Por
otra parte, será útil hacer inferencia sobre las predicciones de forma que pueda
obtenerse un intervalo de confianza para las mismas. Así se tendrá que:

Intervalo de confianza para la predicción de una nueva observación

1 (𝑥 − 𝑥̅ )2 1 (𝑥 − 𝑥̅ )2
𝐼1−𝛼 (𝑦) = [𝑦̂ − 𝑡𝑛−2 𝑆𝑟 √1 + (1 + ) , 𝑦
̂ + 𝑡 𝑆
𝑛−2 𝑟 √1 + (1 + )
𝑛 𝑆𝑥2 𝑛 𝑆𝑥2
Intervalo de confianza para la predicción de una media

1 (𝑥 − 𝑥̅ )2 1 (𝑥 − 𝑥̅ )2
𝐼1−𝛼 (𝑦̅) = [𝑦̂ − 𝑡𝑛−2 𝑆𝑟 √ (1 + ) , 𝑦
̂ + 𝑡𝑛−2 𝑆𝑟 √ (1 + )]
𝑛 𝑆𝑥2 𝑛 𝑆𝑥2

La realización de predicciones debe realizarse en el mismo rango de valores que ha sido


utilizado para el ajuste del modelo ya que se desconoce el comportamiento de los datos
y la pertinencia del modelo lineal fuera de ese rango. Evidentemente, el riesgo aumenta
cuanto más se aleja el valor de la variable 𝑥 utilizado para la predicción del rango de
valores utilizado en el ajuste.

Valores de influencia

El estudio de posibles valores de influencia en el modelo de regresión lineal ajustado es


de gran importancia ya que, tanto la magnitud del efecto de la variable independiente,
como la bondad del ajuste y su significación estadística, pueden verse seriamente
afectadas. Para ilustrar el problema obsérvense las dos situaciones representadas en la
siguiente figura:

Figura. Efecto de un valor de influencia sobre el modelo ajustado


A
𝑦 𝑦

𝑥 𝑥
(a) (b)

En la figura (a) la recta de regresión ajustada a los datos observados es horizontal y, por
tanto, la variable independiente no tendría ningún efecto sobre la variable dependiente
al tener pendiente nula. La figura (b) representa el modelo ajustado en el caso de que se
hubiera observado el dato A. Como puede observarse, la pendiente de la recta se
modifica enormemente como consecuencia del “esfuerzo” del modelo por contemplar el
dato A. En consecuencia, el efecto de la variable independiente podría pasar de nulo a
significativo únicamente por una observación.

En general, el efecto de una variable sobre otra (no tiene por qué ser nulo) podría verse
enormemente afectado por la presencia de algún o algunos valores de influencia sobre el
modelo. Por otra parte, si estas observaciones influyentes corresponden, por ejemplo, a
errores de observación, pueden resolverse de forma clara. En general la forma de
proceder ante la presencia de valores de influencia (no siempre habría que excluirlos del
análisis) dependerá de cada caso. Se hace necesario, por tanto, un estudio de los
posibles valores de influencia en el modelo de regresión lineal

En primer lugar será útil analizar la existencia de observaciones atípicas en los datos
analizados. Estas observaciones atípicas son susceptibles de jugar el papel de valores de
influencia (son observaciones que, tal y como ocurre con el dato A, se alejan del resto
de forma considerable), aunque no tendrían por qué ser necesariamente influyentes.

Figura. Observaciones atípicas influentes y no influyentes

A
𝑦 𝑦 𝑦
A
A

𝑥 𝑥 𝑥
(a) (b) (c)

En las figuras (a) y (c) el dato A es una observación atípica e influyente en el modelo
(si se omitiera se modificaría la pendiente de la recta). Sin embargo, en la figura (b) el
dato A es una observación atípica pero no influyente (si se omitiera no se modificaría la
pendiente de la recta de regresión). Es importante señalar que en todos los casos el
punto A se aleja de forma considerable del conjunto de la nube de puntos (observación
atípica) pero no de la misma forma. Mientras que en la figura (a) el dato A es un valor
atípico con respecto a la variable 𝑦 en la figura (b) y (c) lo es respecto a la variable 𝑥.

Las observaciones atípicas con respecto a la variable 𝑦 son candidatas a valores de


influencia en el modelo al presentar un valor del residuo sensiblemente superior al resto
de observaciones, si bien, puede darse el caso de que una observación sea influyente sin
necesidad de ser atípica. Por otra parte, las observaciones atípicas con respecto a la
variable 𝑥 pueden ser influyentes si se alejan en exceso del conjunto de datos
observados y su coordenada 𝑦, sin ser atípica, toma un valor relativamente alejado del
que se obtendría en el ajuste de la recta sin dicha observación (c).

Para la detección de observaciones atípicas con posible influencia en el modelo pueden


adoptarse criterios sencillos, como los siguientes, que incluyen la mayoría de los
programas de análisis estadístico:
(a) Identificar como casos atípicos aquellos cuyo valor del residuo correspondiente
sea mayor de tres desviaciones típicas. Esto es:

𝑒𝑖 < 3. 𝑆𝑒 ó 𝑒𝑖 > 3. 𝑆𝑒

En el caso de trabajar con los residuos estandarizados se identificarían como


atípicos con posible influencia sobre el modelo aquellos que quedaran fuera del
intervalo [−3 , 3].

(b) Sea 𝑑 la distancia entre el percentil 25 (𝑝25 ) y el percentil 75 (𝑝75 ) de los


residuos del modelo (𝑑 = 𝑝75 − 𝑝25 ). Se identificará como valor atípico con
posible influencia sobre el modelo aquél que verifique:

𝑒𝑖 < 𝑝25 − 1,5𝑑 ó 𝑒𝑖 > 𝑝75 + 1,5𝑑

A los valores atípicos que superan 3𝑑 se les suele denominar “extremos”. Para la
identificación de valores atípicos con posible influencia sobre el modelo basados en el
criterio anterior suele utilizarse el diagrama de cajas o “Box-Plot” que se interpreta tal y
como se describe en la figura siguiente:

Figura. Diagrama de cajas (Box-Plot) y valores atípicos

Valores Valores atípicos (a más


atípicos de 1,5d)
Mayor valor observado
que no llega a ser atípico
1,5d

𝑝75
𝑝50

𝑝25 d

1,5d Menor valor observado


que no llega a ser atípico

Valores
atípicos

Estas estrategias de detección de valores de influencia pueden completarse con medidas


Los programas de análisis estadístico incorporan habitualmente medidas más
sofisticadas para detectar valores atípicos, potencialmente influyentes e influyentes en el
modelo como la distancia de Mahalanobis, Apalancamiento, distancia de Cook,
DfBetas, DfAjuste y Razón de Covarianzas.

Distancia de Mahalanobis

La distancia de Mahalanobis es una medida estandarizada de la distancia de un punto


(teniendo en cuenta únicamente las coordenadas de las variables predictoras o
independientes) al centro de la nube de puntos que conforman las variables predictoras
y que tiene en cuenta la correlación entre las mismas. Su expresión de cálculo en modo
matricial es el siguiente:

𝐷𝑖 = (𝑥𝑖 − 𝑥̅ )𝑇 𝛴 −1 (𝑥𝑖 − 𝑥̅ )

Donde 𝛴 −1 es la inversa de la matriz de varianzas-covarianzas entre las variables


predictoras o independientes. Coincide con la distancia euclídea de un punto al centro
cuando las coordenadas se calculan en base a las componentes principales. Valores
atípicos de la distancia de Mahalanobis indicarán que se encuentran más alejados del
conjunto de las observaciones teniendo en cuenta la correlación.

Según la distancia de Mahalanobis para el caso de dos variables explicativas o


predictoras, el punto A de la figura que se ilustra a continuación estaría más alejado del
punto (𝑥̅1 , 𝑥̅2 ) que el punto B a pesar de que están exactamente a la misma distancia
euclídea. Esto es debido a que el punto B se encuentra en el sentido de la correlación
entre las dos variables.

Figura . Distancia de Mahalanobis

𝑥2

(𝑥̅ , 𝑦̅)

𝑥1 ⬚

Obsérvese que las rectas en rojo representarían las dos componentes principales para los
datos observados. La componente 𝐶1 se dispone en el sentido de la correlación de forma
que la distancia de Mahalanobis irá aumentando ligeramente a medida que nos alejamos
del punto (𝑥̅1 , 𝑥̅2 ) en esa dirección. Por el contrario, si nos alejamos en la dirección de
la componente principal 𝐶2 la distancia de Mahalanobis aumentará de forma muy
importante a medida que nos alejamos del punto (𝑥̅1 , 𝑥̅ 2 ). Se estarían, por tanto,
penalizando las observaciones que no se disponen en el sentido de la correlación
existente entre las dos variables.

Apalancamiento (Leverage)

El apalancamiento es una medida de la influencia de cada una de las observaciones de la


variable dependiente sobre los valores ajustados por el modelo y toma valores en el
intervalo [1/n;1]. Se calcula, para el caso de una variable explicativa, de la siguiente
forma:

1 (𝑥𝑖 − 𝑥̅ )2
ℎ𝑖 = +
𝑛 ∑(𝑥𝑖 − 𝑥̅ )2

Como puede observarse de la expresión puede deducirse que si el valor de la variable


independiente 𝑥 para un caso cualquiera está muy próximo a la media 𝑥̅ su influencia en
el modelo será nula (Valor mínimo 1/n), mientras que a medida que se vaya alejando de
la media su influencia será mayor y su valor se acercará a 1. Suele ser habitual trabajar
con una medida centrada del apalancamiento que se consigue restando a la expresión
anterior 1/n. De este modo quedará:

1 (𝑥𝑖 − 𝑥̅ )2 1 (𝑥𝑖 − 𝑥̅ )2
𝐴𝑝𝑎𝑙𝑎𝑛𝑐𝑎𝑚𝑖𝑒𝑛𝑡𝑜 𝑐𝑒𝑛𝑡𝑟𝑎𝑑𝑜 = + − =
𝑛 ∑(𝑥𝑖 − 𝑥̅ )2 𝑛 ∑(𝑥𝑖 − 𝑥̅ )2
𝑛−1
Que tomará valores en el intervalo [0, ]. Cuando el número de observaciones del que
𝑛
se dispone es elevado tomará valores entre [0,1].

Figura. Apalancamiento. Leverage

A A
𝑦 𝑦

𝑥̅ 𝑥 𝑥̅ 𝑥
(a) (b)

En la figura anterior se representan dos situaciones en las que existe un valor que se
aleja del conjunto de la nube de puntos. Como puede observarse, en la figura (a) el
punto A no modifica prácticamente la pendiente de la recta ajustada aunque tiene un
efecto sobre el término de interceptación (En rojo se representa el ajuste sin el punto A
y en verde con el punto A), mientras que en el caso de la figura (b) la pendiente (y por
tanto el efecto de la variable independiente sobre la dependiente) se modifica de forma
considerable. Nótese que en este segundo caso el valor de la coordenada 𝑥 está muy
alejado de la media 𝑥̅ . En consecuencia, valores alejados de la media de la variable
independiente tendrán mayor influencia sobre la pendiente de la recta que los que están
cerca.

Distancia de Cook

La distancia de Cook es una medida de la influencia de una determinada observación


sobre el modelo, medida en términos de distancia entre los parámetros ajustados del
modelo con y sin esa observación. Su cálculo en forma matricial quedaría:

(𝛽̂ − 𝛽̂(𝑖) )′𝑋´𝑋(𝛽̂ − 𝛽̂(𝑖) ) 𝑟𝑖2 ℎ𝑖𝑖


𝐷𝑖 = 2
= ( )
(𝑘 + 1)𝑆𝑟 𝑘 + 1 1 − ℎ𝑖𝑖

Donde 𝛽̂ es el vector de parámetros del modelo, para el caso de una única variable
explicativa (𝛽0 , 𝛽1 , ) ajustados con todas las observaciones y 𝛽̂(𝑖) es el vector de
parámetros del modelo ajustados sin la observación (i). Por otra parte ℎ𝑖𝑖 es el elemento
correspondiente de la diagonal de la matriz 𝑋(𝑋´𝑋)−1 𝑋. Un valor próximo a cero de
esta distancia indicará que los parámetros del modelo no varían prácticamente cuando se
elimina del ajuste a la observación (i) y, por tanto, la observación (i) no será influyente
en el modelo. Un valor cada vez mayor indicará que existe mayor diferencia entre los
parámetros ajustados con todas las observaciones y sin la observación (i) y, por tanto, la
observación (i) tendrá una influencia considerable en el modelo. Es importante tener en
cuenta que la distancia de Cook es una medida de conjunto que involucra a la vez a
todos los parámetros del modelo, en este caso, 𝛽0 𝑦 𝛽1.

DfBetas

A diferencia del estadístico de Cook, que proporcionaba una medida del cambio
conjunto de los coeficientes del modelo al excluir una determinada observación, los
Delta-Betas constituyen una medida de la influencia de una observación en el modelo
de regresión lineal media en términos de cambio en cada uno de los coeficientes del
modelo al excluir una determinada observación. Por tanto, para cada una de las
observaciones se obtendrán, en el caso de la regresión lineal simple, dos valores de
Delta Betas: uno para el cambio en el coeficiente 𝛽0 y otro para el cambio en 𝛽1. La
expresión para el cálculo de estas medidas quedará:
𝛽𝑘 − 𝛽𝑘(𝑖)
𝐷𝑓𝐵𝑒𝑡𝑎𝑖 =
𝑆(𝑖) √𝑎𝑘𝑘

Donde 𝑎𝑘𝑘 es el elemento correspondiente de la diagonal de la matriz (𝑋´𝑋)−1 . Se


considerará que una observación es influyente sobre el coeficiente del modelo
correspondiente si su DfBeta es superior o igual a 2⁄√𝑛, donde 𝑛 es el número total de
datos.

DfAjuste

Los DfAjuste proporcionan una medida del cambio en el valor pronosticado como
consecuencia de la eliminación de una observación. La expresión para el cálculo de
estas medidas quedará:

𝑦̂𝑖 − 𝑦̂𝑖(𝑖)
𝐷𝑓𝐴𝑗𝑢𝑠𝑡𝑒𝑖 =
𝑆(𝑖) √ℎ𝑖𝑖

Donde ℎ𝑖𝑖 es el elemento correspondiente de la diagonal de la matriz 𝑋(𝑋´𝑋)−1 𝑋. Se


considera que una observación es influyente sobre las predicciones del modelo si su
DfAjuste es superior a 2√𝑝⁄𝑛 donde n es el número total de datos y p el número de
coeficientes del modelo incluyendo el término de interceptación.

Razón de covarianzas

Es una medida del cambio en la matriz de varianzas-covarianzas de los coeficientes del


modelo al eliminar una observación. Su valor vendrá determinado por la expresión:

2 ′ −1
|𝑆(𝑖) (𝑋(𝑖) 𝑋(𝑖) ) |
𝐶𝑜𝑣𝑅𝑎𝑡𝑖𝑜 =
|𝑆 (𝑋 𝑋)−1 |
2 ′

Un valor próximo a 1 asociado a la observación i indicaría que apenas se producen


cambios en la matriz de varianzas-covarianzas y, en consecuencia, no sería influyente.
Valores de esta razón alejados de 1 implicarían cambios importantes en la matriz de
varianzas-covarianzas y, en consecuencia, se decidiría que tiene gran influencia sobre el
modelo.

Resulta de utilidad la construcción de los gráficos Box-Plot para cada una de estas
medidas de influencia. Así se tendrá que:
Puede observarse que la distancia de Mahalanobis y el valor del apalancamiento
centrado tienen un comportamiento muy similar. Esto es debido a que sólo hay una
variable explicativa en el modelo y, por tanto, están midiendo lo mismo.

Los valores de la distancia de Cook, DfBetas, DFAjuste y CovRatio parecen identificar


algunos valores como influyentes. Obsérvese, por ejemplo, que estas medidas para las
observaciones 92, 130 y 49 se muestran como valores atípicos en prácticamente todas
ellas. Sería útil al investigador construir el modelo de regresión con y sin estos datos al
fin de observar la magnitud de los cambios producidos en los coeficientes, en las
estimaciones y en la significación estadística alcanzada.

EL MODELO DE REGRESIÓN LINEAL MÚLTIPLE

En multitud de ocasiones el interés se centra en analizar la influencia o capacidad


explicativa no de una, sino de un conjunto de variables (independientes) sobre otra
variable (dependiente). De hecho, es conocido que el comportamiento de una variable
de interés suele relacionarse con más de una variable.

El modelo de regresión lineal múltiple es una propuesta de modelización lineal para el


estudio de la relación entre una variable dependiente y un conjunto de variables
explicativas (cuantitativas y cualitativas). Se trata de una extensión natural del modelo
de regresión lineal simple pero en el que habrá que profundizar en las consecuencias de
la inclusión de más de una variable explicativa en el modelo.

Estructura del modelo de regresión lineal múltiple

El modelo de regresión lineal múltiple para un conjunto de k variables explicativas


podrá expresarse de la siguiente forma, aunque no pueda ser representado gráficamente:

𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + ⋯ + 𝛽𝑘 𝑥𝑘

Puede observarse en el modelo propuesto, a la luz de la expresión funcional, que el


valor de la variable dependiente 𝑦 depende de los valores de las variables
𝑥1 , 𝑥2 , 𝑥3 , … 𝑥𝑘 y que lo hace a través una relación lineal. El modelo quedará definido
cuando se obtengan los valores de 𝛽0 , 𝛽1 , 𝛽2 , … . , 𝛽𝑘 .

Al igual que en el caso de la regresión lineal simple estos coeficientes se obtendrán por
el método de mínimos cuadrados. Si se tiene en cuenta que 𝑒𝑖 = 𝑦𝑖 − 𝑦̂𝑖 , se tratará de
hallar los valores de 𝛽0, 𝛽1, 𝛽2, ….𝛽𝑘 que hacen mínima la siguiente expresión:
∑ 𝑒𝑖2 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 = ∑(𝑦𝑖 − (𝛽0 + 𝛽1 𝑥1𝑖 + 𝛽2 𝑥2𝑖 + ⋯ + 𝛽𝑘 𝑥𝑘𝑖 ))2

Para obtener la solución final debe derivarse parcialmente ∑(𝑦𝑖 − (𝛽0 + 𝛽1 𝑥1𝑖 +
𝛽2 𝑥2𝑖 + ⋯ + 𝛽𝑘 𝑥𝑘𝑖 ))2 con respecto a cada uno de los coeficientes del modelo e igualar
a cero De estas 𝑘 + 1 expresiones se obtendrá un sistema de 𝑘 + 1 ecuaciones con
𝑘 + 1 incógnitas. Para que el sistema de ecuaciones tenga solución única serán
necesarias hipótesis adicionales sobre las variables independientes incluidas en el
modelo de regresión:

- El número de variables explicativas debe ser inferior al número de


observaciones.
- Las variables explicativas son distintas entre sí y no existen entre ellas
relaciones lineales exactas. (De no ser así la matriz 𝑋′𝑋 no sería invertible).

En el caso de que se incluyan únicamente dos variables explicativas en el modelo de


regresión lineal múltiple (𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 ), las expresiones para los coeficientes
del modelo, obviando el término de interceptación 𝛽0 quedarán:

𝐶𝑜𝑣(𝑥1 , 𝑦)𝑆𝑥22 − 𝐶𝑜𝑣(𝑥2 , 𝑦)𝐶𝑜𝑣(𝑥1 , 𝑥2 )


𝛽1 =
𝑆𝑥21 𝑆𝑥22 − 𝐶𝑜𝑣(𝑥1 , 𝑥2 )2

𝐶𝑜𝑣(𝑥2 , 𝑦)𝑆𝑥21 − 𝐶𝑜𝑣(𝑥1 , 𝑦)𝐶𝑜𝑣(𝑥1 , 𝑥2 )


𝛽2 =
𝑆𝑥21 𝑆𝑥22 − 𝐶𝑜𝑣(𝑥1 , 𝑥2 )2

Puede observarse que en el cálculo de ambos coeficientes interviene la covarianza entre


las variables explicativas 𝑥1 y 𝑥2 . Esto implica que si entre las variables explicativas o
predictoras del modelo existe relación lineal los valores de los coeficientes 𝛽1 y 𝛽2 se
verían afectados. De hecho, en el caso extremo en que existiera una relación lineal
perfecta entre las dos variables predictoras se tendría que:

𝐶𝑜𝑣(𝑥1 , 𝑥2 )
𝑟𝑥1 𝑥2 = =1
𝑆𝑥1 𝑆𝑥2

Despejando el valor de la covarianza se obtendría la expresión:

𝐶𝑜𝑣(𝑥1 , 𝑥2 ) = 𝑆𝑥1 𝑆𝑥2


Sustituyendo en las expresiones de los coeficientes del modelo anteriormente obtenidas
se tendría que:

𝐶𝑜𝑣(𝑥1 , 𝑦)𝑆𝑥22 − 𝐶𝑜𝑣(𝑥2 , 𝑦)𝐶𝑜𝑣(𝑥1 , 𝑥2 ) 𝐶𝑜𝑣(𝑥1 , 𝑦)𝑆𝑥22 − 𝐶𝑜𝑣(𝑥2 , 𝑦)𝑆𝑥1 𝑆𝑥2


𝛽1 = =
𝑆𝑥21 𝑆𝑥22 − 𝐶𝑜𝑣(𝑥1 , 𝑥2 )2 𝑆𝑥21 𝑆𝑥22 − 𝑆𝑥21 𝑆𝑥22

𝐶𝑜𝑣(𝑥2 , 𝑦)𝑆𝑥21 − 𝐶𝑜𝑣(𝑥1 , 𝑦)𝐶𝑜𝑣(𝑥1 , 𝑥2 ) 𝐶𝑜𝑣(𝑥2 , 𝑦)𝑆𝑥21 − 𝐶𝑜𝑣(𝑥1 , 𝑦)𝑆𝑥1 𝑆𝑥2


𝛽2 = =
𝑆𝑥21 𝑆𝑥22 − 𝐶𝑜𝑣(𝑥1 , 𝑥2 )2 𝑆𝑥21 𝑆𝑥22 − 𝑆𝑥21 𝑆𝑥22

Puede observarse que en ambas expresiones el denominador sería cero y no podría


calcularse un valor único para los coeficientes 𝛽1 y 𝛽2.

Por otra parte, ¿ si la relación lineal entre las dos variables explicativas fuera nula el
valor del coeficiente de correlación lineal de Pearson sería cero y, por tanto, la
covarianza entre las dos variables explicativas sería cero. Sustituyendo el valor cero de
la covarianza en las expresiones para el cálculo de los coeficientes del modelo se
obtendría:

𝐶𝑜𝑣(𝑥1 , 𝑦)𝑆𝑥22 − 0 𝐶𝑜𝑣(𝑥1 , 𝑦)𝑆𝑥22 𝐶𝑜𝑣(𝑥1 , 𝑦)


𝛽1 = 2 2 = =
𝑆𝑥1 𝑆𝑥2 − 𝐶𝑜𝑣(𝑥1 , 𝑥2 )2 𝑆𝑥21 𝑆𝑥22 𝑆𝑥21

𝐶𝑜𝑣(𝑥2 , 𝑦)𝑆𝑥21 − 0 𝐶𝑜𝑣(𝑥2 , 𝑦)𝑆𝑥21 𝐶𝑜𝑣(𝑥2 , 𝑦)


𝛽2 = = =
𝑆𝑥21 𝑆𝑥22 − 𝐶𝑜𝑣(𝑥1 , 𝑥2 )2 𝑆𝑥21 𝑆𝑥22 𝑆𝑥22

En este caso, los coeficientes del modelo de regresión lineal múltiple que recogen los
efectos de cada una de las variables explicativas consideradas coincidirían con los
coeficientes obtenidos en los correspondientes modelos de regresión lineal simple entre
la variable dependiente y cada una de las variables explicativas por separado. Además, a
la vista de los resultados, podría afirmarse que cuanta mayor relación exista entre las
variables explicativas mayormente se verán afectados los coeficientes del modelo en
comparación con los que se obtendrían en sus respectivas regresiones lineales simples.

Interpretación de los coeficientes del modelo

Los resultados obtenidos anteriormente implican que el efecto de cada una de las
variables explicativas puede verse afectado por la presencia o no de otra u otras
variables explicativas, dependiendo de si éstas últimas tienen algún tipo de relación
lineal con las primeras. ¿Cómo se puede interpretar, por tanto, el valor de cada uno de
los coeficientes?

Supóngase que ha sido ajustado el siguiente modelo de regresión lineal múltiple con dos
variables explicativas:

𝑦 = 4 + 3𝑥1 + 5𝑥2

Si se mantiene constante el valor de la primera variable explicativa 𝑥1 y se aumenta


progresivamente en una unidad el valor de la variable 𝑥2 se tendrá que:

Si 𝑥1 = 1 Si 𝑥1 = 4
𝑦 = 4 +3 .1 + 5 .0 = 7 si 𝑥2 = 0 𝑦 = 4 + 3 . 4 + 5 . 0 = 16 si 𝑥2 = 0
𝑦 = 4 + 3 . 1 + 5 . 1 = 12 si 𝑥2 = 1 𝑦 = 4 + 3 . 4 + 5 . 1 = 21 si 𝑥2 = 1
𝑦 = 4 + 3 . 1 + 5 . 2 = 17 si 𝑥2 = 2 𝑦 = 4 + 3 . 4 + 5 . 2 = 26 si 𝑥2 = 2

Como puede observarse, al aumentar en una unidad la variable 𝑥2 manteniendo


constante la variable 𝑥1 el valor de la variable dependiente 𝑦 aumenta en 5 unidades, lo
que coincide con el valor del coeficiente que acompaña a la variable explicativa 𝑥2 .

En el caso de que se fijara el valor de la variable 𝑥2 y se aumentara progresivamente en


una unidad el valor de 𝑥1 la variable dependiente 𝑦 aumentaría en 3 unidades.

Por tanto, el valor de cada uno de los coeficientes del modelo de regresión lineal
múltiple que acompañan a las correspondientes variables explicativas incluidas en el
mismo, por ejemplo 𝑥𝑘 , podría interpretarse como el cambio en la variable dependiente
por unidad de cambio en la variable independiente 𝑥𝑘 manteniendo constantes el resto
de variables explicativas. Además, teniendo en cuenta el resultado obtenido con
anterioridad que establecía que cada uno de los coeficientes del modelo puede verse
afectado por la presencia o ausencia de otra u otras variables explicativas se concluye
que, para interpretar cada uno de los coeficientes del modelo de regresión lineal
múltiple, será necesario mencionar el resto de variables explicativas incluidas. Cada uno
de los coeficientes estará “ajustado” por el resto de variables explicativas del modelo.

Bondad del ajuste del modelo de regresión lineal múltiple. Coeficiente de


determinación múltiple

Del mismo modo que en el caso del modelo de regresión lineal simple, podrá definirse
una medida de la bondad del ajuste del modelo de regresión lineal múltiple ( 𝑦 = 𝛽0 +
𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + ⋯ + 𝛽𝑘 𝑥𝑘 ) de la siguiente forma:
∑(𝑦̂𝑖 − 𝑦̅)2 𝑉𝐸
𝑅2 = =
∑(𝑦𝑖 − 𝑦̅)2 𝑉𝑇

Donde 𝑦̂𝑖 es el valor predicho por el modelo de regresión lineal múltiple para la
observación 𝑥𝑖 . Esta medida se conoce como coeficiente de determinación múltiple y su
interpretación es idéntica a la del modelo de regresión lineal simple, es decir, como la
proporción de variabilidad de la variable dependiente explicada por el modelo (en este
caso por el conjunto de las variables explicativas).

Se dispone también de un coeficiente de determinación corregido que intenta tener en


cuenta el aumento “artificial” en la capacidad explicativa del modelo por el simple
hecho de incluir una nueva variable explicativa, aunque ésta no contribuya a un
aumento significativo de la misma. Se define, por tanto:

2
𝑛−1
𝑅𝑐𝑜𝑟𝑟𝑒𝑔 = 1 − (1 − 𝑅 2 )
𝑛−𝑘−1
Coeficiente de correlación múltiple

A partir del coeficiente de determinación múltiple puede definirse el coeficiente de


correlación múltiple de la siguiente forma:

𝑟𝑚𝑢𝑙𝑡𝑖𝑝𝑙𝑒 = √𝑅 2

Esta medida se interpretará como la magnitud de la relación lineal existente entre la


variable dependiente y el conjunto de variables explicativas incluidas en el modelo.

Inferencia sobre el modelo de regresión lineal múltiple

Al igual que ocurriera en el caso del modelo de regresión lineal simple, debe tenerse en
cuenta que cuando se construye un modelo de regresión lineal múltiple a partir de los
datos contenidos en una muestra aleatoria de la población los valores de
𝛽0 , 𝛽1 , 𝛽2 , … , 𝛽𝑘 , así como el del coeficiente de determinación múltiple 𝑅 2 dependerán
de la muestra seleccionada. Un contraste de interés trataría de establecer si el modelo de
regresión lineal múltiple explica de forma significativa parte de la variabilidad
observada en la variable dependiente de la forma:

𝐻0 : 𝜌2 = 0

𝐻1 : 𝜌2 ≠ 0

Este contraste es idéntico al construido para la regresión lineal simple, salvo por el
hecho de que, en este caso, en el modelo se cuenta con más de una variable explicativa.
Al igual que en la regresión lineal simple, suele ser habitual, presentar los resultados
anteriores en forma de tabla conocida como la tabla de ANOVA de la regresión. Así se
tendrá que:

Tabla xx. Tabla de Anova de la regresión lineal múltiple

Fuente Suma de Media de Cociente de varianzas


cuadrados cuadrados
Regresión (VE) ∑(𝑦̂𝑖 − 𝑦̅)2 ∑(𝑦̂𝑖 − 𝑦̅)2 ∑(𝑦̂𝑖 − 𝑦̅)2 /𝑘
𝑘 ∑(𝑦𝑖 − 𝑦̂𝑖 )2 /(𝑛 − 𝑘 − 1)

Residual ∑(𝑦𝑖 − 𝑦̂𝑖 )2 ∑(𝑦𝑖 − 𝑦̂𝑖 )2


(VNE) 𝑛−𝑘−1

Total (VT) ∑(𝑦𝑖 − 𝑦̅)2 ∑(𝑦𝑖 − 𝑦̅)2


𝑛−1

El estadístico de contraste sobre el coeficiente de determinación múltiple se calculará


mediante la siguiente expresión:

𝑉𝐸/𝑘 ∑(𝑦̂𝑖 − 𝑦̅)2 /𝑘


𝐸𝐶 = =
𝑉𝑁𝐸/(𝑛 − 𝑘 − 1) ∑(𝑦𝑖 − 𝑦̂𝑖 )2 /(𝑛 − 𝑘 − 1)

En el caso en que el valor de la 𝑝 del contraste fuera inferior al nivel de significación


establecido (habitualmente 0,05), se rechazaría la hipótesis nula y se concluiría que el
modelo explica significativamente una parte de la variabilidad observada en la variable
dependiente.

Sin embargo, debe tenerse en cuenta que concluir que el modelo explica no significa
que todas y cada una de las variables explicativas incluidas en el mismo lo hagan. Será
necesario, por tanto, averiguar qué variables de las incluidas en el modelo tienen un
efecto significativo sobre la variable dependiente. Para ello se cuenta con contrastes
individuales sobre los coeficientes del modelo de la forma:

𝐻0 : 𝛽𝑖 = 0
𝐻1 : 𝛽𝑖 ≠ 0

Si no puede rechazarse la hipótesis nula, el coeficiente correspondiente podría ser cero


yu, por tanto, la variable explicativa no tener un efecto significativo sobre la variable
dependiente.
5.3.7. Requerimientos sobre el modelo de regresión lineal simple múltiple.

Los requisitos necesarios para la realización de inferencias a partir del modelo de


regresión lineal múltiple son muy similares a los expuesto para la regresión lineal
simple y, tradicionalmente, se han venido comprobando sobre los residuos del modelo.
Sin embargo, debe procederse a un estudio de la posible multicolinealidad o
colinealidad entre las variables explicativas, esto es, analizar si existen buenas
relaciones lineales entre ellas, puesto que esto tendría consecuencias sobre la magnitud
de los coeficientes del modelo y la capacidad para detectar significación estadística.
Los requisitos podrían formularse dela siguiente forma:

1) Linealidad: 𝐸(𝑒|𝑥1 𝑥2 𝑥3 … 𝑥𝑘 ) = 0
2) Homocedasticidad: 𝑉𝑎𝑟(𝑒|𝑥1 𝑥2 𝑥3 … 𝑥𝑘 ) = 𝑐𝑡𝑒
3) Normalidad: 𝑒|𝑥1 𝑥2 𝑥3 . . 𝑥𝑘 ∼ 𝑁𝑜𝑟𝑚𝑎𝑙
4) Independencia: 𝑒𝑖 , 𝑒𝑗 independientes para cualquier 𝑖, 𝑗
5) Estudio de la posible colinealidad o multicolinealidad No existen relaciones
lineales exactas entre las variables explicativas. Sería también problemático
que, aunque no fueran exactas, presentaran buenas relaciones lineales entre
ellas (multicolinealidad).

Para la comprobación de las hipótesis del modelo se utilizarán representaciones gráficas


como las estudiadas en el modelo de regresión lineal simple (véase el apartado 5.2.8).

Ejemplo 5.3.

En un estudio se obtuvo información sobre el nivel de colesterol, la edad y el índice de


masa corporal de un grupo de 170 pacientes. Se pretende estudiar el posible efecto de la
edad y el Indice de masa corporal sobre el nivel de colesterol. El modelo de regresión
lineal múltiple para el estudio propuesto quedará:

𝐶𝑜𝑙𝑒𝑠𝑡𝑒𝑟𝑜𝑙 = 𝛽0 + 𝛽1 𝑒𝑑𝑎𝑑 + 𝛽2 𝑖𝑚𝑐

A continuación se muestran los resultados del ajuste del modelo obtenidos utilizando el
SPSS.

b
Resumen del modelo

Modelo R cuadrado Error típ. de la


R R cuadrado corregida estimación Durbin-Watson
a
di
1 ,423 ,179 ,169 47,285 1,992
me

nsi

on

0
a. Variables predictoras: (Constante), quetelet, edad
b. Variable dependiente: colestot

b
ANOVA

Modelo Suma de Media


cuadrados gl cuadrática F Sig.
a
1 Regresión 80904,851 2 40452,426 18,092 ,000

Residual 371154,747 166 2235,872

Total 452059,598 168

a. Variables predictoras: (Constante), quetelet, edad


b. Variable dependiente: colestot

a
Coeficientes

Modelo Coeficientes
Coeficientes no estandarizados tipificados

B Error típ. Beta t Sig.

1 (Constante) 110,677 27,021 4,096 ,000

edad 1,035 ,263 ,312 3,937 ,000

quetelet 2,501 1,126 ,176 2,220 ,028

a. Variable dependiente: colestot

Como puede observarse, la magnitud de la asociación lineal entre el ‘colesterol’ y las


variables ‘edad’ e ‘imc’ es de 0,423 (Coeficiente de correlación múltiple) y la
variabilidad explicada por el modelo 0,179 ( 𝑅 2 = 0,179), es decir, el modelo explicaría
un 17,9% de la variabilidad observada en el nivel de colesterol de los individuos
estudiados. Puede observarse que el coeficiente de determinación múltiple corregido
sería, en este caso, 0,169. El modelo ajustado vendrá dado por la siguiente expresión:

𝐶𝑜𝑙𝑒𝑠𝑡𝑒𝑟𝑜𝑙 = 110,677 + 1,035 𝑒𝑑𝑎𝑑 + 2,501 𝑖𝑚𝑐

Según el modelo ajustado, para individuos de la misma edad, por incrementar en una
unidad el imc se produciría un aumento del nivel de colesterol de 2,704 unidades. Por su
parte, para individuos del mismo ímc, por cada año más de edad aumentaría en 0,989
unidades el nivel de colesterol.
A la hora de valorar qué variable contribuye más a la explicación de la variabilidad
observada en los niveles de colesterol debe tenerse especial cuidado ya que, a partir del
resultado obtenido en este caso podría concluirse erróneamente que la variable ‘imc’
tendría un mayor efecto sobre el ‘nivel de colesterol’ que la variable ‘edad’ puesto que
el coeficiente que la acompaña es mayor (2,704 unidades para el imc frente a las 0,989
unidades en para la edad). ¿Por qué esto no es cierto en este caso? Debe tenerse en
cuenta que cada uno de los coeficientes 𝛽𝑖 depende no sólo de las unidades de medida
de la variable dependiente, sino también de las unidades de medida de la variable a la
que acompañan. En este sentido, es lógico que variables explicativas con un rango de
valores superior presenten un coeficiente ajustado inferior como consecuencia de las
unidades de medida.

Para intentar analizar qué variable contribuye más (tiene un mayor peso) en el modelo
de regresión lineal múltiple podrían compararse los modelos sin cada una de las
variables explicativas y valorar cuál contribuye a un mayor cambio en 𝑅 2 . Otra
alternativa sería eliminar las unidades de medida estandarizando todas las variables de
forma que todas tengan media 0 y desviación típica 1 y construir el modelo con estas
variables estandarizadas.

En el ejemplo pueden observarse los valores de los coeficientes del modelo que se
habrían obtenido en el caso de trabajar con las variables estandarizadas (columna beta).
Como puede observarse el coeficiente que acompaña a la ‘edad’ es 0,312 frente a 0,176
para el que acompaña a la variable ‘imc’ y, por tanto, sería la variable ‘edad’ la que
tendría un mayor peso en el modelo.

Figura 14. Gráfico de dispersión: residuos vs valor pronosticado


En la figura 14 se aprecia como la horizontal en cero actúa como un eje de simetría con
respecto a los residuos del modelo, reforzando la hipótesis de pertinencia de la
linealidad. Además se tiene que:

∑ 𝑒𝑖 = 5.024251888954554 . 10−15 ≃ 0

Por otra parte, parece que los residuos se mueven en una banda horizontal en la que no
parecen observarse ‘embudos’ (tendencia creciente o decreciente de la dispersión a
medida que aumenta el valor predicho por la recta) , situación compatible con la
hipótesis de homocedasticidad. Suele ser útil, en el caso de dudas sobre el cumplimiento
de la hipótesis de homocedasticidad, construir gráficos parciales de residuos respecto de
cada una de las variables explicativas.

Las figuras 15 (a) y 15 (b) muestran los gráficos parciales de los residuos con respecto a
cada una de las variables explicativas.

Figura 15. Gráficos de dispersión: residuos vs variables explicativas

En ambos gráficos la horizontal en cero actúa como eje de simetría con respecto a los
residuos. Tanto en el gráfico parcial para ‘edad’ como en el correspondiente al ‘imc’ no
se observan cambios en la dispersión de los mismos a los largo del valor pronosticado
por el modelo, resultado coherente con el obtenido en el gráfico general de residuos
frente a valor predico por el modelo.

Para la comprobación de la hipótesis de normalidad a continuación se proporcionan los


gráficos correspondientes al histograma y gráfico de probabilidad normal de los
residuos del modelo que, como puede apreciarse, muestran un comportamiento
razonablemente similar a la distribución normal.

Figura 16. Histograma y gráfico P-P normal

El estadístico de contraste de Durbin-Watson en este caso es de 1,992≃2 y, por tanto,


compatible con la hipótesis de independencia de los residuos.

La Colinealidad o Multicolinealidad

La colinealidad o multicolinealidad hace referencia a la existencia de buenas relaciones


lineales entre las variables explicativas del modelo. Anteriormente fue discutido que la
existencia de buenas relaciones lineales entre las variables explicativas podría generar
dificultades en las estimaciones de los coeficientes del modelo. Por otra parte, la
multicolinealidad afectará tanto al valor estimado de cada uno de los coeficientes
(reduciendo el valor de los mismos) como a la varianza asociada a cada uno de ellos
(aumentando la varianza) y, por tanto, será más difícil detectar significación estadística
en los respectivos contrastes individuales. De hecho, cuanto mayor sea la relación lineal
entre una variable explicativa 𝑥𝑖 y el resto, menor será el valor del estadístico de
contraste sobre su coeficiente 𝛽𝑖 , dificultando la detección de significación estadística.

Un caso extremo en un análisis de regresión lineal múltiple sería obtener un valor del
coeficiente de determinación múltiple significativo (el modelo explica) y, sin embargo,
ser no significativos todos los contrastes individuales. La existencia de una fuerte
multicolinealidad entre las variables explicativas podría ser la causa, pudiéndose
resolver la situación identificando la variables responsables (estarían explicando
prácticamente los mismo sobre la variabilidad observada en la variable dependiente) y
excluir las que no aportarían nada nuevo.
Para el estudio de la colinealidad o multicolinealidad se pueden adoptar varias
estrategias, algunas de ellas más sencillas y otras más complejas.

Correlaciones bivariadas

Una primera aproximación al estudio de la multicolinealidad consistiría en calcular


todas las correlaciones bivariadas entre las variables explicativas incluidas en el
modelo. Se obtendría una matriz de correlaciones expresada de la siguiente forma:

𝑟𝑥1 𝑥1 𝑟𝑥1 𝑥2 ⋯ 𝑟𝑥1 𝑥𝑘


( ⋮ ⋱ ⋮ )
𝑟𝑥𝑘𝑥1 𝑟𝑥𝑘𝑥2 ⋯ 𝑟𝑥𝑘𝑥𝑘

De este modo podrían identificarse las variables con una buena relación lineal, eso sí,
por pares. Sin embargo, la inexistencia de buenas relaciones lineales por pares no
implica que no exista un problema de multicolinealidad, ya que sería igualmente
problemático que una variable explicativa tuviera una buena relación lineal con una
combinación lineal del resto de variables explicativas incluidas en el modelo.

Tolerancia

Para resolver la cuestión anterior podría construirse un modelo de regresión lineal


múltiple para cada una de las variables explicativas que expresara cada una de ellas en
función de las demás. Así, si el modelo inicial es:

𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + ⋯ + 𝛽𝑘 𝑥𝑘

Deberían construirse los siguientes modelos de regresión lineal múltiple, obteniendo los
respectivos coeficientes de determinación múltiple:

𝑥1 = 𝛽0 + 𝛽1 𝑥2 + 𝛽2 𝑥3 + 𝛽3 𝑥4 + ⋯ + 𝛽𝑘 𝑥𝑘 𝑅𝑥21 . 𝑥2 𝑥3…𝑥𝑘

……………………………………………… ……………..

𝑥𝑘 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥3 + 𝛽3 𝑥4 + ⋯ + 𝛽𝑘 𝑥𝑘−1 𝑅𝑥2𝑘 . 𝑥1 𝑥2…𝑥𝑘−1

Un coeficiente de determinación múltiple próximo a 1 para uno o varios de estos


modelos indicaría que la variable o variables correspondientes serían una buena
combinación lineal del resto y, por tanto, indicativo de multicolinealidad.

Una variable sería bien tolerada en el modelo de regresión lineal múltiple (atendiendo a
la posible multicolinealidad) si el coeficiente de determinación múltiple correspondiente
a su regresión con respecto al resto de variables explicativas del modelo toma un valor
próximo a cero

Se define la Tolerancia de una variable de la siguiente forma:

𝑇𝑜𝑙𝑒𝑟𝑎𝑛𝑐𝑖𝑎𝑖 = 𝑇𝑜𝑙𝑖 = 1 − 𝑅𝑥2𝑖 . 𝑥1 𝑥2 …𝑥𝑖−1 𝑥𝑖+1 …𝑥𝑘

Número de condición, Índice de condición y Proporciones de la varianza

Otra técnica para el estudio de la multicolinealidad consiste en la realización de un


análisis de componentes principales entre las variables explicativas del modelo. El
análisis de componentes principales es utilizado habitualmente para reducir el número
de variables de las que se dispone en el análisis multivariante a través de la construcción
de diversas componentes fruto de combinaciones lineales de las variables utilizadas que
verifican:

- Las componentes principales son linealmente independientes entre sí.


- Maximizan, en orden descendente, la varianza explicada, es decir: La primera
componente principal sería la que más varianza explica, seguida de la siguiente
y, así, sucesivamente.

Si se cuenta con k-variables explicativas serán necesarias k componentes principales


para explicar el 100% de la varianza observada. En la figura 17 pueden observarse las
componentes principales para el caso de dos variables explicativas.

Figura 17. Representación de las Componentes principales basadas en dos variables explicativas

𝐶2
𝐶2
𝑥2 𝐶1 𝑥2 𝐶1

𝑥1 𝑥1
(a) (b)
A pesar de que en los dos casos son necesarias dos componentes principales para
explicar el 100% de la variabilidad observada, en la figura 17 (b) la primera
componente 𝐶1 logra explicar un porcentaje de variabilidad muy elevado. Esto es
debido a que entre las variables 𝑥1 y 𝑥2 existe una muy buena relación lineal. En
consecuencia, si se realiza un análisis de componentes principales para las k variables
explicativas en el modelo de regresión lineal múltiple y el número de componentes
necesarias para explicar un alto porcentaje de la variabilidad total es inferior al número
de variables explicativas, será indicativo de que alguna o algunas de ellas son una buena
combinación lineal de las restantes.

La varianza explicada por cada una de las componentes principales queda recogida en
los valores propios de la matriz 𝑋′𝑋, que en el caso de k variables explicativas
proporcionará k componentes principales y los correspondientes valores propios
𝜆1 , 𝜆2 , 𝜆3 , … , 𝜆𝑘 tal que:

𝜆1 > 𝜆2 > 𝜆3 > … > 𝜆𝑘

Un valor propio 𝜆𝑖 próximo a cero indicará que la correspondiente componente


principal explica poco y todavía menos explicarán las siguientes componentes
principales, ya que por su propia construcción sus valores propios serán todavía
inferiores a éste.

El Número de condición se construye de la siguiente forma:

𝜆1
𝑁𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑜𝑛𝑑𝑖𝑐𝑖ó𝑛𝑖 = 𝑁𝐶𝑖 = √
𝜆𝑖

Cuanto menor sea el valor de 𝜆𝑖 en comparación con el primer valor propio (varianza
explicada por la primera componente principal que es la que más explica) mayor será el
valor de 𝑁𝐶𝑖 . Valores elevados de este número de condición serán indicativos por tanto
de multicolinealidad.

El Índice de condición que se define a continuación sería una medida global de la


posible multicolinealidad basada en la comparación del primer y último valor propio (𝜆1
y 𝜆𝑘 . .

𝜆1
Í𝑛𝑑𝑖𝑐𝑒 𝑑𝑒 𝑐𝑜𝑛𝑑𝑖𝑐𝑖ó𝑛 = 𝐼𝐶 = √
𝜆𝑘

Valores elevados del índice de condición indicarán un problema de multicolinealidad


entre las variables explicativas incluidas en el modelo de regresión lineal múltiple. La
mayoría de autores considera que un valor inferior a 10 implicaría que no existe un
problema de multicolinealidad. Un valor entre 10 y 30 supondría una multicolinealidad
moderada, mientras que un valor por encima de 30 indicaría una multicolinealidad
severa.

El análisis de componentes principales ofrece, además, la posibilidad de profundizar en


el estudio de la multicolinealidad, analizando la proporción de la varianza de cada una
de las variables explicativas en cada una de las componentes principales. La suma de las
proporciones de la varianza (carga de una variable explicativa sobre cada una de las
componentes principales) será 1 (entre todas las componentes principales se logra
explicar el 100% de la variabilidad total). Una proporción de la varianza elevada de una
variable explicativa sobre una componente principal cualquiera indicará que está bien
representada en dicha componente. La ausencia de multicolinealidad implicaría que
cada una de las variables explicativas estuviera bien representada en una componente
principal distinta a las demás ya que, al ser linealmente independientes entre sí, también
lo serían las variables explicativas. Por otro lado, si dos o más variables explicativas
están bien representadas en la misma componente principal indicaría un problema de
multicolinealidad.

Si se trabaja con los datos del ejemplo y se incluye, además, información sobre el nivel
de triglicéridos entre las variables explicativas se tendrá que:

𝑐𝑜𝑙𝑒𝑠𝑡𝑒𝑟𝑜𝑙 = 𝛽0 + 𝛽1 𝑒𝑑𝑎𝑑 + 𝛽2 𝑖𝑚𝑐 + 𝛽3 𝑡𝑟𝑖𝑔𝑙𝑖𝑐é𝑟𝑖𝑑𝑜𝑠

Puede observarse que el modelo ajustado logra explicar de forma significativa (Véase
tabla de ANOVA) en torno al 23,3% de la variabilidad observada en el nivel de
colesterol. Por su parte, los contrastes individuales de los coeficientes indican que las
sólo las variables edad y triglicéridos tendrían un efecto significativo sobre el nivel de
colesterol. Si se compara con el modelo con dos variables explicativas ajustado con
anterioridad (colesterol vs edad e imc) se observa que al introducir el nivel de
triglicéridos el efecto del imc pasa a ser no significativo.

Resumen del modelo

Modelo R cuadrado Error típ. de la


R R cuadrado corregida estimación
a
di
1 ,483 ,233 ,219 45,837
me

nsi

on

a. Variables predictoras: (Constante), triglice, edad, imc

b
ANOVA
Modelo Suma de Media
cuadrados gl cuadrática F Sig.
a
1 Regresión 105394,493 3 35131,498 16,721 ,000

Residual 346665,105 165 2101,001

Total 452059,598 168

a. Variables predictoras: (Constante), triglice, edad, imc


b. Variable dependiente: colestot

En la tabla siguiente se muestran los valores de las tolerancias que son superiores en
todos los casos a 0,70.

Coeficientes no Coeficientes Estadísticos de


estandarizados tipificados colinealidad
B Error típ. Beta t Sig. Tolerancia FIV
(Constante) 124,563 26,507 4,699 ,000
edad ,994 ,255 ,300 3,896 ,000 ,786 1,273
imc 1,432 1,136 ,101 1,260 ,209 ,728 1,375
triglice ,139 ,041 ,247 3,414 ,001 ,890 1,123

Por último se proporcionan los resultados correspondientes al análisis de componentes


principales:

Dimensión
Proporciones de la varianza
Índice de
Autovalores condición (Constante) edad imc triglice
1 3,655 1,000 ,00 ,01 ,00 ,02
2 ,279 3,619 ,01 ,02 ,00 ,93
3 ,058 7,961 ,07 ,88 ,02 ,00
4 ,008 21,541 ,92 ,09 ,97 ,05

Puede apreciarse que, aunque el modelo incluye únicamente tres variables explicativas,
la tabla xx proporciona cuatro componentes principales. Esto se debe a que ha incluido
una dimensión adicional que tendría en cuenta la constante 𝛽0 del modelo (en el caso de
la componente asociada a la constante se trabaja como si tuviera asociada una variable
que tomara el valor constante 1).

Los valores propios (autovalores) que cuantifican la varianza explicada por cada una de
las componentes principales son en este caso:
𝜆1 = 3,655; 𝜆2 = 0,279; 𝜆3 = 0,058; 𝜆4 = 0,008

El número de condición asociado a cada una de las componentes principales y el Índice


de condición sería:

𝑁𝐶1 = 1,000; 𝑁𝐶2 = 3,619; 𝑁𝐶3 = 7,961; 𝑁𝐶4 = 21,541

𝜆
Í𝑛𝑑𝑖𝑐𝑒 𝑑𝑒 𝑐𝑜𝑛𝑑𝑖𝑐𝑖ó𝑛 = 𝐼𝐶 = √ 1⁄𝜆 = 3,656⁄0,008 = 21,541
4

Los tres primeros números de condición son inferiores a 10, sugiriendo ausencia de
multicolinelidad. Sin embargo, el último número de condición asociado a la última
componente principal (equivalente al índice de condición) toma un valor entre 10 y 30
sugiriendo una multicolinealidad moderada. Si se observan las proporciones de la
varianza puede apreciarse como cada variable explicativa está bien representada en una
componentes principal distinta (‘edad’ en la tercera, ‘imc’ en la cuarta y ‘triglicéridos’
en la segunda). Además en la cuarta componente principal estaría bien representada la
variable que acompaña a la constante 𝛽0. Esto indicaría, en principio, una buena
relación lineal entre ambas. ¿Qué quiere decir esto?

Si la varianza asociada a una variable explicativa es pequeña en relación al resto de


variables presentes en el modelo de regresión lineal múltiple, podría asociarse
linealmente, de forma aceptable, con una variable que tomara el valor constante 1
(variable que acompaña al término de interceptación) provocando un problema de
colinealidad. Esto sucede, habitualmente, cuando las unidades o escalas de medida de
las variables explicativas o predictoras son muy diferentes entre sí. Algunos autores
proponen no tener en cuenta la colinealidad respecto al término de interceptación puesto
que no se corresponde con un problema generado entre las propias variables
explicativas y que podría corregirse, llegado el caso: (1) centrando (restando a cada
variable en el modelo, incluida la variable dependiente, su media) o (2) estandarizando
las variables (restando a cada variable su media y dividiendo por su desviación típica).

Ante un problema de multicolinealidad podría procederse de varias formas. Así, si las


variables implicadas no alcanzan significación estadística en los contrastes individuales
sobres los coeficientes del modelo podría probarse la eliminación de una de ellas con
objeto de valorar si las restantes pudieran alcanzar significación estadística. Otra
posibilidad sería aumentar, si es posible, el tamaño de la muestra de forma que pueda
reducirse la varianza asociada a los coeficientes del modelo e incrementar las
posibilidades de detección de significación estadística. Por último, podría realizarse
previamente un análisis de componentes principales con las variables explicativas y
utilizar las componentes principales seleccionadas (en menor número que el de
variables explicativas) como las variables predictoras del modelo.
Introducción de variables explicativas cualitativas en el modelo de regresión

El modelo de regresión lineal múltiple permite la introducción de variables explicativas


cualitativas. Sin embargo, en ocasiones no podrá hacerse de forma directa, siendo
imprescindible construir variables nuevas en función del número de categorías de la
variable cualitativa. Por otra parte, será necesario profundizar en la interpretación de los
coeficientes del modelo asociados a variables cualitativas y en las consecuencias que
sobre al modelo tiene su inclusión.

Para ilustrar el procedimiento supóngase que se trabaja con los datos del ejemplo xx. Se
pretende estudiar el posible efecto de la edad y el sexo sobre el nivel de triglicéridos. El
modelo de regresión lineal múltiple quedaría:

𝑡𝑟𝑖𝑔𝑙𝑖𝑐é𝑟𝑖𝑑𝑜𝑠 = 𝛽0 + 𝛽1 𝑒𝑑𝑎𝑑 + 𝛽2 𝑠𝑒𝑥𝑜

Donde sexo está codificada como 1’Hombre’ y 2’Mujer’. Los resultados obtenidos
serían los siguientes:

Resumen del modelo

Modelo R cuadrado Error típ. de la


R R cuadrado corregida estimación
a
di
1 ,261 ,068 ,059 89,018
me

nsi

on

a. Variables predictoras: (Constante), sexo, edad

b
ANOVA

Modelo Suma de Media


cuadrados gl cuadrática F Sig.
a
1 Regresión 113519,468 2 56759,734 7,163 ,001

Residual 1553146,461 196 7924,217

Total 1666665,930 198

a. Variables predictoras: (Constante), sexo, edad


b. Variable dependiente: triglice
a
Coeficientes

Modelo Coeficientes
Coeficientes no estandarizados tipificados

B Error típ. Beta t Sig.

1 (Constante) 132,329 28,112 4,707 ,000

edad ,967 ,410 ,163 2,360 ,019

sexo -37,671 12,657 -,205 -2,976 ,003

a. Variable dependiente: triglice

Como puede observarse, el contraste sobre el coeficiente de determinación es


significativo (p=0,001), por lo que entre la edad y el sexo lograrían explicar el 6,8%
(coeficiente de determinación 𝑅 2 ) de la variabilidad observada en el nivel de
triglicéridos de forma significativa.

Además el modelo ajustado quedaría:

𝑡𝑟𝑖𝑔𝑙𝑖𝑐é𝑟𝑖𝑑𝑜𝑠 = 132,32 + 0,967 𝑒𝑑𝑎𝑑 − 37,67 𝑠𝑒𝑥𝑜

Si se recuerda que los coeficientes que acompañan a las variables explicativas se


interpretan como el cambio en la variable dependiente por unidad de cambio en la
variable independiente manteniendo constantes (ajustado) el resto de variables
explicativas, podrá interpretarse que:

Para individuos del mismo sexo, por cada año más de edad se pronosticaría 0,967
unidades más en el nivel de triglicéridos.

Análogamente, ¿qué significaría aumentar en una unidad la variable sexo? Si el código


1 correspondía a Hombre y 2 a Mujer, aumentar en una unidad significa pasar de
Hombre a Mujer, por lo que podría interpretarse que para individuos de la misma edad,
por pasar de ser Hombre a Mujer el nivel de triglicéridos disminuiría en 37,67 unidades,
es decir, las mujeres tendrían 37,67 unidades menos que los hombres. Obsérvese que
esto ha sido posible porque la variable cualitativa utilizada tiene únicamente dos
categorías y que, por tanto, sólo hay un paso al incrementar en una unidad la variable.
De la misma forma podrían incluirse en el modelo variables cualitativas dicotómicas
como ‘consumo de tabaco (Sí/No)’, ‘antecedentes familiares de cáncer de colon
(Si/No)’ etc.

Sin embargo, ¿qué ocurriría si se introdujera una variable cualitativa de más de dos
categorías en el modelo de regresión lineal múltiple de forma directa?
Supóngase que a partir de los datos del ejemplo xx se pretende incluir una variable
‘nivel de obesidad’ clasificada en 3 categorías (delgado, normal, obeso). Si se
introdujera la variable directamente en el modelo se tendría que:

𝑡𝑟𝑖𝑔𝑙𝑖𝑐é𝑟𝑖𝑑𝑜𝑠 = 𝛽0 + 𝛽1 𝑒𝑑𝑎𝑑 + 𝛽2 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑜𝑏𝑒𝑠𝑖𝑑𝑎𝑑

Al ajustar el modelo de regresión lineal múltiple introduciendo la variable nivel de


obesidad directamente se obtendría:

a
Coeficientes

Modelo Coeficientes
Coeficientes no estandarizados tipificados

B Error típ. Beta t Sig.

1 (Constante) 38,620 22,523 1,715 ,088

edad ,396 ,434 ,067 ,913 ,362

obesidad 34,176 9,384 ,266 3,642 ,000

a. Variable dependiente: triglice


El modelo quedaría, por tanto:

𝑡𝑟𝑖𝑔𝑙𝑖𝑐é𝑟𝑖𝑑𝑜𝑠 = 38,62 + 0,396 𝑒𝑑𝑎𝑑 + 34,18 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑜𝑏𝑒𝑠𝑖𝑑𝑎𝑑

A la hora de interpretar el coeficiente que acompaña a la variable ‘nivel de obesidad’ se


tendría que, para individuos de la misma edad, por aumentar en una unidad el nivel de
obesidad, aumentaría en 34,18 unidades el nivel de triglicéridos. Esto significa que
pasar de ‘delgado’ a ‘normal’ tendría el mismo efecto sobre el nivel de triglicéridos
(34,18) que por pasar de ‘normal’ a ‘obesidad’ (34,18), puesto que en ambos casos se
aumenta una unidad. Sin embargo, esto no tendría por qué ser cierto. En consecuencia,
cuando la variable cualitativa tiene más de dos categorías no podrá incluirse en el
modelo de regresión lineal múltiple de forma directa.

La forma de conseguir separar esos efectos de manera que puedan ser distintos para
cada paso de una categoría a la siguiente, es generar las que se conocen como variables
ficticias o dummys. Se selecciona una categoría como la categoría de referencia que
tomará valores 0 en las dos variables ficticias. En el caso del ejemplo será necesario
generar dos variables ficticias. Si se considera la primera categoría ‘delgado’ como la
categoría de referencia, se tendrá que:

Variable original Variable ficticia 1 Variable ficticia 2


Nivel de obesidad Obs1 Obs2
Delgado 0 0
Normal 1 0
Obeso 0 1

Ahora, en lugar de introducir la variable ‘nivel de obesidad’ de forma directa se


introducirán sus dos variables asociadas (ficticias), quedando el modelo como sigue:

𝑡𝑟𝑖𝑔𝑙𝑖𝑐é𝑟𝑖𝑑𝑜𝑠 = 𝛽0 + 𝛽1 𝑒𝑑𝑎𝑑 + 𝛽21 𝑂𝑏𝑠1+𝛽22 𝑂𝑏𝑠2

De esta manera, el modelo quedará:

𝑡𝑟𝑖𝑔𝑙𝑖𝑐é𝑟𝑖𝑑𝑜𝑠 = 𝛽0 + 𝛽1 𝑒𝑑𝑎𝑑 para los ‘delgados’

𝑡𝑟𝑖𝑔𝑙𝑖𝑐é𝑟𝑖𝑑𝑜𝑠 = 𝛽0 + 𝛽1 𝑒𝑑𝑎𝑑 + 𝛽21 para los ‘normales’

𝑡𝑟𝑖𝑔𝑙𝑖𝑐é𝑟𝑖𝑑𝑜𝑠 = 𝛽0 + 𝛽1 𝑒𝑑𝑎𝑑 + 𝛽22 para los ‘obesos’

Así, por pasar de ‘delgado’ a ‘normal’ el efecto será 𝛽21, por pasar de ‘delgado’ a
‘obeso’ 𝛽22 y por pasar de ‘normal’ a ‘obseso’ 𝛽22 − 𝛽21

Es muy importante tener en cuenta que el efecto de una variable cualitativa con más de
dos categorías (en este caso el ‘nivel de obesidad’) debe ser valorado a través de los
resultados de todas sus variables ficticias o dummys a las que ha dado lugar, es decir, no
pueden eliminarse unas dummys e incluir otras (actúan como un conjunto).

Si se consideran los datos del ejemplo se tendrá que el modelo quedará:

𝑡𝑟𝑖𝑔𝑙𝑖𝑐é𝑟𝑖𝑑𝑜𝑠 = 67,90 + 0,314 𝑒𝑑𝑎𝑑 + 55,371 𝑂𝑏𝑠1 + 62,464 𝑂𝑏𝑠2

a
Coeficientes

Modelo Coeficientes
Coeficientes no estandarizados tipificados

B Error típ. Beta t Sig.

1 (Constante) 67,901 20,252 3,353 ,001

edad ,314 ,433 ,053 ,724 ,470

Obs1 55,371 14,593 ,302 3,794 ,000

Obs2 62,464 18,905 ,266 3,304 ,001

a. Variable dependiente: triglice

Por tanto, por pasar de ‘delgado’ a ‘normal’ el nivel de triglicéridos aumentaría en


55,371 unidades, por pasar de ‘delgado’ a ‘obeso’ aumentaría en 62,464 unidades y por
pasar de ‘normal’ a ‘obeso’ en 62,464-55,371=7,09 unidades. En consecuencia, parece
que la magnitud del cambio se produce por pasar de ‘delgado’ a cualquiera de las otras
dos categorías y que de ‘normal’ a obesidad’ apenas se produce cambio o es de mucha
menor magnitud.

Para valorar si una variable cualitativa de más de dos categorías tiene un aporte
significativo en el modelo de regresión lineal múltiple es necesario realizar un contraste
de hipótesis sobre el 𝑅 2 de cambio, es decir, comparando la proporción de variabilidad
explicada por el modelo sin la variable obesidad (en este caso sin las dos variables
dummys) con la proporción de variabilidad explicada por el modelo con la variable
obesidad (con las dos variables dummys).
2 2 2
𝑅𝑐𝑎𝑚𝑏𝑖𝑜 = 𝑅𝑒𝑑𝑎𝑑,𝑜𝑏𝑠1,𝑜𝑏𝑠2 − 𝑅𝑒𝑑𝑎𝑑

Tabla xx. Valoración del cambio en R cuadrado

Estadísticos de cambio
Modelo
Cambio en R Sig. Cambio
R R cuadrado cuadrado Cambio en F gl1 gl2 en F
1 ,161 ,026 ,026 5,257 1 197 ,023
2 ,323 ,104 ,078 8,501 2 195 ,000

En la tabla xx el modelo 1 corresponde al modelo de regresión lineal que contiene


únicamente a la variable ‘edad’ como explicativa. El modelo 2 incluye, además de la
‘edad’, las dos variables dummys correspondientes a la variable ‘obesidad’. Puede
observarse que la 𝑅 2 de cambio es de 0,078 (el modelo pasa de un 𝑅 2 de 0,026 con la
‘edad’ a una 𝑅 2 de 0,104 con la ‘edad’ y las dos variables dummys de la ‘obesidad).
Además este cambio en 𝑅 2 es significativo (𝑝 < 0,001).

En general, para incluir una variable cualitativa de 𝑘 categorías en un modelo de


egresión lineal múltiple será necesario generar 𝑘 − 1 variables ficticias o dummys, por
ejemplo, de la forma:

Variable dummy 1 dummy 2 …. dummy k-2 dummy k-1


original 𝑿𝟏𝒇 𝑿𝟐𝒇 𝑿𝒌−𝟐
𝒇 𝑿𝒌−𝟏
𝒇
con k categorías
Categoría 1 0 0 … 0 0
Categoría 2 1 0 … 0 0
Categoría 3 0 1 … 0 0
……… … … … … …
Categoría k 0 0 … 0 1
Interacción

Aunque, en general, un efecto de interacción entre dos o más variables podría darse con
independencia del tipo de variables consideradas, habitualmente suele ser objeto de
estudio cuando se incluyen variables cualitativas o una combinación de variables
cualitativas y cuantitativas. Pero ¿qué es la interacción?

Para ilustrar esta cuestión supóngase que se pretende estudiar el posible efecto del
‘índice de masa corporal’ y el ‘sexo’ sobre el ‘nivel de colesterol’. El modelo propuesto
sería:

𝑐𝑜𝑙𝑒𝑠𝑡𝑒𝑟𝑜𝑙 = 𝛽0 + 𝛽1 𝑒𝑑𝑎𝑑 + 𝛽2 𝑠𝑒𝑥𝑜

Anteriormente fue analizada la interpretación del coeficiente que acompaña a la variable


‘sexo’. Además, al ser ‘sexo’ una variable dicotómica, su inclusión en el modelo podía
realizarse de forma directa sin necesidad de generar variables ficticias asociadas. Sin
embargo, estructuralmente, tal y como está construido, el modelo está suponiendo que
el efecto de la ‘edad’ sobre el ‘nivel de colesterol’ es el mismo para los dos sexos (𝛽1),
lo que, en principio, no tendría por qué ser cierto.

Se dirá que existe interacción entre la ‘edad’ y el ‘sexo’ si el efecto de la ‘edad’ sobre el
‘nivel de colesterol’ no es el mismo para cada uno de los niveles de la variable ‘sexo’,
es decir, no es el mismo en hombres que en mujeres.

Por tanto, en el proceso de construcción de modelos de regresión lineal múltiple que


incluyan variables cualitativas será necesario estudiar la posible interacción entre las
mismas. Si se descarta interacción, se ajustará el modelo sin el mencionado efecto. Para
incluir un efecto de interacción en el modelo bastará con generar una variable nueva de
la forma:

𝑐𝑜𝑙𝑒𝑠𝑡𝑒𝑟𝑜𝑙 = 𝛽0 + 𝛽1 𝑒𝑑𝑎𝑑 + 𝛽2 𝑠𝑒𝑥𝑜 + 𝛽12 𝑒𝑑𝑎𝑑 ∗ 𝑠𝑒𝑥𝑜

Si el efecto 𝛽12 es significativo entonces la ‘edad’ tendrá un efecto sobre el ‘nivel de


colesterol’ distinto para cada sexo. Así se tendrá que, si a efectos de simplicidad se
recodifica la variable ‘sexo’ como 0‘hombre’ y 1’mujer:

𝑐𝑜𝑙𝑒𝑠𝑡𝑒𝑟𝑜𝑙 = 𝛽0 + 𝛽1 𝑒𝑑𝑎𝑑 para Hombres

𝑐𝑜𝑙𝑒𝑠𝑡𝑒𝑟𝑜𝑙 = 𝛽0 + (𝛽1 + 𝛽12 )𝑒𝑑𝑎𝑑 + 𝛽2 para Mujeres


Como puede observarse, ahora el efecto de la ‘edad’ sobre el ‘nivel de colesterol’ sería
𝛽1 en el caso de los hombres, mientras que en el caso de las mujeres sería 𝛽1 + 𝛽12. En
el caso de los datos del ejemplo se observa un efecto de interacción significativo entre la
edad y el sexo:

Resumen del modelo

Modelo R cuadrado Error típ. de la


R R cuadrado corregida estimación
a
di
1 ,451 ,203 ,189 46,718
me

nsi

on

a. Variables predictoras: (Constante), interac, sexo, edad

b
ANOVA

Modelo Suma de Media


cuadrados gl cuadrática F Sig.
a
1 Regresión 91935,551 3 30645,184 14,041 ,000

Residual 360124,047 165 2182,570

Total 452059,598 168

a. Variables predictoras: (Constante), interac, sexo, edad


b. Variable dependiente: colestot

a
Coeficientes

Modelo Coeficientes
Coeficientes no estandarizados tipificados

B Error típ. Beta t Sig.

1 (Constante) 273,856 39,012 7,020 ,000

sexo -67,718 23,397 -,650 -2,894 ,004

edad ,382 ,371 ,115 1,028 ,306

sexo*edad 1,497 ,474 ,774 3,159 ,002

a. Variable dependiente: colestot


Por tanto, el modelo quedará:

𝑐𝑜𝑙𝑒𝑠𝑡𝑒𝑟𝑜𝑙 = 273,856 + 0,382 𝑒𝑑𝑎𝑑 para Hombres

𝑐𝑜𝑙𝑒𝑠𝑡𝑒𝑟𝑜𝑙 = 273,856 + (0,382 + 1,497) 𝑒𝑑𝑎𝑑 − 67,718 para Mujeres

Así, mientras que en hombres por cada año más se estimaría un aumento del nivel de
colesterol de 0,382 unidades, en el caso de las mujeres este aumento sería de
0,382+1,497=1,879.

Es importante tener en cuenta que si se detecta un efecto de interacción significativo en


el modelo deben permanecer en el modelo las dos variables explicativas que lo
componen con independencia de los resultados de sus contrastes individuales.

Confusión (confounding)

En el análisis multivariante será necesario asegurarse de que las asociaciones


detectadas (efectos significativos de las variables explicativas) no están confundidas por
la ausencia en el modelo de variables relevantes que pudieran estar asociadas, tanto con
la variable explicativa como con la respuesta. En caso de producirse esta situación
podría detectarse un efecto para una determinada variable explicativa más elevado de lo
que realmente es (cuando se controla por la posible variable confundiente que no se
había incluido en el análisis), e incluso, detectarlo como significativo cuando realmente
no tiene ningún efecto. Este efecto se conoce como ‘confusión o confounding’.

A continuación se presentan los resultados del ajuste de un modelo de regresión lineal


simple según el cual, por cada unidad más de imc se pronosticaría un aumento
significativo de 4,546 unidades en el nivel de colesterol.

Resumen del modelo

Modelo R cuadrado Error típ. de la


R R cuadrado corregida estimación
a
di
1 ,320 ,102 ,097 49,295
me

nsi

on

a. Variables predictoras: (Constante), imc

b
ANOVA
Modelo Suma de Media
cuadrados gl cuadrática F Sig.
a
1 Regresión 46245,929 1 46245,929 19,031 ,000

Residual 405813,668 167 2430,022

Total 452059,598 168

a. Variables predictoras: (Constante), imc


b. Variable dependiente: colestot

a
Coeficientes

Modelo Coeficientes
Coeficientes no estandarizados tipificados

B Error típ. Beta t Sig.

1 (Constante) 104,852 28,128 3,728 ,000

imc 4,546 1,042 ,320 4,362 ,000

a. Variable dependiente: colestot

Sin embargo, al ajustar por edad (incluyendo además la ‘edad’ en el modelo se tiene
que:

Resumen del modelo

Modelo R cuadrado Error típ. de la


R R cuadrado corregida estimación
a
di
1 ,423 ,179 ,169 47,285
me

nsi

on

a. Variables predictoras: (Constante), edad, imc

b
ANOVA

Modelo Suma de Media


cuadrados gl cuadrática F Sig.
a
1 Regresión 80904,851 2 40452,426 18,092 ,000

Residual 371154,747 166 2235,872

Total 452059,598 168

a. Variables predictoras: (Constante), edad, imc


b. Variable dependiente: colestot
a
Coeficientes

Modelo Coeficientes
Coeficientes no estandarizados tipificados

B Error típ. Beta t Sig.

1 (Constante) 110,677 27,021 4,096 ,000

imc 2,501 1,126 ,176 2,220 ,028

edad 1,035 ,263 ,312 3,937 ,000

a. Variable dependiente: colestot

Puede observarse, al ajustar por edad (incluyendo la edad en el modelo además del imc),
el efecto del ‘imc’ sobre el ‘nivel de colesterol’ disminuye de forma considerable
pasando de 4,546 a 2,501 (-45%). Podría decirse que el efecto del ‘imc’ sobre el ‘nivel
de colesterol’ estaba confundido por ausencia de la ‘edad’ en el modelo. Es razonable
pensar que la ‘edad’ se relaciona tanto con un mayor ‘imc’ como con un mayor ‘nivel
de colesterol’.

Estrategias para la construcción de modelos de regresión lineal múltiple

A la hora de construir un modelo de regresión lineal múltiple se pueden adoptar


diferentes estrategias dependiendo del objetivo del estudio. En cualquier caso, será muy
importante no dejar fuera del análisis variables relevantes que podrían estar relacionadas
con la variable respuesta y que, además, también podrían estar relacionadas con alguna
o algunas variables explicativas. De darse este último caso, los efectos ajustados para
las variables incluidas en el modelo podrían estar confundidos por la ausencia de estas
variables relevantes.

Método de inclusión forzada

Si lo que se pretende es explorar el efecto de un conjunto de variables sobre una


variable dependiente o respuesta puede construirse un modelo mediante la inclusión
forzada en el modelo de todas las variables explicativas de interés y eliminando después
las que no tienen un efecto significativo. En este proceso de eliminación se atenderá a
los contrastes individuales de los coeficientes del modelo y la posible multicolinealidad
(especial cuidado al pretender eliminar del modelo varias variables a la vez si existe
multicolinealidad).

Método de inclusión jerárquica

Según esta estrategia de construcción del modelo el investigador debe definir un orden
de introducción de las variables que responden a unos objetivos bien definidos. Por
ejemplo, en primer lugar se introducirían los posibles factores de riesgo, en segundo
lugar las posibles variables confundientes, en tercer lugar los posibles efectos de
interacción, etc y evaluar en cada paso la significación del 𝑅 2 de cambio.
Método de construcción automática

Según esta técnica de construcción del modelo, el investigador identifica el conjunto de


variables que podrían tener un efecto sobre la variable respuesta, dejando que por algún
método de construcción automática (hacia delante, hacia atrás, pasos sucesivos) se
llegue a un modelo final que incluirá únicamente las variables con un efecto
significativo. Debe tenerse en cuenta que con esta técnica no se tiene ningún control
sobre el orden en el que se incluyen las variables y podría llegarse a un modelo
incoherente. La idea fundamental de este tipo de métodos automáticos es incluir las
variables que contribuyen a un mayor aumento del 𝑅 2 o eliminar a las que menos
contribuyen.

Así, el método hacia delante (forward) incluiría en primer lugar, de entre las variables
predictoras, aquélla que contribuyera a una mayor 𝑅 2 y su efecto fuera significativo. En
segundo lugar, estando presente la primera variable, incluiría de entre las restantes, la
que más aumentara el 𝑅 2 y su efecto fuera significativo y, así, sucesivamente. Debe
tenerse en cuenta que una vez una variable ha sido incluida en el modelo ya no puede
salir. El proceso se parará cuando ninguna de las variables restantes contribuya a un
aumento significativo del 𝑅 2 .

El método hacia atrás (backward) procedería de la forma opuesta, eliminando del


modelo con todas las variables explicativas incluidas, en primer lugar aquella variable
cuyo efecto no fuera significativo y que condujera a una pérdida menor en el 𝑅 2 . El
proceso se repite con este mismo criterio y se detendrá cuando no queden variables sin
aporte significativo. Este método hacia atrás suele utilizar un valor de p para los
contrastes individuales de los coeficientes de 0,10 en un intento de proteger al máximo
el valor de 𝑅 2 . Debe tenerse en cuenta que una vez una variable ha sido eliminada del
modelo no puede volver a entrar.

El método de pasos sucesivos (stepwise) es una técnica similar al método hacia delante
pero en el que, en cada paso, se da la posibilidad de ‘repensar el modelo’. Esto quiere
decir que aunque una variable haya sido introducida en el modelo puede ser eliminada
del mismo en un paso posterior si con ello se consigue mejorar el valor de 𝑅 2 . Este
método, sin duda, conducirá al mejor modelo predictivo (con mayor 𝑅 2 ).

MODELOS LINEALES GENERALIZADOS

La estructura del modelo de regresión lineal múltiple puede adaptarse a una serie de
situaciones mediante una transformación de la variable dependiente. Por ejemplo, el
investigador podría estar interesado en explorar qué variables se relacionan con la
ocurrencia de una determinada patología. En este caso, la variable respuesta, a
diferencia de lo estudiado hasta ahora, sería dicotómica (Sí/No). Del mismo modo
podría interesar relacionar la tasa de incidencia de una determinada característica o el
tiempo de supervivencia de un grupo de pacientes con una serie de variables
sociodemográficas y/o factores de riesgo.

En general, los modelos lineales generalizados serán una familia de modelos cuya
componente estructural podría expresarse de la siguiente forma:

𝑓(𝑦) = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + ⋯ + 𝛽𝑘 𝑥𝑘

Donde:

y= Variable respuesta sobre la que se pretende medir el efecto de otras variables (tasa
de incidencia, ocurrencia de un suceso, etc). Cuando 𝑓(𝑦) = 𝑦 reproduciría el caso de
regresión lineal múltiple analizado hasta el momento.

Las variables 𝑥1, 𝑥2 , 𝑥3 , … , 𝑥𝑘 serían las variables explicativas (factores de riesgo,


variables de ajuste)

Por último 𝑓(𝑦) sería la función de enlace (transformación propuesta de la variable


dependiente). Dependiendo de las características de la variable respuesta será necesario
utilizar una determinada función nexo u otra.

En la siguiente tabla se muestran los métodos de análisis basados en modelización lineal


(modelos lineales generalizados), dependiendo de las características de la variable
dependiente o respuesta.

Modelo Variable respuesta Función de enlace


Regresión logística 𝑝
𝑦 = {0,1}; 𝑝 = 𝑃(𝑦 = 1) 𝑓(𝑦) = 𝑙𝑛 ( )
binaria 1−𝑝
Regresión de 𝑦 = 𝑡𝑎𝑠𝑎 𝑚𝑒𝑑𝑖𝑎 (𝑖𝑛𝑐𝑖𝑑𝑒𝑛𝑐𝑖𝑎) 𝑓(𝑦) = ln(𝑦)
Poisson Basado en datos de recuento

Regresión de Cox 𝑦(𝑡) = 𝑡𝑎𝑠𝑎 𝑖𝑛𝑠𝑡𝑎𝑛𝑡á𝑛𝑒𝑎 𝑓𝑡 (𝑦) = ln(𝑦(𝑡)

En este apartado se abordará exclusivamente el caso de modelo de regresión logística


binaria.

MODELO DE REGRESIÓN LOGÍSTICA BINARIA

El modelo de regresión logística binaria permitirá analizar la relación entre una variable
dependiente dicotómica y un conjunto de variables explicativas (cuantitativas y/o
cualitativas). Es evidente que no podrá incluirse la variable dependiente tal cual en el
modelo de la forma:

𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + ⋯ + 𝛽𝑘 𝑥𝑘

Las razones son de diferente índole. Por ejemplo, en para la construcción de un modelo
de regresión lineal múltiple se precisaba que la variable respuesta o dependiente fuera
continua y que siguiera una distribución normal. Por otra parte, aún dejando de lado esta
cuestión, el ajuste de un modelo como el propuesto en la expresión anterior podría
llevar a pronosticar valores que no fueran 0 ó 1 e, incluso, que estuvieran fuera del
rango {0,1}.

Para conseguir aprovechar la estructura lineal del modelo de regresión lineal múltiple se
hará una transformación de la variable dependiente mediante la denominada función
logística. ¿Cómo es esta función?

Función logística

1
𝑓(𝑥) =
1 + 𝑒 −𝑥
10

Puede observarse que esta función siempre tomará valores entre 0 y 1 y, por tanto,
puede ser útil para modelizar proporciones o probabilidades. Por otra parte, el rango de
valores que puede tomar 𝑥 se mueve entre -∞ y + ∞, es decir, puede tomar cualquier
valor.

Por tanto, si se parte de una variable respuesta de interés cualitativa dicotómica del tipo
𝑦 = 1 si ocurre el suceso en cuestión (infarto, mala salud mental, cáncer, etc) e 𝑦 = 0 si
no ocurre, podrá modelizarse la probabilidad de ocurrencia del suceso en función de una
serie de variables explicativas 𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑘 de la forma:
1
𝑃(𝑦 = 1|𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑘 ) =
1+ 𝑒 −(𝛽0 +𝛽1𝑥1 +𝛽2𝑥2 +𝛽3𝑥3 +⋯+𝛽𝑘𝑥𝑘)

𝑒 𝛽0 +𝛽1𝑥1 +𝛽2𝑥2 +𝛽3𝑥3 +⋯+𝛽𝑘𝑥𝑘


=
1 + 𝑒𝛽0 +𝛽1𝑥1 +𝛽2𝑥2 +𝛽3𝑥3 +⋯+𝛽𝑘𝑥𝑘

Si se hace:

𝑃(𝑦 = 1|𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑘 )
= 𝑒 𝛽0 +𝛽1 𝑥1+𝛽2 𝑥2 +𝛽3 𝑥3 +⋯+𝛽𝑘𝑥𝑘
1 − 𝑃(𝑦 = 1|𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑘 )

Si ahora se extrae el logaritmo neperiano se tendrá que:

𝑃(𝑦 = 1|𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑘 )
𝑙𝑛 ( ) = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + ⋯ + 𝛽𝑘 𝑥𝑘
1 − 𝑃(𝑦 = 1|𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑘 )

Obsérvese que esta expresión evidencia la generalización del modelo lineal a través de
una transformación de la variable cualitativa dicotómica de interés mediante una
función de enlace del tipo:
𝑝
𝑙𝑛 ( )
1−𝑝

Donde:

𝑃(𝑦 = 1)

Los coeficientes 𝛽0 , 𝛽1 , 𝛽2 , … 𝛽𝑘 se obtendrán por medio de métodos iterativos basados


en máxima verosimilitud.

Ejemplo

En un estudio sobre el pronóstico de hipoglucemia en pacientes hospitalizados se cuenta


con información sobre Hipoglucemia durante el ingreso (Sí/No), FGe (ml/min), dosis de
insulina (0 si dosis≤30, 1 si dosis >30), tiempo de hospitalización (en días) y episodios
de hipoglucemia en los últimos tres meses (Sí/No). Si en una primera fase se pretende
analizar el efecto sobre el riesgo de hipoglucemia de la dosis de insulina, se tendrá que
modelizará.
𝑝
𝑙𝑛 ( ) = 𝛽0 + 𝛽2 𝑖𝑛𝑠𝑢𝑙𝑖𝑛𝑎 ; 𝑑𝑜𝑛𝑑𝑒 𝑝 = 𝑃(ℎ𝑖𝑝𝑜𝑔𝑙𝑢𝑐𝑒𝑚𝑖𝑎) = 𝑃(𝑦 = 1|𝑥)
1−𝑝
Al ajustar el modelo se obtiene que:

Pruebas omnibus sobre los coeficientes del modelo

Chi cuadrado gl Sig.

Paso 1 Paso 4,756 1 ,029

Bloque 4,756 1 ,029

Modelo 4,756 1 ,029

Resumen del modelo

Paso -2 log de la R cuadrado de R cuadrado de


verosimilitud Cox y Snell Nagelkerke
a
1 602,304 ,006 ,011

a. La estimación ha finalizado en el número de iteración 5


porque las estimaciones de los parámetros han cambiado en
menos de ,001.

a
Tabla de clasificación

Observado Pronosticado

Hipoglucemia Porcentaje
No Sí correcto

Paso 1 Hipoglucemia No 716 0 100,0

Sí 100 0 ,0

Porcentaje global 87,7


a. El valor de corte es ,500

Variables en la ecuación

B E.T. Wald gl Sig. Exp(B)


a
Paso 1 Insulina(1) ,479 ,217 4,860 1 ,027 1,615

Constante -2,147 ,140 235,326 1 ,000 ,117

a. Variable(s) introducida(s) en el paso 1: insulina

De la tabla de coeficientes del modelo (variables en la ecuación) se desprende que el


modelo ajustado quedaría:

𝑝
𝑙𝑛 ( ) = −2,147 + 0,479 . 𝑖𝑛𝑠𝑢𝑙𝑖𝑛𝑎
1−𝑝
Donde: 𝑝 = 𝑃(𝑦 = 1|𝑥) = 𝑃(ℎ𝑖𝑝𝑜𝑔𝑙𝑢𝑐𝑒𝑚𝑖𝑎|𝑥)

De las expresiones obtenidas anteriormente basadas en el función logística se desprende


que la probabilidad de ‘hipoglucemia’ podría expresarse en función de la variable
‘insulina’ de la forma:

1
𝑃(𝑦 = 1|𝑖𝑛𝑠𝑢𝑙𝑖𝑛𝑎) =
1+ 𝑒 −(−2,147+0,479 .𝑖𝑛𝑠𝑢𝑙𝑖𝑛𝑎)

Así, para los pacientes que se administran una dosis de insulina inferior a 30
(insulina=0) se pronosticará una probabilidad de ocurrencia de hipoglucemia de:

1
𝑃(𝑦 = 1|𝑖𝑛𝑠𝑢𝑙𝑖𝑛𝑎 = 0) = = 0,1046
1 + 𝑒 −(−2,147)
Mientras que para los pacientes que se administran una dosis de insulina igual o
superior a 30, la probabilidad de ocurrencia de hipoglucemia se estimará:

1
𝑃(𝑦 = 1|𝑖𝑛𝑠𝑢𝑙𝑖𝑛𝑎 = 1) = = 0,1587
1+ 𝑒 −(−2,147+0,479)

Interpretación de los coeficientes del modelo de regresión logística.

Para interpretar los coeficientes del modelo será útil profundizar en el concepto de odds.
En realidad odds es una medida de riesgo que cuantifica cuántas veces es más probable
que ocurra un suceso respecto a que no ocurra. Podría expresarse de la siguiente forma:

𝑃(𝑦 = 1) 𝑃(𝑦 = 1)
𝑜𝑑𝑑𝑠 = =
𝑃(𝑦 = 0) 1 − 𝑃(𝑦 = 1)

De aquí podría definirse, para una variable explicativa determinada que representase la
exposición a riesgo (1=Sí/0=No), una medida de asociación conocida como la odds-
ratio de la forma:

𝑜𝑑𝑑𝑠 (𝑜𝑐𝑢𝑟𝑟𝑒𝑛𝑐𝑖𝑎 𝑠𝑢𝑐𝑒𝑠𝑜 𝑒𝑛𝑡𝑟𝑒 𝑙𝑜𝑠 𝑒𝑥𝑝𝑢𝑒𝑠𝑡𝑜𝑠)


𝑂𝑅 =
𝑜𝑑𝑑𝑠 (𝑜𝑐𝑢𝑟𝑟𝑒𝑛𝑐𝑖𝑎 𝑠𝑢𝑐𝑒𝑠𝑜 𝑒𝑛𝑡𝑟𝑒 𝑙𝑜𝑠 𝑛𝑜 𝑒𝑥𝑝𝑢𝑒𝑠𝑡𝑜𝑠)
𝑒 𝛽0 +𝛽0⁄
𝑃(𝑦 = 1|𝑥 = 1) 1 + 𝑒𝛽0 +𝛽1
⁄𝑃(𝑦 = 0|𝑥 = 1)
1⁄
= = 1 + 𝑒 𝛽0+𝛽1 = 𝑒 𝛽1
𝑃(𝑦 = 1|𝑥 = 0) 𝑒𝛽0⁄
⁄𝑃(𝑦 = 0|𝑥 = 0) 1 + 𝑒 𝛽0
1⁄
1 + 𝑒𝛽0

Para los datos del ejemplo podría calcularse la 𝑂𝑅 de la forma:

𝑂𝑅 = 𝑒 𝛽1 = 𝑒 0,479 = 1,615

En consecuencia, los pacientes con una dosis de insulina igual o superior a 30 unidades
tendrían un 61,5% más de riesgo de hipoglucemia durante el ingreso que los pacientes
con una dosis inferior.

Este resultado podría extenderse al caso de más de una variable explicativa de forma
que 𝑒 𝛽𝑖 se interpretaría como la 𝑂𝑅 correspondiente a la variable 𝑥𝑖 ajustada por el
resto de variable presentes en el modelo de regresión logística.

Si para los datos del ejemplo se ajustara un modelo con todas las variables disponibles
se tendría que:

𝑝
𝑙𝑛 ( ) = 𝛽0 + 𝛽1 𝐹𝐺𝑒 + 𝛽2 𝑖𝑛𝑠𝑢𝑙𝑖𝑛𝑎 + 𝛽3 𝑡𝑖𝑒𝑚𝑝𝑜_ℎ𝑜𝑠𝑝 + 𝛽4 ℎ𝑖𝑝𝑜𝑔𝑙3𝑚𝑒𝑠𝑒𝑠
1−𝑝

En las siguientes tablas se muestran los resultados del ajuste del modelo de regresión
logística multivariante propuesto.

Pruebas omnibus sobre los coeficientes del modelo

Chi cuadrado gl Sig.

Paso 1 Paso 49,672 4 ,000

Bloque 49,672 4 ,000

Modelo 49,672 4 ,000

Resumen del modelo


Paso -2 log de la R cuadrado de R cuadrado de
verosimilitud Cox y Snell Nagelkerke
a
1 455,750 ,069 ,133

a. La estimación ha finalizado en el número de iteración 5


porque las estimaciones de los parámetros han cambiado en
menos de ,001.
a
Tabla de clasificación

Observado Pronosticado

Hipoglucemia Porcentaje
No Sí correcto

Paso 1 Hipoglucemia No 611 6 99,0

Sí 78 4 4,9

Porcentaje global 88,0

a. El valor de corte es ,500

Variables en la ecuación

B E.T. Wald gl Sig. Exp(B)


a
Paso 1 insulina(1) ,554 ,252 4,828 1 ,028 1,741

FGe(1) ,841 ,322 6,833 1 ,009 2,318

Tiemp_hosp ,025 ,008 10,367 1 ,001 1,026

Hipog3meses(1) 1,840 ,320 32,975 1 ,000 6,294

Constante -2,851 ,210 184,149 1 ,000 ,058

El modelo ajustado quedará, por tanto:

𝑝
𝑙𝑛 ( ) = −2,851 + 0,841 𝐹𝐺𝑒 + 0,554 𝑖𝑛𝑠𝑢𝑙𝑖𝑛𝑎 + 0,024 𝑡𝑖𝑒𝑚𝑝𝑜_ℎ𝑜𝑠𝑝
1−𝑝
+ 1,840 ℎ𝑖𝑝𝑜𝑔𝑙3𝑚𝑒𝑠𝑒𝑠

Los 𝑂𝑅 para cada una de las variables explicativas ajustados por el resto de variables
presentes en el modelo podrán obtenerse de la forma descrita anteriormente y aparecen
reflejados en la columna 𝐸𝑥𝑝(𝐵). Puede observarse, por ejemplo que manteniendo
constantes el resto de variables, los pacientes que han experimentado un episodio de
hipoglucemia en los últimos tres meses tienen un 529,4% más de riesgo de sufrir
hipoglucemia (𝑂𝑅 = 6,294) durante el ingreso que los que no. Del mismo modo,
ajustando por el resto de variables, se estima que por cada día más de hospitalización
aumenta el riesgo de hipoglucemia en un 2,6% (𝑂𝑅 = 1,026).

Bondad del ajuste del modelo

Deviance

La bondad del ajuste del modelo suele valorarse a través de una medida conocida como
Deviance (discrepancia). No es objeto de este curso profundizar en el procedimiento de
maximización de la verosimilitud para la estimación de parámetros en un modelo
multivariante. Bastaría con conocer que el modelo saturado (el que tendría el mismo
número de coeficientes que observaciones y que, por tanto, ajustaría perfectamente los
datos) tendrá un valor de -2ln (verosimilitud) determinado y que será más pequeño que
el obtenido para cualquier modelo con menos coeficientes. Interesaría que la deviance
fuera pequeña puesto que, cuanto más elevada sea menos ajustará el modelo propuesto a
los datos. Para valorar, por tanto, el ajuste de un modelo de regresión logística con k-
variables explicativas será necesario construir dos modelos:

(1) Un primer modelo con sólo la constante 𝛽0


(2) Un segundo modelo añadiendo además 𝛽1 , 𝛽2 , … 𝛽𝑘 correspondientes a los
efectos de las k variables explicativas.

Así podrá calcularse:

𝐷𝑒𝑣𝑖𝑎𝑛𝑐𝑒 = 𝐷𝑒𝑣𝑖𝑎𝑛𝑐𝑒𝛽0 − 𝐷𝑒𝑣𝑖𝑎𝑛𝑐𝑒𝛽0,𝛽1 ,𝛽2,…𝛽𝑘 = 𝐷𝛽0 − 𝐷𝛽0 ,𝛽1 ,𝛽2,…𝛽𝑘

Que se distribuye según un modelo de probabilidad ji-cuadrado. Debe tenerse en cuenta


que la Deviance asociada al modelo con sólo la constante, será mayor que la Deviance
asociada a cualquier modelo que incluya al menos otra variable.

Para los datos del ejemplo con únicamente una variable explicativa (insulina) puede
observarse que la deviance obtenida es (ver tabla resumen del modelo):

𝐷𝑒𝑣𝑖𝑎𝑛𝑐𝑒 = −2ln(𝑣𝑒𝑟𝑜𝑠𝑖𝑚𝑖𝑙𝑖𝑡𝑢𝑑) = 602,304

El contraste ji-cuadrado basado en esta deviance proporciona un valor de 𝑝 = 0,029,


por lo que el incremento por pasar de un modelo con sólo la constante (sin la variable
explicativa) a un modelo que incluya además la variable explicativa (en este caso
‘insulina’) sería significativo. ¿Qué se esperaría observar en el caso de que se incluyeran
las tres restantes variables explicativas en el modelo? Indudablemente la deviance será
menor que la anterior. Así, puede observarse que en las tablas de resultados del ajuste
del modelo la deviance asociada en este caso es menor y también significativa (𝑝 <
0,001)
𝐷𝑒𝑣𝑖𝑎𝑛𝑐𝑒 = −2ln(𝑣𝑒𝑟𝑜𝑠𝑖𝑚𝑖𝑙𝑖𝑡𝑢𝑑) = 455,750

Prueba de bondad de ajusta de Hosmer-Lemesshow

La idea principal de este test de bondad de ajuste es dividir el recorrido de la variable


dependiente (probabilidad) en intervalos y comparar los valores esperados con los
observados bajo la hipótesis de ajuste de los datos al modelo. En consecuencia, para que
el modelo ajuste el resultado del contraste de hipótesis asociado debe ser no
significativo.

Para los datos del ejemplo con las cuatro variables explicativas se obtendría:

Prueba de Hosmer y Lemeshow

Paso Chi cuadrado gl Sig.

1 3,479 8 ,901

Tabla de contingencias para la prueba de Hosmer y Lemeshow

X8 = No X8 = Sí

Observado Esperado Observado Esperado Total

Paso 1 1 60 59,502 3 3,498 63

2 65 64,998 4 4,002 69

3 70 67,618 2 4,382 72

4 73 73,914 6 5,086 79

5 66 66,691 6 5,309 72

6 61 59,748 5 6,252 66

7 63 61,812 6 7,188 69

8 58 60,824 11 8,176 69

9 57 58,190 13 11,810 70

10 44 43,703 26 26,297 70

Puede observarse en la primera tabla que el contraste no es significativo (no hay


diferencia significativas entre los valores esperados bajo la hipótesis de ajuste del
modelo y los obtenidos) con 𝑝 = 0,901. En la tabla de contingencia para la prueba de
Hosmer-Lemeslow pueden apreciarse las escasas diferencias encontradas que han
propiciado un valor de la p del contraste tan elevado.
R cuadrado de Cox-Snell y R cuadrado de Nagelkerke

A partir de la comparación de la Log verosimilitud para el modelo ajustado (contiene el


conjunto de variables predictoras de interés) con la Log verosimilitud del modelo con
sólo la constante, puede obtenerse una medida cuya interpretación sea similar a la del
coeficiente de determinación múltiple estudiado con anterioridad. Esta medida tomará
valores entre 0 y 1 y se interpretará como la proporción de variabilidad de la variable
dependiente explicada por las variables predictoras (independientes).

Habitualmente se cuenta con dos medidas de este tipo: El R cuadrado de Cox-Snell y el


R cuadrado de Nagelkerke. La segunda es una corrección de la primera que intenta
corregir el hecho de que el R cuadrado de Cox- Snell nunca podrá tomar el valor 1
aunque el ajuste del modelo sea perfecto.

En los ejemplos analizados con anterioridad puede observarse que el R cuadrado de


Cox-Snell y Nagelkerke son de 0,005 y 0,011 para el modelo con sólo una variable
explicativa (insulina). Esto supondría que el modelo explicaría entre un 0,5% y un 1,1%
de la variabilidad observada en la variable ’hipoglucemia’.

Resumen del modelo

Paso -2 log de la R cuadrado de R cuadrado de


verosimilitud Cox y Snell Nagelkerke
a
1 602,304 ,006 ,011

a. La estimación ha finalizado en el número de iteración 5


porque las estimaciones de los parámetros han cambiado en
menos de ,001.

En el caso del modelo ajustado con el resto de variables (FGe, insulina, tiempo de
hospitalización y episodios de hipoglucemia en los últimos tres meses) estas medidas de
R cuadrado proporcionan una valor de 0,059 y 0,133 respectivamente lo que supondría
un porcentaje de variabilidad explicada entre el 5,9% y el 13,3%.

Resumen del modelo

-2 log de la R cuadrado de R cuadrado de


verosimilitud Cox y Snell Nagelkerke
a
455,750 ,069 ,133

a. La estimación ha finalizado en el número de iteración 5 porque las estimaciones de los


parámetros han cambiado en menos de ,001.
Tabla de clasificación

Otra forma de valorar el ajuste del modelo consistiría en construir e interpretar la tabla
de clasificación. Esta tabla trata de clasificar a los individuos en las dos categorías de la
variable dependiente (hipoglucemia sí o no) en función de las probabilidades
pronosticadas y compararlas después con el verdadero estado (hipoglucemia sí o no) del
individuo. Así, a todos los individuos a los que el modelo de regresión logística les
pronostique una probabilidad de ocurrencia del suceso (hipoglucemia) superior o igual a
0,5 serán clasificados como ‘Hipoglucemia Sí’, mientras que aquellos a los que se les
pronostique una probabilidad inferior a 0,5 serán clasificados como ‘Hipoglucemia No’.

Para el modelo con sólo una variable explicativa (insulina) la tabla obtenida es la
siguiente:

a
Tabla de clasificación

Observado Pronosticado

Hipoglucemia Porcentaje
No Sí correcto

Paso 1 Hipoglucemia No 716 0 100,0

Sí 100 0 ,0

Porcentaje global 87,7

a. El valor de corte es ,500

Puede observarse que, en este caso, la Sensibilidad de la prueba 𝑃(+⁄𝐸 ) sería del 0%
ya que no se pronostica ningún caso como positivo (‘Hipoglucemia Sí’) entre los 100
individuos con hipoglucemia observados y la Especificidad 𝑃 (−⁄ ̅ ) del 100% puesto
𝐸
que todos los individuos sin hipoglucemia observados fueron clasificados a partir del
modelo como ‘Hipoglucemia No’.

Si se atiende a la tabla de clasificación obtenida para el modelo de regresión logística


con las cuatro variables predictoras ajustado con anterioridad se tendrá que:

Observado Pronosticado

Hipoglucemia Porcentaje
No Sí correcto

Paso 1 Hipoglucemia No 611 6 99,0

Sí 78 4 4,9

Porcentaje global 88,0

a. El valor de corte es ,500


En este caso la Sensibilidad subiría al 4,9% mientras que la especificidad se situaría en
el 99,0%.

Sin embargo, estos valores de sensibilidad y especificidad estarían basados en un punto


de corte 0,5 que podría no ser el más idóneo a la hora de discriminar entre los grupos de
casos y no casos.

Curva ROC

La construcción de la curva ROC en la que se representa la Sensibilidad en el eje de


ordenadas y 1-Especificidad (probabilidad de falso positivo) en el eje de abcisas es otro
instrumento que habitualmente se utiliza para valorar el ajuste del modelo a través de su
capacidad de discriminación. En la siguiente figura se puede apreciar el comportamiento
de la curva ROC para el caso de una variable explicativa (insulina) (a la izquierda) y
para el modelo con cuatro variables explicativas (a la derecha) .

Un modelo que no discriminara proporcionaría unos valores de sensibilidad y


especificidad de 0,5 (y, en consecuencia, también para los falsos positivos y negativos)
con independencia de los valores pronosticados por el modelo. Gráficamente, esto
implicaría que se describiera la diagonal.

Sin embargo, si en función de los valores que predice el modelo esto fuera cambiando,
podría determinarse un punto de corte a partir de los valores pronosticados que
maximizara el valor de la sensibilidad y especificidad. El punto de corte que
maximizaría estas cantidades sería el que estuviera más cerca de la coordenada (0,1) que
equivaldría a una sensibilidad y especificidad iguales a 1 (Capacidad de discriminación
perfecta).
Coordenada (0,1)

Sensibilidad

0 1

1-Especificidad

En las curvas ROC obtenidas a partir de los ejemplos anteriores puede apreciarse que en
el primer caso (izquierda) la curva ROC está mucho más ‘pegada’ a la diagonal que la
curva de la derecha y, por tanto, más lejos de la coordenada (0,1). En consecuencia, el
segundo modelo tendría una mejor capacidad de discriminación.

Si como se ha establecido desde un punto de vista gráfico, cuanto más se acerque la


curva a la coordenada (0,1) más capacidad de discriminación, el área máxima por
debajo de la curva (que se alcanzaría en el hipotético caso de que un punto de la curva
se situara en la coordenada (0,1)) sería de 1 (téngase en cuenta que en ese caso el área
de la curva se corresponde con el área de un cuadrado de lado 1). Por otra parte, un
modelo que no discriminara nada conduciría a la diagonal y, por tanto, a un área por
debajo de la curva de 0,5 (la mitad del área del cuadrado).

En la siguiente tabla se proporciona el área bajo la curva ROC y su intervalo de


confianza al 95% para los dos ejemplos analizados.

Modelo con únicamente una variable explicativa (insulina)


Área bajo la curva
Variables resultado de contraste:XBPredicted_2

Intervalo de confianza asintótico


al 95%
a b
Área Error típ. Sig. asintótica Límite inferior Límite superior

,556 ,031 ,070 ,494 ,617

La variable (o variables) de resultado de contraste: XBPredicted_2 tiene al


menos un empate entre el grupo de estado real positivo y el grupo de estado
real negativo. Los estadísticos pueden estar sesgados .
a. Bajo el supuesto no paramétrico
b. Hipótesis nula: área verdadera = 0,5

Modelo con las cuatro variables explicativas


Área bajo la curva
Variables resultado de contraste:XBPredicted_1

Intervalo de confianza asintótico


al 95%
a b
Área Error típ. Sig. asintótica Límite inferior Límite superior

,722 ,032 ,000 ,660 ,784

La variable (o variables) de resultado de contraste: XBPredicted_1 tiene al


menos un empate entre el grupo de estado real positivo y el grupo de estado
real negativo. Los estadísticos pueden estar sesgados .
a. Bajo el supuesto no paramétrico
b. Hipótesis nula: área verdadera = 0,5

Puede observarse que, en el primer caso, el área bajo la curva es de 0,556 y el intervalo
de confianza al 95% [0,494; 0,517]]. Por su parte el modelo con cuatro variables
predictoras consigue un área bajo la curva de 0,722 con un intervalo de confianza al
95% de [0,660; 0,784]].

De forma adicional, se proporciona la significación del siguiente contraste sobre el área


bajo la curva que establece:

𝐻0 : Á𝑟𝑒𝑎 𝑏𝑎𝑗𝑜 𝑙𝑎 𝑐𝑢𝑟𝑣𝑎 = 0,5

𝐻1 : Á𝑟𝑒𝑎 𝑏𝑎𝑗𝑜 𝑙𝑎 𝑐𝑢𝑟𝑣𝑎 > 0,5

Puede observarse que para el primer modelo la 𝑝 del contraste es de 0,07 (no
significativo) lo que es coherente con que el intervalo de confianza contiene al valor 0,5.
En el caso del segundo modelo se obtiene una 𝑝 < 0,001 que implicaría que el área
bajo la curva es significativamente superior a 0,5 y que, por tanto, el modelo tiene una
capacidad de discriminación significativa.

También podría gustarte