29 Tema09
29 Tema09
29 Tema09
2º Curso
Curso Académico: 2022-2023
Asignatura: Modelos Estadísticos en Psicología
Tema 9
Análisis de Regresión y
Correlación: Simple y Múltiple
Esquema
1. Introducción
2. Análisis de correlación lineal simple
2.1 Contraste de la significación de rxy
3. Análisis de regresión lineal simple
3.1 El modelo de regresión lineal simple
3.2 La ecuación de regresión
3.3 Regresión simple en formato ANOVA
4. Análisis de regresión lineal múltiple
4.1 Estimación de los parámetros del modelo
4.2 Regresión múltiple en formato ANOVA
Bibliografía
Pardo y San Martín (1999): Cap. 8, pp. 387-409; excluir el Apéndice.
1. Introducción
• Tanto los modelos de ANOVA como los de regresión y de correlación
lineal se enmarcan dentro de un modelo de análisis estadístico más
general denominado Modelo Lineal Clásico (o Modelo Lineal General).
Pero los diferentes casos del Modelo Lineal Clásico difieren según la
naturaleza de la(s) Variable(s) Independiente(s):
La perspectiva descriptiva:
Posible pregunta del examen teórico
La perspectiva inferencial:
i i i i
2. Análisis de Correlación Lineal Simple PARTE TEÓRICA
(1) Linealidad: Existe una relación lineal entre las dos variables
cuantitativas, X e Y, que se puede cuantificar mediante el coeficiente de
correlación de Pearson, ρxy.
σ 2y / x1 = σ 2y / x 2 = ... = σ 2y / x j = σ 2y
σ 2x / y1 = σ 2x / y 2 = ... = σ 2x / y k = σ 2x
2. Análisis de Correlación Lineal Simple
Valores de rxy > 0 indican relación positiva (valores altos en una variable
se asocian a valores altos en la otra variable; y vice versa).
Valores de rxy < 0 indican relación negativa (valores altos en una variable
se asocian a valores bajos en la otra variable; y vice versa).
2. Análisis de Correlación Lineal Simple
EJEMPLOS
Caso 1: Ejemplo de relación positiva entre X e Y
Datos de una muestra de n = 10 sujetos en las variables autoestima, X (0:
baja; 10: alta) y expectativas de autoeficacia, Y (0: baja; 10: alta).
Caso X Y X2 Y2 XY
1 5 4 25 16 20
2 8 7 64 49 56
3 2 3 4 9 6
4 6 6 36 36 36
5 4 1 16 1 4
6 5 7 25 49 35
7 9 10 81 100 90
8 1 2 1 4 2
9 2 1 4 1 2
10 3 5 9 25 15
Sumas 45 46 265 290 266
n∑ X iYi − ∑ X i ∑ Yi
rxy = i i i Esta fórmula sirve para calcular el coeficiente de correlación de
2 2 Pearson
n∑ X i2 − ∑ X i n∑ Yi 2 − ∑ Yi
i i i i
(10)(266) − (45)(46)
= = 0.84
2 2
(10)(265) − (45) (10)(290) − (46)
2. Análisis de Correlación Lineal Simple
10 ,00
8,0 0
Expectativas
6,0 0
4 ,00
2,0 0
0,0 0
n∑ X iYi − ∑ X i ∑ Yi
rxy = i i i
2 2
n∑ X − ∑ X i
i
2
n∑ Yi − ∑ Yi
2
i i i i
(10)(226) − (45)(60)
= = −0.86
2 2
(10)(265) − (45) (10)(402) − (60)
2. Análisis de Correlación Lineal Simple
9 ,0 0
8 ,0 0
7 ,00
Ansiedad
6 ,0 0
5 ,0 0
4,0 0
3 ,00
n∑ X iYi − ∑ X i ∑ Yi
rxy = i i i
2 2
n∑ X − ∑ X i
i
2
n∑ Yi − ∑ Yi
2
i i i i
(10)(234) − (45)(52)
= = 0.00
2 2
(10)(265) − (45) (10)(304) − (52)
2. Análisis de Correlación Lineal Simple
8 ,0 0
7 ,00
6 ,0 0
Notas
5 ,0 0
4,0 0
3 ,00
2 ,0 0
Ho: No existe una relación significativa entre X e Y (es decir, ρxy = 0).
H1: Sí existe una relación significativa entre X e Y (es decir, ρxy ≠ 0).
2. Análisis de Correlación Lineal Simple
rxy n − 2
T= ≈ t n−2
2
1− rxy
2. Análisis de Correlación Lineal Simple
Contraste de Tamaño
hipótesis del efecto ¿Coherencia?
Rechazar Ho rxy ≥ 0.10 Sí
Rechazar Ho rxy < 0.10 No
No rechazar Ho rxy ≥ 0.10 No
No rechazar Ho rxy < 0.10 Sí
2. Análisis de Correlación Lineal Simple
Ejemplo
Se ha realizado un estudio sobre las relaciones entre el burnout (síndrome de
quemarse por el trabajo), la tensión laboral y las características del sueño. Para
ello se dispuso de una muestra de 202 sujetos adultos de entre 18 y 63 años de
edad, pertenecientes a diversos sectores laborales, a los que se les aplicaron las
siguientes pruebas psicológicas: (a) con el Cuestionario de Hábitos de Sueño de
Miró et al. (2006) se registraron las horas de sueño nocturno (HS), el número de
despertares (DES, en minutos) y la duración media de los despertares (DUDES,
en minutos); (b) con el Inventario Burnout de Maslach-Escala General de
Schaufeli et al. (1996) se obtuvo una puntuación total del burnout (donde a
mayor puntuación mayor burnout) padecido por cada sujeto (MBIT), así como
una puntuación de la eficacia profesional (EFIC), donde a mayor puntuación
mayor eficacia; y (c) con el Cuestionario de Tensión Laboral de Karasek y
Theorell (1990) se obtuvo una puntuación de tensión laboral (JCQT), donde a
mayor puntuación mayor tensión, así como una puntuación del grado de apoyo
social del sujeto (APOY), donde a mayor puntuación mayor apoyo social. En la
siguiente tabla se presenta la matriz de coeficientes de correlación de Pearson
entre estas variables. ¿Es posible afirmar que existe una correlación significativa
entre la duración de los despertares y la puntuación total en burnout? (n.s. = 5%).
2. Análisis de Correlación Lineal Simple
Ejemplo
¿Es posible afirmar que existe una correlación significativa entre las horas
de sueño nocturno y la puntuación total en burnout? (n.s. = 5%).
[Fuente: Miró, E., Solanes, A., Martínez, P., Sánchez, A.I. y Rodríguez, J. (2007). Relación
entre el burnout o ‘síndrome de quemarse por el trabajo, la tensión laboral y las características
del sueño. Psicothema, 19, 388-394.]
HS DES DUDES
EFIC 0.04 -0.22 -0.07
MBIT -0.17 0.14 0.11
JCQT -0.15 -0.01 0.04
APOY 0.16 -0.18 -0.11
Solución:
(1) Formulación de la Ho (contraste bilateral):
Ho: ρxy = 0
H1: ρxy ≠ 0
(2) Selección del estadístico de contraste:
rxy n − 2
T= ≈ t n−2
2
1− r xy
2. Análisis de Correlación Lineal Simple
Ejemplo
(3) Determinación del n.s. = 5%.
(4) Definición de la región de rechazo: 1−𝛼𝛼/2𝑡𝑡𝑛𝑛−2 = .975 𝑡𝑡 200 = 1.972
RD: “Rechácese la Ho si: |Tobs| ≥ 1.972”.
(5) Realización de cálculos:
𝑟𝑟𝑥𝑥𝑥𝑥 √𝑛𝑛 − 2 −0.17√202 − 2
𝑇𝑇 = = = −2.44
2
�1 − 𝑟𝑟𝑥𝑥𝑥𝑥 �1 − (−0.17)2
(7) Estimación del tamaño del efecto: El valor del coeficiente de correlación
obtenido ha sido rxy = -0.17, de magnitud baja. El signo negativo de la
correlación indica la existencia de una relación negativa ere estas dos
variables: a mayor burnout, menor número de horas de sueño nocturno. Por
tanto, existe coherencia entre el resultado del contraste de hipótesis y la
estimación del tamaño del efecto.
3. Análisis de Regresión Lineal Simple
= = βo + β+1 X i1 +
Yi Ei
___________________
1En el texto de Pardo y San Martín, la intercepción y la pendiente paramétricas se simbolizan
mediante α y β , respectivamente, en lugar de βo y β1.
Población =
βo: Intercepción o punto por el que la recta de regresión corta al eje de ordenadas
(eje Y) o, lo que es lo mismo, βo representa el pronóstico que haremos en Y para
todo sujeto que obtenga en X el valor 0.
(1) Linealidad: Existe una relación lineal entre las variables independiente
y dependiente, X e Y, que queda formalizada mediante la ecuación de una
línea recta:
Yi = βo + β1 X i1 + Ei
(2) Efectos fijos en X: Los valores de X no se obtienen por muestreo
aleatorio, sino que son fijados de antemano por el investigador. Por tanto,
para cada valor de X existe una distribución condicional en Y (pero no al
revés):
Distribución de Y/X1 Para cada valor de X tenemos una distribución condicional en Y
Distribución de Y/X2
.
.
.
Distribución de Y/Xj
PARTE TEÓRICA
3. Análisis de Regresión Lineal Simple
Ei ∼ NID(0, σE2)
(1) En la población:
Modelo de regresión poblacional: Yi = βo + β1 X i1 + Ei
Hace referencia a la variable dependiente
(2) En la muestra:
Modelo de regresión muestral: Yi = bo + b1 X i1 + ei
'
Ecuación de regresión muestral: Yi = bo + b1 X i1
_______________________ Esa Y es el estimador
1 En el texto de Pardo y San Martín, la intercepción y la pendiente muestrales se simbolizan
mediante A y B, respectivamente, en lugar de bo y b1.
3. Análisis de Regresión Lineal Simple
Intercepción: bo = Y − b1 X
Sy S xy ∑x y i i n∑ X iYi − ∑ X i ∑ Yi
Pendiente: b1 = rxy = = i
= i i i
Sx S x2 ∑x i
2
i
n∑ X i2 − ∑ X i
2
i i
Se usará una de estas cuatro fórmulas
dependiendo de los datos que nos dé el
problema
3. Análisis de Regresión Lineal Simple
Ejemplo
Un grupo de 10 pacientes diagnosticados de agorafobia es sometido a un
tratamiento cognitivo-conductual para reducir sus niveles de ansiedad a los
espacios abiertos. Antes de iniciar el tratamiento se les aplica una escala de
locus de control en la que puntuaciones altas están asociadas a un locus interno,
mientras que puntuaciones bajas lo están a un locus externo. Una vez finalizado
el tratamiento, se valora el grado de mejora de cada paciente en una escala de 0
(mejoría nula) a 10 (máxima mejoría). Los resultados se presentan en la
siguiente tabla.
Paciente 1 2 3 4 5 6 7 8 9 10
Locus 85 22 35 66 97 53 25 37 72 50
Mejora 9 1 0 4 8 2 1 2 8 3
Ejemplo
(a) Cálculos previos:
∑X
i
i = 85 + 22 + ... + 50 = 542
∑X i
2
= 852 + 222 + ... + 502 = 35186 ∑X i
542
i X = i
= = 54.2
n 10
∑ Y = 9 + 1 + ... + 3 = 38
i
∑ Yi
i 38
Y= i
= = 3.8
∑ Y = 9 + 1 + ... + 3 = 244
i
i
2 2 2 2
n 10
n∑ X iYi − ∑ X i ∑ Yi
(10)(2758) − (542)(38)
b1 = i i i
2
= = 0.12
(10)(35186) − (542) 2
n∑ X i2 − ∑ X i
i i
bo = Y − b1 X = 3.8 − (0.12)(54.2) = −2.704
3. Análisis de Regresión Lineal Simple
Ejemplo
El valor de la pendiente b1 = 0.12 significa que por cada punto más en locus
de control se produce un incremento de 0.12 puntos en el grado de mejoría.
Por cada punto más de locus de control interno se produce un incremento de mejora de 0,12
3. Análisis de Regresión Lineal Simple
Ejemplo
10,00
8,00
Grado de m ejo ría
6,00
4,00
2,00
R 2 lineal = 0,843
0,00
3.3 Regresión simple en formato ANOVA Las horas de estudio es un buen predictor de las notas
de examen
i
i
'
− Y ) 2 + ∑ (Yi − Yi ' ) 2
i
ya que:
∑ i
(
i
Y '
− Y )(Yi − Y '
i )=0
∑ (Y − Y ) = ∑ (Y
i
i
2
i
i
'
− Y ) 2 + ∑ (Yi − Yi ' ) 2
i
SCTOTAL = SCREGRESIÓN + SCERROR
3. Análisis de Regresión Lineal Simple
SCREGRESIÓN ∑ (Yi
'
− Y )2
MCREGRESIÓN = = i
GLSCREGRESIÓN 1
SCERROR ∑ (Y − Y ) i i
' 2
MCERROR = = i
GLSCERROR n−2
3. Análisis de Regresión Lineal Simple
∑x =∑X
2 2 i
i i −
n
(∑ Y )
Sumas de puntuaciones diferenciales
2
∑ yi2 = ∑ Yi 2 − n
i
(∑ X )(∑ Y )
∑x y = ∑X Y
i i
i i i i −
n
(
SCT = ∑ Yi − Y ) =∑y
2 2
i Sumas de cuadrado total
SCR = ∑ (Y '
− Y ) = b ∑ (X
− X) =b ∑x =
2 2
(∑ x y ) 2 2 2 i i
2
∑x
i 1 i 1 i 2 suma de cuadrados debido a la regresión
i
∑x
i i i 2
i
• Estimación del tamaño del efecto. Del mismo modo que en los
contrastes de medias, en los ANOVAs y en los análisis de correlación se
aconseja complementar el resultado del contraste de hipótesis con alguna
estimación del tamaño del efecto (es decir, del grado en que existe el
fenómeno investigado en la población), así también es muy recomendable
acompañar el resultado de la prueba F de ANOVA aplicado a la regresión
con alguna estimación del tamaño del efecto:
Prueba F de ANOVA ⇒ Significación estadística
Tamaño del efecto ⇒ Significación práctica
3. Análisis de Regresión Lineal Simple
• Cuanto mayor sea Raj2 tanto mayor será la relevancia práctica (la potencia
predictiva) de la variable independiente sobre la variable dependiente.
3. Análisis de Regresión Lineal Simple
Ejemplo
En un estudio dirigido a determinar la relación entre motivación de logro y
rendimiento en el trabajo en la población de empleados de ventas del sector
de la automoción, se registraron las puntuaciones en ambas variables sobre
una muestra representativa de 10 técnicos de venta con más de cinco años de
experiencia laboral en el sector. Sabiendo que ∑ (Yi − Y ) = 58.10 , ∑ (X − X ) = 186.90 ,
2 2
i
y que la pendiente de la recta de regresión vale 0.517, ¿es posible afirmar que
la motivación de logro sirve para pronosticar el rendimiento en el trabajo?
(n.s. = 5%).
Solución:
1º Formulación de las hipótesis:
Ho : β1 = 0
H1 : β1 ≠ 0
2º Selección del estadístico de contraste:
MCR
F= ≈ F1;( n − 2 )
MCE
3. Análisis de Regresión Lineal Simple
Ejemplo
3º Determinación del n.s. = 5%.
4º Definición de la región de rechazo: 1-αF1; (n - 2) = .95F1; 8 = 5.32.
RD: “Rechácese la Ho si: Fobs ≥ 5.32.” La media cuadratica debida a la regresión
tiene que ser como minimo 5,32 veces
5º Realización de cálculos: mayor que la media
El punto crítico tiene que estar a la derecha
( )
2
SCT = ∑ Yi − Y = ∑ yi2 = 58.10
∑ (X ) =∑x
2 2
i −X i =186.90
b1 = 0.517
SCR = b12 ∑ X i − X ( ) 2
= (0.517) 2 (186.90) = 50.03
SCE = SCT − SCR = 58.10 − 50.03 = 8.07
3. Análisis de Regresión Lineal Simple
F.V. SC GL MC F p
Regresión 50.03 1 50.03 49.60 < .05
Error n-2 8.07 8 1.01
SCE MCR
MCE
Total 58.10 9
Suma de 1+ 8
Ejemplo
Resultado del ajustado algo menor que le de no ajustado
Yi = βo + β1 X i1 + β 2 X i 2 + ... + β p X ip + Ei
O también:
p
Yi = βo + ∑ β j X ij + Ei
j =1
µ y / x = βo + β1 X i1 + β 2 X i 2 + ... + β p X ip
4. Análisis de Regresión Lineal Múltiple
O también:
p
µ y / x = βo + ∑ β j X ij
j =1
(... ...)
(1) Linealidad: Existe una relación lineal entre las variables independientes
y la variable dependiente.
(2) Efectos fijos en X1, X2, ..., Xp: Los valores de los predictores no se
obtienen por muestreo aleatorio, sino que son fijados de antemano por el
investigador.
En la población: Yi = βo + β1 X i1 + β 2 X i 2 + ... + β p X ip + Ei
Variable dependiente
Término de error
En la muestra: Yi = bo + b1 X i1 + b2 X i 2 + ... + b p X ip + ei
En la población: µ y / x = βo + β1 X i1 + β 2 X i 2 + ... + β p X ip
Pronóstico poblacional
Datos de la muestra:
Sujeto Y X1 X2 ... Xp Variables independientes,
1 Y1 X11 X12 ... X1p es decir, X1 es una
variable acerca de la
2 Y2 X21 X22 ... X2p estatura; X2 acerca de la
. . . . . . edad etc.
. . . . . .
. . . . . .
n Yn Xn1 Xn2 ... Xnp
Modelo de regresión lineal múltiple muestral:
Yi = bo + b1 X i1 + b2 X i 2 + ... + b p X ip + ei
4. Análisis de Regresión Lineal Múltiple
En notación matricial:
Y1 X 10 X 11 X1p e1
Y2 X 20 X 21 X 2 p bo e2
b1
= +
Yi X i 0 X i1
X ip ei
b p
Y X X n1 X np e
n n0 n
y(nx1) = X[nx(p+1)] b[(p+1)x1] + e (nx1)
y(nx1): Vector de rango nx1 de la variable dependiente.
X[nx(p+1)]: Matriz de rango [nx(p+1)] de variables predictoras.
b[(p+1)x1]: Vector de rango [(p+1)x1] de coeficientes de regresión.
e(nx1): Vector de rango nx1 de errores.
4. Análisis de Regresión Lineal Múltiple
X: Matriz de predictores.
X’: Transpuesta de la matriz X.
(X’X)-1: Inversa de la matriz (X’X).
y: Vector de la variable dependiente.
SCT = y ' y −
(∑ Y ) i
2
n
SCE = y ' y − b' X' y
4. Análisis de Regresión Lineal Múltiple
SCR n
MCR = =
GLSCR p
MCR
F= ≈ Fp ;( n − p −1)
MCE
• Pasos para llevar a cabo un análisis de regresión múltiple en formato
ANOVA (modelo completo):
6º Decisión estadística
4. Análisis de Regresión Lineal Múltiple
• Cuanto mayor sea Raj2 tanto mayor será la relevancia práctica (la potencia
predictiva) del conjunto de predictores sobre la variable dependiente.
bj
T= ≈ t n − p −1
σˆ b j
Ejemplo
Se ha realizado una experiencia para estudiar el efecto neuroléptico que,
sobre pacientes esquizofrénicos, ejercen ciertos psicofármacos. Para ello, una
muestra de 24 pacientes esquizofrénicos (12 hombres y 12 mujeres)
internados en centros psiquiátricos recibieron un tratamiento de 12 semanas
de duración con un psicofármaco. Para evaluar los resultados de la aplicación
de estos psicofármacos, a los pacientes se les midió antes y después del
tratamiento su nivel de ansiedad (con el STAI) y su nivel de síntomas
psiquiátricos con la escala BPRS (Brief Psychiatric Rating Scale). Los datos
de esta investigación se encuentran archivados en un archivo con nombre
‘Esquizo’, y contiene las siguientes variables:
4. Análisis de Regresión Lineal Múltiple
4.2 Regresión múltiple en formato ANOVA
Solución:
(a) Análisis del modelo completo (ANOVA):
3
5º Realización de cálculos: F(2, 20) = 72.8, p < .001.
5º Realización de cálculos:
T(20) se obtiene en la columna gl2
Duración de la enfermedad:
b1 = -1.1745. T(20) = -1.412, p = .173 → No se rechaza la H0
columna estimador -1,1745; T(20)= -1,412, p = 0,173