Ma1031 S7ad2022 PDF
Ma1031 S7ad2022 PDF
Ma1031 S7ad2022 PDF
Múltiple
Preguntas sobre el video
• El término múltiple en los modelos de regresión lineal, ¿Qué indica?
• ¿Cuál es la razón de que en los modelos de regresión lineal múltiple,
no se recomienda usar el coeficiente de determinación para revisar el
ajuste del modelo y se prefiera el coeficiente de determinación
ajustado por el número de variables x´s?
• En un modelo de regresión lineal múltiple: ¿Las variables de
regresoras o predictoras (las x´s) deben de estar relacionadas entre
ellas o no?
𝐑𝐑𝐑𝐑𝐑𝐑𝐑𝐑𝐑𝐑𝐑𝐑𝐑𝐑𝐑𝐑𝐑 𝐋𝐋𝐋𝐋𝐋𝐋𝐋𝐋𝐋𝐋𝐋𝐋 𝐌𝐌𝐌𝐌𝐌𝐌𝐌𝐌𝐌𝐌𝐌𝐌𝐌𝐌𝐌
� 𝟎𝟎 + 𝜷𝜷
� = 𝜷𝜷
𝒚𝒚 � 𝟏𝟏 𝒙𝒙𝟏𝟏 + 𝜷𝜷
� 𝟐𝟐 𝒙𝒙𝟐𝟐 + ⋯ + 𝜷𝜷
� 𝒑𝒑 𝒙𝒙𝒑𝒑
Donde:
𝛽𝛽�0 , 𝛽𝛽�1 , 𝛽𝛽�2 …, 𝛽𝛽�𝑝𝑝 son las estimaciones de 𝛽𝛽0 , 𝛽𝛽1 , 𝛽𝛽2 , … 𝛽𝛽𝑝𝑝
p es el número de variables aleatorias independientes (predictivas)
Error de predicción
yi: valor observado en la variable dependiente en la observación i
𝑦𝑦�𝑖𝑖 : valor estimado en la variable dependiente en la observación i
� 𝟎𝟎 + 𝜷𝜷
� = 𝜷𝜷
𝒚𝒚 � 𝟏𝟏 𝒙𝒙𝟏𝟏 + 𝜷𝜷
� 𝟐𝟐 𝒙𝒙𝟐𝟐 + ⋯ + 𝜷𝜷
� 𝒌𝒌 𝒙𝒙𝒌𝒌
𝑥𝑥𝑖𝑖 , 𝑦𝑦𝑖𝑖
Error de predicción o residuo:
(𝑥𝑥𝑖𝑖 , 𝑦𝑦�𝑖𝑖 )
𝑒𝑒𝑖𝑖 = 𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖
𝑖𝑖 𝑖𝑖
Mínimos cuadrados
𝑖𝑖 𝑖𝑖
Sustituyendo las 𝑛𝑛 observaciones en el modelo se tiene que,
𝑘𝑘
𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1 𝑥𝑥𝑖𝑖𝑖 + 𝛽𝛽2 𝑥𝑥𝑖𝑖𝑖 + ⋯ + 𝛽𝛽𝑘𝑘 𝑥𝑥𝑖𝑖𝑖𝑖 + 𝜀𝜀𝑖𝑖 = 𝛽𝛽0 + � 𝛽𝛽𝑗𝑗 𝑥𝑥𝑖𝑖𝑖𝑖 + 𝜀𝜀𝑖𝑖 para 𝑖𝑖 = 1,2, . . . , 𝑛𝑛.
𝑗𝑗=1
matricialmente se puede expresar como 𝐸𝐸(𝐲𝐲) = 𝐗𝐗𝐗𝐗 + 𝛆𝛆, donde,
e2 e2 e2
∧ ∧ ∧
Y Y Y
(a) (b) (c)
Homocedasticidad
2 e2
e
∧ ∧
Y Y
(d) (e)
Independencia de los residuos (detectar)
e e e
Independencia o no
autocorrelación (No
e
e debe existir ningún
patrón en los
residuales, y deben
de estar como en
forma de zigzag)
0 Tiempo 0 Tiempo
(d) (e)
Paso 1
Matriz de Y
diagramas de A través de la matriz de
gráficos de dispersión y
dispersión de matriz de correlaciones:
a) Las variables X´s que
los datos de la X1 se relacionan más
muestra fuertemente con la
variable Y
b) Identificar a través de
A través de X2 los gráficos de dispersión
si la relación es lineal o no
diagramas de lineal
c) Revisar que las
dispersión se X3 variables x´s no estén
puede relacionadas entre sí
observar la
relación entre X4 En R
Variables
Variables 1 2 3 . . . k
1 r11 r12 r13 . . . r1k
2 r21 r22 r23 . . . r2k
3 r31 r32 r33 . . . r3k
. . . . . . . .
. . . . . . .
. . . . . . .
k rk1 rk2 rk3 . . . rkk
Indica el coeficiente de relación lineal
De Pearson entre Y y cada una de las variables X y entre variables predictoras
Estimación del modelo
En R:
A = lm(y ~ x1+x2+…)
Detección de
Proposición de variables no
nuevo modelo x4 no significativa
significativas
en el modelo
y~x1, x3, x5
Ejemplo de Regresión Lineal Múltiple
El gerente de una compañía desea evaluar a sus representantes de ventas. La variable
dependiente Y es el rendimiento de los representantes de ventas, el cuál es medido a
través de las ventas anuales en dólares del producto de la empresa en el territorio de
ventas del representante.
Las variables predictoras son las siguientes:
X1=número de meses que el representante de ventas lleva trabajando en la compañía
X2=potencial de mercado que son las ventas del producto de la empresa y de los productos
de la competencia en el territorio de venta (en dólares)
X3=gastos en publicidad en dólares en el territorio
X4=media ponderada de la cuota de mercado de la empresa, en el territorio, durante los
cuatro años anteriores
X5=cambio en la cuota de mercado de la empresa en el territorio durante los cuatro años
anteriores
Datos de una muestra aleatoria - Ventas
Time with Market Market Market share
Sales, y Company, x1 Potential, x2 Advertising, x3 Share, x4 Change, x5
1 3669.88 43.10 74065.11 4582.88 2.51 0.34
2 3473.95 108.13 58117.30 5539.78 5.51 0.15
3 2295.10 13.82 21118.49 2950.38 10.91 -0.72
4 4675.56 186.18 68521.27 2243.07 8.27 0.17
5 6125.96 161.79 57805.11 7747.08 9.15 0.50
6 2134.94 8.94 37806.94 402.44 5.51 0.15
7 5031.66 365.04 50935.26 3140.62 8.54 0.55
8 3367.45 220.32 35602.08 2086.16 7.07 -0.49
9 6519.45 127.64 46176.77 8846.25 12.54 1.24
10 4876.37 105.69 42053.24 5673.11 8.85 0.31
11 2468.27 57.72 36829.71 2761.76 5.38 0.37
12 2533.31 23.58 33612.67 1991.85 5.43 -0.65
13 2408.11 13.82 21412.79 1971.52 8.48 0.64
14 2337.38 13.82 20416.87 1737.38 7.80 1.01
15 4586.95 86.99 36272.00 10694.20 10.34 0.11
16 2729.24 165.85 23093.26 8618.61 5.15 0.04
17 3289.40 116.26 26878.59 7747.89 6.64 0.68
18 2800.78 42.28 39571.96 4565.81 5.45 0.66
19 3264.20 52.84 51866.15 6022.70 6.31 -0.10
20 3453.62 165.04 58749.82 3721.10 6.35 -0.03
21 1741.45 10.57 23990.82 860.97 7.37 -1.63
22 2035.75 13.82 25694.86 3571.51 8.39 -0.43
23 1578.00 8.13 23736.35 2845.50 5.15 0.04
24 4167.44 58.54 34314.29 5060.11 12.88 0.22
25 2799.97 21.14 22809.53 3552.00 9.14 -0.74
Matriz de correlación
x1 x2 x3 x4 x5 Y
x1 1.000000 0.453971 0.249186 0.106211 0.251483 0.622920
x2 0.453971 1.000000 0.174098 -0.210672 0.268287 0.597812
x3 0.249186 0.174098 1.000000 0.264460 0.376518 0.596178
x4 0.106211 -0.210672 0.264460 1.000000 0.085470 0.483511
x5 0.251483 0.268287 0.376518 0.085470 1.000000 0.489181
Y 0.622920 0.597812 0.596178 0.483511 0.489181 1.000000
Indica el coeficiente de relación lineal de Pearson de la muestra, entre Y y cada una de las
variables X, también el coeficiente de correlación lineal entre las variables predictoras
(X´s), el cuál debe ser nulo o débil ¿Por qué? .
Matriz de correlación
VALOR-P para INFERIR SI LA CORRELACIÓN Ho ρ=0 vs Ha ρ≠0
LINEAL PODRÍA SER SIGNIFICATIVA PARA LA POBLACIÓN
En R, la función es
Correlations
cor.test(var1,var2)
X1 X2 X3 X4 X5 Y
X1 Pearson Correlation 1.000 .454* .249 .106 .251 .623**
para cada par de
Sig. (2-tailed) . .023 .230 .613 .225 .001 variables o de las que
N 25 25 25 25 25 25 se desea hacer la
X2 Pearson Correlation .454* 1.000 .174 -.211 .268 .598** prueba de correlación
Sig. (2-tailed) .023 . .405 .312 .195 .002
N
poblacional.
25 25 25 25 25 25
X3 Pearson Correlation .249 .174 1.000 .264 .377 .596**
Sig. (2-tailed) .230 .405 . .201 .064 .002
N 25 25 25 25 25 25
X4 Pearson Correlation .106 -.211 .264 1.000 .085 .484*
Sig. (2-tailed) .613 .312 .201 . .685 .014
N 25 25 25 25 25 25
X5 Pearson Correlation .251 .268 .377 .085 1.000 .489*
Sig. (2-tailed) .225 .195 .064 .685 . .013
N 25 25 25 25 25 25
Y Pearson Correlation .623** .598** .596** .484* .489* 1.000
Sig. (2-tailed) .001 .002 .002 .014 .013 .
N 25 25 25 25 25 25
*. Correlation is significant at the 0.05 level (2-tailed).
**. Correlation is significant at the 0.01 level (2-tailed).
Resultados del Minitab
𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆
2
𝑅𝑅𝑎𝑎𝑎𝑎𝑎𝑎 = 𝑘𝑘
𝑆𝑆𝑆𝑆𝑆𝑆 =1- 𝑛𝑛−𝑘𝑘−1
𝑆𝑆𝑆𝑆𝑆𝑆
𝑛𝑛−1 𝑛𝑛−1
F = MSR
MSE
Región de rechazo: 𝐹𝐹 > 𝐹𝐹𝛼𝛼,𝑘𝑘,𝑛𝑛−𝑘𝑘−1
¿Cuándo podríamos decir que los datos de la muestra nos dan evidencia
de que muy probablemente el modelo de regresión es significativo en la población?
¿Es posible usar una variable cualitativa como una
variable regresora (variable x)en el modelo de
regresión? Sí solo que se tiene que codificar como
una variable Dummy (Ficticia en español)
Si la variable cualitativa sólo tiene dos categorías como en el caso
De Género, entonces sólo se necesita una sola variable ficticia.
Donde 1 es una de las categorías y 0 la otra.
Dummy 1 Dummy2
Estado civil
0 0 Si la variable cualitativa tiene más de dos categorías, k categorías en
Soltero total. Entonces, se deben agregar k-1 variables Dummies. En este caso
1 0
Divorciado son tres categorías, entonces se deberán agregar 2 variables Dummies.
0 1
Viudo
1 0
Divorciado En la primera Dummie una de las categorías es 1 y las demás 0 (divorciado 1)
1 0 En la segundo Dummie otra de las categorías es 1 y las demás 0 (viudo 1)
Divorciado Si las dos dummies son cero ahí esta representada la categoría restante (soltero)
0 0 Tendríamos un modelo diferente para cada categoría
Soltero
0 1
Viudo
Ejemplo
Calificación en Género Calificación de
prueba de aptitud desempeño laboral
Se desea predecir a calificación laboral en función
60 F 5
De la calificación de la prueba de aptitud y del
55 F 4 Género.
35 F 3 ¿Para cuál de estas variables necesitamos representar
La con una variable Dummy (Ficticia)?
96 F 10 ¿Cómo representar simbólicamente un modelo
35 F 2 De regresión para cada uno de los géneros?
81 F 7
65 F 6
85 F 9
99 M 9
43 M 2
98 M 8
91 M 6
95 M 7
En una base de datos, esta es la clasificación
de tipo de auto.
¿Cuántas variables Dummys se necesitarían agregar
Para representar esta variable cualitativa de tipo de auto?
La siguiente base de datos es de autos e
incluye alguna de estas variables
Data base by Robin H. Lock; St. Laurence University
Original sources:
PACE New Car anr Truck 1993 Buying Guide 993, Milwaukee, WI
Consumer Reports: The 1993 Carrs-Annual Auto Issue (April 1993
En R:
z1 = 𝑥
𝑧2 = 𝑥 2
A = lm(y ~ z1+z2) ¡¡El análisis es el
mismo que
Observa que en R realmente se trabaja con el modelo lineal múltiple
regresión múltiple,
Entonces, se tiene que:
pero con un cambio
• Analizar la significancia de 𝛽𝑖 (el efecto de la xi) de variable!!
• Analizar el coeficiente de determinación (variación explicada)
• Analizar los errores (supuestos del modelo)
Modelos de regresión intrínsecamente lineales
• Según Devore (2016): “Una función que relacione y con x es
intrínsecamente lineal si mediante una ′transformación ′
de x o
y ′, la función se puede expresar como 𝑦𝑦 = 𝛽𝛽0 +′ 𝛽𝛽1 𝑥𝑥 , donde
𝐱𝐱 =la variable independiente transformada y 𝐲𝐲 =la variable
dependiente transformada.” (p. 550).
• Entonces este nuevo modelo 𝑦𝑦 ′ = 𝛽𝛽0 + 𝛽𝛽1 𝑥𝑥 ′ , lo podemos
tratar como ya sabemos hacerlo usando nuestra ecuación de
regresión lineal con el método de mínimos cuadrados. Se dice
que es lineal porque aunque las variables transformadas ya no
sean la originales, este modelo es lineal para las betas.
Función Transformaciones a Forma lineal
linealizar
Exponencial 𝑦𝑦 = 𝛼𝛼𝑒𝑒 𝛽𝛽𝛽𝛽 𝑦𝑦 ´ = ln(𝑦𝑦) 𝑦𝑦 ´ = ln 𝛼𝛼 + β𝑥𝑥
Potencia 𝑦𝑦 = 𝛼𝛼𝑥𝑥 𝛽𝛽 𝑦𝑦 ´ = ln 𝑦𝑦 𝑦𝑦 ´ = ln 𝛼𝛼 + β𝑥𝑥 ´
𝑥𝑥 ´ = ln 𝑥𝑥
1 1
Recíproca 𝑦𝑦 =∝ +𝛽𝛽 𝑥𝑥 ´ = 𝑦𝑦 = 𝛼𝛼 + 𝛽𝛽𝑥𝑥 ´
𝑥𝑥 𝑥𝑥
𝟏
𝒛𝒊 =
𝒙
Se debe cuidar que el modelo cumpla con aditividad (los términos
𝒛 𝒊 = 𝒆𝒙
deben sumarse) para que el modelo siga siendo lineal:
𝒀 = 𝜷𝟎 + 𝜷𝟏 𝒛𝟏 + 𝜷𝟐 𝒛𝟐 +. . +𝜷𝒑 𝒛𝒌 + 𝒆
Otro estadístico que se debe considerar es el 𝐶𝐶𝑝𝑝 de Mallows, que tiene por
objetivo evaluar el grado de sesgo que se tiene al estimar las 𝐸𝐸(𝑦𝑦𝑖𝑖 )´s para
subconjuntos de variables predictoras.
Un ejemplo
Reynolds, Inc. es un fabricante de balanzas industriales y de
equipo para laboratorio. Los gerentes de Reynolds desean
investigar la relación que existe entre la antigüedad de sus antigüedad vendido
vendedores y el número de balanzas electrónicas para 41 375
106 296
laboratorio que venden para elaborar un plan de estímulos. 76 317
¿Es posible que exista una relación entre antigüedad (meses) 100
22
376
162
de un empleado y número de balanzas que vende? 12 150
85 367
111 308
40 189
51 235
9 83
12 112
6 67
56 325
19 189
X Y
r = 0.8161461
En R:
M=read.csv(“balanzas.csv”)
plot(M)
cor(M)
Primer modelo propuesto (el más simple):
𝟎 + 𝜷
𝒀=𝜷 𝟏𝒙
Modelo Lineal H0: ρ = 0 (La correlación lineal poblacional no es significativa
En R:
cor.test (M$vendido, M$antigüedad)
¿Habrá un
mejor modelo?
Modelo no Lineal
Construyendo un modelo cuadrático
𝒀 = 𝜷𝟎 + 𝜷𝟏 𝒙 + 𝜷𝟐 𝒙𝟐
Definimos: z1 = 𝑥
𝑧2 = 𝑥 2
𝒀 = 𝜷𝟎 + 𝜷𝟏 𝒛𝟏 + 𝜷𝟐 𝒛𝟐 Modelo lineal
En R:
z1 = M$antiguedad
z2 = M$antigüedad^2
B = lm(y ~ z1+z2)
summary(B)
En R:
z1 = M$antiguedad
z2 = M$antigüedad^2
B = lm(y ~ z1+z2)
summary(B)
En R:
shapiro.test(B$residuals)
En R:
shapiro.test(B$residuals)
hist(B$residuals)
qqnorm(B$residuals)
qqline(B$residuals)
α = 0.05
t0 = 2.144787
En R: abs(qt(0.025,14))
t.test(B$residuals)
En R:
y = M$vendido
x = M$antiguedad
plot(x, y, main = "El caso de las balanzas", xlab =" x= antigüedad", ylab =" y = u. vendidas")
x1 = seq(min(x), max(x), 0.01)
y1 = 38.04159 + 7.30156*x1 - 0.04341*x1^2
lines(x1, y1, col = "red")
text(70, 100, "y = 38.04159 + 7.30156x - 0.04341x^2")
Referencias