Ma1031 S7ad2022 PDF

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 47

Regresión Lineal

Múltiple
Preguntas sobre el video
• El término múltiple en los modelos de regresión lineal, ¿Qué indica?
• ¿Cuál es la razón de que en los modelos de regresión lineal múltiple,
no se recomienda usar el coeficiente de determinación para revisar el
ajuste del modelo y se prefiera el coeficiente de determinación
ajustado por el número de variables x´s?
• En un modelo de regresión lineal múltiple: ¿Las variables de
regresoras o predictoras (las x´s) deben de estar relacionadas entre
ellas o no?
𝐑𝐑𝐑𝐑𝐑𝐑𝐑𝐑𝐑𝐑𝐑𝐑𝐑𝐑𝐑𝐑𝐑 𝐋𝐋𝐋𝐋𝐋𝐋𝐋𝐋𝐋𝐋𝐋𝐋 𝐌𝐌𝐌𝐌𝐌𝐌𝐌𝐌𝐌𝐌𝐌𝐌𝐌𝐌𝐌

Se tienen 𝑘𝑘 variables predictoras (𝑥𝑥1 , 𝑥𝑥2 , … , 𝑥𝑥𝑘𝑘 ), una variable de


respuesta (𝑦𝑦),
y el modelo es: 𝐸𝐸(𝑦𝑦) = 𝛽𝛽0 + 𝛽𝛽1 𝑥𝑥1 + 𝛽𝛽2 𝑥𝑥2 + ⋯ + 𝛽𝛽𝑘𝑘 𝑥𝑥𝑘𝑘 + 𝜀𝜀.

Se tienen 𝑛𝑛 observaciones (𝑛𝑛 > 𝑘𝑘):

observación respuesta variables regresoras


i y x1 x2 … xk
1 y1 x 11 x 12 … x 1k
2 y2 x 21 x 22 … x 2k
… … … … … …
n yn xn1 xn2 … x nk
El modelo
𝑌𝑌 = 𝛽𝛽0 + 𝛽𝛽1 𝑥𝑥1 + 𝛽𝛽2 𝑥𝑥2 +. . +ϵ
Modelo teórico que queremos conocer a
través de los datos (hipotético).

� 𝟎𝟎 + 𝜷𝜷
� = 𝜷𝜷
𝒚𝒚 � 𝟏𝟏 𝒙𝒙𝟏𝟏 + 𝜷𝜷
� 𝟐𝟐 𝒙𝒙𝟐𝟐 + ⋯ + 𝜷𝜷
� 𝒑𝒑 𝒙𝒙𝒑𝒑
Donde:
𝛽𝛽�0 , 𝛽𝛽�1 , 𝛽𝛽�2 …, 𝛽𝛽�𝑝𝑝 son las estimaciones de 𝛽𝛽0 , 𝛽𝛽1 , 𝛽𝛽2 , … 𝛽𝛽𝑝𝑝
p es el número de variables aleatorias independientes (predictivas)
Error de predicción
yi: valor observado en la variable dependiente en la observación i
𝑦𝑦�𝑖𝑖 : valor estimado en la variable dependiente en la observación i
� 𝟎𝟎 + 𝜷𝜷
� = 𝜷𝜷
𝒚𝒚 � 𝟏𝟏 𝒙𝒙𝟏𝟏 + 𝜷𝜷
� 𝟐𝟐 𝒙𝒙𝟐𝟐 + ⋯ + 𝜷𝜷
� 𝒌𝒌 𝒙𝒙𝒌𝒌

𝑥𝑥𝑖𝑖 , 𝑦𝑦𝑖𝑖
Error de predicción o residuo:
(𝑥𝑥𝑖𝑖 , 𝑦𝑦�𝑖𝑖 )
𝑒𝑒𝑖𝑖 = 𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖

Criterio de mínimos cuadrados:

� 𝑒𝑒𝑖𝑖 2 = � 𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖 2

𝑖𝑖 𝑖𝑖
Mínimos cuadrados

Estimación � 𝑒𝑒𝑖𝑖 2 = � 𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖 2

𝑖𝑖 𝑖𝑖
Sustituyendo las 𝑛𝑛 observaciones en el modelo se tiene que,
𝑘𝑘

𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1 𝑥𝑥𝑖𝑖𝑖 + 𝛽𝛽2 𝑥𝑥𝑖𝑖𝑖 + ⋯ + 𝛽𝛽𝑘𝑘 𝑥𝑥𝑖𝑖𝑖𝑖 + 𝜀𝜀𝑖𝑖 = 𝛽𝛽0 + � 𝛽𝛽𝑗𝑗 𝑥𝑥𝑖𝑖𝑖𝑖 + 𝜀𝜀𝑖𝑖 para 𝑖𝑖 = 1,2, . . . , 𝑛𝑛.
𝑗𝑗=1
matricialmente se puede expresar como 𝐸𝐸(𝐲𝐲) = 𝐗𝐗𝐗𝐗 + 𝛆𝛆, donde,

 y1  1 x11 x12  x1k   β 0   ε1 


y  1 x x    
 x2k   β1  ε 2 
y=  2
X=  21 22
β= ε=
         
       
 yn  1 xn1 xn 2  xnk   β k  ε n 
Estimación Mínimos cuadrados

Método � 𝑒𝑒𝑖𝑖 2 = � 𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖


𝑖𝑖 𝑖𝑖
2
Estimación Mínimos cuadrados

Modelo teórico � 𝑒𝑒𝑖𝑖 2 = � 𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖


𝑖𝑖 𝑖𝑖
2

𝒀𝒀𝒊𝒊 = 𝜷𝜷𝟎𝟎 + 𝜷𝜷𝟏𝟏𝒊𝒊 + 𝜷𝜷𝟐𝟐 𝒙𝒙𝟐𝟐𝒊𝒊 +. . +𝜷𝜷𝒑𝒑 𝒙𝒙𝒑𝒑𝒊𝒊 + 𝒖𝒖𝒊𝒊


𝑌𝑌𝑖𝑖 ~𝑁𝑁 𝛽𝛽0 + 𝛽𝛽1𝑖𝑖 + 𝛽𝛽2 𝑥𝑥2𝑖𝑖 +. . +𝛽𝛽𝑘𝑘 𝑥𝑥𝑘𝑘𝑘𝑘 , 𝜎𝜎 2
𝑢𝑢𝑖𝑖 ~𝑁𝑁 0, 𝜎𝜎 2 independientes

𝐗𝐗 = 𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦 𝐝𝐝𝐝𝐝 𝐝𝐝𝐝𝐝𝐝𝐝𝐝𝐝𝐝𝐝𝐝


(en la ecuación estimada, es la matriz de datos)
SUPUESTOS DEL MODELO DE REGRESIÓN
LINEAL MÚLTIPLE

1. Mean of Zero Assumption


The mean of the error terms is equal to 0
2. Constant Variance Assumption
The variance of the error terms σ2 is, the same for every
combination values of x1, x2,…, xk
3. Normality Assumption
The error terms follow a normal distribution for every
combination values of x1, x2,…, xk
4. Independence Assumption
The values of the error terms are statistically independent of
each other

Además: No debe existir multicolinealidad o relación


significativa entre las variables explicativas.
Homocedasticidad o varianza constante de los residuales
(detectar)

e2 e2 e2

∧ ∧ ∧
Y Y Y
(a) (b) (c)

Homocedasticidad

2 e2
e

∧ ∧
Y Y
(d) (e)
Independencia de los residuos (detectar)
e e e

Tiempo 0 Tiempo 0 Tiempo


0

(a) (b) (c)

Independencia o no
autocorrelación (No
e
e debe existir ningún
patrón en los
residuales, y deben
de estar como en
forma de zigzag)

0 Tiempo 0 Tiempo

(d) (e)
Paso 1
Matriz de Y
diagramas de A través de la matriz de
gráficos de dispersión y
dispersión de matriz de correlaciones:
a) Las variables X´s que
los datos de la X1 se relacionan más
muestra fuertemente con la
variable Y
b) Identificar a través de
A través de X2 los gráficos de dispersión
si la relación es lineal o no
diagramas de lineal
c) Revisar que las
dispersión se X3 variables x´s no estén
puede relacionadas entre sí

observar la
relación entre X4 En R

la Y con sus -plot(Nombre de base


múltiples datos o matriz)
-cor(Nombre de base
variables X5
de datos o matriz)
predictoras
Matriz de correlación

Variables
Variables 1 2 3 . . . k
1 r11 r12 r13 . . . r1k
2 r21 r22 r23 . . . r2k
3 r31 r32 r33 . . . r3k
. . . . . . . .
. . . . . . .
. . . . . . .
k rk1 rk2 rk3 . . . rkk
Indica el coeficiente de relación lineal
De Pearson entre Y y cada una de las variables X y entre variables predictoras
Estimación del modelo

En R:
A = lm(y ~ x1+x2+…)

y~x1, x2, x3, x4 , x5, x6, y~x1, x3, x4, x5


Análisis de x2, x6 Análisis del
correlacionadas
correlación entre modelo
las variables propuesto

Detección de
Proposición de variables no
nuevo modelo x4 no significativa
significativas
en el modelo
y~x1, x3, x5
Ejemplo de Regresión Lineal Múltiple
El gerente de una compañía desea evaluar a sus representantes de ventas. La variable
dependiente Y es el rendimiento de los representantes de ventas, el cuál es medido a
través de las ventas anuales en dólares del producto de la empresa en el territorio de
ventas del representante.
Las variables predictoras son las siguientes:
X1=número de meses que el representante de ventas lleva trabajando en la compañía
X2=potencial de mercado que son las ventas del producto de la empresa y de los productos
de la competencia en el territorio de venta (en dólares)
X3=gastos en publicidad en dólares en el territorio
X4=media ponderada de la cuota de mercado de la empresa, en el territorio, durante los
cuatro años anteriores
X5=cambio en la cuota de mercado de la empresa en el territorio durante los cuatro años
anteriores
Datos de una muestra aleatoria - Ventas
Time with Market Market Market share
Sales, y Company, x1 Potential, x2 Advertising, x3 Share, x4 Change, x5
1 3669.88 43.10 74065.11 4582.88 2.51 0.34
2 3473.95 108.13 58117.30 5539.78 5.51 0.15
3 2295.10 13.82 21118.49 2950.38 10.91 -0.72
4 4675.56 186.18 68521.27 2243.07 8.27 0.17
5 6125.96 161.79 57805.11 7747.08 9.15 0.50
6 2134.94 8.94 37806.94 402.44 5.51 0.15
7 5031.66 365.04 50935.26 3140.62 8.54 0.55
8 3367.45 220.32 35602.08 2086.16 7.07 -0.49
9 6519.45 127.64 46176.77 8846.25 12.54 1.24
10 4876.37 105.69 42053.24 5673.11 8.85 0.31
11 2468.27 57.72 36829.71 2761.76 5.38 0.37
12 2533.31 23.58 33612.67 1991.85 5.43 -0.65
13 2408.11 13.82 21412.79 1971.52 8.48 0.64
14 2337.38 13.82 20416.87 1737.38 7.80 1.01
15 4586.95 86.99 36272.00 10694.20 10.34 0.11
16 2729.24 165.85 23093.26 8618.61 5.15 0.04
17 3289.40 116.26 26878.59 7747.89 6.64 0.68
18 2800.78 42.28 39571.96 4565.81 5.45 0.66
19 3264.20 52.84 51866.15 6022.70 6.31 -0.10
20 3453.62 165.04 58749.82 3721.10 6.35 -0.03
21 1741.45 10.57 23990.82 860.97 7.37 -1.63
22 2035.75 13.82 25694.86 3571.51 8.39 -0.43
23 1578.00 8.13 23736.35 2845.50 5.15 0.04
24 4167.44 58.54 34314.29 5060.11 12.88 0.22
25 2799.97 21.14 22809.53 3552.00 9.14 -0.74
Matriz de correlación

Correlation Matrix Section

x1 x2 x3 x4 x5 Y
x1 1.000000 0.453971 0.249186 0.106211 0.251483 0.622920
x2 0.453971 1.000000 0.174098 -0.210672 0.268287 0.597812
x3 0.249186 0.174098 1.000000 0.264460 0.376518 0.596178
x4 0.106211 -0.210672 0.264460 1.000000 0.085470 0.483511
x5 0.251483 0.268287 0.376518 0.085470 1.000000 0.489181
Y 0.622920 0.597812 0.596178 0.483511 0.489181 1.000000

Indica el coeficiente de relación lineal de Pearson de la muestra, entre Y y cada una de las
variables X, también el coeficiente de correlación lineal entre las variables predictoras
(X´s), el cuál debe ser nulo o débil ¿Por qué? .
Matriz de correlación
VALOR-P para INFERIR SI LA CORRELACIÓN Ho ρ=0 vs Ha ρ≠0
LINEAL PODRÍA SER SIGNIFICATIVA PARA LA POBLACIÓN
En R, la función es
Correlations
cor.test(var1,var2)
X1 X2 X3 X4 X5 Y
X1 Pearson Correlation 1.000 .454* .249 .106 .251 .623**
para cada par de
Sig. (2-tailed) . .023 .230 .613 .225 .001 variables o de las que
N 25 25 25 25 25 25 se desea hacer la
X2 Pearson Correlation .454* 1.000 .174 -.211 .268 .598** prueba de correlación
Sig. (2-tailed) .023 . .405 .312 .195 .002
N
poblacional.
25 25 25 25 25 25
X3 Pearson Correlation .249 .174 1.000 .264 .377 .596**
Sig. (2-tailed) .230 .405 . .201 .064 .002
N 25 25 25 25 25 25
X4 Pearson Correlation .106 -.211 .264 1.000 .085 .484*
Sig. (2-tailed) .613 .312 .201 . .685 .014
N 25 25 25 25 25 25
X5 Pearson Correlation .251 .268 .377 .085 1.000 .489*
Sig. (2-tailed) .225 .195 .064 .685 . .013
N 25 25 25 25 25 25
Y Pearson Correlation .623** .598** .596** .484* .489* 1.000
Sig. (2-tailed) .001 .002 .002 .014 .013 .
N 25 25 25 25 25 25
*. Correlation is significant at the 0.05 level (2-tailed).
**. Correlation is significant at the 0.01 level (2-tailed).
Resultados del Minitab

bo=-1114. Su interpretación: en promedio las ventas son


-1114 dólares cuando todas las variables X sean cero

b1=3.61. Su interpretación: en promedio se espera que las


ventas aumenten 3.61 dólares por cada aumento de un mes
(la unidad de medida de la variable: tiempo de compañía) en
el tiempo del representante en la compañía,
manteniendo las demás variables X´s como constantes.

En el caso de la regresión lineal múltiple


Se utiliza el coeficiente de determinación ajustado
¿Qué es el coeficiente de determinación
ajustado? ALERTA
Este es el coeficiente de determinación, pero conforme
2
𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 Aumentan las variables predictoras (x) sube su valor.
𝑅𝑅 = =1− Entonces, podría estar indicándonos que nuestro modelo
𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆
mejoró si aumentamos valores predictoras cuando no
necesariamente lo es.

𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆
2
𝑅𝑅𝑎𝑎𝑎𝑎𝑎𝑎 = 𝑘𝑘
𝑆𝑆𝑆𝑆𝑆𝑆 =1- 𝑛𝑛−𝑘𝑘−1
𝑆𝑆𝑆𝑆𝑆𝑆
𝑛𝑛−1 𝑛𝑛−1

De esta manera, al agregar un nueva variable a nuestro modelo


De regresión múltiple, el coeficiente de determinación ajustado
Solamente subirá su valor si esa variable reduce la variabilidad del error. Entonces
El R^2ajustado se interpreta como el % de variación total de Y que es explicado por
el modelo de regresión considerando el ajuste por el número de variables x´s que tiene el modelo.
ANOVA En regresión lineal múltiple
inferencia sobre la significancia del
modelo en población Ho: β1= β2=……= βk=0
Ha: Al menos una βi ≠0

F = MSR
MSE
Región de rechazo: 𝐹𝐹 > 𝐹𝐹𝛼𝛼,𝑘𝑘,𝑛𝑛−𝑘𝑘−1

¿Cuándo podríamos decir que los datos de la muestra nos dan evidencia
de que muy probablemente el modelo de regresión es significativo en la población?
¿Es posible usar una variable cualitativa como una
variable regresora (variable x)en el modelo de
regresión? Sí solo que se tiene que codificar como
una variable Dummy (Ficticia en español)
Si la variable cualitativa sólo tiene dos categorías como en el caso
De Género, entonces sólo se necesita una sola variable ficticia.
Donde 1 es una de las categorías y 0 la otra.

Dummy 1 Dummy2
Estado civil
0 0 Si la variable cualitativa tiene más de dos categorías, k categorías en
Soltero total. Entonces, se deben agregar k-1 variables Dummies. En este caso
1 0
Divorciado son tres categorías, entonces se deberán agregar 2 variables Dummies.
0 1
Viudo
1 0
Divorciado En la primera Dummie una de las categorías es 1 y las demás 0 (divorciado 1)
1 0 En la segundo Dummie otra de las categorías es 1 y las demás 0 (viudo 1)
Divorciado Si las dos dummies son cero ahí esta representada la categoría restante (soltero)
0 0 Tendríamos un modelo diferente para cada categoría
Soltero
0 1
Viudo
Ejemplo
Calificación en Género Calificación de
prueba de aptitud desempeño laboral
Se desea predecir a calificación laboral en función
60 F 5
De la calificación de la prueba de aptitud y del
55 F 4 Género.
35 F 3 ¿Para cuál de estas variables necesitamos representar
La con una variable Dummy (Ficticia)?
96 F 10 ¿Cómo representar simbólicamente un modelo
35 F 2 De regresión para cada uno de los géneros?
81 F 7
65 F 6
85 F 9
99 M 9
43 M 2
98 M 8
91 M 6
95 M 7
En una base de datos, esta es la clasificación
de tipo de auto.
¿Cuántas variables Dummys se necesitarían agregar
Para representar esta variable cualitativa de tipo de auto?
La siguiente base de datos es de autos e
incluye alguna de estas variables
Data base by Robin H. Lock; St. Laurence University
Original sources:
PACE New Car anr Truck 1993 Buying Guide 993, Milwaukee, WI
Consumer Reports: The 1993 Carrs-Annual Auto Issue (April 1993

NOMBRE EN BASE DE DATOS SIGNIFICADO UNIDADES


Manufacturer Manufacturer
Model Model
Type Type (small, sporty, compact, midsize, large as
Min Price Minimum Price (IN $1000)-price for basic version of this m
Mid price Midrange price (in $1000)-average of min and max prices
Max price Maximum price (in $1000), price for a premium version Se desea predecir el rendimiento de combustible
city MPG city MPG miles per gallon by EPA rating
highway MPG highway MPG (rendimiento de combustible en carretera (Variable Y).
Air bags standard Air bags standard 0=none, 1=driver only, 2=driver and passe
Drive train type drive train type 0=rear wheel drive, 1=front wheel drive, 2=
Cylinders number of cylinders
Engine Size Engine Size liters
Horse Power Horse Power (maximum)
RPM RPM (revs per minute at maximum horsepower)
Engine Revs per mile Engine Revolutions per m(in highest gear)
Manual Transm available Manual Transmition avai 0=no 1=yes
Fuel capacity Fuel tank capacity (gallons)
Passenger capacity Passenger capacity (persons)
Lenght Lenght (inches)
Wheelbase Wheelbase (inches)
Width Width (inches)
U-turn space U-turn space (feet)
Rear seat room Rear seat room (inches)
Luggage capacity Luggage capacity (cu. Ft.)
Weight Weight (pounds)
Domestic? Domestic? 0=non-US; 1=US manufacturer
Regresión
intrinsicamente lineal
Ejemplo
Relación curvilínea
Modelo de segundo orden con una variable predictora.
𝒀 = 𝜷𝟎 + 𝜷𝟏 𝒙 + 𝜷𝟐 𝒙𝟐

Para obtener una relación curvilínea, se hace:


𝐳𝟏 = 𝒙 y 𝒛𝟐 = 𝒙𝟐
así resulta el modelo:
𝒀 = 𝜷𝟎 + 𝜷𝟏 𝒛𝟏 + 𝜷𝟐 𝒛𝟐

En R:
z1 = 𝑥
𝑧2 = 𝑥 2
A = lm(y ~ z1+z2) ¡¡El análisis es el
mismo que
Observa que en R realmente se trabaja con el modelo lineal múltiple
regresión múltiple,
Entonces, se tiene que:
pero con un cambio
• Analizar la significancia de 𝛽𝑖 (el efecto de la xi) de variable!!
• Analizar el coeficiente de determinación (variación explicada)
• Analizar los errores (supuestos del modelo)
Modelos de regresión intrínsecamente lineales
• Según Devore (2016): “Una función que relacione y con x es
intrínsecamente lineal si mediante una ′transformación ′
de x o
y ′, la función se puede expresar como 𝑦𝑦 = 𝛽𝛽0 +′ 𝛽𝛽1 𝑥𝑥 , donde
𝐱𝐱 =la variable independiente transformada y 𝐲𝐲 =la variable
dependiente transformada.” (p. 550).
• Entonces este nuevo modelo 𝑦𝑦 ′ = 𝛽𝛽0 + 𝛽𝛽1 𝑥𝑥 ′ , lo podemos
tratar como ya sabemos hacerlo usando nuestra ecuación de
regresión lineal con el método de mínimos cuadrados. Se dice
que es lineal porque aunque las variables transformadas ya no
sean la originales, este modelo es lineal para las betas.
Función Transformaciones a Forma lineal
linealizar
Exponencial 𝑦𝑦 = 𝛼𝛼𝑒𝑒 𝛽𝛽𝛽𝛽 𝑦𝑦 ´ = ln(𝑦𝑦) 𝑦𝑦 ´ = ln 𝛼𝛼 + β𝑥𝑥
Potencia 𝑦𝑦 = 𝛼𝛼𝑥𝑥 𝛽𝛽 𝑦𝑦 ´ = ln 𝑦𝑦 𝑦𝑦 ´ = ln 𝛼𝛼 + β𝑥𝑥 ´
𝑥𝑥 ´ = ln 𝑥𝑥
1 1
Recíproca 𝑦𝑦 =∝ +𝛽𝛽 𝑥𝑥 ´ = 𝑦𝑦 = 𝛼𝛼 + 𝛽𝛽𝑥𝑥 ´
𝑥𝑥 𝑥𝑥

Tabla 13.1 “Funciones útiles intrínsecamente lineales” Devore (2016) p. 551


ALERTA!
Siempre en que en nuestro diagrama de dispersión visualicemos la forma de una
Parábola o una parte de ella, eso nos está sugiriendo que necesitamos de un modelo cuadrático
Ejemplo
Otras relaciones
El cambio de variable que se puede proponer
puede ser :
𝐳𝒊 = 𝒍𝒐𝒈 𝒙

𝟏
𝒛𝒊 =
𝒙
Se debe cuidar que el modelo cumpla con aditividad (los términos
𝒛 𝒊 = 𝒆𝒙
deben sumarse) para que el modelo siga siendo lineal:

𝒀 = 𝜷𝟎 + 𝜷𝟏 𝒛𝟏 + 𝜷𝟐 𝒛𝟐 +. . +𝜷𝒑 𝒛𝒌 + 𝒆

Ojo: El cambio de variable también se puede hacer con Y.


Por ejemplo: 𝒍𝒐𝒈𝒀 = 𝜷𝟎 + 𝜷𝟏 𝒙𝟏 + 𝒆
el cambio de variable sería:
𝒁 = 𝒍𝒐𝒈𝒀
el modelo de trabajo sería:
𝒁 = 𝜷𝟎 + 𝜷𝟏 𝒙𝟏 + 𝒆
¿Qué tomar en cuenta para seleccionar el mejor modelo de regresión lineal?

SELECCIÓN DE VARIABLES PREDICTORAS

En la selección de las variables predictoras para obtener el mejor modelo posible,


2
se pueden considerar los indicadores: mayor 𝑅𝑅𝑎𝑎𝑎𝑎 , o lo que es equivalente, menor
𝑀𝑀𝑀𝑀𝑀𝑀.

Otro estadístico que se debe considerar es el 𝐶𝐶𝑝𝑝 de Mallows, que tiene por
objetivo evaluar el grado de sesgo que se tiene al estimar las 𝐸𝐸(𝑦𝑦𝑖𝑖 )´s para
subconjuntos de variables predictoras.
Un ejemplo
Reynolds, Inc. es un fabricante de balanzas industriales y de
equipo para laboratorio. Los gerentes de Reynolds desean
investigar la relación que existe entre la antigüedad de sus antigüedad vendido
vendedores y el número de balanzas electrónicas para 41 375
106 296
laboratorio que venden para elaborar un plan de estímulos. 76 317
¿Es posible que exista una relación entre antigüedad (meses) 100
22
376
162
de un empleado y número de balanzas que vende? 12 150
85 367
111 308
40 189
51 235
9 83
12 112
6 67
56 325
19 189
X Y

Un ejemplo antigüedad vendido


41
106
76
375
296
317
100 376
22 162
12 150
85 367
111 308
40 189
51 235
9 83
12 112
6 67
56 325
19 189

r = 0.8161461

En R:
M=read.csv(“balanzas.csv”)
plot(M)
cor(M)
Primer modelo propuesto (el más simple):

෡𝟎 + 𝜷
𝒀=𝜷 ෡ 𝟏𝒙
Modelo Lineal H0: ρ = 0 (La correlación lineal poblacional no es significativa

Correlación H1: ρ ≠ 0 (La correlación lineal poblacional es significativa)

Nivel de significancia: α = 0.05


t0 = 2.16034 abs(qt(0.025,13))

En R:
cor.test (M$vendido, M$antigüedad)

• Se tiene evidencia para rechaza H0, se


infiere que lo más probable es que la
correlación lineal poblacional sea
significativa
Modelo Lineal
H0: β1 = 0 (no significativo para modelo poblacional)

H1: β1 ≠ 0 (sígnficativo para modelo poblacional)


෡𝟎 + 𝜷
𝒀=𝜷 ෡ 𝟏𝒙
Nivel de significancia: α = 0.05
t0 = 2.16034 abs(qt(0.025,13))
En R:
M=read.csv(“balanzas.csv)
y = M$vendido
x = M$antiguedad
A = lm(y ~ x)
summary(A)

𝒀 = 𝟏𝟏𝟗. 𝟕𝟎𝟐𝟖 + 𝟐. 𝟑𝟓𝟑𝟐𝒙


• El modelo explica el 66.67% de la variabilidat total de Y
• Se infiere que β1 es significativa ( valor-p=0.002)
• La desviación estándar del error es de 64.9
Modelo Lineal 𝑒𝑖 = 𝑦𝑖 − 𝑦ො𝑖
Los residuos
En R:
plot(A$fitted.values, A$residuals)
abline(h=0,col=“green”)

ෝ = 𝟏𝟏𝟗. 𝟕𝟎𝟐𝟖 + 𝟐. 𝟑𝟓𝟑𝟐𝒙𝟏


𝒚
Modelo Lineal
Su gráfica
𝒀 = 𝟏𝟏𝟗. 𝟕𝟎𝟐𝟖 + 𝟐. 𝟑𝟓𝟑𝟐𝒙
En R:
plot(M$antigüedad, M$vendido, xlab =“x=antiguedad”, ylab=“y=vendido”)
Text(60, 100, “y = 119.703 + 2.353”, col=“red”)
abline(A,col=“red”)

¿Habrá un
mejor modelo?
Modelo no Lineal
Construyendo un modelo cuadrático
𝒀 = 𝜷𝟎 + 𝜷𝟏 𝒙 + 𝜷𝟐 𝒙𝟐
Definimos: z1 = 𝑥
𝑧2 = 𝑥 2

𝒀 = 𝜷𝟎 + 𝜷𝟏 𝒛𝟏 + 𝜷𝟐 𝒛𝟐 Modelo lineal

El modelo cuadrático se analiza basándonos en el modelo lineal:


En R:
z1 = M$antiguedad
z2 = M$antigüedad^2
B = lm(y ~ z1+ z2, data=M)
summary(B)
Modelo cuadrático
𝟐
H0: βi = 0
H1: βi ≠ 0
𝒀 = 𝜷𝟎 + 𝜷𝟏 𝒙 + 𝜷𝟐 𝒙 α = 0.05
t0 = 2.178813
abs(qt(0.025,12))

En R:
z1 = M$antiguedad
z2 = M$antigüedad^2
B = lm(y ~ z1+z2)
summary(B)

• β1 y β2 lo más probable es que sean significativas en el modelo


poblacional (según el valor-p)
• El modelo explica el 80.32% de la variación total de Y, ajustado por el número de
variables X´s
• La desviación del error es 48.01
Modelo cuadrático
𝟐
H0: βi = 0
H1: βi ≠ 0
𝒀 = 𝜷𝟎 + 𝜷𝟏 𝒙 + 𝜷𝟐 𝒙 α = 0.05
t0 = 2.178813
abs(qt(0.025,12))

En R:
z1 = M$antiguedad
z2 = M$antigüedad^2
B = lm(y ~ z1+z2)
summary(B)

𝒚 = 𝟑𝟖. 𝟎𝟒𝟏𝟓𝟗 + 𝟕. 𝟑𝟎𝟏𝟓𝟔𝒛𝟏 − 𝟎. 𝟎𝟒𝟑𝟒𝟏𝒛𝟐

En términos de la variable original: 𝒚 = 𝟑𝟖. 𝟎𝟒𝟏𝟓𝟗 + 𝟕. 𝟑𝟎𝟏𝟓𝟔𝒙 − 𝟎. 𝟎𝟒𝟑𝟒𝟏𝒙𝟐


Modelo cuadrático 𝑒𝑖 = 𝑦𝑖 − 𝑦ො𝑖
Los residuos
En R:
plot(B$fitted.values, B$residuals)
abline(h=0,col=“red”)

ෝ = 𝟑𝟖. 𝟎𝟒𝟏𝟓𝟗 + 𝟕. 𝟑𝟎𝟏𝟓𝟔𝒙 − 𝟎. 𝟎𝟒𝟑𝟒𝟏𝒙𝟐


𝒚

• Según este gráfico, ¿Se puede suponer que los errores


tienen media de cero y que tienen varianza constante?
Modelo cuadrático 𝑒𝑖 = 𝑦𝑖 − 𝑦ො𝑖
Normalidad de los residuos H0: la distribución es normal
H1: la distribución no es normal
𝒚 = 𝟑𝟖. 𝟎𝟒𝟏𝟓𝟗 + 𝟕. 𝟑𝟎𝟏𝟓𝟔𝒙 − 𝟎. 𝟎𝟒𝟑𝟒𝟏𝒙𝟐
α = 0.05

En R:
shapiro.test(B$residuals)

• No se tiene evidencia para rechaza H0


• Se infiere que lo más probable es que los errores
provienen de una distribución Normal (valor-
p=0.3889)
Modelo cuadrático 𝑒𝑖 = 𝑦𝑖 − 𝑦ො𝑖
Normalidad de los residuos H0: la distribución es normal
H1: la distribución no es normal
𝒚 = 𝟑𝟖. 𝟎𝟒𝟏𝟓𝟗 + 𝟕. 𝟑𝟎𝟏𝟓𝟔𝒙 − 𝟎. 𝟎𝟒𝟑𝟒𝟏𝒙𝟐

En R:
shapiro.test(B$residuals)
hist(B$residuals)
qqnorm(B$residuals)
qqline(B$residuals)

• El gráfico de normalidad (Q-Q plot) refleja cierto alejamiento de


normalidad en las colas, pero no muy fuerte.
• Hay presencia de un dato atípico en valores grandes de 𝑦. ො El
número de datos es pequeño. No se explora su exclusión.
Modelo cuadrático 𝑒𝑖 = 𝑦𝑖 − 𝑦ො𝑖
Media cero de los residuos Ho: µe = 0
𝒚 = 𝟑𝟖. 𝟎𝟒𝟏𝟓𝟗 + 𝟕. 𝟑𝟎𝟏𝟓𝟔𝒙 − 𝟎. 𝟎𝟒𝟑𝟒𝟏𝒙𝟐 H1: µe ≠ 0

α = 0.05
t0 = 2.144787
En R: abs(qt(0.025,14))
t.test(B$residuals)

No se tiene evidencia para rechaza H0 (valor-p=1),,se infiere que lo


más probables es que los residuos tienen media igual a cero
El mejor Modelo encontrado
𝒚 = 𝟑𝟖. 𝟎𝟒𝟏𝟓𝟗 + 𝟕. 𝟑𝟎𝟏𝟓𝟔𝒙 − 𝟎. 𝟎𝟒𝟑𝟒𝟏𝒙𝟐

En R:
y = M$vendido
x = M$antiguedad
plot(x, y, main = "El caso de las balanzas", xlab =" x= antigüedad", ylab =" y = u. vendidas")
x1 = seq(min(x), max(x), 0.01)
y1 = 38.04159 + 7.30156*x1 - 0.04341*x1^2
lines(x1, y1, col = "red")
text(70, 100, "y = 38.04159 + 7.30156x - 0.04341x^2")
Referencias

• Devore, J. L. (2016). Probabilidad y Estadística para Ingeniería y


Ciencias. Cengage
• Bowerman, B. L. and O´Connell, R. T. (2007). Bussiness Statistics in
Practice. McGraw-Hill
• Montgomery, D. C. and Runger, G. C. (2003). Applied Statistics and
Probability for Engineers. Wiley.

También podría gustarte