Regresion PDF
Regresion PDF
Regresion PDF
1 de octubre de 2020
1 Modelo de regresión
Generalidades
Estimación por mı́nimos cuadrados
2 Coeficiente de determinación R2
3 Correlación
4 Ejercicios
Tabla de Contenido
1 Modelo de regresión
Generalidades
Estimación por mı́nimos cuadrados
2 Coeficiente de determinación R2
3 Correlación
4 Ejercicios
Introducción
Introducción
Predicción
El objetivo aquı́ es pronosticar valores de la variable de respuesta
para valores futuros de la variables predictoras, es decir para va-
lores más allá de rango de valores de las variables predictoras en
la muestra de entrenamiento.
Descripción
La idea es establecer una ecuación lineal que describa la relación
entre la variable dependiente y las variables predictoras.
Control
Se busca controlar el comportamiento o variación de la variable
de respuesta de acuerdo a los valores que asumen las variables
predictoras. Por ejemplo, cuántas horas deberı́a estudiar como
mı́nimo para sacar 90 puntos o más en un examen.
([email protected]) Regresión lineal simple 6 / 56
Modelo de regresión Generalidades
Tabla de Contenido
1 Modelo de regresión
Generalidades
Estimación por mı́nimos cuadrados
2 Coeficiente de determinación R2
3 Correlación
4 Ejercicios
xi yi
85 2.3
65 1.2
73 1.5
90 1.9
82 1.8
80 2.0
68 1.3
88 2.1
yi = αxi + β
Y = αx + β + ε
Propiedades
Propiedades
La pendiente α representa el cambio en la respuesta promedio de Y para un
cambió unitario en x.
La ordenada β representa la respuesta promedio de Y cuando el valor de x
es igual a cero.
La variabilidad de Y en el valor particular de x está determinada por la
varianza del error σ 2 .
Existe una distribución de valores de Y para cada x.
La varianza de la distribución es la misma en cada x.
Tabla de Contenido
1 Modelo de regresión
Generalidades
Estimación por mı́nimos cuadrados
2 Coeficiente de determinación R2
3 Correlación
4 Ejercicios
yi = β + αxi + εi , i = 1, 2, . . . , n
n
∂L X
= −2 yi − βb − α
b xi = 0
∂β i=1
n
∂L X
= −2 yi − β − α
b b x i xi = 0
∂α i=1
([email protected]) Regresión lineal simple 16 / 56
Modelo de regresión Estimación por mı́nimos cuadrados
Definición
Los estimadores mı́nimos cuadrados de la ordenada al origen y
lapendiente del modelo de regresión lineal simple son
βb = ȳ − αbx̄
( ni=1 xi ) ( ni=1 yi )
P P
Pn
i=1 xi yi −
Pn
n xi yi − nx̄ȳ Sxy
α
b= Pn 2 = Pi=1
n 2 2
=
Pn 2 ( i=1 xi ) i=1 xi − nx̄ Sxx
x
i=1 i −
n
Pn Pn
yi xi
donde ȳ = i=1 y x̄ = i=1
n n
ybi = βb + α
b xi
yi = βb + α
bxi + ei , i = 1, 2, . . . , n
Ejemplo 1
Considere los datos de la cantidad de reactivo y el nivel de pureza en
la página 8. Se estimará el modelo de regresión para estos datos.
n
X
Sxy = xi yi − nx̄ȳ = 1134,8 − 8 (78,875) (1,7625) = 22,6625
i=1
n
X
Sxx = x2i − nx̄2 = 50371 − 8 (78,875)2 = 600,875
i=1
Interpretación
El valor 0,0377 de la pendiente indica que si la candidad de reac-
tivo se incrementa en una unidad, se consigue un incremento del
grado de pureza en 0,0377 unidades.
El valor -1,2111 de la ordenada indica que cuando la cantidad de
reactivo es nula, se estima que el grado de pureza del frasco es
de -1.2111. Este valor puede o no tener sentido dependiento de
la situación.
Para un contenido de reactivo de 75 mg, el grado de pureza de
frasco se estima en 1,6164. Este valor puede interpretarse como
la verdadera pureza promedio cuando x = 75 mg.
Ejemplo 2
En un artı́culo de Concrete Research (“Caracterı́sticas del concreto cerca de la
superficie: Permeabilidad intrı́nseca” Vol 41), se presentaron los datos sobre la
resistencia a la compresión x y la permeabilidad intrı́nseca y de varias mezclas y
curados de concreto. Las cantidades resumidas son:
yi2 = 23530 x2i = 157,42
P P P P P
n = 14 yi = 572 xi = 43 xi yi = 1697,80
Solución
43 572
x̄ = = 3,07 y ȳ =
= 40,86
14 14
n
( ni=1 xi ) ( ni=1 yi )
P P
X (43) (572)
Sxy = x i yi − = 1697,80 − = −59,06
n 14
i=1
n
( ni=1 xi )2 432
X P
Sxx = x2i − = 29,29 − = 25,35
n 14
i=1
Sxy −59,06
α
b= = = −2,33
Sxx 25,35
y
βb = ȳ − α
bx̄ = 40,86 − (−2,33) (3,07) = 48,01
El modelo estimado es
Tabla de Contenido
1 Modelo de regresión
Generalidades
Estimación por mı́nimos cuadrados
2 Coeficiente de determinación R2
3 Correlación
4 Ejercicios
Coeficiente de determinación R2
2
Sxy
R2 =
Sxx Syy
Caracterı́sticas y propiedades
Se usa para juzgar la adecuación de un modelo de regresión.
0 ≤ R2 ≤ 1
El valor de R2 indica la proporción de variabilidad de los datos que está
explicada o que es considerada por el modelo de regresión.
Coeficiente de determinación R2
Ejemplo 12
Para el ejemplo de la cantidad de ractivo
Sxy = 22,6625, Sxx = 600,875 y Syy = 1,07875
2
Sxy 22,66252
R2 = = = 0,7923
Sxx Syy 600,875 × 1,07875
es decir que el modelo de regresión ajustado, explica el 79,23 % de la
variabilidad de los datos.
Coeficiente de determinación R2
Ejemplo 13
Para los datos del ejemplo 2, se tiene que Sxy = −59,06, Sxx = 25,35
y Syy = 159,7143
2
Sxy (−59,06)2
R2 = = = 0,8615
Sxx Syy 25,35 × 159,7143
es decir que el modelo de regresión ajustado, explica el 86,15 % de la
variabilidad de los datos.
Tabla de Contenido
1 Modelo de regresión
Generalidades
Estimación por mı́nimos cuadrados
2 Coeficiente de determinación R2
3 Correlación
4 Ejercicios
Tabla de Contenido
1 Modelo de regresión
Generalidades
Estimación por mı́nimos cuadrados
2 Coeficiente de determinación R2
3 Correlación
4 Ejercicios
Patrones de correlación
Patrones de correlación
Ejemplo
Para los datos del ejemplo 2, se tiene que
Sxy = −59,06, Sxx = 25,35 y Syy = 159,7143
Sxy −59,06
rxy = √ p =√ √ = −0,9282
Sxx Syy 25,35 159,7143
Note que
2
rxy = (−0,9282)2 = 0,8615 = R2
Tabla de Contenido
1 Modelo de regresión
Generalidades
Estimación por mı́nimos cuadrados
2 Coeficiente de determinación R2
3 Correlación
4 Ejercicios
x y
Número de Costos de
sucursales comunicación
3 2
5 3
3 5
2 4
4 6
1 2
5 5
2 1
6 3
3 5
n
d2i
P
6
i=1 6(96, 50)
rs = 1 − =1− = 0,4152
n (n2 − 1) 10(102 − 1)
rs = 0,4152
Tabla de Contenido
1 Modelo de regresión
Generalidades
Estimación por mı́nimos cuadrados
2 Coeficiente de determinación R2
3 Correlación
4 Ejercicios
Ejercicios
Ejercicios
Ejercicios
5) En un proceso de extracción se estudia la relación entre tiempo de
extracción y rendimiento. Los datos obtenidos se muestran en la siguiente
tabla.
Tiempo (minutos) 10 15 20 8 12 13 15 12 14 20 19 18
Rendimiento ( %) 64 81.7 76.2 68.5 66.6 77.9 82.2 74.2 70 76 83.2 85.3
Ejercicios
Ejercicios
7) Al observar el número de sucursales (X) y los costos mensuales (Y ) en
comunicación telefónica con la casa central, en millones de $ para 10
empresas se encontró:
x y
Número de Costos de
sucursales comunicación
3 2
5 3
3 5
2 4
4 6
1 2
5 5
2 1
6 3
3 5
Ejercicios
Ejercicios
Ejercicios
Ejercicios
Ejercicios
Bibliografı́a