Estadística II - Regresión Lineal - v.2

Análisis de
Regresión lineal
1
Estudio de relaciones entre dos
variables cuantitativas
Se definen:
Y: Variable a pronosticar ( variable dependiente)

X: Variable predictora ( variable independiente)
Objetivo: construir un modelo lineal tal que:
𝑌 = 𝑓(𝑋)
2
¿Cómo distingo a las variables?
“y” siempre depende de “x” Responde a: ¿Quién depende
de quién?
Pero… ¿si aún no

me doy cuenta?
El procedimiento de
Regresión siempre busca
inferir el valor de “y”
¿A quién quiero estimar?

Leer con atención las
consignas o interpretar la
situación.
Modelo matemático:
Recta muestral promedio. Recta de
mínimos cuadrados
𝑦ො = 𝑎 + 𝑏𝑥
Ordenada al origen Coeficiente de regresión

muestral (pendiente)
Valor que toma y cuando
x=0
Variación esperada en y por
cada variación unitaria en x
4
Ejemplo ejercicio 1:
Para analizar la incidencia del cansancio sobre la eficiencia en el trabajo se tomó una muestra de 10 empleados, se los
hizo trabajar distinta cantidad de horas, luego se les entregó un texto de varias carillas para tipear y finalmente se
verificó la cantidad de errores cometidos por cada uno de ellos, obteniéndose los siguientes datos:
Horas Errores Y 16
trabajadas cometidos 14
2 4 12
2 6
3 7 10
3 7 8
4 8 Datos muestrales
4 10 n=10 6
5 9 4
5 13
2
6 11
6 15 0
0 1 2 3 4 5 6 7
X
Y 16
14
𝑌෠ = 13
12
𝑌෠ = 11
10
𝑌෠ =9
8
𝑌෠ = 5
4
0
0 1 2 3 4 5 6 7
6
𝑅𝑒𝑠𝑖𝑑𝑢𝑜 = 𝑒 = (𝑦 − 𝑦)
ො
Y 16
14
e=2
𝑌෠ = 13
e=2 e= -2
12
𝑌෠ = 11
10
e= -2
e=1
𝑌෠ =9
e= -1
8
6 e=1
𝑌෠ = 5
e=1
4
0
0 1 2 3 4 5 6 7
7
Requisitos de la recta:
1) La sumatoria de los residuos debe ser igual a cero ( por ello es una recta promedio)
෍𝑒 = 0
2) La sumatoria del cuadrado de los residuos deberá ser mínima
෍ 𝑒 2 = ෍(𝑦𝑖 − 𝑦ො𝑖 )2 = 𝑀í𝑛𝑖𝑚𝑎
Cumpliéndose estas dos condiciones, se hayan las

fórmulas de trabajo para la obtención de los coeficientes
ayb
8
Fórmulas de trabajo para la obtención
de los estimadores:
σ 𝑥𝑦 − 𝑛. 𝑥.ҧ 𝑦ത 𝑆𝑥𝑦 Ver video
𝑏= = 𝑎 = 𝑦ത − 𝑏. 𝑥ҧ “Uso de Fórmulas”
σ 𝑥 2 − 𝑛. 𝑥ҧ 2 𝑆𝑥𝑥
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,894 R

𝑦ො = 𝑎 + 𝑏. 𝑥
Coeficiente de determinación R^2 0,8 R^2
R^2 ajustado 0,775 ….

Error típico 1,581 Se
Observaciones 10 n
𝑦ො = 1 + 2. 𝑥
Coeficientes Error típico Estadístico t
Intercepción 1 (a)
Variable X 1 2 (b) 0,354 (Sb) 5,66 (tcalc)
9
Y
𝑦ො = 1 + 2. 𝑥
16
14
12
10
0
0 1 2 3 4 5 6 7
X
Extrapolación Extrapolación
Entorno de observación
El entorno definido por el valor
mínimo de “x” y el valor máximo de
“x” observado.
10
Interpretación de los estimadores
Recordemos que:
x= cantidad de horas trabajadas
Y= cantidad de errores cometidos
𝑦ො = 𝑎 + 𝑏. 𝑥 𝑦ො = 1 + 2. 𝑥
a: un empleado que trabaja 0 horas, cometerá 1 error de
a: Valor que toma y cuando x=0
tipeo. En este caso, al encontrase el valor 0, fuera del
¿Hay extrapolación? entorno de observación ( 2 y 6 horas) se estaría cometiendo
una extrapolación
b: Variación esperada en y por b: por cada hora adicional que trabaje el empleado se
cada variación unitaria en x espera que la cantidad de errores cometidos se incremente
en 2.
11
Varianza de la estimación 𝑆𝑒2
Es la suma de los cuadrados de los residuos promediada. Es un indicador de la
dispersión de los puntos observados alrededor de la recta. Se utiliza en las
inferencias o para comparar distintos modelos de regresión.
No indica si la dispersión es baja o alta, ya que sólo considera los valores de “y”. Este
indicador será utilizado para hacer inferencias.

Observaciones 10 n

Intercepción 1 (a)
12
Validación del modelo de
regresión muestral
Coeficientes
Determinación Correlación
13
2
Coeficiente de determinación (𝑅 )
• Variación porcentual de “y” que queda explicada por la recta.
• Al ser una proporción es un valor que estará comprendido entre 0 y 1. Suele
expresarse en porcentaje (entre 0% y 100%)
• Si bien dependerá de la disciplina de análisis un coeficiente de determinación de al
menos un 50% indicará un buen ajuste del modelo.

El 80% de las variaciones
porcentuales que se
presentan en los errores
R^2 ajustado 0,775 …. cometidos se deben a las
variaciones en las horas
Observaciones 10 n
trabajadas.
El modelo presenta un buen
Coeficientes Error típico Estadístico t ajuste debido a que el
Intercepción 1 (a) coeficiente es mayor al 50%
14
Coeficiente de correlación (𝑅)
Mide el grado de relación o sensibilidad entre las variables analizadas.
No es un porcentaje y puede tomar valores que van desde -1 a 1.
Y
Es un indicador adimensional
Directa R>0 (positiva)
Mide cómo es la
relación X
R
Inversa R<0 (negativa)
Si 𝑅 > 0,7 Fuerte

Intensidad de la
relación
Si 𝑅 < 0,7 Débil 15

Coeficiente de correlación (𝑅)
En el ejemplo:
Coeficiente de correlación múltiple 0,894 R El valor de R muestra

que la relación es muy
intensa entre las
Error típico 1,581 Se variables ya que supera
Observaciones 10 n al límite 0,7 y además
es directamente
proporcional.
Intercepción 1 (a)
16
Modelos de regresión
poblacionales
17
Modelo muestral Modelo poblacional
promedio promedio
𝑦ො = 𝑎 + 𝑏. 𝑥 𝜇(𝑦) = 𝛼 + 𝛽. 𝑋
Modelo poblacional
Componentes puntual
𝛼: ordenada al origen poblacional
𝛽: Coeficiente de regresión poblacional
𝜀: perturbación del modelo
𝑌 = 𝛼 + 𝛽. 𝑋 + 𝜀
18
Corrida excel: Datos útiles

Observaciones 10 n

Intercepción 1 (a)
19
Ejemplo ejercicio 1:
Para analizar la incidencia del cansancio sobre la eficiencia en el trabajo se tomó una muestra de 10 empleados, se los
hizo trabajar distinta cantidad de horas, luego se les entregó un texto de varias carillas para tipear y finalmente se
verificó la cantidad de errores cometidos por cada uno de ellos, obteniéndose los siguientes datos:
Horas Errores Y 16
trabajadas cometidos 14
2 4 12
2 6
3 7 10
3 7 8
4 8 Datos muestrales
4 10 n=10 6
5 9 4
5 13
2
6 11
6 15 0
0 1 2 3 4 5 6 7
X
Fórmulas de trabajo para la obtención
de los estimadores:
σ 𝑥𝑦 − 𝑛. 𝑥.ҧ 𝑦ത 𝑆𝑥𝑦
𝑏= 2 2
= 𝑎 = 𝑦ത − 𝑏. 𝑥ҧ
σ 𝑥 − 𝑛. 𝑥ҧ 𝑆𝑥𝑥
Cálculos auxiliares:
x
2
Sxx = 2
− nx
 y 2 − ny
2
Syy =
S xy =  xy − n x y
21
En el ejemplo:
𝑆𝑥𝑦 𝑎 = 𝑦ത − 𝑏. 𝑥ҧ
𝑏= Horas Errores
𝑆𝑥𝑥 ෍𝑥 2 2
trabajadas cometidos ෍ 𝑦 ෍ 𝑥𝑦
(x) (y)
Cálculos auxiliares: En el ejemplo: 2 4 4 16 8
2 4 6 36 12
 x2 − nx
2
Sxx = 𝑆𝑥𝑥 = 180 − 10. 42 = 20 3 9 7 49 21
3 9 7 49 21
 y 2 − ny
2
Syy = 𝑆𝑦𝑦 = 910 − 10. 92 = 100 4 16 8 64 32
4 16 10 100 40
S xy =  xy − n x y 𝑆𝑥𝑦 = 400 − 10.4.9 = 40 5 25 9 81 45
5 25 13 169 65
6 36 11 121 66
𝑆𝑥𝑦 40 6 36 15 225 90
𝑏= = =2 𝑎 = 9 − 2.4 = 1
𝑆𝑥𝑥 20 180 910 400
𝑦ො = 1 + 2. 𝑥
22
Varianza de la estimación
Es la suma de los cuadrados de los residuos promediada. Es un indicador de la
dispersión de los puntos observados alrededor de la recta. Se utiliza en las
inferencias o para comparar distintos modelos de regresión
σ 2
𝑆𝐶𝑅 (𝑒)
𝑆𝑒2 = =
𝑛−2 𝑛−2
Fórmula de trabajo:
1
𝑆𝑒2 = . (𝑆𝑦𝑦 − 𝑏 2 . 𝑆𝑥𝑥)
𝑛−2
En el ejemplo:
1
𝑆𝑒2 = . 100 − 22 . 40 = 2,5𝑒𝑟𝑟𝑜𝑟𝑒𝑠 2
10 − 2
23
2
𝑆𝑥𝑦 El 80% de las variaciones porcentuales que
𝑅2 = se presentan en los errores cometidos se
𝑆𝑥𝑥. 𝑆𝑦𝑦
deben a las variaciones en las horas
40 2 trabajadas.
𝑅2 = = 0,8 El modelo presenta un buen ajuste debido a
20.100 que el coeficiente es mayor al 50%
𝑆𝑥𝑦
𝑅= El valor de R muestra que la relación es muy
𝑆𝑥𝑥. 𝑆𝑦𝑦 intensa entre las variables ya que supera al
40 límite 0,7 y además es directamente
𝑅= = 0,89 proporcional.
20,100
Uso del Excel 1° Activar el análisis de datos: Archivo → opciones → complementos →
Complementos de Excel → Ir → Tildar: herramientas para análisis y
Herramientas para análisis - VBA.
Uso del Excel
Uso del Excel
Uso del Excel
Pueden seleccionar cualquier opción. Yo

elegí que aparezca en la misma hoja
donde estaba trabajando en la celda F2.
Uso del Excel
Así aparece la regresión final.
Lo que está recuadrado de rojo es lo que nosotros utilizamos.

Estadística II - Regresión Lineal - v.2

Cargado por

Copyright:

Formatos disponibles

Estadística II - Regresión Lineal - v.2

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadística II - Regresión Lineal - v.2

Cargado por

Copyright:

Formatos disponibles

Análisis de

Y: Variable a pronosticar ( variable dependiente)

Objetivo: construir un modelo lineal tal que:

Pero… ¿si aún no

¿A quién quiero estimar?

Ordenada al origen Coeficiente de regresión

2) La sumatoria del cuadrado de los residuos deberá ser mínima

෍ 𝑒 2 = ෍(𝑦𝑖 − 𝑦ො𝑖 )2 = 𝑀í𝑛𝑖𝑚𝑎

Cumpliéndose estas dos condiciones, se hayan las

Coeficiente de correlación múltiple 0,894 R

R^2 ajustado 0,775 ….

Coeficiente de correlación múltiple 0,894 R

Coeficiente de determinación R^2 0,8 R^2

R^2 ajustado 0,775 ….

Coeficientes Error típico Estadístico t

Coeficiente de correlación múltiple 0,894 R

Si 𝑅 > 0,7 Fuerte

Si 𝑅 < 0,7 Débil 15

Coeficiente de correlación múltiple 0,894 R El valor de R muestra

Coeficiente de correlación múltiple 0,894 R

Coeficiente de determinación R^2 0,8 R^2

R^2 ajustado 0,775 ….

Coeficientes Error típico Estadístico t

Pueden seleccionar cualquier opción. Yo

También podría gustarte