Estadística II - Regresión Lineal - v.2
Estadística II - Regresión Lineal - v.2
Estadística II - Regresión Lineal - v.2
Regresión lineal
1
Estudio de relaciones entre dos
variables cuantitativas
Se definen:
𝑌 = 𝑓(𝑋)
2
¿Cómo distingo a las variables?
“y” siempre depende de “x” Responde a: ¿Quién depende
de quién?
𝑦ො = 𝑎 + 𝑏𝑥
Horas Errores Y 16
trabajadas cometidos 14
2 4 12
2 6
3 7 10
3 7 8
4 8 Datos muestrales
4 10 n=10 6
5 9 4
5 13
2
6 11
6 15 0
0 1 2 3 4 5 6 7
X
Y 16
14
𝑌 = 13
12
𝑌 = 11
10
𝑌 =9
8
𝑌 = 5
4
0
0 1 2 3 4 5 6 7
6
𝑅𝑒𝑠𝑖𝑑𝑢𝑜 = 𝑒 = (𝑦 − 𝑦)
ො
Y 16
14
e=2
𝑌 = 13
e=2 e= -2
12
𝑌 = 11
10
e= -2
e=1
𝑌 =9
e= -1
8
6 e=1
𝑌 = 5
e=1
4
0
0 1 2 3 4 5 6 7
7
Requisitos de la recta:
1) La sumatoria de los residuos debe ser igual a cero ( por ello es una recta promedio)
𝑒 = 0
Estadísticas de la regresión
𝑦ො = 1 + 2. 𝑥
Coeficientes Error típico Estadístico t
Intercepción 1 (a)
Variable X 1 2 (b) 0,354 (Sb) 5,66 (tcalc)
9
Y
𝑦ො = 1 + 2. 𝑥
16
14
12
10
0
0 1 2 3 4 5 6 7
X
Extrapolación Extrapolación
Entorno de observación
El entorno definido por el valor
mínimo de “x” y el valor máximo de
“x” observado.
10
Interpretación de los estimadores
Recordemos que:
x= cantidad de horas trabajadas
Y= cantidad de errores cometidos
𝑦ො = 𝑎 + 𝑏. 𝑥 𝑦ො = 1 + 2. 𝑥
a: un empleado que trabaja 0 horas, cometerá 1 error de
a: Valor que toma y cuando x=0
tipeo. En este caso, al encontrase el valor 0, fuera del
¿Hay extrapolación? entorno de observación ( 2 y 6 horas) se estaría cometiendo
una extrapolación
b: Variación esperada en y por b: por cada hora adicional que trabaje el empleado se
cada variación unitaria en x espera que la cantidad de errores cometidos se incremente
en 2.
11
Varianza de la estimación 𝑆𝑒2
Es la suma de los cuadrados de los residuos promediada. Es un indicador de la
dispersión de los puntos observados alrededor de la recta. Se utiliza en las
inferencias o para comparar distintos modelos de regresión.
No indica si la dispersión es baja o alta, ya que sólo considera los valores de “y”. Este
indicador será utilizado para hacer inferencias.
Estadísticas de la regresión
Coeficientes
Determinación Correlación
13
2
Coeficiente de determinación (𝑅 )
• Variación porcentual de “y” que queda explicada por la recta.
• Al ser una proporción es un valor que estará comprendido entre 0 y 1. Suele
expresarse en porcentaje (entre 0% y 100%)
• Si bien dependerá de la disciplina de análisis un coeficiente de determinación de al
menos un 50% indicará un buen ajuste del modelo.
Estadísticas de la regresión
Mide cómo es la
relación X
R
Inversa R<0 (negativa)
Estadísticas de la regresión
16
Modelos de regresión
poblacionales
17
Modelo muestral Modelo poblacional
promedio promedio
𝑦ො = 𝑎 + 𝑏. 𝑥 𝜇(𝑦) = 𝛼 + 𝛽. 𝑋
Modelo poblacional
Componentes puntual
𝛼: ordenada al origen poblacional
𝛽: Coeficiente de regresión poblacional
𝜀: perturbación del modelo
𝑌 = 𝛼 + 𝛽. 𝑋 + 𝜀
18
Corrida excel: Datos útiles
Estadísticas de la regresión
19
Ejemplo ejercicio 1:
Para analizar la incidencia del cansancio sobre la eficiencia en el trabajo se tomó una muestra de 10 empleados, se los
hizo trabajar distinta cantidad de horas, luego se les entregó un texto de varias carillas para tipear y finalmente se
verificó la cantidad de errores cometidos por cada uno de ellos, obteniéndose los siguientes datos:
Horas Errores Y 16
trabajadas cometidos 14
2 4 12
2 6
3 7 10
3 7 8
4 8 Datos muestrales
4 10 n=10 6
5 9 4
5 13
2
6 11
6 15 0
0 1 2 3 4 5 6 7
X
Fórmulas de trabajo para la obtención
de los estimadores:
σ 𝑥𝑦 − 𝑛. 𝑥.ҧ 𝑦ത 𝑆𝑥𝑦
𝑏= 2 2
= 𝑎 = 𝑦ത − 𝑏. 𝑥ҧ
σ 𝑥 − 𝑛. 𝑥ҧ 𝑆𝑥𝑥
Cálculos auxiliares:
x
2
Sxx = 2
− nx
y 2 − ny
2
Syy =
S xy = xy − n x y
21
En el ejemplo:
𝑆𝑥𝑦 𝑎 = 𝑦ത − 𝑏. 𝑥ҧ
𝑏= Horas Errores
𝑆𝑥𝑥 𝑥 2 2
trabajadas cometidos 𝑦 𝑥𝑦
(x) (y)
Cálculos auxiliares: En el ejemplo: 2 4 4 16 8
2 4 6 36 12
x2 − nx
2
Sxx = 𝑆𝑥𝑥 = 180 − 10. 42 = 20 3 9 7 49 21
3 9 7 49 21
y 2 − ny
2
Syy = 𝑆𝑦𝑦 = 910 − 10. 92 = 100 4 16 8 64 32
4 16 10 100 40
S xy = xy − n x y 𝑆𝑥𝑦 = 400 − 10.4.9 = 40 5 25 9 81 45
5 25 13 169 65
6 36 11 121 66
𝑆𝑥𝑦 40 6 36 15 225 90
𝑏= = =2 𝑎 = 9 − 2.4 = 1
𝑆𝑥𝑥 20 180 910 400
𝑦ො = 1 + 2. 𝑥
22
Varianza de la estimación
Es la suma de los cuadrados de los residuos promediada. Es un indicador de la
dispersión de los puntos observados alrededor de la recta. Se utiliza en las
inferencias o para comparar distintos modelos de regresión
σ 2
𝑆𝐶𝑅 (𝑒)
𝑆𝑒2 = =
𝑛−2 𝑛−2
Fórmula de trabajo:
1
𝑆𝑒2 = . (𝑆𝑦𝑦 − 𝑏 2 . 𝑆𝑥𝑥)
𝑛−2
En el ejemplo:
1
𝑆𝑒2 = . 100 − 22 . 40 = 2,5𝑒𝑟𝑟𝑜𝑟𝑒𝑠 2
10 − 2
23
2
𝑆𝑥𝑦 El 80% de las variaciones porcentuales que
𝑅2 = se presentan en los errores cometidos se
𝑆𝑥𝑥. 𝑆𝑦𝑦
deben a las variaciones en las horas
40 2 trabajadas.
𝑅2 = = 0,8 El modelo presenta un buen ajuste debido a
20.100 que el coeficiente es mayor al 50%
𝑆𝑥𝑦
𝑅= El valor de R muestra que la relación es muy
𝑆𝑥𝑥. 𝑆𝑦𝑦 intensa entre las variables ya que supera al
40 límite 0,7 y además es directamente
𝑅= = 0,89 proporcional.
20,100
Uso del Excel 1° Activar el análisis de datos: Archivo → opciones → complementos →
Complementos de Excel → Ir → Tildar: herramientas para análisis y
Herramientas para análisis - VBA.
Uso del Excel
Uso del Excel
Uso del Excel