Estadística II - Regresión Lineal - v.2

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 29

Análisis de

Regresión lineal

1
Estudio de relaciones entre dos
variables cuantitativas
Se definen:

Y: Variable a pronosticar ( variable dependiente)


X: Variable predictora ( variable independiente)

Objetivo: construir un modelo lineal tal que:

𝑌 = 𝑓(𝑋)

2
¿Cómo distingo a las variables?
“y” siempre depende de “x” Responde a: ¿Quién depende
de quién?

Pero… ¿si aún no


me doy cuenta?
El procedimiento de
Regresión siempre busca
inferir el valor de “y”

¿A quién quiero estimar?


Leer con atención las
consignas o interpretar la
situación.
Modelo matemático:
Recta muestral promedio. Recta de
mínimos cuadrados

𝑦ො = 𝑎 + 𝑏𝑥

Ordenada al origen Coeficiente de regresión


muestral (pendiente)
Valor que toma y cuando
x=0
Variación esperada en y por
cada variación unitaria en x
4
Ejemplo ejercicio 1:
Para analizar la incidencia del cansancio sobre la eficiencia en el trabajo se tomó una muestra de 10 empleados, se los
hizo trabajar distinta cantidad de horas, luego se les entregó un texto de varias carillas para tipear y finalmente se
verificó la cantidad de errores cometidos por cada uno de ellos, obteniéndose los siguientes datos:

Horas Errores Y 16

trabajadas cometidos 14

2 4 12
2 6
3 7 10

3 7 8
4 8 Datos muestrales
4 10 n=10 6

5 9 4

5 13
2
6 11
6 15 0
0 1 2 3 4 5 6 7
X
Y 16

14

𝑌෠ = 13
12

𝑌෠ = 11
10

𝑌෠ =9
8

𝑌෠ = 5
4

0
0 1 2 3 4 5 6 7

6
𝑅𝑒𝑠𝑖𝑑𝑢𝑜 = 𝑒 = (𝑦 − 𝑦)

Y 16

14
e=2
𝑌෠ = 13
e=2 e= -2
12
𝑌෠ = 11
10
e= -2
e=1
𝑌෠ =9
e= -1
8

6 e=1
𝑌෠ = 5
e=1
4

0
0 1 2 3 4 5 6 7

7
Requisitos de la recta:
1) La sumatoria de los residuos debe ser igual a cero ( por ello es una recta promedio)

෍𝑒 = 0

2) La sumatoria del cuadrado de los residuos deberá ser mínima

෍ 𝑒 2 = ෍(𝑦𝑖 − 𝑦ො𝑖 )2 = 𝑀í𝑛𝑖𝑚𝑎

Cumpliéndose estas dos condiciones, se hayan las


fórmulas de trabajo para la obtención de los coeficientes
ayb
8
Fórmulas de trabajo para la obtención
de los estimadores:
σ 𝑥𝑦 − 𝑛. 𝑥.ҧ 𝑦ത 𝑆𝑥𝑦 Ver video
𝑏= = 𝑎 = 𝑦ത − 𝑏. 𝑥ҧ “Uso de Fórmulas”
σ 𝑥 2 − 𝑛. 𝑥ҧ 2 𝑆𝑥𝑥

Estadísticas de la regresión

Coeficiente de correlación múltiple 0,894 R


𝑦ො = 𝑎 + 𝑏. 𝑥
Coeficiente de determinación R^2 0,8 R^2

R^2 ajustado 0,775 ….


Error típico 1,581 Se
Observaciones 10 n

𝑦ො = 1 + 2. 𝑥
Coeficientes Error típico Estadístico t
Intercepción 1 (a)
Variable X 1 2 (b) 0,354 (Sb) 5,66 (tcalc)
9
Y
𝑦ො = 1 + 2. 𝑥
16

14

12

10

0
0 1 2 3 4 5 6 7
X

Extrapolación Extrapolación

Entorno de observación
El entorno definido por el valor
mínimo de “x” y el valor máximo de
“x” observado.

10
Interpretación de los estimadores
Recordemos que:
x= cantidad de horas trabajadas
Y= cantidad de errores cometidos

𝑦ො = 𝑎 + 𝑏. 𝑥 𝑦ො = 1 + 2. 𝑥
a: un empleado que trabaja 0 horas, cometerá 1 error de
a: Valor que toma y cuando x=0
tipeo. En este caso, al encontrase el valor 0, fuera del
¿Hay extrapolación? entorno de observación ( 2 y 6 horas) se estaría cometiendo
una extrapolación

b: Variación esperada en y por b: por cada hora adicional que trabaje el empleado se
cada variación unitaria en x espera que la cantidad de errores cometidos se incremente
en 2.

11
Varianza de la estimación 𝑆𝑒2
Es la suma de los cuadrados de los residuos promediada. Es un indicador de la
dispersión de los puntos observados alrededor de la recta. Se utiliza en las
inferencias o para comparar distintos modelos de regresión.

No indica si la dispersión es baja o alta, ya que sólo considera los valores de “y”. Este
indicador será utilizado para hacer inferencias.

Estadísticas de la regresión

Coeficiente de correlación múltiple 0,894 R

Coeficiente de determinación R^2 0,8 R^2

R^2 ajustado 0,775 ….


Error típico 1,581 Se
Observaciones 10 n

Coeficientes Error típico Estadístico t


Intercepción 1 (a)
Variable X 1 2 (b) 0,354 (Sb) 5,66 (tcalc)
12
Validación del modelo de
regresión muestral

Coeficientes

Determinación Correlación

13
2
Coeficiente de determinación (𝑅 )
• Variación porcentual de “y” que queda explicada por la recta.
• Al ser una proporción es un valor que estará comprendido entre 0 y 1. Suele
expresarse en porcentaje (entre 0% y 100%)
• Si bien dependerá de la disciplina de análisis un coeficiente de determinación de al
menos un 50% indicará un buen ajuste del modelo.
Estadísticas de la regresión

Coeficiente de correlación múltiple 0,894 R


El 80% de las variaciones
porcentuales que se
Coeficiente de determinación R^2 0,8 R^2
presentan en los errores
R^2 ajustado 0,775 …. cometidos se deben a las
Error típico 1,581 Se
variaciones en las horas
Observaciones 10 n
trabajadas.
El modelo presenta un buen
Coeficientes Error típico Estadístico t ajuste debido a que el
Intercepción 1 (a) coeficiente es mayor al 50%
Variable X 1 2 (b) 0,354 (Sb) 5,66 (tcalc)
14
Coeficiente de correlación (𝑅)
Mide el grado de relación o sensibilidad entre las variables analizadas.
No es un porcentaje y puede tomar valores que van desde -1 a 1.
Y
Es un indicador adimensional
Directa R>0 (positiva)

Mide cómo es la
relación X

R
Inversa R<0 (negativa)

Si 𝑅 > 0,7 Fuerte


Intensidad de la
relación

Si 𝑅 < 0,7 Débil 15


Coeficiente de correlación (𝑅)
En el ejemplo:

Estadísticas de la regresión

Coeficiente de correlación múltiple 0,894 R El valor de R muestra


Coeficiente de determinación R^2 0,8 R^2
que la relación es muy
R^2 ajustado 0,775 ….
intensa entre las
Error típico 1,581 Se variables ya que supera
Observaciones 10 n al límite 0,7 y además
es directamente
proporcional.
Coeficientes Error típico Estadístico t
Intercepción 1 (a)
Variable X 1 2 (b) 0,354 (Sb) 5,66 (tcalc)

16
Modelos de regresión
poblacionales

17
Modelo muestral Modelo poblacional
promedio promedio

𝑦ො = 𝑎 + 𝑏. 𝑥 𝜇(𝑦) = 𝛼 + 𝛽. 𝑋

Modelo poblacional
Componentes puntual
𝛼: ordenada al origen poblacional
𝛽: Coeficiente de regresión poblacional
𝜀: perturbación del modelo

𝑌 = 𝛼 + 𝛽. 𝑋 + 𝜀

18
Corrida excel: Datos útiles
Estadísticas de la regresión

Coeficiente de correlación múltiple 0,894 R

Coeficiente de determinación R^2 0,8 R^2

R^2 ajustado 0,775 ….


Error típico 1,581 Se
Observaciones 10 n

Coeficientes Error típico Estadístico t


Intercepción 1 (a)
Variable X 1 2 (b) 0,354 (Sb) 5,66 (tcalc)

19
Ejemplo ejercicio 1:
Para analizar la incidencia del cansancio sobre la eficiencia en el trabajo se tomó una muestra de 10 empleados, se los
hizo trabajar distinta cantidad de horas, luego se les entregó un texto de varias carillas para tipear y finalmente se
verificó la cantidad de errores cometidos por cada uno de ellos, obteniéndose los siguientes datos:

Horas Errores Y 16

trabajadas cometidos 14

2 4 12
2 6
3 7 10

3 7 8
4 8 Datos muestrales
4 10 n=10 6

5 9 4

5 13
2
6 11
6 15 0
0 1 2 3 4 5 6 7
X
Fórmulas de trabajo para la obtención
de los estimadores:
σ 𝑥𝑦 − 𝑛. 𝑥.ҧ 𝑦ത 𝑆𝑥𝑦
𝑏= 2 2
= 𝑎 = 𝑦ത − 𝑏. 𝑥ҧ
σ 𝑥 − 𝑛. 𝑥ҧ 𝑆𝑥𝑥

Cálculos auxiliares:

x
2
Sxx = 2
− nx

 y 2 − ny
2
Syy =

S xy =  xy − n x y

21
En el ejemplo:

𝑆𝑥𝑦 𝑎 = 𝑦ത − 𝑏. 𝑥ҧ
𝑏= Horas Errores
𝑆𝑥𝑥 ෍𝑥 2 2
trabajadas cometidos ෍ 𝑦 ෍ 𝑥𝑦
(x) (y)
Cálculos auxiliares: En el ejemplo: 2 4 4 16 8
2 4 6 36 12
 x2 − nx
2
Sxx = 𝑆𝑥𝑥 = 180 − 10. 42 = 20 3 9 7 49 21
3 9 7 49 21
 y 2 − ny
2
Syy = 𝑆𝑦𝑦 = 910 − 10. 92 = 100 4 16 8 64 32
4 16 10 100 40
S xy =  xy − n x y 𝑆𝑥𝑦 = 400 − 10.4.9 = 40 5 25 9 81 45
5 25 13 169 65
6 36 11 121 66
𝑆𝑥𝑦 40 6 36 15 225 90
𝑏= = =2 𝑎 = 9 − 2.4 = 1
𝑆𝑥𝑥 20 180 910 400

𝑦ො = 1 + 2. 𝑥
22
Varianza de la estimación
Es la suma de los cuadrados de los residuos promediada. Es un indicador de la
dispersión de los puntos observados alrededor de la recta. Se utiliza en las
inferencias o para comparar distintos modelos de regresión

σ 2
𝑆𝐶𝑅 (𝑒)
𝑆𝑒2 = =
𝑛−2 𝑛−2

Fórmula de trabajo:

1
𝑆𝑒2 = . (𝑆𝑦𝑦 − 𝑏 2 . 𝑆𝑥𝑥)
𝑛−2
En el ejemplo:

1
𝑆𝑒2 = . 100 − 22 . 40 = 2,5𝑒𝑟𝑟𝑜𝑟𝑒𝑠 2
10 − 2

23
2
𝑆𝑥𝑦 El 80% de las variaciones porcentuales que
𝑅2 = se presentan en los errores cometidos se
𝑆𝑥𝑥. 𝑆𝑦𝑦
deben a las variaciones en las horas
40 2 trabajadas.
𝑅2 = = 0,8 El modelo presenta un buen ajuste debido a
20.100 que el coeficiente es mayor al 50%

𝑆𝑥𝑦
𝑅= El valor de R muestra que la relación es muy
𝑆𝑥𝑥. 𝑆𝑦𝑦 intensa entre las variables ya que supera al
40 límite 0,7 y además es directamente
𝑅= = 0,89 proporcional.
20,100
Uso del Excel 1° Activar el análisis de datos: Archivo → opciones → complementos →
Complementos de Excel → Ir → Tildar: herramientas para análisis y
Herramientas para análisis - VBA.
Uso del Excel
Uso del Excel
Uso del Excel

Pueden seleccionar cualquier opción. Yo


elegí que aparezca en la misma hoja
donde estaba trabajando en la celda F2.
Uso del Excel
Así aparece la regresión final.
Lo que está recuadrado de rojo es lo que nosotros utilizamos.

También podría gustarte