TEMA - Regresion Lineal
TEMA - Regresion Lineal
TEMA - Regresion Lineal
29 de marzo de 2019
REGRESIÓN LINEAL SIMPLE Y
CORRELACIÓN
Análisis de regresión [1]
Objetivos
I Calcular e interpretar la relación entre dos variables
I Definir la variable dependiente e independiente en una regresión
I Evaluar significancia de los parámetros de la ecuación de regresión para
predecir la variable dependiente
I Calcular e interpretar un intervalo de confianza para la regresión y para la
predicción.
Modelado probabilı́stico (APB)
En la temporada regular de 2008 de la National Football League (NFL) se recolectaron los
datos correspondientes a la cantidad de yardas obtenidas por intento de pase (YPA) de cada
mariscal de campo (QB) y al final de la temporada, fue presentado el ranking de mariscales de
campo (passer rating) (0-158.3).
En la siguiente diapositiva, encontrará la información correspondiente a estas dos variables y
su trabajo consistirá en analizar:
1. ¿Entre estas dos variables hay una relación (apreciación cualitativa y cuantitativa)? En
caso afirmativo, ¿qué tipo de relación hay?
2. Defina un modelo lineal probabilı́stico del que relacione las 2 variables del estudio. Para
ello utilice use YPA como variable independiente. ¿la calificación que recibe el mariscal de
campo únicamente depende del número de yardas por intento de pase?
3. Verifique el nivel de ajuste del modelo con respecto a los datos experimentales.
4. Pruebe la significancia de los parámetros del modelo.
5. Determine un intervalo de confianza para cada parámetro.
6. Verifique los supuestos del modelo probabilı́stico lineal.
Modelado (APB)
Jugador, (Equipo) Yardas por Puntaje de Jugador, (Equipo) Yardas por Puntaje de
intento calificación intento calificación
(Yr) (Pts) (Yr) (Pts)
Philip Rivers (SD) 8.39 105.5 Seneca Wallace (SEA) 6.33 87.0
Chad Pennington (MIA) 7.67 97.4 Eli Manning (NYG) 6.76 86.4
Kurt Warner (ARI) 7.66 96.9 Jay Cutler (DEN) 7.35 86.0
Drew Brees (NO) 7.98 96.2 Jake Delhomme (CAR) 7.94 84.7
Peyton Manning (IND) 7.21 95.0 Jason Campbell (WAS) 6.41 84.3
Aaron Rodgers (GB) 7.53 93.8 Brett Favre (NYJ) 6.65 81.0
Tony Romo (DAL) 7.66 91.4 Joe Flacco (BAL) 6.94 80.3
Matt Cassel (NE) 7.16 89.4 Ben Roethlisberger (PIT) 7.04 80.1
Matt Ryan (ATL) 7.93 87.7 Gus Freotte (MIN) 7.17 73.7
Marc Bulger (STL) 6.18 71.4 Ryan Fitzpatrick (CIN) 5.12 70.0
Diagrama de dispersión
Este tipo de diagrama es utilizado para visualizar conjuntos de datos multivariable, donde se
asume que la información esta contenida como una pareja ordenada.
Un diagrama de dispersión permite identificar de manera gráfica la relación que existe entre
las dos variables. Usualmente, la variable dependientes se ubica en el eje vertical y la
independiente en el eje horizontal.
Diagrama de dispersión
110
Puntaje de Calificación [Pts]
105
100
95
90
85
80
75
70
65
4.5 5 5.5 6 6.5 7 7.5 8 8.5 9
Yardas por intento [yr]
Coeficiente de correlación lineal muestral
A partir de un conjunto de datos en parejas ordenadas y con la siguiente
notación:
(x1 , y1 ), . . . , (xn , yn );
suma de cuadrados:
Xn n
X
Sxx = (xi − x̄)2 y Syy = (yi − ȳ)2 ,
i=1 i=1
Cov(X, Y )
ρXY = ,
σX σY
donde σX y σY son las correspondientes desviaciones estándar de X y Y , y
Cov(X, Y ) es la covarianza de las dos variables aleatorias X y Y :
yi = α + βxi + i , donde i = 1, . . . , n.
Pregunta
Teniendo en cuenta que, si α y β para un determinado x son conocidos, es
posible predecir y. ¿Cómo estimar a α y a β?
Estimación de parámetros por mı́nimos cuadrados
Definición: la estimación de mı́nimos cuadrados de α y β consiste en
minimizar la suma del cuadrado de la distancia vertical entre el valor actual y y el
valor estimado de ŷ:
( n
)
X
(α̂, β̂) = arg mı́n (yi − (α + βxi ))2 . (1)
α,β
i=1
Consulta
¿Cómo calcular los parámetros β̂ y α̂, a partir de la función objetivo presentada
en (1)?
Estimación de parámetros por mı́nimos cuadrados
Proposición: los estimadores de mı́nimos cuadrados para α y β satisfacen:
Sxy
β̂ = y α̂ = ȳ − β̂ x̄.
Sxx
Valor estimado para un determinado x:
ŷ = α̂ + β̂x.
Ej. Obtener los parámetros de la regresión lineal, que relacionan a y con x para
el caso de estudio.
n
(yi − ŷi )2
P
i=1
R2 = 1 − = 0.5707.
Syy
H0 : β = 0; Ha : β 6= 0
¿Por qué?
β = 0 significa que no hay ninguna razón para utilizar la variable independiente
como estimador de la dependiente.
Prueba de hipótesis en una regresión lineal simple
Antes de desarrollar un Estadı́stico de Prueba para la significancia de β,
primero se debe identificar el tipo de distribución de mı́nimos cuadrados del
estimador de β.
Teorema
Sxy
Condicionado al conocimiento de x1 , . . . , xn , la distribución de β̂ = es
Sxx
σ̂ 2
β̂ ∼ N (β, ).
Sxx
Prueba de hipótesis en una regresión lineal simple
Teorema (Casella and Berger)
β̂ − β
∼ tn−2 .
SE(β̂)
√
I SE(β̂) = σ̂/ Sxx , se denomina error estándar de la pendiente.
r n
1 P
I σ̂ = (yi − ŷi )2 , se denomina error estándar del estimado.
n − 2 i=1
H0 : α = 0; Ha : α 6= 0
α̂
Tα = ∼ tn−2 ,
SE(α̂)
r
1 x̄2
donde SE(α̂) = σ̂ + es el error estándar del intercepto
n Sxx
Ejemplo regresión lineal - Resultados
Descripción: a partir de los resultados obtenidos del análisis de regresión lineal
para el conjunto de datos de la temporada regular 2008 de la NFL, determine:
Ej. ¿Es β un parámetro significante para la regresión?
Ej. ¿Es α un parámetro significante para la regresión?
Análisis de significancia a partir de la varianza
Introducción: en general, el análisis de significancia a partir de la varianza
cumple con el mismo procedimiento de prueba de hipótesis para la media.
1. Hipótesis nula y alternativa 1. Prueba para β
2. Nivel de significancia H0 : β = 0; Ha : β 6= 0
3. *Estadı́stico de Prueba 2. Estadı́stico de Prueba (ver
4. Regla de decisión diapositivas siguientes)
5. Conclusión 3. Valor-p, el cálculo es semejante
al realizado con Zobs o Tobs ,
6. *Valor-p pero se debe utilizar la
Nota: los elementos con asterisco son distribución F (ver diapositivas
los cambios particulares del siguientes).
procedimiento.
Análisis de significancia a partir de la varianza
Identidad de la varianza:
X n n
X n
X
2 2
(yi − ȳ) = (ŷi − ȳ) + (yi − ŷi )2
i=1 i=1 i=1
SSR /1 M SR
Fobs = =
SSE /(n − 2) M SE
Análisis de significancia a partir de la varianza
Estadı́stico de prueba F , al igual que Z y t tiene una distribución de
probabilidad especifica, ésta se basada en la distribución chi-cuadrado positiva.
Sea fα,v1 ,v2 un punto de la distribución F donde α es la probabilidad que
excede el valor f , v1 y v2 son los grados de libertad del numerador y el
denominador del Estadifico de Prueba.
Excel: Excel:
Inglés: F.DIST.RT(X,Dof-1,Dof-2) Inglés: F.INV.RT(Prob,Dof-1,Dof-2)
Español: DISTR.F.CD(X,GL-1,GL-2) Español: INV.F.CD(Prob,GL-1,GL-2)
Estimación de intervalo de confianza en una regresión lineal
simple
Intervalo de confianza para la pendiente y el intercepto
Usando el estadı́stico t se construye un intervalo de confianza para los
parámetros α y β:
Normalidad
R² = 0.9471
15.00
10.00
Residuales [Pts]
5.00
0.00
-5.00
-10.00
-15.00
-2.50 -1.50 -0.50 0.50 1.50 2.50
Valor - Z
Verificación de supuestos de una regresión lineal
(Trabajo autónomo)Varianza constante: este gráfico consiste en un
diagrama de dispersión del error vs la variable independiente
10.00
Residuales [Pts]
5.00
0.00
-5.00
-10.00
-15.00
5 5.5 6 6.5 7 7.5 8 8.5 9
Yardas por intento [yr}
Informe derivado del Complemento de Regresión lineal Excel
BIBLIOGRAFÍA I
[1] D. C. Montgomery and G. C. Runger, Applied statistics and probability for
engineers, 6th ed. John Wiley and Sons, Inc, 2014.