TEMA - Regresion Lineal

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 34

Estadı́stica y Diseño de Experimentos

David Rozo Osorio, I. M, M.Sc

29 de marzo de 2019
REGRESIÓN LINEAL SIMPLE Y
CORRELACIÓN
Análisis de regresión [1]
Objetivos
I Calcular e interpretar la relación entre dos variables
I Definir la variable dependiente e independiente en una regresión
I Evaluar significancia de los parámetros de la ecuación de regresión para
predecir la variable dependiente
I Calcular e interpretar un intervalo de confianza para la regresión y para la
predicción.
Modelado probabilı́stico (APB)
En la temporada regular de 2008 de la National Football League (NFL) se recolectaron los
datos correspondientes a la cantidad de yardas obtenidas por intento de pase (YPA) de cada
mariscal de campo (QB) y al final de la temporada, fue presentado el ranking de mariscales de
campo (passer rating) (0-158.3).
En la siguiente diapositiva, encontrará la información correspondiente a estas dos variables y
su trabajo consistirá en analizar:

1. ¿Entre estas dos variables hay una relación (apreciación cualitativa y cuantitativa)? En
caso afirmativo, ¿qué tipo de relación hay?
2. Defina un modelo lineal probabilı́stico del que relacione las 2 variables del estudio. Para
ello utilice use YPA como variable independiente. ¿la calificación que recibe el mariscal de
campo únicamente depende del número de yardas por intento de pase?
3. Verifique el nivel de ajuste del modelo con respecto a los datos experimentales.
4. Pruebe la significancia de los parámetros del modelo.
5. Determine un intervalo de confianza para cada parámetro.
6. Verifique los supuestos del modelo probabilı́stico lineal.
Modelado (APB)
Jugador, (Equipo) Yardas por Puntaje de Jugador, (Equipo) Yardas por Puntaje de
intento calificación intento calificación
(Yr) (Pts) (Yr) (Pts)

Philip Rivers (SD) 8.39 105.5 Seneca Wallace (SEA) 6.33 87.0

Chad Pennington (MIA) 7.67 97.4 Eli Manning (NYG) 6.76 86.4

Kurt Warner (ARI) 7.66 96.9 Jay Cutler (DEN) 7.35 86.0

Drew Brees (NO) 7.98 96.2 Jake Delhomme (CAR) 7.94 84.7

Peyton Manning (IND) 7.21 95.0 Jason Campbell (WAS) 6.41 84.3

Aaron Rodgers (GB) 7.53 93.8 Brett Favre (NYJ) 6.65 81.0

Tony Romo (DAL) 7.66 91.4 Joe Flacco (BAL) 6.94 80.3

Matt Cassel (NE) 7.16 89.4 Ben Roethlisberger (PIT) 7.04 80.1

Matt Ryan (ATL) 7.93 87.7 Gus Freotte (MIN) 7.17 73.7

Marc Bulger (STL) 6.18 71.4 Ryan Fitzpatrick (CIN) 5.12 70.0
Diagrama de dispersión
Este tipo de diagrama es utilizado para visualizar conjuntos de datos multivariable, donde se
asume que la información esta contenida como una pareja ordenada.

Un diagrama de dispersión permite identificar de manera gráfica la relación que existe entre
las dos variables. Usualmente, la variable dependientes se ubica en el eje vertical y la
independiente en el eje horizontal.
Diagrama de dispersión
110
Puntaje de Calificación [Pts]

105
100
95
90
85
80
75
70
65
4.5 5 5.5 6 6.5 7 7.5 8 8.5 9
Yardas por intento [yr]
Coeficiente de correlación lineal muestral
A partir de un conjunto de datos en parejas ordenadas y con la siguiente
notación:
(x1 , y1 ), . . . , (xn , yn );
suma de cuadrados:
Xn n
X
Sxx = (xi − x̄)2 y Syy = (yi − ȳ)2 ,
i=1 i=1

y la suma de producto cruzado:


n
X
Sxy = (xi − x̄)(yi − ȳ).
i=1

El coeficiente de correlación lineal muestral (Karl Pearson) se define como:


Sxy
r=√ p
Sxx Syy
Propiedades de una correlación muestral
1. Muestra la dirección y la fuerza de la relación lineal entre 2 variables.
2. El rango de este factor es entre −1 y 1 incluyéndolos.
3. Un valor cerca de 0 demuestra poca relación lineal entre las 2 variables. Ésto
es una indicación de una posible relación no lineal.
4. Un valor cerca de 1 indica una fuerte relación directa (positiva) entre las 2
variables.
5. Un valor cerca de −1 indica una fuerte relación inversa (negativa) entre las
2 variables.

Ej. Calcular el coeficiente de correlación lineal (coeficiente de Pearson) para el


conjunto de datos de la temporada regular 2008 NFL.
Correlación poblacional
Nota: r es un estimador de la correlación entre las variables aleatorias X y Y .
Definición:
La correlacción entre 2 variables aleatorias X y Y es:

Cov(X, Y )
ρXY = ,
σX σY
donde σX y σY son las correspondientes desviaciones estándar de X y Y , y
Cov(X, Y ) es la covarianza de las dos variables aleatorias X y Y :

Cov(X, Y ) = E((X − µX )(Y − µY )),

donde µX y µY , son los valores esperados de X y Y , respectivamente.


Propiedades correlación poblacional
Para cualquier variable aleatoria X y Y :
1. −1 ≤ ρXY ≤ 1.
2. Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y ).
3. Si X y Y son independientes, ρXY = Cov(X, Y ) = 0.
4. El coeficiente de correlación unicamente indica si hay dependencia lineal, es
posible que dos variables tengan otro tipo de relación la cual puede no ser
lineal.
Nota: El factor de correlación lineal r estima el grado de dependencia lineal
entre 2 variables aleatorias X y Y .
Independencia y Dependencia
Al identificar la dependencia lineal entre X y Y , es posible predecir una
variable en términos de la otra:
I La variable independiente (predictor) X provee información para la
estimación.
I La variable dependiente (respuesta) Y es la variable que esta siendo
estimada.
Pregunta: Suponiendo que X es observada: xi . ¿Cómo se puede predecir un
valor de yi ?
Regresión lineal simple
Contexto: en 1885 Sir Francis Galton Investigó la relación entre la altura de los
padres y los hijos.
Modelo: debido a que la relación no es perfectamente lineal, se requiere
agregar una desviación aleatoria a la relación lineal.
Definición: modelo de regresión lineal simple

yi = α + βxi + i , donde i = 1, . . . , n.

I α y β son denominadas intercepto y pendiente de la regresión. Estos


parámetros se definen como fijos y desconocidos.
I i , . . . , n ∼ i.i.d N (µ, σ 2 ) = N (0, σ 2 ).
I σ > 0 es un parámetros fijo y es desconocido.
Regresión lineal simple
Modelo: Suponiendo que se observa la variable aleatoria independiente xi s,
entonces yi s son mutuamente independientes y normalmente distribuidos con:

E(yi ) = α + βxi y Var(yi ) = σ 2

Pregunta
Teniendo en cuenta que, si α y β para un determinado x son conocidos, es
posible predecir y. ¿Cómo estimar a α y a β?
Estimación de parámetros por mı́nimos cuadrados
Definición: la estimación de mı́nimos cuadrados de α y β consiste en
minimizar la suma del cuadrado de la distancia vertical entre el valor actual y y el
valor estimado de ŷ:
( n
)
X
(α̂, β̂) = arg mı́n (yi − (α + βxi ))2 . (1)
α,β
i=1

Consulta
¿Cómo calcular los parámetros β̂ y α̂, a partir de la función objetivo presentada
en (1)?
Estimación de parámetros por mı́nimos cuadrados
Proposición: los estimadores de mı́nimos cuadrados para α y β satisfacen:

Sxy
β̂ = y α̂ = ȳ − β̂ x̄.
Sxx
Valor estimado para un determinado x:
ŷ = α̂ + β̂x.

Ej. Obtener los parámetros de la regresión lineal, que relacionan a y con x para
el caso de estudio.

β̂ = 9.096 Pts/Yr, α̂ = 21.836 Pts, ŷ = 9.096x + 21.836

1. Interpretación de la pendiente β de la regresión.


2. Estimar cual serı́a el puntaje de un mariscal de campo, si el promedio de
yardas por intento es de 8.50 Yr.
Coeficiente de determinación
Pregunta: ¿Cómo medir el ajuste lineal que describe los datos?
Es necesario evaluar la habilidad de la ecuación de regresión para estimar la
variable dependiente.
Definición: el coeficiente de determinación R2
n n
(ŷi − ȳ)2 (yi − ŷi )2
P P
2
Sxy
R2 = = i=1
n =1− i=1
,
Sxx Syy P 2 Syy
(yi − ȳ)
i=1

donde yi − ŷi son llamados residuales.


Propiedades del coeficiente de determinación
1. R2 es una proporción de la variación de la aproximación lineal.
2. 0 ≤ R2 ≤ 1.
3. R2 aproximadamente 1, el modelo de regresión lineal describe fuertemente la
relación que hay entre las 2 variables.
4. R2 aproximadamente 0, el modelo de regresión lineal describe débilmente la
relación que hay entre las 2 variables.

Ej. Calcular el coeficiente de determinación para el conjunto de datos de la


temporada regular 2008 de la NFL:

n
(yi − ŷi )2
P
i=1
R2 = 1 − = 0.5707.
Syy

Ej. Interpretación del coeficiente de determinación.


Estimación de σ 2
La varianza σ 2 es otro parámetro desconocido en el modelo de regresión
( ∼ σ 2 ). A partir de los residuales es posible estimar a σ 2 :
n
X n
X
SSE = e2i = (yi − ŷi )2
i=1 i=1

Al calcular el valor esperado de la suma del error cuadrático, se determina que


es un estimador insesgado para σ 2 , por lo tanto:
SSE
σ̂ 2 = ,
n−2
SSE puede ser calculado de forma alternativa, teniendo en cuenta el modelo de
regresión estimado:
SSE = SST − β̂Sxy ,
n
donde: SST = (yi − ȳ)2
P
i=1
Error de estimación estándar
Error de estimación estándar para la pendiente:
s
σ̂ 2
SE(β̂) =
Sxx

Error de estimación para el intercepto


s
x̄2
 
1
SE(α̂) = σ̂ 2 +
n Sxx

Ej. Calcular la varianza para la regresión σ̂ 2 y los coeficientes de error para β̂ y


α̂
Prueba de hipótesis en una regresión lineal simple
Nota: un coeficiente R2 aproximadamente a 1 no define que α y β son
significantes. Una prueba de hipótesis sobre los estimadores α y β, permite
realizar una valoración del peso que tienen en la regresión.
Prueba de significancia de β

H0 : β = 0; Ha : β 6= 0

¿Por qué?
β = 0 significa que no hay ninguna razón para utilizar la variable independiente
como estimador de la dependiente.
Prueba de hipótesis en una regresión lineal simple
Antes de desarrollar un Estadı́stico de Prueba para la significancia de β,
primero se debe identificar el tipo de distribución de mı́nimos cuadrados del
estimador de β.
Teorema
Sxy
Condicionado al conocimiento de x1 , . . . , xn , la distribución de β̂ = es
Sxx

σ̂ 2
β̂ ∼ N (β, ).
Sxx
Prueba de hipótesis en una regresión lineal simple
Teorema (Casella and Berger)

β̂ − β
∼ tn−2 .
SE(β̂)

I SE(β̂) = σ̂/ Sxx , se denomina error estándar de la pendiente.
r n
1 P
I σ̂ = (yi − ŷi )2 , se denomina error estándar del estimado.
n − 2 i=1

Teniendo en cuenta que la varianza β̂


poblacional es desconocida, el Tβ = ∼ tn−2 .
Estadı́stico de prueba de la prueba de SE(β̂)
significancia para β (H0 : β = 0), es:
Prueba de hipótesis en una regresión lineal simple
Prueba de significancia de α

H0 : α = 0; Ha : α 6= 0

Teniendo en cuenta que la varianza poblacional es desconocida, el Estadı́stico


de prueba de la prueba de significancia para β (H0 : α = 0), es:

α̂
Tα = ∼ tn−2 ,
SE(α̂)
r
1 x̄2
donde SE(α̂) = σ̂ + es el error estándar del intercepto
n Sxx
Ejemplo regresión lineal - Resultados
Descripción: a partir de los resultados obtenidos del análisis de regresión lineal
para el conjunto de datos de la temporada regular 2008 de la NFL, determine:
Ej. ¿Es β un parámetro significante para la regresión?
Ej. ¿Es α un parámetro significante para la regresión?
Análisis de significancia a partir de la varianza
Introducción: en general, el análisis de significancia a partir de la varianza
cumple con el mismo procedimiento de prueba de hipótesis para la media.
1. Hipótesis nula y alternativa 1. Prueba para β
2. Nivel de significancia H0 : β = 0; Ha : β 6= 0
3. *Estadı́stico de Prueba 2. Estadı́stico de Prueba (ver
4. Regla de decisión diapositivas siguientes)
5. Conclusión 3. Valor-p, el cálculo es semejante
al realizado con Zobs o Tobs ,
6. *Valor-p pero se debe utilizar la
Nota: los elementos con asterisco son distribución F (ver diapositivas
los cambios particulares del siguientes).
procedimiento.
Análisis de significancia a partir de la varianza
Identidad de la varianza:
X n n
X n
X
2 2
(yi − ȳ) = (ŷi − ȳ) + (yi − ŷi )2
i=1 i=1 i=1

Suma del error cuadrático Suma del cuadrado de la regresión


n n
SSE = (yi − ŷi )2 SSR = (ŷi − ȳ)2
P P
i=1 i=1

Teniendo en cuenta que este análisis de significancia para β, se realiza a partir


de variables estadı́sticas muestrales, y en particular, por medio de la varianza de
la regresión estimada, se tiene un Estadı́stico de Prueba (F ):

SSR /1 M SR
Fobs = =
SSE /(n − 2) M SE
Análisis de significancia a partir de la varianza
Estadı́stico de prueba F , al igual que Z y t tiene una distribución de
probabilidad especifica, ésta se basada en la distribución chi-cuadrado positiva.
Sea fα,v1 ,v2 un punto de la distribución F donde α es la probabilidad que
excede el valor f , v1 y v2 son los grados de libertad del numerador y el
denominador del Estadifico de Prueba.

Para una regresión lineal simple, los


grados de libertad en el numerador
v1 siempre será 1. Los grados de
libertad del denominador v2 se
calculan como n − 2.

Excel: Excel:
Inglés: F.DIST.RT(X,Dof-1,Dof-2) Inglés: F.INV.RT(Prob,Dof-1,Dof-2)
Español: DISTR.F.CD(X,GL-1,GL-2) Español: INV.F.CD(Prob,GL-1,GL-2)
Estimación de intervalo de confianza en una regresión lineal
simple
Intervalo de confianza para la pendiente y el intercepto
Usando el estadı́stico t se construye un intervalo de confianza para los
parámetros α y β:

IC(α, 1 − α∗ ) = [α̂ ± tα∗ /2,n−2 · SE(α̂)]


IC(β, 1 − α∗ ) = [β̂ ± tα∗ /2,n−2 · SE(β̂)]

En general, el valor ŷ es una predicción de y, una posibilidad por lo tanto, es


una practica responsable representar a ŷ como un rango de valores de predicción.
Estimación de intervalo de confianza en una regresión lineal
simple
Intervalo de confianza para el valor estimado
Intervalo de predicción (1 − α∗ ) para y, a partir de un valor de x es:
 s 
2
1 (x − x̄) 
IP (y, 1 − α∗ ) = ŷ ± tα∗ /2,n−2 · σ̂ 1+ + ,
n Sxx

donde σ̂ es el error estándar de estimación.


Ejemplo Intervalo de confianza y predicción
Descripción: a partir de los resultados obtenidos del análisis de regresión lineal
para el conjunto de datos de la temporada regular 2008 de la NFL, determine:

1. Un intervalo de confianza del 95 % para α y β.


2. Un intervalo de predicción del 95 % para cual serı́a el puntaje de un mariscal
de campo, si el promedio de yardas por intento es de 8.50 Yr.
Verificación de supuestos de una regresión lineal
Normalidad
1. Calcular el error de estimación (residuales) ei = (yi − ŷi ).
2. Ordenar el conjunto de ei de menor a mayor.
i−a
3. Calcular el percentil equivalente a cada ei con base en la formula con a = 1/2.
n + 1 − 2a
4. Determinar el valor-Z correspondiente al percentil (probabilidad) para cada ei ,
INV.NORM.ESTAND(probabilidad).
5. Gráficar el diagrama de dispersión error vs valor-Z.
6. Concluir si el conjunto de valores ei pueden ser considerados una muestra normal.

Normalidad
R² = 0.9471
15.00

10.00
Residuales [Pts]

5.00

0.00

-5.00

-10.00

-15.00
-2.50 -1.50 -0.50 0.50 1.50 2.50
Valor - Z
Verificación de supuestos de una regresión lineal
(Trabajo autónomo)Varianza constante: este gráfico consiste en un
diagrama de dispersión del error vs la variable independiente

Diagrama de varianza constante


15.00

10.00
Residuales [Pts]

5.00

0.00

-5.00

-10.00

-15.00
5 5.5 6 6.5 7 7.5 8 8.5 9
Yardas por intento [yr}
Informe derivado del Complemento de Regresión lineal Excel
BIBLIOGRAFÍA I
[1] D. C. Montgomery and G. C. Runger, Applied statistics and probability for
engineers, 6th ed. John Wiley and Sons, Inc, 2014.

También podría gustarte