TEMA - Regresion Lineal

Estadı́stica y Diseño de Experimentos
David Rozo Osorio, I. M, M.Sc
29 de marzo de 2019
REGRESIÓN LINEAL SIMPLE Y
CORRELACIÓN
Análisis de regresión [1]
Objetivos
I Calcular e interpretar la relación entre dos variables
I Definir la variable dependiente e independiente en una regresión
I Evaluar significancia de los parámetros de la ecuación de regresión para
predecir la variable dependiente
I Calcular e interpretar un intervalo de confianza para la regresión y para la
predicción.
Modelado probabilı́stico (APB)
En la temporada regular de 2008 de la National Football League (NFL) se recolectaron los
datos correspondientes a la cantidad de yardas obtenidas por intento de pase (YPA) de cada
mariscal de campo (QB) y al final de la temporada, fue presentado el ranking de mariscales de
campo (passer rating) (0-158.3).
En la siguiente diapositiva, encontrará la información correspondiente a estas dos variables y
su trabajo consistirá en analizar:
1. ¿Entre estas dos variables hay una relación (apreciación cualitativa y cuantitativa)? En
caso afirmativo, ¿qué tipo de relación hay?
2. Defina un modelo lineal probabilı́stico del que relacione las 2 variables del estudio. Para
ello utilice use YPA como variable independiente. ¿la calificación que recibe el mariscal de
campo únicamente depende del número de yardas por intento de pase?
3. Verifique el nivel de ajuste del modelo con respecto a los datos experimentales.
4. Pruebe la significancia de los parámetros del modelo.
5. Determine un intervalo de confianza para cada parámetro.
6. Verifique los supuestos del modelo probabilı́stico lineal.
Modelado (APB)
Jugador, (Equipo) Yardas por Puntaje de Jugador, (Equipo) Yardas por Puntaje de
intento calificación intento calificación
(Yr) (Pts) (Yr) (Pts)
Philip Rivers (SD) 8.39 105.5 Seneca Wallace (SEA) 6.33 87.0
Chad Pennington (MIA) 7.67 97.4 Eli Manning (NYG) 6.76 86.4
Kurt Warner (ARI) 7.66 96.9 Jay Cutler (DEN) 7.35 86.0
Drew Brees (NO) 7.98 96.2 Jake Delhomme (CAR) 7.94 84.7
Peyton Manning (IND) 7.21 95.0 Jason Campbell (WAS) 6.41 84.3
Aaron Rodgers (GB) 7.53 93.8 Brett Favre (NYJ) 6.65 81.0
Tony Romo (DAL) 7.66 91.4 Joe Flacco (BAL) 6.94 80.3
Matt Cassel (NE) 7.16 89.4 Ben Roethlisberger (PIT) 7.04 80.1
Matt Ryan (ATL) 7.93 87.7 Gus Freotte (MIN) 7.17 73.7
Marc Bulger (STL) 6.18 71.4 Ryan Fitzpatrick (CIN) 5.12 70.0
Diagrama de dispersión
Este tipo de diagrama es utilizado para visualizar conjuntos de datos multivariable, donde se
asume que la información esta contenida como una pareja ordenada.
Un diagrama de dispersión permite identificar de manera gráfica la relación que existe entre
las dos variables. Usualmente, la variable dependientes se ubica en el eje vertical y la
independiente en el eje horizontal.
Diagrama de dispersión
110
Puntaje de Calificación [Pts]
105
100
95
90
85
80
75
70
65
4.5 5 5.5 6 6.5 7 7.5 8 8.5 9
Yardas por intento [yr]
Coeficiente de correlación lineal muestral
A partir de un conjunto de datos en parejas ordenadas y con la siguiente
notación:
(x1 , y1 ), . . . , (xn , yn );
suma de cuadrados:
Xn n
X
Sxx = (xi − x̄)2 y Syy = (yi − ȳ)2 ,
i=1 i=1
y la suma de producto cruzado:

n
X
Sxy = (xi − x̄)(yi − ȳ).
i=1
El coeficiente de correlación lineal muestral (Karl Pearson) se define como:

Sxy
r=√ p
Sxx Syy
Propiedades de una correlación muestral
1. Muestra la dirección y la fuerza de la relación lineal entre 2 variables.
2. El rango de este factor es entre −1 y 1 incluyéndolos.
3. Un valor cerca de 0 demuestra poca relación lineal entre las 2 variables. Ésto
es una indicación de una posible relación no lineal.
4. Un valor cerca de 1 indica una fuerte relación directa (positiva) entre las 2
variables.
5. Un valor cerca de −1 indica una fuerte relación inversa (negativa) entre las
2 variables.
Ej. Calcular el coeficiente de correlación lineal (coeficiente de Pearson) para el

conjunto de datos de la temporada regular 2008 NFL.
Correlación poblacional
Nota: r es un estimador de la correlación entre las variables aleatorias X y Y .
Definición:
La correlacción entre 2 variables aleatorias X y Y es:
Cov(X, Y )
ρXY = ,
σX σY
donde σX y σY son las correspondientes desviaciones estándar de X y Y , y
Cov(X, Y ) es la covarianza de las dos variables aleatorias X y Y :
Cov(X, Y ) = E((X − µX )(Y − µY )),
donde µX y µY , son los valores esperados de X y Y , respectivamente.

Propiedades correlación poblacional
Para cualquier variable aleatoria X y Y :
1. −1 ≤ ρXY ≤ 1.
2. Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y ).
3. Si X y Y son independientes, ρXY = Cov(X, Y ) = 0.
4. El coeficiente de correlación unicamente indica si hay dependencia lineal, es
posible que dos variables tengan otro tipo de relación la cual puede no ser
lineal.
Nota: El factor de correlación lineal r estima el grado de dependencia lineal
entre 2 variables aleatorias X y Y .
Independencia y Dependencia
Al identificar la dependencia lineal entre X y Y , es posible predecir una
variable en términos de la otra:
I La variable independiente (predictor) X provee información para la
estimación.
I La variable dependiente (respuesta) Y es la variable que esta siendo
estimada.
Pregunta: Suponiendo que X es observada: xi . ¿Cómo se puede predecir un
valor de yi ?
Regresión lineal simple
Contexto: en 1885 Sir Francis Galton Investigó la relación entre la altura de los
padres y los hijos.
Modelo: debido a que la relación no es perfectamente lineal, se requiere
agregar una desviación aleatoria a la relación lineal.
Definición: modelo de regresión lineal simple
yi = α + βxi + i , donde i = 1, . . . , n.
I α y β son denominadas intercepto y pendiente de la regresión. Estos

parámetros se definen como fijos y desconocidos.
I i , . . . , n ∼ i.i.d N (µ, σ 2 ) = N (0, σ 2 ).
I σ > 0 es un parámetros fijo y es desconocido.
Regresión lineal simple
Modelo: Suponiendo que se observa la variable aleatoria independiente xi s,
entonces yi s son mutuamente independientes y normalmente distribuidos con:
E(yi ) = α + βxi y Var(yi ) = σ 2
Pregunta
Teniendo en cuenta que, si α y β para un determinado x son conocidos, es
posible predecir y. ¿Cómo estimar a α y a β?
Estimación de parámetros por mı́nimos cuadrados
Definición: la estimación de mı́nimos cuadrados de α y β consiste en
minimizar la suma del cuadrado de la distancia vertical entre el valor actual y y el
valor estimado de ŷ:
( n
)
X
(α̂, β̂) = arg mı́n (yi − (α + βxi ))2 . (1)
α,β
i=1
Consulta
¿Cómo calcular los parámetros β̂ y α̂, a partir de la función objetivo presentada
en (1)?
Estimación de parámetros por mı́nimos cuadrados
Proposición: los estimadores de mı́nimos cuadrados para α y β satisfacen:
Sxy
β̂ = y α̂ = ȳ − β̂ x̄.
Sxx
Valor estimado para un determinado x:
ŷ = α̂ + β̂x.
Ej. Obtener los parámetros de la regresión lineal, que relacionan a y con x para
el caso de estudio.
β̂ = 9.096 Pts/Yr, α̂ = 21.836 Pts, ŷ = 9.096x + 21.836
1. Interpretación de la pendiente β de la regresión.

2. Estimar cual serı́a el puntaje de un mariscal de campo, si el promedio de
yardas por intento es de 8.50 Yr.
Coeficiente de determinación
Pregunta: ¿Cómo medir el ajuste lineal que describe los datos?
Es necesario evaluar la habilidad de la ecuación de regresión para estimar la
variable dependiente.
Definición: el coeficiente de determinación R2
n n
(ŷi − ȳ)2 (yi − ŷi )2
P P
2
Sxy
R2 = = i=1
n =1− i=1
,
Sxx Syy P 2 Syy
(yi − ȳ)
i=1
donde yi − ŷi son llamados residuales.

Propiedades del coeficiente de determinación
1. R2 es una proporción de la variación de la aproximación lineal.
2. 0 ≤ R2 ≤ 1.
3. R2 aproximadamente 1, el modelo de regresión lineal describe fuertemente la
relación que hay entre las 2 variables.
4. R2 aproximadamente 0, el modelo de regresión lineal describe débilmente la
relación que hay entre las 2 variables.
Ej. Calcular el coeficiente de determinación para el conjunto de datos de la

temporada regular 2008 de la NFL:
n
(yi − ŷi )2
P
i=1
R2 = 1 − = 0.5707.
Syy
Ej. Interpretación del coeficiente de determinación.

Estimación de σ 2
La varianza σ 2 es otro parámetro desconocido en el modelo de regresión
( ∼ σ 2 ). A partir de los residuales es posible estimar a σ 2 :
n
X n
X
SSE = e2i = (yi − ŷi )2
i=1 i=1
Al calcular el valor esperado de la suma del error cuadrático, se determina que

es un estimador insesgado para σ 2 , por lo tanto:
SSE
σ̂ 2 = ,
n−2
SSE puede ser calculado de forma alternativa, teniendo en cuenta el modelo de
regresión estimado:
SSE = SST − β̂Sxy ,
n
donde: SST = (yi − ȳ)2
P
i=1
Error de estimación estándar
Error de estimación estándar para la pendiente:
s
σ̂ 2
SE(β̂) =
Sxx
Error de estimación para el intercepto

s
x̄2

1
SE(α̂) = σ̂ 2 +
n Sxx
Ej. Calcular la varianza para la regresión σ̂ 2 y los coeficientes de error para β̂ y

α̂
Prueba de hipótesis en una regresión lineal simple
Nota: un coeficiente R2 aproximadamente a 1 no define que α y β son
significantes. Una prueba de hipótesis sobre los estimadores α y β, permite
realizar una valoración del peso que tienen en la regresión.
Prueba de significancia de β
H0 : β = 0; Ha : β 6= 0
¿Por qué?
β = 0 significa que no hay ninguna razón para utilizar la variable independiente
como estimador de la dependiente.
Antes de desarrollar un Estadı́stico de Prueba para la significancia de β,
primero se debe identificar el tipo de distribución de mı́nimos cuadrados del
estimador de β.
Teorema
Sxy
Condicionado al conocimiento de x1 , . . . , xn , la distribución de β̂ = es
Sxx
σ̂ 2
β̂ ∼ N (β, ).
Sxx
Teorema (Casella and Berger)
β̂ − β
∼ tn−2 .
SE(β̂)
√
I SE(β̂) = σ̂/ Sxx , se denomina error estándar de la pendiente.
r n
1 P
I σ̂ = (yi − ŷi )2 , se denomina error estándar del estimado.
n − 2 i=1
Teniendo en cuenta que la varianza β̂

poblacional es desconocida, el Tβ = ∼ tn−2 .
Estadı́stico de prueba de la prueba de SE(β̂)
significancia para β (H0 : β = 0), es:
Prueba de significancia de α
H0 : α = 0; Ha : α 6= 0
Teniendo en cuenta que la varianza poblacional es desconocida, el Estadı́stico

de prueba de la prueba de significancia para β (H0 : α = 0), es:
α̂
Tα = ∼ tn−2 ,
SE(α̂)
r
1 x̄2
donde SE(α̂) = σ̂ + es el error estándar del intercepto
n Sxx
Ejemplo regresión lineal - Resultados
Descripción: a partir de los resultados obtenidos del análisis de regresión lineal
para el conjunto de datos de la temporada regular 2008 de la NFL, determine:
Ej. ¿Es β un parámetro significante para la regresión?
Ej. ¿Es α un parámetro significante para la regresión?
Análisis de significancia a partir de la varianza
Introducción: en general, el análisis de significancia a partir de la varianza
cumple con el mismo procedimiento de prueba de hipótesis para la media.
1. Hipótesis nula y alternativa 1. Prueba para β
2. Nivel de significancia H0 : β = 0; Ha : β 6= 0
3. *Estadı́stico de Prueba 2. Estadı́stico de Prueba (ver
4. Regla de decisión diapositivas siguientes)
5. Conclusión 3. Valor-p, el cálculo es semejante
al realizado con Zobs o Tobs ,
6. *Valor-p pero se debe utilizar la
Nota: los elementos con asterisco son distribución F (ver diapositivas
los cambios particulares del siguientes).
procedimiento.
Identidad de la varianza:
X n n
X n
X
2 2
(yi − ȳ) = (ŷi − ȳ) + (yi − ŷi )2
i=1 i=1 i=1
Suma del error cuadrático Suma del cuadrado de la regresión

n n
SSE = (yi − ŷi )2 SSR = (ŷi − ȳ)2
P P
i=1 i=1
Teniendo en cuenta que este análisis de significancia para β, se realiza a partir

de variables estadı́sticas muestrales, y en particular, por medio de la varianza de
la regresión estimada, se tiene un Estadı́stico de Prueba (F ):
SSR /1 M SR
Fobs = =
SSE /(n − 2) M SE
Estadı́stico de prueba F , al igual que Z y t tiene una distribución de
probabilidad especifica, ésta se basada en la distribución chi-cuadrado positiva.
Sea fα,v1 ,v2 un punto de la distribución F donde α es la probabilidad que
excede el valor f , v1 y v2 son los grados de libertad del numerador y el
denominador del Estadifico de Prueba.
Para una regresión lineal simple, los

grados de libertad en el numerador
v1 siempre será 1. Los grados de
libertad del denominador v2 se
calculan como n − 2.
Excel: Excel:
Inglés: F.DIST.RT(X,Dof-1,Dof-2) Inglés: F.INV.RT(Prob,Dof-1,Dof-2)
Español: DISTR.F.CD(X,GL-1,GL-2) Español: INV.F.CD(Prob,GL-1,GL-2)
Estimación de intervalo de confianza en una regresión lineal
simple
Intervalo de confianza para la pendiente y el intercepto
Usando el estadı́stico t se construye un intervalo de confianza para los
parámetros α y β:
IC(α, 1 − α∗ ) = [α̂ ± tα∗ /2,n−2 · SE(α̂)]

IC(β, 1 − α∗ ) = [β̂ ± tα∗ /2,n−2 · SE(β̂)]
En general, el valor ŷ es una predicción de y, una posibilidad por lo tanto, es

una practica responsable representar a ŷ como un rango de valores de predicción.
Estimación de intervalo de confianza en una regresión lineal
simple
Intervalo de confianza para el valor estimado
Intervalo de predicción (1 − α∗ ) para y, a partir de un valor de x es:
 s 
2
1 (x − x̄) 
IP (y, 1 − α∗ ) = ŷ ± tα∗ /2,n−2 · σ̂ 1+ + ,
n Sxx
donde σ̂ es el error estándar de estimación.

Ejemplo Intervalo de confianza y predicción
Descripción: a partir de los resultados obtenidos del análisis de regresión lineal
para el conjunto de datos de la temporada regular 2008 de la NFL, determine:
1. Un intervalo de confianza del 95 % para α y β.

2. Un intervalo de predicción del 95 % para cual serı́a el puntaje de un mariscal
de campo, si el promedio de yardas por intento es de 8.50 Yr.
Verificación de supuestos de una regresión lineal
Normalidad
1. Calcular el error de estimación (residuales) ei = (yi − ŷi ).
2. Ordenar el conjunto de ei de menor a mayor.
i−a
3. Calcular el percentil equivalente a cada ei con base en la formula con a = 1/2.
n + 1 − 2a
4. Determinar el valor-Z correspondiente al percentil (probabilidad) para cada ei ,
INV.NORM.ESTAND(probabilidad).
5. Gráficar el diagrama de dispersión error vs valor-Z.
6. Concluir si el conjunto de valores ei pueden ser considerados una muestra normal.
Normalidad
R² = 0.9471
15.00
10.00
Residuales [Pts]
5.00
0.00
-5.00
-10.00
-15.00
-2.50 -1.50 -0.50 0.50 1.50 2.50
Valor - Z
Verificación de supuestos de una regresión lineal
(Trabajo autónomo)Varianza constante: este gráfico consiste en un
diagrama de dispersión del error vs la variable independiente
Diagrama de varianza constante

15.00
10.00
Residuales [Pts]
5.00
0.00
-5.00
-10.00
-15.00
5 5.5 6 6.5 7 7.5 8 8.5 9
Yardas por intento [yr}
Informe derivado del Complemento de Regresión lineal Excel
BIBLIOGRAFÍA I
[1] D. C. Montgomery and G. C. Runger, Applied statistics and probability for
engineers, 6th ed. John Wiley and Sons, Inc, 2014.

TEMA - Regresion Lineal

Cargado por

Copyright:

Formatos disponibles

TEMA - Regresion Lineal

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

TEMA - Regresion Lineal

Cargado por

Copyright:

Formatos disponibles

Estadı́stica y Diseño de Experimentos

David Rozo Osorio, I. M, M.Sc

y la suma de producto cruzado:

El coeficiente de correlación lineal muestral (Karl Pearson) se define como:

Ej. Calcular el coeficiente de correlación lineal (coeficiente de Pearson) para el

Cov(X, Y ) = E((X − µX )(Y − µY )),

donde µX y µY , son los valores esperados de X y Y , respectivamente.

I α y β son denominadas intercepto y pendiente de la regresión. Estos

E(yi ) = α + βxi y Var(yi ) = σ 2

β̂ = 9.096 Pts/Yr, α̂ = 21.836 Pts, ŷ = 9.096x + 21.836

1. Interpretación de la pendiente β de la regresión.

donde yi − ŷi son llamados residuales.

Ej. Calcular el coeficiente de determinación para el conjunto de datos de la

Ej. Interpretación del coeficiente de determinación.

Al calcular el valor esperado de la suma del error cuadrático, se determina que

Error de estimación para el intercepto

Ej. Calcular la varianza para la regresión σ̂ 2 y los coeficientes de error para β̂ y

Teniendo en cuenta que la varianza β̂

Teniendo en cuenta que la varianza poblacional es desconocida, el Estadı́stico

Suma del error cuadrático Suma del cuadrado de la regresión

Teniendo en cuenta que este análisis de significancia para β, se realiza a partir

Para una regresión lineal simple, los

IC(α, 1 − α∗ ) = [α̂ ± tα∗ /2,n−2 · SE(α̂)]

En general, el valor ŷ es una predicción de y, una posibilidad por lo tanto, es

donde σ̂ es el error estándar de estimación.

1. Un intervalo de confianza del 95 % para α y β.

Diagrama de varianza constante

También podría gustarte