U510 Regresion Lineal Covarianza
U510 Regresion Lineal Covarianza
U510 Regresion Lineal Covarianza
lineal y
Covarianza
Contenido
La Covarianza ...................................................................................................................................... 2
Ejemplo 1......................................................................................................................................... 4
Solución ....................................................................................................................................... 5
El Coeficiente de Correlación Lineal de Pearson ................................................................................. 6
Ejemplo 2......................................................................................................................................... 7
Solución ....................................................................................................................................... 7
Ejemplo 3......................................................................................................................................... 8
Solución ....................................................................................................................................... 8
Ejemplo 4......................................................................................................................................... 9
Solución ....................................................................................................................................... 9
Regresión Lineal Simple .................................................................................................................... 10
Ejemplo 5....................................................................................................................................... 12
Solución ..................................................................................................................................... 13
Calidad del ajuste .......................................................................................................................... 15
La Covarianza
Al estudiar un par de variables aleatorias, puede ser importante para el investigador
determinar si hay alguna relación entre estas variables.
𝜎 , = 𝐸{(𝑋 − 𝜇 )(𝑌 − 𝜇 )}
El valor de la covarianza es un número real, puede ser un valor positivo, negativo o cero.
Mientras el valor de σX ,Y se aleja más del cero, más evidencia hay de una fuerte relación
lineal entre las variables. Mientras el valor de σX ,Y este más cercano a cero, más evidencia
hay de NO relación lineal entre las variables.
(∑ 𝑥 )(∑ 𝑦)
∑ 𝑥𝑦 −
𝑆 = 𝑛
𝑛−1
Ejemplo 1
La siguiente tabla muestra el peso (libras) y la presión sistólica sanguínea (PSS) de una
muestra aleatoria de hombres con edades entre 25-30 años.
1. Calcular S XY
Observe que n = 26
(∑ 𝑥 )(∑ 𝑦)
∑ 𝑥𝑦 − 697076 − [(4743)(3786)]/26
𝑆 = 𝑛 = = 256.889
𝑛−1 26 − 1
Con el valor de σX ,Y es difícil darse cuenta que tan alejado del cero debe ser su valor para
inferir una fuerte relación lineal entre las variables. Por tal razón se define el coeficiente de
correlación lineal denotado por ρX ,Y o correlación lineal de Pearson que es un valor
estandarizado de σX ,Y .
𝑆 ,
𝑟=
𝑆 𝑆
donde S X es la desviación estándar muestral de los valores de X y SY es la desviación estándar
muestral de los valores de Y.
Ejemplo 2
Solución
r = 256.889/(24.749)(13.42) = 0.773,
Es el valor estimado de la correlación lineal de Pearson del peso y presión sanguínea es 0.773.
Dispersion
180
170
160
150 P…
140
130
120
120 140 160 180 200 220 240 260
𝑧 𝑧
𝑡𝑎𝑛ℎ arctanh(𝑟) − ] < 𝜌 < tanh[arctanh(𝑟) +
√𝑛 − 3 √𝑛 − 3
Ejemplo 3
Solución
1. Identificar datos
2. Aplicar la formula
𝑧 𝑧
𝑡𝑎𝑛ℎ arctanh(𝑟) − ] < 𝜌 < tanh[arctanh(𝑟) +
√𝑛 − 3 √𝑛 − 3
1.645 1.645
𝑡𝑎𝑛ℎ arctanh(0.773) − ] < 𝜌 < tanh[arctanh(0.773) +
√26 − 3 √26 − 3
1.645 1.645
𝑡𝑎𝑛ℎ 1.028 − ] < 𝜌 < tanh [1.028 +
√26 − 3 √26 − 3
1.645 1.645
𝑡𝑎𝑛ℎ 1.028 − ] < 𝜌 < tanh [1.028 +
√26 − 3 √26 − 3
es decir, hay una confianza del 90% de que el valor del coeficiente de correlación de Pearson
del peso y presión sanguínea es un valor entre 0.595 y 0.879.
Observe que el intervalo de confianza no incluye al valor de cero, razón por la cual se puede
inferir que ρtiene un valor diferente de cero.
𝑟√𝑛 − 2
𝑡=
√1 − 𝑟
Ejemplo 4
Se aplicará una prueba de hipótesis de ρ correspondiente a las variables del ejemplo 1 con
α = 0.01.
Solución
2. El estadístico de prueba es
𝑟√𝑛 − 2 0.773√26 − 2
𝑡= = = 5.97
√1 − 𝑟 √1 − 0.773
Es importante remarcar que los resultados del intervalo de confianza y la prueba de hipótesis
de ρ, son válidos si la distribución conjunta de las variables X, Y se ajusta a una
distribución normal bivariada.
Regresión Lineal Simple
La metodología de la regresión lineal simple tiene como objetivo ajustar una línea recta
(una ecuación de una recta) a un conjunto de puntos en el plano. El conjunto de puntos
en el plano es la gráfica de dispersión de los datos de una muestra aleatoria.
Suponer que un investigador sospecha que hay una relación lineal entre dos variables (X,Y)
donde el valor de Y depende o es función del valor de X, es decir y = f(x). A la variable X se
le llama variable independiente o variable predictora y a la variable Y se le llama variable
dependiente o variable de respuesta. Suponer que se toma una muestra aleatoria (de tamaño
n) de pares (x1, y1) , (x2 , y2 ) , (x3 , y3 ) ,..., (xn , yn ) y al construir su diagrama de dispersión
se desea obtener la ecuación de la recta que mejor se ajusta a los puntos, como se muestra en
la figura 5.
La diferencia principal entre un análisis de correlación y una regresión lineal simple es que
en el análisis de correlación se tiene que ambas variables (X, Y) son variables aleatorias y al
tomar la muestra el investigador no tiene control sobre los valores que observará de X ni de
Y. Por otra parte, en la regresión lineal se tiene que Y si es una variable aleatoria mientras que
X puede o no puede ser una variable aleatoria, es decir, puede darse el caso en que los valores
de X son controlados por el investigador (es típico en un diseño de experimentos) mientras
que los valores de Y definitivamente no son controlados por el investigador.
Entonces, para un valor fijo de X se supone que Y es una variable aleatoria con distribución
normal con media μ y|x y varianza σ2 (la varianza es constante para todo valor de x). Luego
se supone que hay una relación lineal entre las variables (X, Y) cuya ecuación es desconocida
y relaciona μy|x con x, esta ecuación se denota como:
𝜇 | =𝛽 +𝛽 𝑥
Para un valor particular y observado en cierto valor x se tiene la ecuación:
𝑦 =𝛽 +𝛽 𝑥+𝜀
Como los valores de β0 y β1 son desconocidos, se deben estimar a partir de los valores de
la muestra ( x1 , yi ).
𝑆
𝛽 =
𝑆
Donde:
(∑ 𝑥 )(∑ 𝑦 )
𝑆 = 𝑥𝑦 −
𝑛
(∑ 𝑥 )
𝑆 = (𝑥 ) −
𝑛
𝛽 =𝑌−𝛽 𝑋
(∑ 𝑦 )
𝑆 = (𝑦 ) −
𝑛
Ejemplo 5
Suponga los siguientes datos correspondientes a la tasa de cambio del peso mexicano por
un dólar referente al precio a la compra y a la venta.
Compra Venta
9.86 10.13
9.83 10.08
9.91 10.14
10.14 10.41
10.13 10.37
10.11 10.35
10 10.26
10.05 10.3
10.02 10.31
9.99 10.23
9.9 10.15
9.84 10
9.84 10.1
10.08 10.34
10.04 10.29
10.01 10.3
10.07 10.31
10.2 10.46
10.09 10.36
10.01 10.28
9.99 10.27
10.06 10.33
10.01 10.26
10.02 10.27
10.13 10.38
10.14 10.38
10.07 10.3
10.09 10.34
10.3 10.59
10.27 10.54
Solución
2. Identificar valores:
n = 30, Σxi = 301.20, Σyi = 308.83, Σ(xi )2 = 3024.447, Σ( yi )2 = 3179.671 y
Σxi yi = 3101.08.
3. Calcular las medias muestrales de ambas muestras:
301.20
𝑋= = 10.04
30
308.83
𝑌= = 10.294
30
4. Calcular 𝑆 , 𝑆 , 𝑆
(∑ 𝑥 )(∑ 𝑦 ) (301.20)(308.83)
𝑆 = 𝑥𝑦 − = 3101.08 − = 0.4268
𝑛 30
(∑ 𝑥 ) (301.20)
𝑆 = (𝑥 ) − = 3024.447 − = 0.399
𝑛 30
(∑ 𝑦 ) (308.83)
𝑆 = (𝑦 ) − = 3179.671 − = 0.472
𝑛 30
5. Calcular 𝛽
𝑆 0.4268
𝛽 = = = 1.07
𝑆 0.399
6. Calcular 𝛽
𝛽 = 𝑌 − 𝛽 𝑋 = 10.294 − (1.07)(10.04) = −0.449
𝜇 | = 𝛽 + 𝛽 𝑥 = −0.449 + 1.07𝑥
8. Graficar
Calidad del ajuste
La calidad del ajuste se evalúa mediante el coeficiente de determinación que se denota por
R2 que toma valores entre cero y uno [0 ≤ R2 ≤ 1], o entre cero y 100 si se expresa como
porcentaje. Solo para el caso de una regresión lineal simple se tiene que R2 = r 2 . Mientras el
valor de R2 más se aproxima a 1 ( o a 100) más evidencia hay de un buen ajuste, y mientras
el valor de R2 más se aproxima al cero más evidencia hay de un mal ajuste. Por buen ajuste
se entiende que la recta pasa muy cerca de todos los puntos.
1. Calcular r
𝑆 ,
𝑟= = 0.984
𝑆 𝑆
2. Calcular R2
R2 = (0.984)2 = 0.968
3. Analizar resultado