U510 Regresion Lineal Covarianza

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 16

Regresión

lineal y
Covarianza
Contenido

La Covarianza ...................................................................................................................................... 2
Ejemplo 1......................................................................................................................................... 4
Solución ....................................................................................................................................... 5
El Coeficiente de Correlación Lineal de Pearson ................................................................................. 6
Ejemplo 2......................................................................................................................................... 7
Solución ....................................................................................................................................... 7
Ejemplo 3......................................................................................................................................... 8
Solución ....................................................................................................................................... 8
Ejemplo 4......................................................................................................................................... 9
Solución ....................................................................................................................................... 9
Regresión Lineal Simple .................................................................................................................... 10
Ejemplo 5....................................................................................................................................... 12
Solución ..................................................................................................................................... 13
Calidad del ajuste .......................................................................................................................... 15
La Covarianza
Al estudiar un par de variables aleatorias, puede ser importante para el investigador
determinar si hay alguna relación entre estas variables.

Por ejemplo, si se esta investigando el peso y la estatura de las personas, es importante


determinar si hay alguna relación entre estas dos variables. Sería razonable pensar que a
mayor estatura se tiene mayor peso, posiblemente al graficar el peso y la estatura de las
personas obtendríamos una gráfica como la que se presenta en la figura 1, donde tal vez se
apreciaría una relación lineal entre estas variables.

Figura 1. Posible aspecto gráfico del peso y estatura de personas.

La covarianza es un parámetro que mide la “intensidad” o “fuerza” de una relación lineal


entre dos variables aleatorias. Suponer dos variables aleatorias X, Y con media μX , μY y
varianzas 𝜎 , 𝜎 respectivamente. La Covarianza Poblacional de las variables X,Y se denota
por σX ,Y o Covar(X, Y) y se define como:

𝜎 , = 𝐸{(𝑋 − 𝜇 )(𝑌 − 𝜇 )}

El valor de la covarianza es un número real, puede ser un valor positivo, negativo o cero.
Mientras el valor de σX ,Y se aleja más del cero, más evidencia hay de una fuerte relación
lineal entre las variables. Mientras el valor de σX ,Y este más cercano a cero, más evidencia
hay de NO relación lineal entre las variables.

El signo de σX ,Y es el mismo signo de la pendiente de la relación lineal de las variables


como se precia en la figura 2.
Figura 2. Diagramas de dispersión y valores de 𝜎 ,

Observe que la definición de covarianza es una generalización de la varianza:

𝜎 , = 𝐸{(𝑋 − 𝜇 )(𝑋 − 𝜇 )} = 𝐸{(𝑋 − 𝜇 ) } = 𝜎

Generalmente el valor de la covarianza poblacional se desconoce y se debe estimar a partir


de los valores obtenidos en una muestra aleatoria. El estimador de σ X ,Y es;

(∑ 𝑥 )(∑ 𝑦)
∑ 𝑥𝑦 −
𝑆 = 𝑛
𝑛−1
Ejemplo 1

La siguiente tabla muestra el peso (libras) y la presión sistólica sanguínea (PSS) de una
muestra aleatoria de hombres con edades entre 25-30 años.

Sujeto Peso PSS


1 165 130
2 167 133
3 180 150
4 155 128
5 212 151
6 175 146
7 190 150
8 210 140
9 200 148
10 149 125
11 158 133
12 169 135
13 170 150
14 172 153
15 159 128
16 168 132
17 174 149
18 183 158
19 215 150
20 195 163
21 180 156
22 143 124
23 240 170
24 235 165
25 192 160
26 187 159
Solución

1. Calcular S XY

Si se define X = peso y Y = PSS, se debe ampliar la tabla, donde XY, se obtiene de la


multiplicación del peso por el PSS, para cada sujeto.

Sujeto Peso PSS XY


1 165 130 21450
2 167 133 22211
3 180 150 27000
4 155 128 19840
5 212 151 32012
6 175 146 25550
7 190 150 28500
8 210 140 29400
9 200 148 29600
10 149 125 18625
11 158 133 21014
12 169 135 22815
13 170 150 25500
14 172 153 26316
15 159 128 20352
16 168 132 22176
17 174 149 25926
18 183 158 28914
19 215 150 32250
20 195 163 31785
21 180 156 28080
22 143 124 17732
23 240 170 40800
24 235 165 38775
25 192 160 30720
26 187 159 29733
Suma 4743 3786 697076

Observe que n = 26

(∑ 𝑥 )(∑ 𝑦)
∑ 𝑥𝑦 − 697076 − [(4743)(3786)]/26
𝑆 = 𝑛 = = 256.889
𝑛−1 26 − 1

2. Obtener resultado: la covarianza estimada del peso y presión sanguínea es 256.889.


El Coeficiente de Correlación Lineal de Pearson

Con el valor de σX ,Y es difícil darse cuenta que tan alejado del cero debe ser su valor para
inferir una fuerte relación lineal entre las variables. Por tal razón se define el coeficiente de
correlación lineal denotado por ρX ,Y o correlación lineal de Pearson que es un valor
estandarizado de σX ,Y .

El coeficiente de correlación lineal de Pearson se define como,


𝜎 ,
𝜌 , =
𝜎 𝜎
donde σX es la desviación estándar de X y σ Y es la desviación estándar de Y.

El valor de ρX ,Y está acotado entre –1 y 1, es decir 1 ≤ ρX ,Y ≤ 1. Mientras el valor de


ρ X ,Y se aproxima a 1 o –1 más evidencia hay de una fuerte relación lineal y mientras el
valor de ρ X ,Y se aproxime al cero más evidencia hay de NO relación lineal. El signo de ρ
X ,Y es el mismo signo de la pendiente de la relación lineal como se muestra en la figura 3.

Figura 3. Diagrama de dispersión

Usualmente no se conoce el valor de ρX ,Y y se debe estimar de una muestra aleatoria. El


estimador de ρ X ,Y denotado por r es,

𝑆 ,
𝑟=
𝑆 𝑆
donde S X es la desviación estándar muestral de los valores de X y SY es la desviación estándar
muestral de los valores de Y.

Ejemplo 2

Se estimara ρX ,Y del ejemplo 1.

Solución

1. Se tiene que S X ,Y = 256.889 y S X = 24.749 y SY = 13.42


2. Calcular r
𝑆 ,
𝑟=
𝑆 𝑆

r = 256.889/(24.749)(13.42) = 0.773,

Es el valor estimado de la correlación lineal de Pearson del peso y presión sanguínea es 0.773.

Siempre que se hace un análisis de correlación es importante apoyarse también en el


diagrama de dispersión de la muestra.

Dispersion
180

170

160

150 P…

140

130

120
120 140 160 180 200 220 240 260

Figura 4. Diagrama de dispersión de los datos del ejemplo 1

En la figura 4 se aprecia cierta tendencia lineal entre el peso y la presión sanguínea.


El coeficiente de correlación lineal de Pearson se puede estimar mediante un intervalo de
confianza. El intervalo de confianza de ρXY con un nivel de confianza 1 α esta dado por:

𝑧 𝑧
𝑡𝑎𝑛ℎ arctanh(𝑟) − ] < 𝜌 < tanh[arctanh(𝑟) +
√𝑛 − 3 √𝑛 − 3

donde n es el tamaño de la muestra y n ≥ 25, tanh es la función tangente hiperbólica y arctanh


es la función arcotangente hiperbólica o tangente hiperbólica inversa. Ambas funciones están
disponibles en calculadoras científicas de bolsillo, así como en excel.

Ejemplo 3

Se estima el ρdel ejemplo 1 mediante un intervalo de confianza del 90%.

Solución

1. Identificar datos

n= 26, r = 0.773, 1 α = 0.90, luego α/2 = 0.05 y z0.05 = 1.645

2. Aplicar la formula
𝑧 𝑧
𝑡𝑎𝑛ℎ arctanh(𝑟) − ] < 𝜌 < tanh[arctanh(𝑟) +
√𝑛 − 3 √𝑛 − 3

1.645 1.645
𝑡𝑎𝑛ℎ arctanh(0.773) − ] < 𝜌 < tanh[arctanh(0.773) +
√26 − 3 √26 − 3

1.645 1.645
𝑡𝑎𝑛ℎ 1.028 − ] < 𝜌 < tanh [1.028 +
√26 − 3 √26 − 3

1.645 1.645
𝑡𝑎𝑛ℎ 1.028 − ] < 𝜌 < tanh [1.028 +
√26 − 3 √26 − 3

𝑡𝑎𝑛ℎ[0.685] < 𝜌 < tanh [1.371]

0.595 < 𝜌 < 0.879

es decir, hay una confianza del 90% de que el valor del coeficiente de correlación de Pearson
del peso y presión sanguínea es un valor entre 0.595 y 0.879.
Observe que el intervalo de confianza no incluye al valor de cero, razón por la cual se puede
inferir que ρtiene un valor diferente de cero.

También se puede aplicar una prueba de hipótesis paraρ, ya que generalmente el


investigador desea determinar si el valor de ρ es igual o diferente de cero.

Las hipótesis son: H0 : ρ = 0 vs H0 : ρ ≠ 0 .

El estadístico de prueba es:

𝑟√𝑛 − 2
𝑡=
√1 − 𝑟

Regla de decisión: Se rechaza H0 con nivel de significancia α si |t| > tα / 2,n 2.

Ejemplo 4

Se aplicará una prueba de hipótesis de ρ correspondiente a las variables del ejemplo 1 con
α = 0.01.

Solución

1. Del ejemplo 2 se tiene que n = 26, r = 0.773.

2. El estadístico de prueba es

𝑟√𝑛 − 2 0.773√26 − 2
𝑡= = = 5.97
√1 − 𝑟 √1 − 0.773

3. El valor crítico es t0.005,24 = 2.797


4. |t| > tα / 2,n 2 entonces se rechaza H0.
5. Es decir, hay evidencia estadística de que el coeficiente de correlación lineal de
Pearson del peso y presión sanguínea es diferente de cero.

Es importante remarcar que los resultados del intervalo de confianza y la prueba de hipótesis
de ρ, son válidos si la distribución conjunta de las variables X, Y se ajusta a una
distribución normal bivariada.
Regresión Lineal Simple

La metodología de la regresión lineal simple tiene como objetivo ajustar una línea recta
(una ecuación de una recta) a un conjunto de puntos en el plano. El conjunto de puntos
en el plano es la gráfica de dispersión de los datos de una muestra aleatoria.

Suponer que un investigador sospecha que hay una relación lineal entre dos variables (X,Y)
donde el valor de Y depende o es función del valor de X, es decir y = f(x). A la variable X se
le llama variable independiente o variable predictora y a la variable Y se le llama variable
dependiente o variable de respuesta. Suponer que se toma una muestra aleatoria (de tamaño
n) de pares (x1, y1) , (x2 , y2 ) , (x3 , y3 ) ,..., (xn , yn ) y al construir su diagrama de dispersión
se desea obtener la ecuación de la recta que mejor se ajusta a los puntos, como se muestra en
la figura 5.

Figura 5. Recta que se desea ajustar

La diferencia principal entre un análisis de correlación y una regresión lineal simple es que
en el análisis de correlación se tiene que ambas variables (X, Y) son variables aleatorias y al
tomar la muestra el investigador no tiene control sobre los valores que observará de X ni de
Y. Por otra parte, en la regresión lineal se tiene que Y si es una variable aleatoria mientras que
X puede o no puede ser una variable aleatoria, es decir, puede darse el caso en que los valores
de X son controlados por el investigador (es típico en un diseño de experimentos) mientras
que los valores de Y definitivamente no son controlados por el investigador.

Entonces, para un valor fijo de X se supone que Y es una variable aleatoria con distribución
normal con media μ y|x y varianza σ2 (la varianza es constante para todo valor de x). Luego
se supone que hay una relación lineal entre las variables (X, Y) cuya ecuación es desconocida
y relaciona μy|x con x, esta ecuación se denota como:

𝜇 | =𝛽 +𝛽 𝑥
Para un valor particular y observado en cierto valor x se tiene la ecuación:
𝑦 =𝛽 +𝛽 𝑥+𝜀

dondeεes el error (la desviación o distancia de y a la media μy ) el cual es una variable


aleatoria con distribución normal con media cero y varianza σ2 la cual es constante para todo
valor de x.

Como los valores de β0 y β1 son desconocidos, se deben estimar a partir de los valores de
la muestra ( x1 , yi ).

El estimador de β1 que se denota por 𝛽 es:

𝑆
𝛽 =
𝑆
Donde:
(∑ 𝑥 )(∑ 𝑦 )
𝑆 = 𝑥𝑦 −
𝑛
(∑ 𝑥 )
𝑆 = (𝑥 ) −
𝑛

El estimador de β0 que se denota por 𝛽 es:

𝛽 =𝑌−𝛽 𝑋

(∑ 𝑦 )
𝑆 = (𝑦 ) −
𝑛
Ejemplo 5

Suponga los siguientes datos correspondientes a la tasa de cambio del peso mexicano por
un dólar referente al precio a la compra y a la venta.

Compra Venta
9.86 10.13
9.83 10.08
9.91 10.14
10.14 10.41
10.13 10.37
10.11 10.35
10 10.26
10.05 10.3
10.02 10.31
9.99 10.23
9.9 10.15
9.84 10
9.84 10.1
10.08 10.34
10.04 10.29
10.01 10.3
10.07 10.31
10.2 10.46
10.09 10.36
10.01 10.28
9.99 10.27
10.06 10.33
10.01 10.26
10.02 10.27
10.13 10.38
10.14 10.38
10.07 10.3
10.09 10.34
10.3 10.59
10.27 10.54
Solución

1. Calcular Σxi , Σ(xi )2 , Σyi Σ( yi )2 y Σxi yi .

X=Compra Y=Venta x^2 y^2 xy


9.86 10.13 97.2196 102.6169 99.8818
9.83 10.08 96.6289 101.6064 99.0864
9.91 10.14 98.2081 102.8196 100.4874
10.14 10.41 102.8196 108.3681 105.5574
10.13 10.37 102.6169 107.5369 105.0481
10.11 10.35 102.2121 107.1225 104.6385
10 10.26 100 105.2676 102.6
10.05 10.3 101.0025 106.09 103.515
10.02 10.31 100.4004 106.2961 103.3062
9.99 10.23 99.8001 104.6529 102.1977
9.9 10.15 98.01 103.0225 100.485
9.84 10 96.8256 100 98.4
9.84 10.1 96.8256 102.01 99.384
10.08 10.34 101.6064 106.9156 104.2272
10.04 10.29 100.8016 105.8841 103.3116
10.01 10.3 100.2001 106.09 103.103
10.07 10.31 101.4049 106.2961 103.8217
10.2 10.46 104.04 109.4116 106.692
10.09 10.36 101.8081 107.3296 104.5324
10.01 10.28 100.2001 105.6784 102.9028
9.99 10.27 99.8001 105.4729 102.5973
10.06 10.33 101.2036 106.7089 103.9198
10.01 10.26 100.2001 105.2676 102.7026
10.02 10.27 100.4004 105.4729 102.9054
10.13 10.38 102.6169 107.7444 105.1494
10.14 10.38 102.8196 107.7444 105.2532
10.07 10.3 101.4049 106.09 103.721
10.09 10.34 101.8081 106.9156 104.3306
10.3 10.59 106.09 112.1481 109.077
10.27 10.54 105.4729 111.0916 108.2458
Sumas 301.2 308.83 3024.4472 3179.6713 3101.0803

2. Identificar valores:
n = 30, Σxi = 301.20, Σyi = 308.83, Σ(xi )2 = 3024.447, Σ( yi )2 = 3179.671 y

Σxi yi = 3101.08.
3. Calcular las medias muestrales de ambas muestras:

301.20
𝑋= = 10.04
30
308.83
𝑌= = 10.294
30

4. Calcular 𝑆 , 𝑆 , 𝑆
(∑ 𝑥 )(∑ 𝑦 ) (301.20)(308.83)
𝑆 = 𝑥𝑦 − = 3101.08 − = 0.4268
𝑛 30
(∑ 𝑥 ) (301.20)
𝑆 = (𝑥 ) − = 3024.447 − = 0.399
𝑛 30
(∑ 𝑦 ) (308.83)
𝑆 = (𝑦 ) − = 3179.671 − = 0.472
𝑛 30

5. Calcular 𝛽
𝑆 0.4268
𝛽 = = = 1.07
𝑆 0.399

6. Calcular 𝛽
𝛽 = 𝑌 − 𝛽 𝑋 = 10.294 − (1.07)(10.04) = −0.449

7. Obtener la ecuación lineal

𝜇 | = 𝛽 + 𝛽 𝑥 = −0.449 + 1.07𝑥
8. Graficar
Calidad del ajuste

La calidad del ajuste se evalúa mediante el coeficiente de determinación que se denota por
R2 que toma valores entre cero y uno [0 ≤ R2 ≤ 1], o entre cero y 100 si se expresa como
porcentaje. Solo para el caso de una regresión lineal simple se tiene que R2 = r 2 . Mientras el
valor de R2 más se aproxima a 1 ( o a 100) más evidencia hay de un buen ajuste, y mientras
el valor de R2 más se aproxima al cero más evidencia hay de un mal ajuste. Por buen ajuste
se entiende que la recta pasa muy cerca de todos los puntos.

1. Calcular r

𝑆 ,
𝑟= = 0.984
𝑆 𝑆

2. Calcular R2

R2 = (0.984)2 = 0.968

3. Analizar resultado

Con este resultado se puede decir que es un buen ajuste.

También podría gustarte