Sesin 2. Correlacin Lineal PDF

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 27

COVARIANZA Y COEFICIENTE DE CORRELACIÓN

LINEAL

ESTADÍSTICA II
Plan de clases
• Organizador previo
• Caso práctico
Inicio • Logro esperado

• Calcula e interpreta la covarianza.


• Calcula e interpreta el coeficiente de correlación de Pearson para dos variables
Construcción cuantitativas.

• Síntesis
• Metacognición
Cierre • Actividad de aprendizaje
CORRELACIÓN LINEAL

Diagrama de dispersión
Covarianza

Coeficiente de correlación de Pearson


Caso práctico
El gerente de una agencia de alquiler de limusinas que opera en Lima Metropolitana quiere determinar si el
tiempo, en minutos, que llevaría transportar pasajeros desde varios lugares al aeropuerto del Callao durante
las horas no pico está relacionada con la distancia recorrida, en kilómetros. Se seleccionó una muestra
aleatoria de 12 viajes durante un día en particular en las horas no pico, con los siguientes resultados:

Distancia
10.3 11.6 12.1 14.3 15.7 16.1 18.4 20.2 21.8 24.3 25.4 26.7
en km.
Tiempo en
19.71 18.15 21.88 24.21 27.08 22.96 29.38 37.24 36.84 40.59 41.21 38.19
minutos

Calcule una medida estadística adecuada para determinar si las variables presentan una fuerte correlación.

¿Qué tipo de variable presenta el caso práctico?, ¿se podrá usar la prueba de
independencia en este caso?
Logro esperado

 Calcula la covarianza y el coeficiente de correlación de


Pearson en la resolución de problemas contextualizados,
aplicando criterios estadísticos así como software estadístico,
para luego interpretar los resultados obtenidos.
Definiciones básicas
VARIABLE INDEPENDIENTE
La variable independiente proporciona la base para la estimación. También
es llamada como la variable predictora o regresora y se simboliza por la
letra X.

VARIABLE DEPENDIENTE
Es la variable que se desea estimar o pronosticar; también puede ser
descrita como el resultado de un valor conocido de la variable
independiente. La variable dependiente es aleatoria, es decir por cada
valor dado de la variable independiente, existen muchos valores para la
variable dependiente. También, se conoce como la variable respuesta y se
simboliza por la letra Y.
Diagrama de dispersión

• El diagrama de dispersión representa el


grado de (intensidad) y naturaleza (forma)
de la relación entre las variables X e Y, si es
que existe.

• En el eje de las abscisas se representa los


valores de la variable independiente (X).

• En el eje de la ordenada los valores de la


variable dependiente (Y).
Covarianza
 Una medida del grado en que dos variables aleatorias se mueven en la misma
dirección o en direcciones opuestas la una respecto a la otra es la Covarianza.
 En otras palabras, si dos variables aleatorias generalmente se mueven en la misma
dirección se dirá que tienen una covarianza positiva. Si tienden a moverse en
direcciones opuestas, se dirá que tienen una covarianza negativa.

 La covarianza se mide como el valor que se espera de los productos de las


desviaciones de dos variables aleatorias respecto a sus correspondientes medias.
Una varianza es un caso especial de covarianza.
Observación:
Desviación = Es la diferencia entre cada valor que toma la variable (𝒙𝒊 ) y la media
muestral de la variable (𝒙). Así: Desviación = 𝒙𝒊 − 𝒙
Cálculo de la covarianza Cov(x,y)

  x  x  y  y 
n
La covarianza se calcula como:
i i
Cov( x, y )  i 1

n 1
Donde:
𝑥𝑖 : Valores de la variable x 𝑦𝑖 : Valores de la variable y
𝑥: Promedio muestral de la variable x 𝑦: Promedio muestral de la variable y
𝑛 : Tamaño de la muestra

Forma resumida:  x y  nx y
i i
Cov( x, y )  i 1

n 1
Interpretación de la covarianza
• Si Cov(x,y) > 0, hay dependencia directa (positiva), es decir a grandes valores de X
corresponden grandes valores de Y.

• Si Cov(x,y) = 0, Una covarianza (0) se interpreta como la no existencia de una


relación lineal entre las dos variables estudiadas.

• Si Cov(x,y) < 0, hay dependencia inversa o negativa es decir, a grandes valores de X


corresponden pequeños valores de Y.
Coeficiente de correlación de Pearson (R)
El coeficiente de correlación de Pearson mide el grado de asociación entre dos variables
cuantitativas relacionadas linealmente.
Su cálculo es:
Cov( x, y )
R
ssx y
Donde:

Cov(x,y): Valor de la covarianza.


Sx: Desviación estándar muestral de la
  
n n

x y
2 2
2
n x 2
n y
variable x. i i

Sy: Desviación estándar muestral de la sx  i 1


; sy  i 1

n 1 n 1
variable y.
Coeficiente de correlación de Pearson (R)
También, se puede calcular como: SP( x, y )
R
SC ( x)  SC ( y )
Donde:
SP(x,y): Suma de productos de los valores de x e y: n
SP (x, y)   xy  nx y
i 1

 
n
SC(x): Suma de cuadrados de los valores de x:
SC (x)   x n x
2
2

i 1

 
n
SC(y): Suma de cuadrados de los valores de y:
SC ( y )   y n y
2
2

i 1
Interpretación del Coeficiente de correlación de
Pearson
Por propiedad, el coeficiente de correlación de Pearson se encuentra entre: −𝟏 ≤ 𝑹 ≤ 𝟏
Si: 𝑅 ≅ −1: La correlación lineal entre las variables es perfecta e inversa.
𝑅 ≅ 1: La correlación lineal entre las variables es perfecta y directa.
𝑅 ≅ 0: No existe correlación lineal entre las variables.
Si: −1 < 𝑅 ≤ −0.9: Existe una muy buena correlación lineal inversa entre las variables.
−0.9 < 𝑅 ≤ −0.7: Existe buena correlación lineal inversa entre las variables.
−0.7 < 𝑅 ≤ −0.5: Existe regular correlación lineal inversa entre las variables.
−0.5 < 𝑅 < 0: Existe débil correlación lineal inversa entre las variables.

Si: 0.9 ≤ 𝑅 < 1: Existe una muy buena correlación lineal directa entre las variables.
0.7 ≤ 𝑅 < 0.9 : Existe buena correlación lineal directa entre las variables.
0.5 ≤ 𝑅 < 0.7 : Existe regular correlación lineal directa entre las variables.
0 < 𝑅 < 0.5: Existe débil correlación lineal directa entre las variables.
Relación entre Correlación y Covarianza
• La correlación indica la fuerza y dirección de la asociación entre dos
variables aleatorias en forma de relación lineal. Dos variables
cuantitativas están correlacionadas cuando los valores de una de ellas
varían con respecto a los valores de la otra.
• La covarianza es una medida de la variación común a dos variables y,
por tanto, una medida del grado y tipo de su relación.
• El análisis de varianza sirve para comparar si los valores de un grupos
de datos son diferentes significativamente a los valores de otro u
otros grupos de datos.
Ejercicio resuelto
El gerente de una agencia de alquiler de limusinas que opera en Lima Metropolitana quiere
determinar si la distancia que recorren los pasajeros desde varios lugares al aeropuerto del
Callao está relacionada con el tiempo que llevaría en transportarlos durante las horas no
pico. Se seleccionó una muestra aleatoria de 12 viajes durante un día en particular en las
horas no pico, con los siguientes resultados:

X = Distancia en km. 10.3 11.6 12.1 14.3 15.7 16.1 18.4 20.2 21.8 24.3 25.4 26.7

Y = Tiempo en minutos 19.71 18.15 21.88 24.21 27.08 22.96 29.38 37.24 36.84 40.59 41.21 38.19

En minitab, se ingresaron la información obtenida por cada variable y se obtuvo el siguiente


diagrama de dispersión.
Donde: Variable X = Distancia recorrida e Y = Tiempo de transporte.
Ejercicio resuelto

a) Interprete el diagrama de
dispersión.
b) Calcule e interprete la
covarianza.
c) Calcule e interprete el
coeficiente de correlación de
Pearson.
Ejercicio resuelto – Parte a)

A mayor distancia recorrida, el tiempo de


transporte es mayor (a menor distancia
recorrida, el tiempo de transporte es
menor); existe una relación lineal directa
(tendencia creciente) entre las variables.
Ejercicio resuelto – Parte b)
Para calcular la covarianza, con la calculadora en la opción VAR se obtienen las medias
muestrales para cada variable. Así, x  18.075 y y  29.7867
En la siguiente tabla se observa los cálculos respectivos para llegar a la suma del producto de
las desviaciones de las variables:

  x  x  y  y 
12
N° X Y 𝒙−𝒙 𝒚−𝒚 𝒙−𝒙 𝒚−𝒚
i i
1 10.3 19.71 -7.775 -10.0767 78.3463
 Cov( x, y )  i 1
2 11.6 18.15 -6.475 -11.6367 75.3476 n 1
3 12.1 21.88 -5.975 -7.9067 47.2425
507.284
4 14.3 24.21 -3.775 -5.5767 21.0520
 Cov( x, y )   46.12
5 15.7 27.08 -2.375 -2.7067 6.4284 12  1
6 16.1 22.96 -1.975 -6.8267 13.4827
7 18.4 29.38 0.325 -0.4067 -0.1322 Como Cov(x,y) = 46.12 > 0, existe
8 20.2 37.24 2.125 7.4533 15.8383 dependencia directa (positiva); es
9 21.8 36.84 3.725 7.0533 26.2735
decir, a mayor distancia corresponden
10 24.3 40.59 6.225 10.8033 67.2505
mayores tiempo de transportar a
11 25.4 41.21 7.325 11.4233 83.6757
12 26.7 38.19 8.625 8.4033 72.4785
pasajeros desde el aeropuerto del
Sumas 216.9 357.44 507.284 Callao (o viceversa).
Ejercicio resuelto – Parte b)
También, la covarianza se calcula mediante la forma resumida, así:
n

 x y  nx y
i i
SP  x, y 
Cov( x, y )  i 1

n 1 n 1
Con la opción Sum de la calculadora, se obtiene el valor de la suma de los productos de los
valores de X e Y: 12
x y
i 1
i i  6968.012

Además:
x  18.075 y y  29.7867
Luego: 12
SP  x, y    xi yi  nx y
i 1
507.2768
SP  x, y   6968.012  12 18.075  29.7867   Cov( x, y )   46.12
12  1
SP  x, y   507.2768
Ejercicio resuelto – Parte c)
Con los resultados obtenidos de la pregunta anterior y con la opción VAR de la calculadora se obtienen las
desviaciones estándar muestrales de cada variable. Los valores son: sx  5.6178 y s y  8.5694

El coeficiente de correlación de Pearson es: Cov( x, y ) 46.12


R   0.958
ss x y
 5.6188.569 
Otra forma:
También, mediante la opción SUM 12 12 Además:
de la calculadora se obtienen las x 2
 4267.63;  y i  11454.729
2

x  18.075 y y  29.7867
i
i 1 i 1
siguientes sumas:

Y con los cálculos de las suma de productos y la suma de cuadrados, se tiene:


12
SC  x    xi  nx  4267.63  12 18.075   347.1625
2 2 2
Por la parte b), se obtuvo:
SP  x, y   507.2768 i 1
12
SC  y    y i  n y  11454.729  12  29.7867   807.759
2 2 2

i 1
Ejercicio resuelto – Parte c)
Luego; el coeficiente de correlación de Pearson es:

SP( x, y )
R
SC ( x)  SC ( y )
507.2768
R
347.1625  807.759
R  0.958

∴ Las variables están correlacionadas en un 95.8%. Es decir, existe muy buena relación
directa entre la distancia recorrida y el tiempo de transporte.
Síntesis
Correlación lineal
Representa el grado de (intensidad) y naturaleza
Diagrama de (forma) de la relación entre las variables X e Y, si es
dispersión que existe.

Es una medida del grado en que dos variables


aleatorias cuantitativas se mueven en la misma
Covarianza dirección o en direcciones opuestas la una respecto
a la otra

Mide el grado de asociación (fuerza) entre dos


Coeficiente de variables cuantitativas relacionadas linealmente
correlación de Pearson
Metacognición

 ¿Qué parte del procedimiento te parece más importante?

 ¿Cómo puedes implementar está técnica en la vida diaria?


Actividad de aprendizaje
1. El gerente de una empresa dedicada a la compra-venta de vehículos usados, desea
verificar si el precio de venta de este tipo de vehículos (miles de dólares) está
relacionado con el recorrido acumulado (decenas de miles de kilómetros). Con este
fin, se hace un estudio basado en una muestra aleatoria de vehículos vendidos
durante el año 2016 y se obtuvo la siguiente información:

9 9 9

 i
x
i 1
 96.4;  i
y  61.83;
i 1
 i  1033.52;
x 2

i 1
9 9

y
i 1
2
i
 424.8009;  xi yi  662.113
i 1
Actividad de aprendizaje
Además, en minitab, se obtuvo el siguiente diagrama de dispersión.

a) Defina las variables X y Y.


b) Interprete el diagrama de
dispersión.
c) Calcule e interprete la covarianza.
d) Calcule e interprete el coeficiente
de correlación de Pearson.

  
n n n n

x y x y
2 2
i i
2
n x 2
n y
Recordando: x i 1
;y i 1
i i

sx  i 1
; sy  i 1
n n n 1 n 1
Actividad de aprendizaje
2. El director de escuela de una universidad afirma que los estudiantes universitarios que aprenden más
rápido tienen mejores calificaciones y por lo tanto mejores oportunidades de obtener buenos empleos
después de graduarse. Suponga que resultados que se presentan a continuación representan las
calificaciones promedio (entre cero y diez puntos) de 15 recién graduados y sus correspondientes salarios
iniciales (en miles de soles):

X = Calificación
2.95 3.2 3.4 3.6 3.2 2.85 3.1 2.85 3.05 2.7 2.75 3.1 3.15 2.95 2.75
Promedio

Y = Salario Inicial 18.5 20 21.1 22.4 21.2 15 18 18.8 15.7 14.4 15.5 17.2 19 17.2 16.8

Con la información dada y utilizando las sumas respectivas, se pide:


a) Con la medida correspondiente diga si las dos variables aleatorias se mueven en la misma dirección.
b) Con la medida correspondiente diga si las dos variables aleatorias presentan muy buena correlación.
Referencias Bibliográficas

1. Anderson, S. (2010) Estadística para Administración y Economía. Cengage


Learning 8va. Edición. México.

2. Montesinos, L., Llanos, K., Cerna, E., Pajuelo, S. y Coaquira, F. (2017)


Estadística Descriptiva e Inferencial. Fondo Editorial USIL 1° Edición. Lima,
Perú.

También podría gustarte