Sesin 2. Correlacin Lineal PDF
Sesin 2. Correlacin Lineal PDF
Sesin 2. Correlacin Lineal PDF
LINEAL
ESTADÍSTICA II
Plan de clases
• Organizador previo
• Caso práctico
Inicio • Logro esperado
• Síntesis
• Metacognición
Cierre • Actividad de aprendizaje
CORRELACIÓN LINEAL
Diagrama de dispersión
Covarianza
Distancia
10.3 11.6 12.1 14.3 15.7 16.1 18.4 20.2 21.8 24.3 25.4 26.7
en km.
Tiempo en
19.71 18.15 21.88 24.21 27.08 22.96 29.38 37.24 36.84 40.59 41.21 38.19
minutos
Calcule una medida estadística adecuada para determinar si las variables presentan una fuerte correlación.
¿Qué tipo de variable presenta el caso práctico?, ¿se podrá usar la prueba de
independencia en este caso?
Logro esperado
VARIABLE DEPENDIENTE
Es la variable que se desea estimar o pronosticar; también puede ser
descrita como el resultado de un valor conocido de la variable
independiente. La variable dependiente es aleatoria, es decir por cada
valor dado de la variable independiente, existen muchos valores para la
variable dependiente. También, se conoce como la variable respuesta y se
simboliza por la letra Y.
Diagrama de dispersión
x x y y
n
La covarianza se calcula como:
i i
Cov( x, y ) i 1
n 1
Donde:
𝑥𝑖 : Valores de la variable x 𝑦𝑖 : Valores de la variable y
𝑥: Promedio muestral de la variable x 𝑦: Promedio muestral de la variable y
𝑛 : Tamaño de la muestra
Forma resumida: x y nx y
i i
Cov( x, y ) i 1
n 1
Interpretación de la covarianza
• Si Cov(x,y) > 0, hay dependencia directa (positiva), es decir a grandes valores de X
corresponden grandes valores de Y.
x y
2 2
2
n x 2
n y
variable x. i i
n 1 n 1
variable y.
Coeficiente de correlación de Pearson (R)
También, se puede calcular como: SP( x, y )
R
SC ( x) SC ( y )
Donde:
SP(x,y): Suma de productos de los valores de x e y: n
SP (x, y) xy nx y
i 1
n
SC(x): Suma de cuadrados de los valores de x:
SC (x) x n x
2
2
i 1
n
SC(y): Suma de cuadrados de los valores de y:
SC ( y ) y n y
2
2
i 1
Interpretación del Coeficiente de correlación de
Pearson
Por propiedad, el coeficiente de correlación de Pearson se encuentra entre: −𝟏 ≤ 𝑹 ≤ 𝟏
Si: 𝑅 ≅ −1: La correlación lineal entre las variables es perfecta e inversa.
𝑅 ≅ 1: La correlación lineal entre las variables es perfecta y directa.
𝑅 ≅ 0: No existe correlación lineal entre las variables.
Si: −1 < 𝑅 ≤ −0.9: Existe una muy buena correlación lineal inversa entre las variables.
−0.9 < 𝑅 ≤ −0.7: Existe buena correlación lineal inversa entre las variables.
−0.7 < 𝑅 ≤ −0.5: Existe regular correlación lineal inversa entre las variables.
−0.5 < 𝑅 < 0: Existe débil correlación lineal inversa entre las variables.
Si: 0.9 ≤ 𝑅 < 1: Existe una muy buena correlación lineal directa entre las variables.
0.7 ≤ 𝑅 < 0.9 : Existe buena correlación lineal directa entre las variables.
0.5 ≤ 𝑅 < 0.7 : Existe regular correlación lineal directa entre las variables.
0 < 𝑅 < 0.5: Existe débil correlación lineal directa entre las variables.
Relación entre Correlación y Covarianza
• La correlación indica la fuerza y dirección de la asociación entre dos
variables aleatorias en forma de relación lineal. Dos variables
cuantitativas están correlacionadas cuando los valores de una de ellas
varían con respecto a los valores de la otra.
• La covarianza es una medida de la variación común a dos variables y,
por tanto, una medida del grado y tipo de su relación.
• El análisis de varianza sirve para comparar si los valores de un grupos
de datos son diferentes significativamente a los valores de otro u
otros grupos de datos.
Ejercicio resuelto
El gerente de una agencia de alquiler de limusinas que opera en Lima Metropolitana quiere
determinar si la distancia que recorren los pasajeros desde varios lugares al aeropuerto del
Callao está relacionada con el tiempo que llevaría en transportarlos durante las horas no
pico. Se seleccionó una muestra aleatoria de 12 viajes durante un día en particular en las
horas no pico, con los siguientes resultados:
X = Distancia en km. 10.3 11.6 12.1 14.3 15.7 16.1 18.4 20.2 21.8 24.3 25.4 26.7
Y = Tiempo en minutos 19.71 18.15 21.88 24.21 27.08 22.96 29.38 37.24 36.84 40.59 41.21 38.19
a) Interprete el diagrama de
dispersión.
b) Calcule e interprete la
covarianza.
c) Calcule e interprete el
coeficiente de correlación de
Pearson.
Ejercicio resuelto – Parte a)
x x y y
12
N° X Y 𝒙−𝒙 𝒚−𝒚 𝒙−𝒙 𝒚−𝒚
i i
1 10.3 19.71 -7.775 -10.0767 78.3463
Cov( x, y ) i 1
2 11.6 18.15 -6.475 -11.6367 75.3476 n 1
3 12.1 21.88 -5.975 -7.9067 47.2425
507.284
4 14.3 24.21 -3.775 -5.5767 21.0520
Cov( x, y ) 46.12
5 15.7 27.08 -2.375 -2.7067 6.4284 12 1
6 16.1 22.96 -1.975 -6.8267 13.4827
7 18.4 29.38 0.325 -0.4067 -0.1322 Como Cov(x,y) = 46.12 > 0, existe
8 20.2 37.24 2.125 7.4533 15.8383 dependencia directa (positiva); es
9 21.8 36.84 3.725 7.0533 26.2735
decir, a mayor distancia corresponden
10 24.3 40.59 6.225 10.8033 67.2505
mayores tiempo de transportar a
11 25.4 41.21 7.325 11.4233 83.6757
12 26.7 38.19 8.625 8.4033 72.4785
pasajeros desde el aeropuerto del
Sumas 216.9 357.44 507.284 Callao (o viceversa).
Ejercicio resuelto – Parte b)
También, la covarianza se calcula mediante la forma resumida, así:
n
x y nx y
i i
SP x, y
Cov( x, y ) i 1
n 1 n 1
Con la opción Sum de la calculadora, se obtiene el valor de la suma de los productos de los
valores de X e Y: 12
x y
i 1
i i 6968.012
Además:
x 18.075 y y 29.7867
Luego: 12
SP x, y xi yi nx y
i 1
507.2768
SP x, y 6968.012 12 18.075 29.7867 Cov( x, y ) 46.12
12 1
SP x, y 507.2768
Ejercicio resuelto – Parte c)
Con los resultados obtenidos de la pregunta anterior y con la opción VAR de la calculadora se obtienen las
desviaciones estándar muestrales de cada variable. Los valores son: sx 5.6178 y s y 8.5694
x 18.075 y y 29.7867
i
i 1 i 1
siguientes sumas:
i 1
Ejercicio resuelto – Parte c)
Luego; el coeficiente de correlación de Pearson es:
SP( x, y )
R
SC ( x) SC ( y )
507.2768
R
347.1625 807.759
R 0.958
∴ Las variables están correlacionadas en un 95.8%. Es decir, existe muy buena relación
directa entre la distancia recorrida y el tiempo de transporte.
Síntesis
Correlación lineal
Representa el grado de (intensidad) y naturaleza
Diagrama de (forma) de la relación entre las variables X e Y, si es
dispersión que existe.
9 9 9
i
x
i 1
96.4; i
y 61.83;
i 1
i 1033.52;
x 2
i 1
9 9
y
i 1
2
i
424.8009; xi yi 662.113
i 1
Actividad de aprendizaje
Además, en minitab, se obtuvo el siguiente diagrama de dispersión.
n n n n
x y x y
2 2
i i
2
n x 2
n y
Recordando: x i 1
;y i 1
i i
sx i 1
; sy i 1
n n n 1 n 1
Actividad de aprendizaje
2. El director de escuela de una universidad afirma que los estudiantes universitarios que aprenden más
rápido tienen mejores calificaciones y por lo tanto mejores oportunidades de obtener buenos empleos
después de graduarse. Suponga que resultados que se presentan a continuación representan las
calificaciones promedio (entre cero y diez puntos) de 15 recién graduados y sus correspondientes salarios
iniciales (en miles de soles):
X = Calificación
2.95 3.2 3.4 3.6 3.2 2.85 3.1 2.85 3.05 2.7 2.75 3.1 3.15 2.95 2.75
Promedio
Y = Salario Inicial 18.5 20 21.1 22.4 21.2 15 18 18.8 15.7 14.4 15.5 17.2 19 17.2 16.8