Regresion y Correlacion 9-2-23

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 9

Así en estadística podremos calcular la correlación para datos no agrupados con la

siguiente formula.

En donde:
r = coeficiente de correlación
n = número de pares ordenados
x = variable independiente
y = variable independiente

Ejemplo 1:

Supóngase que deseamos obtener la correlación de los datos de la tabla anterior:

Ahora podemos observar que:


ii

Rangos según el tipo de correlación:


r = 1 Correlación perfecta
0.8 < r < 1 Correlación muy alta
0.6< r < 0.8 Correlación alta
0.4< r < 0.6 Correlación moderada
0.2< r < 0.4 Correlación baja
0< r < 0.2 Correlación muy baja
r = 0 Correlación nula

1. Distribución Divariante

La distribución divariante es cuando se estudia en una población dos variables, que

forman pares correspondientes a cada individuo, como, por ejemplo:

Las notas de 10 alumnos en biología y lenguaje

Los pares de valores son: (2, 2) (4,2) (5,5) ……. (8,7) (9,10) forman una distribución

diváriate.
iii

La correlación, método por el cual se relacionan dos variables se pude graficar con un

diagrama de dispersión de puntos, a la cual muchos autores le llaman nubes de puntos,

encuadrado dentro de un gráfico de coordenadas X Y en la cual se pude trazar una recta

y cuyos puntos más cercanos de una recta hablaran de una correlación más fuerte, ha

esta recta se le denomina recta de regresión, que puede ser positiva o negativa, la

primera contundencia a aumentar y la segunda en descenso o decreciente.

También se puede describir un diagrama de dispersión en coordenadas cartesianas

valores como en la distribución diváriate, en donde la nube de puntos representa los

pares de valores.
iv

2. Ejemplos

2.1 Ejemplo 1

Responda a las siguientes cuestiones, argumentándolas únicamente desde la

estadística teórica:

a) ¿Sería estadísticamente posible encontrar una correlación r = 0,9 en una población

de asalariados y asalariadas entre las variables “sexo” y “salario”?

b) ¿Y una correlación r = -0,3?

c) Observe esta recta de regresión:

y = -3,5 + 2,7x

¿Podemos decir, que la relación entre las dos variables es negativa?

Solución:
a)No. El coeficiente de correlación está definido para variables medidas a nivel de

intervalo y como la variable “sexo” es del tipo nominal, no tiene sentido hablar de

correlación estadística, independientemente de cuál sea la relación entre ambas

variables. Las rectas de regresión lineal sólo tienen sentido con variables cuyo nivel

de medición es de intervalo (cuantitativas continuas).

b) No. Por las mismas razones que en el punto anterior, r carece de sentido para

explicar la relación entre sexo y salario, independientemente de su signo.

c) No. El signo de parámetro a no tiene ninguna relación con la pendiente de la recta

de regresión, que es lo que determina la variación de y en función de las variaciones

de x. La pendiente viene determinada por el parámetro b, y en este caso es positivo,


v

por lo que aumentos en x conducirán a aumentos en y. Si el signo de b fuera

negativo, a medida que aumenta x, disminuiría y.

6.2 Ejemplo 2

Un estudio relaciona los salarios y la edad de los empleados de una gran empresa. La

correlación observada entre las dos variables es r = 0,6. La media de edad de los

trabajadores es de 36 años, con una desviación típica de 6 años y, el salario medio es de

Q1,350, con una desviación típica de Q400. Calcule los coeficientes a y b de la ecuación

de la recta de regresión que relaciona x (edad) con y (salario), que permita estimar el

salario correspondiente a una determinada edad. A partir de esa ecuación, establezca el

salario que correspondería a una persona de 45 años.

Solución:
El coeficiente de correlación se puede calcular mediante la expresión:

r = 𝑆𝑥𝑦
𝑆𝑥𝑆𝑦

Conocemos r, Sx y Sy de modo que podemos calcular la covarianza:

𝑆𝑥𝑦= 𝑟 ∙ Sx · Sy = 0,6 ∙ 6 ∙ 400 = 1,440

Conocida la covarianza podemos calcular el parámetro b de la recta pedida:

b = 𝑆𝑥𝑦 = 1440 = 40
2𝑆 26
𝑥

Sabemos que los valores medios de las variables pertenecen a la recta de regresión,

por lo que podemos utilizar los valores de la media de X y de Y para obtener el


vi

parámetro a, una vez conocido b:

𝑦̅ = 𝑎 + 𝑏𝑥̅ Y
despejando a:
𝑎 = 𝑦̅ − 𝑏𝑥̅= 1,350 − 40 ∙ 36 = −90

Por tanto, la recta pedida será:


𝑦 = −90 + 40𝑥
Sin necesidad de representar esta recta de regresión, vemos que relaciona ambas

variables de forma positiva, pues la pendiente b > 0. Ello indica que los empleados de

mayor edad ganan más que los más jóvenes en una cuantía determinada en cada

caso por la recta de regresión

Por último, para conocer el salario que correspondería a una edad de 45 años

sustituimos en la recta:

𝑦 = −90 + 40 ∙ 45 = 1,710

El salario correspondiente a un empleado de 45 años es de Q1,710

6.3 Ejemplo 3

Un gerente de recursos humanos desea determinar el salario que debe pagar acierta

categoría de obreros. Para determinar dicho salario que debe pagar a cierta categoría de

obreros. Para determinar dicho salario se realiza un estudio en el que intervienen las

variables Salario Mensual (en miles de ptas), Nivel de Producción Anual en la Empresa

(en millones de ptas) y Nivel de especialización Media del Trabajador ( de 0 a 10). El

gerente obtiene esta serie de resultados:

Sal. 123. 135. 115. 100. 98.7 150. 124. 110. 138. 123.
4 7 9 6 4 6 0 6 4
Prod. 300. 325. 298. 200. 300. 359. 279. 215. 250. 300.
vii

5 9 6 9 4 8 6 6 0 0
Esp. 4.3 5.5 7.8 4.9 4.3 8.5 6.4 5.6 5.3 5.0

Se pide:

a)Calcular el plano de regresión lineal mínimo cuadrático que explica el salario en función

de la producción y del nivel de especialización.

b)Estudia la validez de la función obtenida en el apartado anterior por medio de una

medida descriptiva. ¿Cuánto vale la varianza residual?

c)Calcula el coeficiente de correlación parcialpara dos variables

explicativas.

d)Comente los resultados.

¿Qué salario se debería pagar si el nivel de producción fuese de 315 millones de ptas. y

el nivel medio de especialización de 6?6?

SOLUCIÓN:

a) Variable Y=Salario Xi=Producción X2=Nivel de especialización.

La tabla de cálculos es:


viii

2 2
Y X1 X2 Y2 X1 X2 YX1 YX2 X1X2

123.4 300. 4.3 15227.6 90300.1 18.5 37081.7 530.6 1292.


5 2
135.7 325. 5.5 18414.5 106210. 30.3 44224.6 746.5 1792.
9 8 5
115.9 298. 7.8 13432.8 89162.0 60.8 34607.7 904.0 2329.
6 1
100.6 200. 4.9 10120.4 40360.8 24.0 20210.5 492.9 984.4
9
98.7 300. 4.3 9741.7 90240.2 18.5 29649.5 424.5 1291.
4 7
150.4 359. 8.5 22620.2 129456. 72.3 54114.0 1278.4 3058.
8 0 3
124.6 279. 6.4 15525.2 78176.2 41.0 34838. 797.4 1789.
6 32 4
110.0 215. 5.6 12100.0 46483.4 31.4 23716.0 616.0 1207.
6 4

La recta por construir tendrá la forma y*= a+b1x1+b2x2 y para calcular los coeficientes

de la recta aparece un Sistema de Ecuaciones Come éste:

Con estos datos el sistema de ecuaciones a resolver es: 1221.3 = 10a +2831.3b1

+57.6b2

350112.2 =2831.3a +822889.6 b1 +16570.0b2

7141.8 =57.6a +16570.0b1 +349.7b2

Que tiene por solución a=56198 b1=0.158 b2=3.664. Por tanto, el plano de regresión es:

y*=56.198+0.158x1+3.664x2
ix

b) Las medidas descriptivas que vamos a utilizar son el coeficiente de determinación y el

de correlación. Y definidas serían así:

El coeficiente de determinación múltiple viene expresado como:

Donde s2 es la variable residual.

Una expresión de la varianza residual que simplifique el cálculo es:

En este caso R2=0.438 R=0.661 s2=138.506

El coeficiente de correlación parcial entre la variable dependiente y una variable

explicativa mide la fuerza de la relación lineal entre ambas cuando eliminamos el efecto

lineal de las otras variables explicativas. Su resultado es:

Donde SCE (xi) es la variación no explicada. Observando esta expresión vemos que el

coeficiente de determinación parcial nos da el incremento relativo de la variable aplicada.

El coeficiente de correlación parcial se consigue de la raíz cuadrada del coeficiente de

determinación. En este caso SCE(x1) =1582.51 SCE(x2) =1643.06 SCE (x1, x2)

=1385.06 r2=0.157 r2=0.124

y*=56.198+0.158*315+3.664*6.6=130.15

También podría gustarte