Parte 1 de Inf - Mes4, para Alumnos

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 14

Mes 4

Análisis de Correlación y regresión Lineal


Regresión y correlación
Si solamente están involucradas 2 variables, se dice que la técnica es una regresión o
correlación simple, cuando están implicadas 3 o más variables se trata de una relación
o correlación múltiple.
La técnica de regresión se refiere al procedimiento de obtener una ecuación con
fines de estimación o predicción, donde la variable a estimar o predecir se denomina
variable dependiente (Y) y la otra variable aquella que proporciona la base para la
estimación se denomina variable independiente (X).

 En un problema de regresión simple existe una variable dependiente y una


independiente.
 En la regresión múltiple implica 2 o más variables independientes y una dependiente.

Regresión lineal simple


El objetivo principal al evaluar la relación entre 2 variables es realizar predicciones más
precisas. Si se ha establecido una relación entre los valores de 2 variables, entonces
conocer el valor de una variable ayudará a predecir el valor de la otra.

Ecuacion de regresion lineal simple

Y=a+bx
Donde:
Y= Variable dependiente
a= Intersección en Y para la población
b= Pendiente para la población
X= variable independiente
EJEMPLO
En la regresión lineal simple la gráfica de la ecuación se llama línea de regresión
estimada.

𝒚 = 𝟏𝟓 + 𝟎. 𝟓𝒙 𝒚 = 𝟑𝟎 − 𝒙

x y x y
0 15 X=0 y=15+0.5(0)=15 0 30 X=0 y=30-0=30
10 20 10 20
20 25 20 10
30 30 30 0
40 35

En general una recta de correlación simple toma la forma Y=a+bx en donde “a” es
intersección “Y”, esto es al punto en que la recta y el eje “Y” se intersectan y lo es la
pendiente de la recta la cual es un cambio en “Y” por cada unitario en X.
TALLER 1
Para la ecuación Y=a+bx, Muestra gráficamente cada uno de los siguientes pares y
describa la relación entre “X” y “Y”.

a, b
A 2,0
B 2,1
C -2,2
D 4,3
E -2,3
F 1, -5
Diagrama de dispersión

El diagrama de dispersión se usa comúnmente para mostrar cómo dos variables se


relacionan entre sí. De este modo permite estudiar las relaciones que existen entre dos
factores problemas o causas relacionadas con la calidad, o un problema y su posible
causa.
Su objetivo es analizar estas variables para determinar la forma en que se relacionan o
que tan independientes son una de la otra,
de manera que “al incrementar el valor de una se incremente el de la otra” (correlación
positiva); “también puede suceder que al producir una en un sentido la otra deriva en el
sentido opuesto” (correlación negativa); “si los valores se revelan independientes entre
si, no hay correlación” (correlación nula).

 Correlación positiva: se da cuando hay una relación proporcional entre ambas


variables; es decir, las dos disminuyen o aumentan a la vez.
 Correlación negativa: se produce cuando el comportamiento de una variable es
diferente a la otra. Por ejemplo,mientras aumenta, la otra disminuye.
 Correlación nula: no existe algún tipo de comportamiento entre ambas variables.

Pasos para elaborarlo.


 Identificar la situación y las variables. Lo primero que deben hacer las
organizaciones es detectar el problema en cuestión.
 Reunir los datos de las variables. Se recopilan los datos que se analizarán para
verificar la relación entre las variables.
 Dibujar el diagrama en el plano cartesiano. En el eje X se encuentra la variable
independiente ( que no es influenciada por la otra) Y en el eje Y se coloca la
variable dependiente ( aquella que se encuentra afectada por la otra variable).
 Representar los datos-Trazar las variables parecidas. Las variables son
representadas por círculos. Si los dos partes de datos tienen el mismo valor,
ambos deben ser dibujados uno al costado del otro o trazar el segundo punto a
corta distancia.
 Interpretar- Analizar los datos. Colocados los datos en el diagrama, se analiza
el diagrama para determinar la correlación que existe entre las variables. Siempre
se debe buscar la causa raíz del problema.
Tipos de Relacion: Generalmente, el diagrama mostrará los siguientes tipos posibles de
relación:
Tipo de relación Diagrama
Correlación positiva: A un crecimiento de X (causa)
corresponde un crecimiento de Y (efecto).
Controlando la evolución de los valores de X, quedan
controlados los valores de Y, Figura siguiente.

Correlación positiva débil: A un crecimiento de X se


observa una tendencia a crecer de Y, pero se
presume que existen otras causas de dependencia,
Figura siguiente.

(r= 0.97)

Correlación negativa: A un crecimiento de X se observa


una tendencia a disminuir de Y, Figura siguiente.

( r=-0.99)

Correlación negativa débil: A un crecimiento de X se


observa una tendencia a disminuir de Y, pero se
presume que existen otras causas de dependencia,
Figura siguiente.

No existe una correlación evidente en la Figura siguiente.

(r= 0.06)

Puede existir una Correlación Compleja en la Figura


siguiente.

(parabólica r= - 0.33)

En nuestro caso, parece existir una relación positiva entre las dos variables, es decir, las
puntuaciones medias de percepción de calidad se incrementan a medida que aumentan las
puntuaciones medias de expectativas. No obstante, esta relación entre ambas variables parece ser
débil, al tiempo que se observa una considerable dispersión de los datos, especialmente en el rango
de valores altos para expectativas.
Coeficiente de Correlación

Para determinar con más precisión el grado de esa relación, se puede calcular el coeficiente de
correlación lineal, que expresa la intensidad de la correlación entre dos variables. Este coeficiente
puede calcularse mediante la fórmula correspondiente, El coeficiente de correlación lineal, que se
expresa mediante la letra “r”, es el cociente entre la covarianza y el producto de las desviaciones
típicas de ambas variables:

El valor de este coeficiente puede estar comprendido entre −1 y 1. Cuando toma un valor próximo a
−1, la correlación es fuerte y negativa. Si el valor es cercano a +1, la correlación es fuerte y positiva.
Si el coeficiente de correlación lineal presenta un valor próximo a 0, la correlación es débil.

Un coeficiente de 0 indicaría independencia total entre ambas variables. A su vez, un coeficiente de


correlación lineal de 1 ó de -1 señalaría que entre ambas variables hay dependencia funcional,
positiva o negativa según el signo del coeficiente.

El cálculo del coeficiente de correlación lineal efectuado para los datos del ejemplo de nuestro
diagrama de dispersión arroja un resultado de:

r = 0,45
Se confirma que existe una relación positiva entre ambas variables, si bien la correlación encontrada
es moderada.

Nota: Se utiliza el coeficiente de correlación de Pearson, aplicable para variables cuantitativas, que
mide el grado de covariación entre distintas variables relacionadas linealmente. Esto significa que
puede haber variables fuertemente relacionadas, pero no linealmente, en cuyo caso no es aplicable
la correlación de Pearson

correlación de Pearson= coeficiente de correlación lineal

𝑛(𝜀𝑥𝑦) − (𝜀𝑥)(𝜀𝑦)
𝑟=
√𝑛(𝜀𝑥 2 ) − (𝜀𝑥)2 . √𝑛(𝜀𝑦 2 ) − (𝜀𝑦)2

EJEMPLO: Calcule el coeficiente de correlacion para el ejemplo siguiente:

N=20

𝜀𝑥𝑦 = 1012
𝜀𝑥 = 147
𝜀𝑦 = 131

𝜀𝑥 2 = 1261

𝜀𝑦 2 = 921
20(1012) − (147)(131) 983
𝑟= = = 𝟎. 𝟒𝟔
√20(1261) − (147)2 . √20(921) − (131)2 2131.99

TALLER 2
Calcule el coeficiente de correlación para los siguientes datos.

N=6 𝜀𝑥𝑦 = 970 𝜀𝑥 = 12 𝜀𝑦 = 420 𝜀𝑥 2 = 28 𝜀𝑦 2 = 33 800


TALLER 3
Los siguientes datos de la variable X corresponde a la experiencia en semanas de cada uno de los
empleados a los que se aplicó la prueba, y la variable Y al tiempo en minutos que tarda el
empleado en capturar correctamente los datos de un reporte a la computadora, Calcule el
coeficiente de correlación para los siguientes datos.
Método de los cuadrados mínimos

Es un procedimiento para encontrar la ecuación de regresión en el método de los


cuadrados mínimos se emplean los datos de la muestra para determinar los valores de
“a” y “b”, que minimizan la suma de los cuadrados de las desviaciones entre los valores
estimados de la variable independiente.

El criterio de los cuadrados mínimos exige que sea la suma mínima, entonces
cualquier recta que minimice esta cantidad recibe el nombre de cuadrados mínimos.

El coeficiente de regresión son las incógnitas y tienen que calcularse a partir de


los datos muestrales, para el cálculo de estos valores se tienen las siguientes ecuaciones
llamadas ecuaciones normales.

𝑁. (∑ 𝑥𝑦) − (∑ 𝑦)(∑ 𝑥)
𝑏=
𝑁(∑ 𝑥)2 − (∑ 𝑥)2

∑ 𝑦 − 𝑏. ∑ 𝑥
𝑎=
𝑁

EJEMPLO
En una compañía de seguros se desea determinar la relación entre la experiencia en
ventas y el volumen de las mismas, se selecciona una muestra aleatoria de 9
vendedores, años de experiencia (X) y ventas anuales(Y).

Años de experiencia Ventas anuales XY X2 Y2

1 2 2 1 4

2 1 2 4 1

3 3 9 9 9 Calcula
4 3 12 16 9
1. Diagrama de Dispersion
5 4 20 25 16 2. Coeficiente de regresión a y b
3. Ecuacion de regresion
6 5 30 36 25 4. X=10 años
5. Calcula la correlacion simple
7 6 42 49 36

8 5 40 64 25

9 7 63 81 49

∑= 36 220 285 174

SOLUCION
TALLER 4

Se tiene un registro de los costos de mantenimiento para 6 máquinas idénticas de


distintas edades, por parte de la gerencia se desea determinar si existe una relación
funcional entre la edad de la máquina.
Calcule de los siguientes valores:
a. D.Dispersión
b. Coeficiente de regresión
c. Ecuacion de regresion X = 1,2,3
d. X=4
e. Correlación de datos

Edad de la máquina Costo de mantenimiento XY X2 Y2

2 70

1 40

3 100

2 80

1 30

3 100

∑ = 12

SOLUCION
Regresión Múltiple
Si solamente están involucrados 2 variables, se dice que la técnica es una regresión o
correlación simple, cuando están implicados 3 o más variables se tratara de una relación
o correlación múltiple.

La técnica de regresión se refiere el procedimiento de obtener una ecuación con fines de


estimación o predicción, donde la variable a estimar o predecir se denomina variable
dependiente (y), la otra variable aquella que proporciona la base de la estimación se
denomina variable independiente (x).

En un problema de regresión simple existe una variable dependiente y una


independiente. En la regresión múltiple implica 2 o más variables independientes y
dependientes.

Regresión lineal simple


El objetivo principal al evaluar la relación entre 2 variables es realizar predicciones
más precisas. Si se ha establecido una relación entre los valores de 2 variables entonces
conocer el valor de una variable ayudará a predecir el valor de la otra.

Ecuacion de regresion lineal simple


y=a*bx
donde
y= variable depende
a= intersección en y para la población
b= pendiente para la población
x= variable independiente

EJEMPLO
En la regresión lineal simple la gráfica de la ecuación se llama lineal de regresión
estimada
y= 1.5+0.5

x y

0 15

10 20

20 25

30 30

40 35

En general una recta de relación simple toma la forma y=a*bx en donde “a” es
intersección “y”, esto es el punto en que la recta y el eje “y” se intersecta y b es la
pendiente de la recta la cual es un cambio en “Y” por cada cambio unitario en x.
Regresión múltiple

Las ideas anteriores pueden generalizarse a más variables, por ejemplo, si creemos que
hay una regresión lineal entre una variable dependiente “Z” y 2 variables independientes
“X,Y” entonces buscaremos una ecuación conectando las variables que tengan la forma
siguiente:
Z=a+bx+cy
Está se denomina ecuaciones de regresión (Z/XY), Puesto qué la ecuación pasada
representa un plano en un sistema de coordenadas rectangulares tradicional. Se llama
plano de regresión, para encontrar el plano de regresión de los cuadrados mínimos,
determinados los coeficientes de regresión a, b, c con los siguientes ecuaciones
normales correspondientes.

Ecuaciones normales
∑ 𝑍 = 𝑁. 𝑎 + 𝑏. ∑ 𝑋 + 𝐶. ∑ 𝑌

∑ 𝑋𝑍 = 𝑎. 𝑥 + 𝑏. ∑ 𝑋 2 + 𝐶. ∑ 𝑋𝑌

∑ 𝑌𝑍 = 𝑎. ∑ 𝑌 + 𝑏. ∑ 𝑋𝑌 + 𝐶. ∑ 𝑌 2
EJEMPLO
La tabla siguiente muestra los pesos (z) en libras, las estaturas (x) en pulgadas y las
edades (y) en años.

N X Y XY X2 Y2 Z XZ YZ Z=a+bx+cy

1 57 8 456 3249 64 64 3648 512 64.4146

2 59 10 590 3481 100 71 4189 710 69.1365

3 49 6 294 2401 36 53 2597 318 54.565

4 62 11 682 3844 121 67 4154 737 73.2066

5 51 8 408 2601 64 55 2805 440 59.2869

6 50 7 350 2500 49 58 2900 406 56.926

7 55 10 550 3025 100 77 4235 770 65.718

8 48 9 432 2304 81 57 2736 513 58.2294

9 52 10 520 2704 100 56 2912 560 63.1542

10 42 6 252 1764 36 51 2142 306 50.0851

11 61 12 732 3721 144 76 4636 912 73.8584

12 57 9 513 3249 81 68 3876 612 65.9209

∑ = 643 106 5779 34843 976 753 40830 6796 752.9993

Regresión múltiple
Z=a+bx+cy
753=12a+643b+106c
40830=643a+34843b+5779c
6796=106a+5779b+976c

a + b + c = ∑𝑍
a + b + c = ∑ 𝑋𝑍
a + b + c = ∑ 𝑌𝑍
TALLER 5

N X Y XY X2 Y2 Z XZ YX Z=a+bx+cy

1 61 19 123

2 66 21 209

3 59 22 132

4 60 19 147

5 66 20 150

6 63 20 125

7 66 26 147

8 60 19 110

9 65 19 130

10 58 20 144

11 61 20 119

12 67 20 160

13 67 19 150

14 63 19 132

15 70 25 183

16 68 20 160

17 67 19 139

∑=

SOLUCION

También podría gustarte