Trabajo de Regresion y Correlacion
Trabajo de Regresion y Correlacion
Trabajo de Regresion y Correlacion
Si sobre una población de niños entre 0 y 6 años, estudiamos las variables peso
y estatura, esperamos que en general ocurra que a mayor estatura también
encontremos mayor peso, aunque es posible que en algunos pocos casos no ocurra así.
Vemos que existe una relación entre las dos variables, aunque no es funcional,
o sea, no puedo determinar con exactitud el peso que corresponderá a cada talla.
Distribuciones Bidimensionales
Ejemplo:
MATEMÁTICAS 2 4 5 5 6 6 7 7 8 9
LENGUA 2 2 5 6 5 7 5 8 7 10
Idea de Correlación
Es frecuente que estudiemos sobre una misma población los valores de dos
variables estadísticas distintas, con el fin de ver si existe alguna relación entre ellas, es
decir, si los cambios en una de ellas influyen en los valores de la otra. Si ocurre esto
decimos que las variables están correlacionadas o bien que hay correlación entre ellas.
En el ejemplo anterior parece que hay cierta tendencia a que cuanto mejor es
la nota en Matemáticas, mejor es la de lengua.
Nube de Puntos o Diagrama de Dispersión
Regresión
Siendo así la regresión una técnica estadística, por lo tanto para interpretar
situaciones reales, pero a veces se manipula de mala manera por lo que es necesario
realizar una selección adecuada de las variables que van a construir las formulas
matemática, que representen a la regresión, por eso hay que tomar en cuenta
variables que tiene relación, de lo contraria se estaría matematizando un galimatías.
2
Se pueden encontrar varios tipos de regresión, por ejemplo:
Regresión Lineal: y = A + Bx
Regresión Logarítmica: y = A + BLn(x)
Regresión Exponencial: y = Ac(bx)
Regresión Cuadrática: y = A + Bx +Cx2
3
Correlación Lineal y Recta de Regresión
Ejemplo:
Observa que hay una correlación muy fuerte (los puntos están "casi" alineados)
y negativa (la recta es decreciente).
4
Ejemplo:
Distancia (en km) 0,05 0,1 0,12 0,4 0,5 0,7 1 1,2 2,1 2,5 3 3
Nota media 8,4 4 5,7 9,1 6,3 6,7 4,3 5,4 7,8 4,5 7,2 8,1
5
Observamos una nube de puntos que no nos sugiere ninguna recta concreta,
porque la correlación es prácticamente inexistente, es decir, no tiene nada que ver con
el rendimiento académico la distancia del domicilio al instituto,
De todas las rectas posibles los matemáticos han elegido como la mejor
aproximación la llamada de los mínimos cuadráticos, Su cálculo es también algo
mecánico que podemos hacer con calculadora o un ordenador. La recta de regresión
sirve para hacer estimaciones, teniendo en cuenta que:
Los valores obtenidos son aproximaciones en términos de probabilidad: es
probable que el valor correspondiente a x0 sea y0.
La fiabilidad es mayor cuanto más fuerte sea la correlación.
La fiabilidad aumenta al aumentar el número de datos.
La estimación es más fiable para los valores de x próximos a la media.
Ejemplo:
Con los datos del primer ejemplo, (las notas de 10 alumnos en Matemáticas y
en Lengua), podemos contestar con aproximación a la siguiente cuestión: si un alumno
no realizó el examen de lengua, pero sí el de matemáticas, obteniendo un 7, ¿qué nota
cabe esperar que obtuviera en lengua?
MATEMÁTICAS 2 4 5 5 6 6 7 7 8 9
LENGUA 2 2 5 6 5 7 5 8 7 10
6
Haz variar los valores de a y de b. Cuando la recta coincida con la recta de
regresión mínimo-cuadrática (en color azul claro) la suma de los cuadrados de
las distancias di es la mínima posible.
Y = a + bx,
Donde:
y = variable dependiente
x = variable independiente.
b=
∑ xy−n XY
∑ x 2−n X 2
a=Y −b x
7
Desviación estándar de la regresión
S y .X=
√ ∑ Y 2−a ∑ Y −b ∑ XY
n−2
Estimación de intervalo
√
2
1 ( X −X )
S IND =S y . x 1+ +
n ∑ ( X− X )2
b
t calc=
Sb
S b =SY . X
√ 1
∑ ( X −X )2
Donde:
8
Medida de la Correlación
-1 < r < 1
Coeficiente de Correlación
9
Variación total = explicada + no explicada
∑ (Y −Y )2=∑ (Y c −Y )2+∑ (Y −Y c )2
El coeficiente de determinación r 2 es la razón de la variación explicada a la
variación total:
r=
∑2(Y C −Y )
2
∑ (Y −Y )2
El coeficiente de correlación r es la raíz cuadrada del coeficiente de determinación:
r=
√ ∑ (Y c −Y )2
∑ (Y −Y )2
Cuando el tamaño de la muestra es lo suficientemente grande (v.g., mayor de
50); el valor de r puede ser calculado más directamente con base en:
n ∑ XY −∑ X ∑ Y
r=
√ [n ∑ X −(∑ X ) ] [ n ∑ Y −( ∑ Y ) ]
2 2 2 2
10
Ejemplo:
Permisos de Embarques de
construcción (X) conglomerado (Y)
15 6
9 4
40 16
20 6
25 13
25 9
15 10
35 16
Embarques de conglomerado
18
16
14
12
Embarques Y
10
0
5 10 15 20 25 30 35 40 45
Permisos X
11
Se realizan los cálculos como se muestra en la siguiente tabla
n X Y XY X2 Y2
1 15 6 90 225 36
2 9 4 36 81 16
3 40 16 640 1600 256
4 20 6 120 400 36
5 25 13 325 625 169
6 25 9 225 625 81
7 15 10 150 225 100
8 35 16 560 1225 256
Totales 184 80 2146 5006 950
X = 23
Y= 10
b=
∑ xy−n XY
∑ x 2−n X 2
2146−8(23)(10 )
b=
5006−8(23)(23 )
b= 0.395
a=Y −b x
a = 10 – 0.395(23)
a= 0.915
Y = a + bx
Y = 0.915 + 0.395X
12
Entonces, el número de embarques cuando el número de permisos de
construcción es 30 se puede encontrar sustituyendo el valor en la ecuación.
X = 30
Y = 0.915 + 0.395(30)
Y = 12.76 ≈ 13
Embarques de conglomerado
18
16
14
12
Embarques Y
10
8
6
4
2
0
0 5 10 15 20 25 30 35 40 45
Permisos X
Embarques de conglomerado
S y .X=
√ ∑ Y 2−a ∑ Y −b ∑ XY
n−2
13
SY . X =
√ 950−(0 .91 )(80)−(0 . 396)(2146 )
8−2
S Y . X = 2.2 embarques
t = 2.447
Se debe calcular ∑ ( X− X )2
X-X (X – X)2
-8.00 64
-14.00 196
17.00 289
-3.00 9
2.00 4
2.00 4
-8.00 64
12.00 144
0.00 774
X= 30 permisos
√
2
1 ( X −X )
S IND =S y . x 1+ +
n ∑ ( X− X )2
√
2
1 (30−23 )
S IND =2. 2 1+ + =
8 774 2.40
14
Intervalo de predicción = 13 ± 2.447 (2.40)
Coeficiente de correlación
n ∑ XY −∑ X ∑ Y
r=
√ [n ∑ X −(∑ X ) ] [ n ∑ Y −( ∑ Y ) ]
2 2 2 2
Ejemplo:
Accidentes xi 5 7 2 1 9
Número de vehículos yi 15 18 10 8 20
15
1 5 15 25 225 75
1 7 18 49 324 126
1 2 10 4 100 20
1 1 8 1 64 8
1 9 20 81 400 180
5 24 71 160 1113 409
16
Ejemplo:
Psicología xi 3 4 5 6 6 7 7 8 10
Estadística yi 2 5 5 6 7 6 7 9 10
Nº de alumnos fi 4 6 12 4 5 4 2 1 2
17
18
Ejemplo:
Matemáticas 6 4 8 5 3,5 7 5 10 5 4
Música 6,5 4,5 7 5 4 8 7 10 6 5
Ejemplo:
BIBLIOGRAFÍA
19
Monks Joseph G. Administración de operaciones, serie Schaum., 1ª edición,
México D.F.,
El Rincón del Vago, SL C Toro 76,2º Salamanca (España) [18 08 2005] dirección:
http:// htlm.rincondelvago.com/estadistica/html)
El Rincón Del Vago, SL C Toro 76,2º Salamanca (España) [16 08 2005] dirección:
http://htlm.rincondelvago.com/estadistica/html)
20