Correlacion y Regresion Lineal
Correlacion y Regresion Lineal
Correlacion y Regresion Lineal
32
Recin se apunt a una asociacin entre variables. En estos casos se determinan dos a ms
variables en una poblacin o muestra de individuos.
Puede ser interesante, por ejemplo, saber si el contorno del busto entre las mujeres est
asociado a su estatura, si la temperatura influye en el tamao de los objetos o si el tipo de
corteza de cierta especie de rboles est relacionada con la presencia de cierto compuesto
qumico en la madera.
En la teora estadstica encontramos estadgrafos, usualmente llamados coeficientes de
correlacin, que nos permiten detectar si existe o no asociacin entre variables, y si existe,
qu tan fuerte es.
Tambin podemos asociar objetos o individuos. As, por ejemplo, podemos determinar
caractersticas en los seres humanos y agruparlos segn que tan parecidos sean, originando
la clasificacin en razas humanas. En otro caso, puede interesar la distancia que hay entre
islas para saber si estn asociadas, dando origen o no a archipilagos. Al asociar individuos,
el inters se centra en clasificarlos o agruparlos, lo que se hace a travs de estadgrafos
conocidos como coeficientes de similitud o medidas de distancia, tema que no tratar en
estos apuntes.
3.3. Tipos de asociacin
Al considerar los tipos de asociacin que pueden existir entre variables, tenemos una
primera clasificacin global en las siguientes tres categoras:
A) Independencia: En este caso, las variables no estn estadsticamente asociadas. Las
probabilidades de sucesos compuestos de casos correspondientes a variables
independientes se obtienen multiplicando las probabilidades individuales. Por ejemplo,
en una fiesta grande puede ocurrir que el 5% de las jvenes sean rubias y el 2% se
movilice en moto. La proporcin de jvenes que cumplan ambas condiciones ser el
producto 0.05 0.02 = 0.001 .
Al revs, las caractersticas de color, peso y tamao no son independientes de las razas
caninas, esto es lo que nos permite distinguir un chihuahua de un gran dans.
B) Dependencia funcional: La dependencia funcional se encuentra al relacionar variables a
travs de frmulas matemticas en las que no hay posibilidad de error. Son casos tpicos
de la fsica clsica. As, por ejemplo, la ley de Boyle establece que, si la temperatura es
constante, la presin P y el volumen V de cierta cantidad de gas estn relacionados por
la ecuacin P V = constante . Si queremos tomar en cuenta la temperatura T,
modificamos la ecuacin anterior obteniendo una relacin para las tres variables por la
P V
ecuacin
= constante .
T
33
observadores que las miden. Cuando esto se toma en cuenta, la relacin funcional pasa
a ser una relacin estadstica.
C) Asociacin Estadstica: La mayor parte de asociacin estadstica nacen al interesarnos
por la distribucin conjunta de dos variables.
Si una categora de sucesos (por ejemplo, peso de las personas entre 70 y 80 kg) ocurre
con cierta proporcin p de los casos, y otra categora (por ejemplo, estatura entre 160 y
170 cm) ocurre con una proporcin q, los dos tipos de evento ocurrirn a la vez en
algunos miembros del grupo de estudio. De hecho, en una proporcin p q , si fueran
independientes.
En un sentido que no es tcnico, la existencia de personas con peso entre los 70 y 80 kg
y estaturas entre 160 y 170 cm, indica que ambos tipos de suceso ests asociados en
estos individuos. Pero esto no es evidencia que la asociacin sea estadstica.
Por asociacin estadstica queremos expresar que la proporcin de personas que
presentan ambos tipos de sucesos es, o bien, significativamente ms alta, o bien,
significativamente ms baja que la proporcin esperada sobre la base de una
consideracin simultnea de las frecuencias, calculadas por separado, de ambas
categoras de sucesos.
Consideremos otro ejemplo donde tenemos 200 personas idnticas. A 100 de ellas se
les vacuna contra la influenza (grupo experimental) y a las otras 100 se les administra
un placebo. En una epidemia posterior, ambos grupos quedan igualmente expuestos a la
enfermedad y 20 de los vacunados se contagian, mientras que lo mismo ocurre con 50
de los no vacunados. Siendo imposible atribuir estos resultados al azar, debemos
concluir que el hecho de estar vacunado est asociado a no contraer la enfermedad. Ms
an, se puede pensar que esta asociacin es de tipo casual.
Sin embargo, si miramos un individuo en particular, no es posible afirmar que la vacuna
sea la causa por la que no se contagi, pues hay ejemplos de personas vacunadas que s
se contagiaron y de individuos sin influenza que no estaban vacunados. Incluso se
podra decir que esas personas se contagiaron debido a que s estaban vacunadas!,
aunque la tendencia general haya sido en direccin opuesta.
Dentro de las asociaciones estadsticas
interdependencia y relaciones de dependencia:
podemos
distinguir
relaciones
de
34
35
En el caso (a) el dibujo representa una curva, mientras que en (b) se observa una lnea
recta.
Cuando la relacin funcional es una lnea recta, el uso hace que se hable de una relacin
lineal. En los dems casos la relacin puede ser cuadrtica o de otra forma, no lineal.
El coeficiente de correlacin lineal de Pearson, que ser definido ms adelante, se puede
aplicar nicamente cuando la relacin funcional, o la asociacin estadstica
correspondiente, se basa en una recta. Este es un concepto que debe ser recordado siempre.
La investigacin de la relacin entre dos variables X e Y , basada en un conjunto de
n pares de observaciones, empieza con un intento por descubrir la forma aproximada de la
asociacin. Esto se realiza mediante un grfico X vs Y en el que se ubican los n puntos
pareados, y que se conoce como diagrama o grfico de dispersin.
Para aclara ideas, considere el nmero de empleados y los gastos fijos que se generan en
cuatro empresas muy similares. La informacin obtenida es:
X: Nro de
Empleados
20
25
30
35
36
A simple vista se puede apreciar en este diagrama que hay una tendencia entre la cantidad
de empleados y los gastos fijos. Las empresas que tienen un bajo nmero de empleados
tienden a tener un bajo gasto fijo. Asimismo, empresas con una gran cantidad de empleados
tienen un gasto fijo alto. Adems, la tendencia general de la nube es la de una lnea recta.
S XY
, donde:
S XX SYY
S XY = xi yi n X Y ,
i =1
i =1
i =1
37
38
Los coeficientes de correlacin deben manejarse con cuidado si se quiere que den
informacin sensata en lo que concierne a las relaciones entre pares de variables. El xito
de los coeficientes de correlacin requiere estar familiarizados con el campo de aplicacin,
as como tambin, con sus propiedades matemticas.
Respecto al valor mismo de la correlacin, la siguiente tabla da algunos criterios o guas
que pueden ayudar a interpretar el tamao del coeficiente de correlacin.
Interpretacin
Valor de | r |
No hay correlacin
| r | = 0 .0
Correlacin dbil
0 .0 < | r | 0 .5
Correlacin media
0 .5 < | r | 0 .8
Fuerte correlacin
0 .8 < | r | < 1 .0
Correlacin perfecta
| r | = 1 .0
3.6.
El problema de Regresin
En el ejemplo que relaciona los gastos fijos de la empresa (Y) con la cantidad de empleados
(X), el grfico de dispersin muestra una tendencia lineal casi perfecta. Lo que hace
suponer que el gasto fijo de la empresa i se comporta de la siguiente manera, segn la
yi = 0 + 1 xi + i , para
cantidad que empleados que posee,
siguiente grfica explica mejor lo dicho anteriormente:
i = 1,2,3 y 4. La
39
Cuando existe relacin funcional lineal entre las dos variables, en estudio, el modelo
matemtico yi =
lineal simple.
0 + 1 xi + i ,
puntos a la recta
0 + 1 x i , son 0 y 1
y de
1 ).
1 =
y de
0 = Y 1 X
S xy
S xx
Una de las dificultades del modelo de regresin lineal, es reconocer cual variable es la
explicatoria y cual la variable dependiente. En el problema de los gastos de fijos y el
nmero de empleados, visto con anterioridad, es claro que el nmero de empleados no
puede ser explicado por los gastos fijos. Esto indica que la variable dependiente es los
gastos fijos, mientras que la variable explicatoria es la cantidad de empleados (ya que a
mayor cantidad de empleados mayor es el gasto fijo). As se obtiene que:
Empresa
1
2
3
4
Total
Y*Y
X*Y
144400
184900
250000
336400
915700
7600
10750
15000
20300
53650
110
1890
= 27.5 y Y =
= 472.5 , por lo tanto, los estimadores de los parmetros
4
4
del modelo de regresin lineal simple son:
As X =
40
1 =
S xy
S xx
Para determinar si el modelo de regresin lineal es adecuado, existe una medida llamada el
coeficiente
de
determinacin
simplemente
el R ,
que
se
calcula
como
Observacin Ingreso
1
45
2
20
3
40
4
40
5
47
6
30
7
25
8
20
9
15
Seguro
70
50
60
50
90
55
55
35
40
Observacin Ingreso
10
35
11
40
12
55
13
50
14
60
15
15
16
30
17
35
18
45
41
Seguro
65
75
105
110
120
30
40
65
80
Al realizar el diagrama de dispersin se puede concluir que existe una asociacin funcional
lineal entre el monto del seguro y el ingreso semanal familiar.
Seguro de Vida
140
120
100
80
60
40
20
0
0
10
20
30
40
50
60
70
80
as:
S XY
5426.4
=
= 0.9103 .
S XX SYY
3052.9 11640.3
Esto nos indica que existe una fuerte relacin (directa) entre el monto del seguro y el
ingreso semanal familiar, ms an esta relacin es lineal en un 91.03%. Lo que nos hace
pensar que es adecuado pensar en un modelo de regresin lineal simple. Es fcil darse
cuenta que la variable dependiente es el monto del seguro y que la variable explicatoria es
el ingreso semanal familiar.
r=
1 =
S xy
S xx
5426.4
= 1.78
3052.9
42
Imagine que la compaa de seguros est interesada en estimar montos individuales del
seguro de vida para los ingresos semanal de 18, 28, 38, 48 y 58 . Los montos individuales
estimados se muestran en la siguiente tabla:
Ingreso
18
28
38
48
58
Seguro
34,49
52,27
70,04
87,82
105,59
Tiempo en
Horas
1
Unidades
ensambladas
Observacin
25
29
23
31
55
65
63
59
9
10
11
12
13
14
15
16
Tiempo en Unidades
Horas ensambladas
3
73
75
74
71
90
88
91
87
a)
b)
2. Un corredor de bienes races estudi la relacin entre X= ingreso anual (en millones de
pesos) de los compradores de residencias e Y= precio de venta de la residencia (en
millones de pesos). Se obtuvieron datos de las solicitudes hipotecarias correspondientes
a 24 profesionales de distintas empresas. El resumen de algunos resultados son:
43
n = 24
24
x
i =1
24
y
i =1
3.
2
i
= 942.5
= 347868.9
24
x
i =1
2
i
= 39915.5
= 116392.8
24
x y
i =1
24
y
i =1
= 2830.6
a)
b)
N de Nmero de
negocios sucursales
92
3
116
2
124
3
210
5
216
4
267
5
Observacin
7
8
9
10
11
12
N de Nmero de
negocios sucursales
306
5
378
6
415
7
502
7
615
9
703
9
44