Tema - Regresion y Correlacion

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 9

APUNTES SOBRE

REGRESIÓN Y CORRELACIÓN
LINEAL SIMPLE

6
5
Predictando

4
3
2 Yc = a + bx
1
0
1 2 3 4
Predictor

Reyes Donis,José Luis


Guatemala, Febrero 2015
Introducción

Contando con información sobre variables, tales como: ingresos y gastos; ventas y
años de experiencia, ventas y utilidades. (Variables X, Y), se sabe o se asume que
guardan relación entre sí; se aplica regresión para estimar valores “Y”, a partir
de valores “X”, o sea sustituir valores observados por valores calculados.

Se usa la correlación para cuantificar la relación de las variables X e Y, para


lo cual se calcula un indicador que se denomina Coeficiente de Correlación. El
análisis de regresión y correlación, es simple cuando se estudian dos variables;
es múltiple cuando se estudian tres o más. La correlación parcial es un caso
particular de correlación múltiple; de las tres o más variables pueden analizarse
dos, asumiéndose que las demás no influyen.

Se dice regresión lineal cuando los valores de Y, pueden ser estimados bajo la
forma Y = a + b X, en cualquier otro caso se denominará regresión o correlación
no lineal (Curvilínea)

1. Regresión lineal simple

Permite estimar una variable llamada Predictando (Y) con relación a otra llamada
Predictor (X) para lo cual es necesario ajustar una línea recta a un conjunto de
datos, utilizando el método de mínimos cuadrados, a través de la ecuación de la
línea recta.
Y = a + bx; dónde: Y = Predictando, variable que se desea estimar
a y b = coeficientes de regresión, a = origen y b = pendiente.
X = Predictor, con base a la que se estima.
Para encontrar los coeficientes de regresión se pueden utilizar varias fórmulas.

a) Ecuaciones normales
∑ Y = na + b ∑ X
∑ XY = a ∑ X + b ∑ X 2

b) Fórmula de los parámetros

a= (∑ X 2 ) ( ∑Y ) - ( ∑ X ) ( ∑ XY )

n ∑X2 - ( ∑X )2

2
b= n ( ∑ X Y ) - (∑ X ) ( ∑Y )

n (∑ X 2 ) - ( ∑ X ) 2

c) Fórmula abreviada

a= Y - b X

b= ∑XY -n XY

∑X2 – nX2

1.1 Propiedades de los mínimos cuadrados

a) La suma algebraica de las desviaciones de los valores originales respecto a los


calculados es cero
∑ ( Y - Yc ) = 0
Yc = y calculada o estimada

b) La suma algebraica de las desviaciones de Y respecto a Yc, al cuadrado es


mínima, comparada con cualquier otro valor que no sea Yc.

∑ ( Y – Yc) 2 es mínima.

1.2 Error estándar de estimación, símbolo Syx


La ecuación de regresión permite estimar los valores del predictando (Y) en
función de los valores del predictor (x). Sin embargo no se sabe el grado de error
de las estimaciones para lo cual se utiliza la medida estadística denominada, Error
Estándar de Estimación. Sí Sxy = 0, se dirá que existe estimación perfecta,
mientras menor sea el valor de Syx, la estimación estará más cercana a la
realidad. El error estándar mide el grado de dispersión de los valores alrededor de
la línea de regresión.

a) Fórmula general: Syx = ∑ ( Y - Yc) 2


n

3
Dónde:
Y = Predictando ó variable que se desea estimar,
Yc = Valores de Y calculados con la ecuación,
n = Números de parejas de la variable

b) Fórmula abreviada:

Syx = ∑ Y 2 - a ∑ Y - b ∑ XY
n
Dónde:
X = valores del predictor, o variable dependiente
Y = Valores del predictando
a = origen de la ordenada
b= pendiente de la recta
n = número de parejas de la variable

a ) Propiedades de S yx

Y c ± Syx, agrupa aproximadamente al 68.26 % de los puntos


Y c ± 2Syx, agrupa aproximadamente al 95.46 % de los puntos
Y c ± 3Syx, agrupa aproximadamente al 99.72 % de los puntos

2. Correlación lineal simple


Estudia el comportamiento de una variable con relación a otra, por ejemplo:
inversión, utilidad; salarios, producción; ingresos, gastos. Las medidas estadísticas
que permiten medir la relación son dos coeficientes.
a) Coeficiente de determinación, símbolo r 2 en forma primaria; y
c) Coeficiente de correlación, símbolo r.

Ambos coeficientes permiten establecer el grado de asociación o vinculación


cuantitativa que existe entre dos o más variables.

4
2.1 Características:
r , siempre es positivo, no dice si la correlación es negativa.
Para r: (puede ser positivo o negativo)

a) Sí r = 0, correlación positiva
b) Sí r = 0, correlación negativa
c) Sí r = 0, no existe correlación
d) Sí r = - 1, correlación perfecta negativa
e) Sí r = 1, correlación perfecta positiva
f) Sí - 1 ≤ r ≤ 1, la correlación es fuerte o débil, según se acerque a cero.

3. Nube de puntos o mapa de dispersión

Es la representación gráfica del predictor y el predictando o sea las variables


consideradas, es decir cuando dos variables, se marcan en una gráfica.

4. Ejemplo de regresión y correlación

Una empresa cuenta con información sobre los gastos en publicidad y sus ventas
anuales. La información es la siguiente: (Miles de Quetzales)

Año Gastos en publicidad Ventas

2009 4 32
2010 10 42
2011 3 31
2012 4 35
2013 2 26
2014 1 21

5
SE PIDE:
a) El mapa de dispersión o nube de puntos;
b) Determinar la ecuación de regresión para estimar las ventas anuales;
c) Estimar las ventas anuales para 2015, si se gasta en publicidad Q 5, 000.00;
d) Indicar el grado de error de la estimación;
e) Hallar el intervalo para el 68.26 % de los casos; y
f) Indicar cual es el grado de correlación entre las variables e interpretar el
resultado.

SOLUCIÓN

a) Mapa de dispersión o nube de puntos

50
40
Ventas Q.

30
20

10
0
1 2 3 4 4 10
Gastos en publicidad Q.

b) Ecuación de regresión

Y = a +bX

b = ∑ XY - n X Y

∑X2- nX2

a = Y - bX

6
Cuadro de cálculo:

1 2 3 4 5

Año X Y XY X2 Y2

2009 4 32 128 16 1,024


2010 10 42 420 100 1,764
2011 3 31 93 9 961
2012 4 35 140 16 1,225
2013 2 26 52 4 676
2014 1 21 21 1 441
TOTAL 24 187 854 146 6,091

b= 854 - 6 (4 ) ( 31.17)
146 – 6 ( 4 )

b = 854 – 748.08 = 105.92 = 2.1184


146 – 96 50

a = 31.17 – 2.1184 ( 4 )

a = 31.17 – 8.4736 = 22.6964

Y = 22.6964 + 2.1184 X

7
c) Estimar las ventas anuales para 2015, si se gasta en publicidad Q 5,
000.00;

Yc = 22.6964 + 2.1184 (5 ) = Q 33.2884 Miles

d) Indicar el grado de error de la estimación

Syx = ∑ Y 2 - a ∑ Y - b ∑ XY
n

Syx = 6091 – 22.6964 * 187 - 2.1184 * 854


6

Syx = 6091 - 4244.23 - 1809.11


6

Syx = 2.5

e) Hallar el intervalo para el 68.26 % ...

Yc ± Syx

Q30.7884 miles
33.2884 + 2.5 =
Q35.7884 miles

8
f) Indicar el grado de correlación de las variables.

r= a ΣY + b ΣXY - n Y 2 Fórmula 104


ΣY2 - n Y2

r= 22.6964 ( 187 ) + 2.1184 ( 854 ) - 6 (31.17) 2

6,031 – 6 ( 31.17 ) 2

r= 4,244.23 + 1,809.11 - 5,829.41

6,091 - 5829.41

r = 223.93 = 0.925* 100 = 92.52 %

261.59

Intepretación: existe alta correlación entre las dos variables, con un 92.52 % que
está cercano a 100.0 % que es la máxima correlación.

También podría gustarte