Sem09 - Texto - TA09 - AnálisisCorrelación y Regresión Nov 2022

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 20

Análisis de correlación y Regresión - Series Cronológicas

ANÁLISIS DE CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE

En el análisis de correlación y regresión lineal simple se requiere tener dos variables, que convenientemente
se denotarán con letras Y (a la variable dependiente) y X (a la variable independiente).
El análisis de correlación:
Permite analizar el grado de Relación entre las variables del problema.
Análisis de Regresión:
Permite analizar la forma de la Relación entre las variables del problema.
1. La Variable dependiente y la variable independiente se determinan según el objetivo del trabajo.
2. El diagrama de dispersión, diagrama de esparcimiento o nube de puntos consiste en la representación
gráfica del conjunto de pares ordenados (Xi,Yi) donde i= 1,2,......, n
Así se tendrán n puntos en el plano cartesiano. Sin embargo si algunos pares ordenados coinciden en
coordenadas (Xi,Yi), por lógica, en el plano se visualizará menos puntos. Esto debido a que los puntos cuyas
coordenadas coinciden estarán ocupando el mismo lugar en el espacio.

Usando el diagrama de dispersión se puede visualizar la forma de la relación existente entre las variables X, Y.
Ejemplo: Y Y

X X
a) Relación Lineal Directa b) Relación Lineal Inversa

En a) y b) los datos visualizan una relación lineal entre las variables X, Y.


Y Y

X X
c) Relación No Lineal d) Ninguna Relación

El caso c) visualiza relación no lineal entre las variables X, Y.


El caso d) visualiza que no hay relación entre las variables X, Y.

3. Covarianza:
Permite analizar el grado de dispersión conjunta entre las variables X, Y cuantitativas.

̅ ) (𝒀𝒊 −𝒀
∑(𝑿𝒊 −𝑿 ̅)
Cov(X,Y) = Sxy =
𝒏

-1-
Análisis de correlación y Regresión - Series Cronológicas

Reagrupando los términos, se tiene una expresiónmás útil en la práctica, para obtener el valor de la covarianza:
𝒏 ∑ 𝑿𝒊 𝒀𝒊 − (∑ 𝑿𝒊 )(∑ 𝒀𝒊 )
C(X,Y) = = ̅̅̅̅
𝑿𝒀 − 𝑋̅𝑌̅
𝑛2

Donde:
̅̅̅̅
𝑿𝒀 promedio de los valores de los productos XY
𝑋̅ promedio de los valores de X
𝑌̅ promedio de los valores de Y

ANALISIS DE CORRELACION LINEAL SIMPLE:


El análisis de correlación lineal simple permite analizar el grado de relación lineal entre las variables X, Y.

4. Coeficiente de Correlación de Pearson (r): Mide el grado de relación o asociación entre las variables X, Y.

-1  r  1

-1 0 1

En la interpretación del coeficiente de correlación se sostiene que:


“El grado de relación aumenta según el valor de r se aleje de cero, ya sea hacia la derecha o hacia la
izquierda del cero “.
Si el valor de r = 0, no hay relación entre las variables X, Y.
b) Si el valor de r > 0, la relación entre las variables X, Y es DIRECTA. Indica que a mayor valor de X el valor
de Y aumenta.

Observar que en este caso, el valor de r varía desde un valor mayor que cero hasta 1

0 1

Tener presente que el grado de relación directa aumenta según el valor de r se aleja más de cero, hacia la
derecha.
Si 0 < r < 0.2 la correlación es directa no significativa.
Si 0.2  r < 0.4 existe baja correlación directa.
Si 0.4  r < 0.7 existe correlación directa significativa.
Si 0.7  r ≤ 1 existe alto grado de correlación directa .
Si r = 1, la relación entre X, Y es Directa Perfecta.
Y

c) Si el valor de r < 0, la relación entre las variables X, Y es INVERSA. Indica que a mayor valor de X, el valor
de Y disminuye.

-2-
Análisis de correlación y Regresión - Series Cronológicas

Observar que en este caso, el valor de r varía desde un valor menor que cero hasta -1

-1 0

Tener presente que el grado de relación inversa aumenta según el valor de r se aleja más de cero, hacia la
izquierda.
Si - 0.2 < r < 0 la correlación es inversa no significativa.
Si - 0.4 < r  - 0.2 existe baja correlación inversa.
Si - 0.7 < r  -0.4 existe correlación inversa significativa.
Si -1 ≤ r  - 0.7 existe alto grado de correlación inversa.
Si r = -1, la relación entre X, Y es Inversa Perfecta.
Y

Fórmula para calcular el coeficiente de correlación Lineal Simple (de Pearson) r:


n ∑ Xi Yi − (∑ Xi )(∑ Yi )
r =
√[n ∑ X2i −(∑ Xi )2 ][n ∑ Y2i −(∑ Yi )2 ]

ANÁLISIS DE REGRESION LINEAL SIMPLE:

El análisis de regresión lineal simple, permite analizar la forma de la relación lineal entre las Variables X, Y.
La función de regresión lineal simple o modelo de regresión lineal simple corresponde a la ecuación de una
recta.
Y = α + βX + ε

α es el valor de la ordenada donde la línea de regresión se intercepta con el eje Y.


β es el coeficiente de regresión poblacional (pendiente de la línea recta)
ε es el error

De acuerdo al comportamiento de los datos observados, se puede estimar la ecuación de regresión de


mejor ajuste de los datos, y así determinar si dicha recta es creciente o decreciente.
La ecuación de regresión permitirá estimar o predecir el valor de la variable dependiente Y, para un
determinado valor de la variable independiente X. Así mismo estimar su error de estimación.

5. Estimación de la Ecuación de Regresión Lineal Simple:


La ecuación de regresión muestral es

-3-
Análisis de correlación y Regresión - Series Cronológicas

X: Variable Independiente Y: Variable Dependiente


a : es el valor de la ordenada donde la línea de regresión muestral se intercepta con el eje Y. Se expresa en
las mismas unidades de Y
b :es el coeficiente de regresión muestral (pendiente de la línea recta).
b está expresado en las mismas unidades de Y por cada unidad de X.
Indica el número de unidades en que varía Y cuando se produce un cambio, por cada unidad en X
(pendiente de la recta de regresión).
Un valor negativo de b sería interpretado como la magnitud del decremento en Y por cada unidad
de aumento en X.
Y: Valores estimados de la Variable dependiente Y

Es decir se debe estimar los parámetros de la recta de regresión lineal simple.


En este caso los estimadores se denotan por “ a” y “ b ”.
Estimadores de los coeficientes de la ecuación de regresión lineal simple :

Coeficiente “ b “
En el modelo de regresión lineal simple el coeficiente “ b “, matemáticamente viene a ser la pendiente de la
recta de Regresión.
En el análisis de regresión, “ b “ se interpreta como “ la razón de cambio de la variable dependiente Y, por
cada unidad de cambio en la variable independiente X “.
(Representa el peso o ponderación de la Variable independiente X en la variable dependiente Y).

Análisis del coeficiente “ b ”


Si b = 0, la variación en el valor de la variable independiente X, no afecta el valor de la variable
dependiente Y ( Indica que no hay relación entre X e Y).
Si b > 0,al aumentar el valor de la variable X, aumenta el valor de la variable Y (Indica relación
directa).
Si b < 0,al aumentar el valor de la variable X, disminuye el valor de la variable Y (Indica relación
inversa).
Coeficiente “ a“
En el modelo de regresión lineal simple, “ a“ matemáticamente viene a ser la ordenada en el origen(Es decir
el punto donde la recta corta al eje de las ordenadas)
En el análisis de regresión lineal simple, “ a“ indica el efecto de otras variables no incluidas en dicho
modelo de regresión.

Análisis del coeficiente “ a ”


Si a = 0, no hay efecto de otras variables diferentes de X.
Si a < 0, el efecto de otras variables produce disminución del valor de Y.
Si a > 0, el efecto de otras variables produce aumento del valor de Y.
Fórmulas para calcularlos coeficientes de la ecuación de regresión lineal muestral:

n ∑ Xi Yi − (∑ Xi )(∑ Yi )
b=
n ∑ X2i −(∑ Xi )2

-4-
Análisis de correlación y Regresión - Series Cronológicas

̅ – b 𝑋̅
a=𝑌 donde: 𝑋̅: Promedio de los valores de Y
𝑌̅: Promedio de los valores de X
6. Coeficiente de Determinación ( R2% )

R2 % =( r )2 x100 donde r : coeficiente de correlación


Indica el porcentaje de Variabilidad total que es explicada por la ecuación de regresión:

0  R2  1

En porcentaje 0 %  R2 % 100 %

El coeficiente de determinación se utiliza para validar los modelos de regresión .


El mejor modelo de ajuste de los datos es el modelo que tiene mayor coeficiente de determinación .

7. Error Estándar de Estimación del Modelo de Regresión.


Es una medida de esparcimiento de los valores observados alrededor de la línea de regresión.
Constituye la Desviación estándar de los valores observados Y con respecto a los valores Y,
estimados por la línea de regresión.

En general, entre el valor Y, y el estimado Y existe una diferencia o sesgo que puede ser menor o mayor, en
la medida en que los n puntos del diagrama de esparcimiento estén más o menos cerca de la línea de
regresión considerada.
Se espera que cuanto mayor sea el coeficiente de correlación, el error en la estimación sea menor.

Error de Estimación del modelo de regresión:

̂ i )2
∑( Yi −Y
Sy/x =
𝑛−2

donde: Y: Valores observados de la Variable Dependiente


Y: Valores estimados de la variable dependiente usando el modelo de regresión.

En la práctica: la fórmula para calcular el error de estimación del modelo de regresión lineal simple, puede
expresarse de la siguiente manera:
∑ 𝒀𝟐 −𝒂 ∑ 𝒀−𝒃 ∑ 𝑿𝒀
Sy/x= √
𝒏−𝟐

Varianza de la regresión
̂ i )2
∑( Yi −Y
S2y/x=
𝑛−2

∑ 𝒀𝟐 −𝒂 ∑ 𝒀−𝒃 ∑ 𝑿𝒀
S2y/x= 𝒏−𝟐

-5-
Análisis de correlación y Regresión - Series Cronológicas

Ejercicio: Análisis de la Relación entre el Ingreso diario y el Tiempo de servicio de 20 empleados de un centro
comercial
X Y
Empleado Tiempo de Servicio (años) Ingreso diario (S/.)
1 4 20
2 8 40
3 2 10
4 6 20
5 3 13
6 5 20
7 4 13
8 6 30
9 3 12
10 8 35
11 4 14
12 5 15
13 6 31
14 8 32
15 10 40
16 3 10
17 5 14
18 6 30
19 4 12
20 3 15

1. Variable Dependiente : Ingreso (Y), en soles.


Variable Independiente : Tiempo de Servicio (X), en años.
Unidad de análisis : Cada empleado
Tamaño de la muestra : n = 20 empleados
2. Diagrama de Dispersión (Nube de Puntos o diagrama de esparcimiento).
Nota: En el ejemplo el par ordenado (6, 30) aparece 2 veces y en el gráfico es representado por un solo punto

Relación entre el Ingreso diario y el Tiempo de Servicio de 20 empleados

45
40
Ingreso Diario (S/.)

35
30
25
20
15
10
5
0
0 5 10 15
Tiempo de Servicio (años)

Análisis del diagrama de dispersión


De acuerdo a la nube de puntos, se observa una tendencia creciente del Ingreso, según el Tiempo de
Servicio vaya aumentando.
Esto significa que entre el Ingreso diario y el Tiempo de servicio de los 20 empleados hay una relación directa y
por tanto a mayor tiempo de servicio, se espera que un empleado tenga mayor Ingreso diario.
-6-
Análisis de correlación y Regresión - Series Cronológicas

3. Cálculo de las sumatorias  X Y  X2  Y2  XY

Empleado Tiempo de Servicio X Ingreso diario (S/.) Y X2 Y2 XY


1 4 20 16 400 80
2 8 40 64 1600 320
3 2 10 4 100 20
4 6 20 36 400 120
5 3 13 9 169 39
6 5 20 25 400 100
7 4 13 16 169 52
8 6 30 36 900 180
9 3 12 9 144 36
10 8 35 64 1225 280
11 4 14 16 196 56
12 5 15 25 225 75
13 6 31 36 961 186
14 8 32 64 1024 256
15 10 40 100 1600 400
16 3 10 9 100 30
17 5 14 25 196 70
18 6 30 36 900 180
19 4 12 16 144 48
20 3 15 9 225 45
SUMA 103 años 426 soles 615 años2 11078 soles2 2573 soles/años

4. Covarianza: Covarianza entre el Ingreso diario y el Tiempo de Servicio de los 20 empleados


𝟐𝟎 ∑ 𝑿𝒊 𝒀𝒊 − (∑ 𝑿𝒊 )(∑ 𝒀𝒊 ) 𝟐𝟎(𝟐𝟓𝟕𝟑)−(𝟏𝟎𝟑)(𝟒𝟐𝟔)
C(X,Y) = =
202 202
C(X,Y) = 18.96 soles /año
Interpretación:
La dispersión conjunta entre el Ingreso y el Tiempo de servicio en los 20 empleados es de 18.96 soles /año.

6. Coeficiente de Correlación entre el Ingreso y el Tiempo de Servicio de los 20 empleados:


20 ∑ Xi Yi − (∑ Xi )(∑ Yi )
r =
√[20 ∑ X2i −(∑ Xi )2 ][20 ∑ Y2i −(∑ Yi )2 ]

20 ( 2573 ) – 103 ( 426 ) 7582


r = = = 0.92
√[ 20 (615) − ( 103 )𝟐 ] [20 (11078 ) − (426)𝟐 ] √[ 1691 ] [40084 ]

r = 0.92

-1 0 0.92 1

Puesto que r = 0.92 > 0, la relación entre el Ingreso y el Tiempo de Servicio es DIRECTA.

El valor 0.92 está muy próximo a 1, lo que indica que existe un alto grado de correlación directa entre las variables
Ingreso y Tiempo de Servicio de los 20 empleados.

-7-
Análisis de correlación y Regresión - Series Cronológicas

Interpretación:
A mayor valor del Tiempo de servicio, se espera mayor valor del Ingreso.
Además, puesto que el 0.92 está bastante alejado de "cero" y muy cerca de 1, existe un alto grado de asociación entre
el Ingreso y el Tiempo de Servicio de estos 20 empleados.

6. Estimación de la Ecuación de Regresión Lineal Simple (o Recta de Regresión Lineal Simple de la muestra):

̂
𝒀 = a + bX

X : Valor observado del Tiempo de Servicio de los 20 empleados.


Y : Valor observado del Ingreso diario de los 20 empleados.
̂ :Valor estimado del Ingreso diario usando la ecuación de regresión.
𝒀

Previamente debe hallarse el valor estimado de los coeficientes de la ecuación de regresión lineal simple.
Es decir debe hallarse el valor de “ a ” y ” b ”.

20 ∑ Xi Yi − (∑ Xi )(∑ Yi )
b = [20 ∑ X2i −(∑ Xi )2 ]
20 ( 2573 ) – 103 ( 426 ) 7582
b = = = 4.48
[ 20 (615) − ( 103 )𝟐 ] [ 1691 ]

b = 4.48 soles /año

𝟒𝟐𝟔 𝟏𝟎𝟑
̅- b𝑿
a= 𝒀 ̅ a= - 4.48( )
𝟐𝟎 𝟐𝟎

a = 21.3 soles - 4.48 (5.15) soles= 21.3 soles - 23.072 soles

a = -1.772 soles

Así la ecuación de regresión lineal simple de la muestra está dada por:

̂ = -1.772 + 4.48 X
𝒀

7. Interpretación de los coeficientes de la ecuación de regresión lineal simple de la muestra

El valor b = 4.48 soles/años indica que por cada unidad de variación del tiempo de Servicio, se produce 4.48
soles de cambio en el ingreso.
Puesto que este valor es mayor de 0, entonces el cambio se da, en el sentido que al aumentar el Tiempo de Servicio,
también aumenta el Ingreso diario.

El valor a = -1.772 soles indica el efecto en el Ingreso diario producido por otras variables que no fueron
consideradas en el modelo.

-8-
Análisis de correlación y Regresión - Series Cronológicas

En este caso puesto que a = -1.772 < 0, el efecto hace que el ingreso diario disminuya y esta disminución es de
aproximadamente 1.772 soles.

8. Estimar el Ingreso diario de un empleado para un determinado valor del Tiempo de Servicio.
Ejemplo: Estimar el ingreso diario de un empleado que tenga 7 años de servicio.
Es decir hallar el valor estimado de Y, si X = 7 años
̂ = -1.772 soles + 4.48 soles/años (7 años)
𝒀
̂ = -1.772 soles + 31.36 soles
𝒀
̂ = 29.588 soles aprox.
𝒀

9. Gráfica de la Recta de Regresión hallada:


̂ ) que se obtienen dando valores a X y
Para trazar la recta, basta considerar dos puntos (X, 𝒀
̂ . Así tenemos lo siguiente:
reemplazando en la ecuación de regresión para obtener valores de 𝒀
X ̂
𝒀
Si X=0 ̂ = -1.772 + 4.48 (0) =-1.772
𝒀
Si X = 10 ̂ = -1.772 + 4.48 (10) = 43.028
𝒀

Entonces se puede considerar los puntos ( 0 , -1.772) y ( 10 , 43.028) para trazar la recta de regresión que
pase por dichos puntos. Se observa la recta de regresión trazada sobre el diagrama de dispersión.

60
Y = -1.772 + 4.48 X
50
Ingreso Diario (S/.)

40
30
20
10
0
-5 0 5 10 15
-10 Tiempo de Servicio (años)

10. Coeficiente de Determinación: R2


R2= (r)2 = (0.92)2 = 0.8464
Puede expresarse en Porcentaje
R2%= (r)2 x 100 = 84.64 %

Del 100% de la variación total, en los puntos (X, Y) del diagrama de dispersión, el 84.64% es explicada por la recta
̂ = -1.772 + 4.48X ( El 15.36% no es explicada por la ecuación de regresión hallada).
de regresión 𝒀

Interpretación: Aproximadamente el 84.64%de la variabilidad en los ingresos diarios se asocia a la variabilidad en los
Tiempos de Servicio.
-9-
Análisis de correlación y Regresión - Series Cronológicas

11. Error de Estimación del Modelo Lineal Simple:

Considerando el modelo lineal Simple, el error de estimación del modelo para el problema propuesto se obtiene con
la fórmula:

S y/x =  Y2 – aY - b XY
n–2

Si se considera el primer empleado, su tiempo de Servicio es X1 = 4 años y su correspondiente ingreso estimado con
la ecuación de regresión sería:
̂ 1 = Ingreso diario estimado = -1.772 + 4.48 X1
𝒀
Reemplazando X1 = 4 se tiene ̂ 1 = -1.772 + 4.48 (4)
𝒀
̂ 1 =-1.772 + 17.92
𝒀 ̂ 1= 16.148 soles
𝒀

Comparando los dos valores de Y para el primer empleado, hallamos el error de estimación para el ingreso de dicho
empleado, estimado con la ecuación de regresión hallada en base a los datos observados.

̂ 1 = 16.148 soles ingreso estimado del primer empleado


𝒀
Y1 = 20 soles ingreso observado del primer empleado.

̂ 1 = 20 soles - 16.148 soles = 3.852 soles


Error en la estimación del ingreso para el 1er empleado = Y 1 - 𝒀
Para los n empleados se puede hallar el error de Estimación del Modelo de regresión lineal simple
muestral utilizando la siguiente fórmula:

∑ 𝒀𝟐 −𝒂 ∑ 𝒀−𝒃 ∑ 𝑿𝒀 11078 − (−1.772) (426) − 4.48(2573)


Sy/x= √ = √
𝒏−𝟐 𝟐𝟎−𝟐

11078+754.872 − 11527.04
Sy/x= √ = √𝟏𝟔. 𝟗𝟗𝟎𝟕𝒔𝒐𝒍𝒆𝒔𝟐 = 4.12 soles
𝟐𝟎−𝟐

Sy/x = 4.12 soles

Interpretación:
̂ = -1.772 + 4.48X para estimar el ingreso diario de un empleado, en función
Si se utiliza la ecuación de regresión 𝒀
de su tiempo de servicio, el error de estimación es de 4.12 soles aproximadamente.

- 10 -
Análisis de correlación y Regresión - Series Cronológicas

SERIES CRONOLÓGICAS

1. GENERALIDADES
a) Una serie cronológica o serie de tiempo, es un conjunto de datos estadísticos observados, recopilados y
registrados sistemáticamente en un cierto período de tiempo.
La serie cronológica es un registro de las variaciones cuantitativas de una variable o un fenómeno a lo
largo del tiempo (tiempo calendario).
Algunos ejemplos de series cronológicas son :
• La producción de algodón en los 10 últimos años.
• Las exportaciones anuales entre los países de la Región Andina desde 2000 a la fecha.
• Las ventas mensuales en los supermercados.
• La matrícula por ciclo académico regular en Ingeniería en el período 2000-2019.
• Los cambios de temperatura diaria de la ciudad de Trujillo.
• El monto total de la inversión trimestral en la pequeña industria.
• El número semanal de accidentes de tránsito.
Importancia del estudio de las series cronológicas:
*Constituyen un elemento de análisis estadístico de los hombres de negocios, economistas, planificadores,
políticos, etc.
* Es de suma importancia para los especialistas que se dedican al análisis del desarrollo actual y futuro de las
actividades económicas, sociales, políticas y educativas de un país o región.
* Ninguna planificación de necesidades futuras de materia prima, de inversión, de atención educativa, de
servicios de salud, de producción, etc., por ejemplo, puede hacerse sin el análisis y predicción del
comportamiento de las variables fundamentales, como la demanda de bienes, de producción, de consumo; de
crecimiento poblacional, etc.

b) Como método de análisis, en la serie cronológica se comienza por mirar fundamentalmente el pasado, para
luego ayudar a definir el probable comportamiento de los datos o variable en el futuro.
Las aplicaciones más importantes de la serie cronológica son las proyecciones.
.Debe advertirse que las proyecciones no son valores determinantes que tienen que ocurrir
necesariamente en el futuro, son valores estimados o esperados; estos. resultados pueden variar
dependiendo de diversos factores que en forma directa o indirecta participan en los resultados de una serie
cronológica.
Por ejemplo, para analizar el comportamiento de los indicadores de la economía nacional se usan series
cronológicas, que ayudan a proyectar o estimar para los próximos años el nivel de inflación, producción,
desocupación, pobreza, etc. del país, estos resultados ayudan a la elaboración de Planes y Programas de
Desarrollo de mediano y largo plazo.

c) El propósito, es estudiar las técnicas y métodos básicos para analizar los componentes de las series
cronológicas, históricas o de tiempo, ilustrando algunas aplicaciones en la economía, desarrollo social,
investigación, etc.
Matemáticamente, una Serie Cronológica está definida por un par de valores (t i, yi) donde Y es el valor de la
variable observada en el tiempo t.
Esto significa que Y puede tomar valores : yi, y2, y3, . . . en los tiempos o momentos ti, t2, t3 . . ., respectivamente.

- 11 -
Análisis de correlación y Regresión - Series Cronológicas

Para un momento «t» queda definido un valor de «Y», de donde resulta que Y depende o es función de t,
pudiendo expresarse como:
Y = f (t) ó Y = f (tiempo)
d) Las serie cronológicas se representan gráficamente mediante un Línea Poligonal, que se construye sobre un
plano cartesiano o sistema de ejes coordenados.
En el eje horizontal (abscisas) se ubica el tiempo calendario (años, meses, semanas, etc.), en el eje vertical
(ordenadas) los valores de las observaciones correspondientes de Y (producción, ventas, exportaciones, etc.).
A manera de ejemplo, en el Gráfico N° 1, se presenta la poligonal de la serie cronológica correspondiente a la
Exportación del Café Peruano durante 2001-2020, cuyos valores se indican en Cuadro N° 1.
Esta serie tiene 20 observaciones o valores para Y, que están representados gráficamente por 20 puntos (ti, yi).
Cuando se unen consecutivamente los puntos, resulta la línea poligonal de la serie. La poligonal, facilita
la comprensión de la evolución y tendencia de la variable Y en el período t observado.

CUADRO N° 1
EXPORTACIÓN DE CAFÉ PERUANO 2001-2020
(Miles de T.M.)
Fuente: INEI - Perú; Compendio Estadístico 2001 - 2020.
Años 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020
Exportación 42.2 46.9 44.5 53.5 69.5 44.2 45.3 43.3 55.4 52 60 75 70 49 86 66 75 61 49 68

Unidad estadística :Cada año cronológico


Tamaño de la muestra n = 20 años cronológicos
Variable Independiente : El tiempo cronológico que en este caso son los años 2001-2020
Variable Dependiente Y : Cantidad exportada de café peruano.
En este caso la poligonal ,facilita la comprensión de la evolución y tendencia de la exportación del café en
los últimos 20 años.

Gráfico 01: EXPORTACIÓN DE CAFÉ PERUANO 2001-2020


(Miles de T.M)
Cantidad exportada de café(Miles de TM)

95
90
85
80 86
75
70 75 75
65 70
60 69.5 68
66
55 60 61
50 55.4
45 53.5 52
40 46.9 44.5 49 49
35 42.2 44.2 45.3 43.3
30
25
20
15
10
5
0
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021
Tiempo cronológico(AÑOS)

- 12 -
Análisis de correlación y Regresión - Series Cronológicas

Se observa que el volumen exportado ha variado en todos los años, deduciéndose que la exportación más baja
ocurrió en el año 2001 (42 200 TM), en tanto que el mejor año corresponde a 2015 con 86 000 TM de café.
En un estudio más detallado, puede analizarse las causas y consecuencias de la evolución histórica de la serie
cronológica, diseñar estrategias y políticas para planificar la producción, exportación, etc. en un futuro de
mediano o largo plazo.

e) Es interesante pensar en el gráfico de una serie cronológica, tal como el Gráfico N° 1 u otros, y observar cómo
está descrita por puntos que se mueve o cambia de posición de acuerdo al tiempo.
Este movimiento o variación se debe a la participación combinada de diversos factores que pueden ser de
carácter económico, social, político, geográfico, económico, educacional, psicológico, etc., o también a hechos
accidentales o aleatorios. Frecuentemente es necesario explicar estos factores para responder a las
preocupaciones del futuro comportamiento de la variable.
En este esquema o modelo, existe una variable dependiente (Y) con varias independientes, así como variables
intervinientes.
La experiencia con muchos ejemplos de series cronológicas, ha revelado ciertos «movimientos
característicos o variacionales», que se presentan en grado variado y se constituyen en las «componentes
de la serie cronológicas», estos movimientos se pueden estudiar analíticamente.
El objetivo del análisis de las series cronológicas es determinar y cuantificar estas variaciones o componentes,
que son de gran de valor en muchas relaciones y conclusiones, especialmente en el problema del «pronóstico» o
predicción de los movimientos y del valor de la variable.
El aspecto fundamental es responder cuál será el valor esperado de Y para un momento futuro.

2. COMPONENTES DE LA SERIE CRONOLOGICA


Las variaciones o movimientos característicos de una serie cronológica, en un enfoque univariado puede
dividirse en cuatro componentes diferenciados:
2.1.Tendencia o Movimiento Secular (T).
2.2. Variaciones Estacionales (E).
2.3. Variaciones Cíclicas (C).
2.4. Variaciones Irregulares (I).

2.1 TENDENCIAS 0 MOVIMIENTO SECULAR


La tenencia se refiere a la dirección general que sigue una serie cronológica. Expresa un movimiento
uniforme o regular que sigue la serie durante un largo período de tiempo. La dirección de este movimiento
puede ser ascendente, descendente o simplemente constante.
Estadísticamente se puede presentar por una función matemática (recta, parábola, etc.), que constituye el
modelo de tendencia.

2.2 VARIACIONES 0 MOVIMIENTOS ESTACIONALES


Las variaciones estacionales son movimientos o fluctuaciones que se repiten a intervalos regulares
durante subperíodos de tiempo especificado.
Pueden ser fluctuaciones periódicas que se presentan trimestralmente, mensual, etc. Como por ejemplo, la
temperatura que aumenta en verano y baja en invierno; las ventas aumentan generalmente a fin de mes; los
accidentes de tránsito, la producción de alimentos, etc.

- 13 -
Análisis de correlación y Regresión - Series Cronológicas

2.3 VARIACIONES 0 MOVIMIENTOS CÍCLICOS


Las variaciones cíclicas o ciclos son fluctuaciones que se presentan alrededor de la tendencia en forma
más o menos regular cada cierto período de tiempo en un largo plazo.
Resulta difícil elaborar premisas sobre la extensión y forma del movimiento cíclico de una serie cronológica.
2.4 VARIACIONES IRREGULARES 0 ALEATORIAS
Son fluctuaciones que se presentan en forma esporádica de un período a otro. Son variaciones
accidentales que no se pueden determinar en términos de tendencia, variaciones estacionales o cíclicas.
Las variaciones irregulares pueden ser de dos tipos:
i) Variaciones causadas por sequías, guerras, inundaciones, terremotos, huelgas, etc., y
ii) Variaciones aleatorias o al azar, cuyas causas no pueden definirse, son simplemente factores no
conocidos.

ANÁLISIS DE UNA SERIE CRONOLÓGICA:


El análisis de una serie cronológica consiste en la descripción, generalmente matemática, del
comportamiento de sus componentes.
Por lo común se supone que las componentes de una serie pueden considerarse como independientes
entre sí, lo cual implica que su estimación sería sucesiva más bien que simultánea.
Muchas series frecuentemente presentan una tendencia fácil de definir, alrededor de la cual se puede
explicar los demás componentes.
Por ejemplo:
La variación de los precios tiene una tendencia ascendente; el analfabetismo tiende a disminuir, la población
es creciente; la temperatura es estacional; etc.
Por su parte, la variación cíclica se analiza como un residuo que se estima después que las componentes
de tendencia y variación estacional fueron identificadas y algunas veces después de haber eliminado los
movimientos irregulares.
El valor real de Y se puede considera con un comportamiento específico, que se puede obedecer a un
modelo aditivo o uno multiplicativo, entonces es posible establecer las siguientes relaciones :
Y=T+E+C+ I
ó Y= T x Ex C x I
con T (tendencia); E (variación estacional); C (curva cíclica) e I (variación irregular).

3. ESTUDIO DE LA TENDENCIA
La tendencia es la dirección que en general sigue la serie cronológica, que se puede visualizar con facilidad a
partir de la gráfica de la poligonal de la serie.
Hay series cuyos valores crecen con cierta frecuencia, entonces se trata de una serie de «tendencia
ascendente o creciente», en tanto hay otros valores que en su mayoría decrecen, se trata de una serie con
«tendencias descendentes»; sin embargo también existen series que no es fácil advertir su tendencia.
El estudio de la tendencia es de suma importancia para determinar el probable comportamiento de los
datos en el futuro.
Las proyecciones de la tendencia, concretamente la proyección de la serie cronológica, constituye el aspecto
más importante de la planificación social, económica, educacional de mediano y largo plazo.
Un empresario que programa la instalación de una fábrica necesita saber cuál será la demanda de su
producto dentro de cinco, diez o más años.

- 14 -
Análisis de correlación y Regresión - Series Cronológicas

El planificador de la educación, para programar la expansión de la atención educativa y las metas de


formación de maestros, tiene que conocer cuál será la población en «edad escolar» en los diez siguientes años.
Expresada la tendencia por una función matemática, es relativamente fácil proyectar la serie y obtener
valores estimados para Y. Teniendo en cuenta evidentemente que los futuros valores, tienen un error o
sesgo, cuya dimensión depende de la validez y significación de los datos de la serie, período elegido y
del método utilizado para analizar la tendencia.

El método estadístico elegido para analizar la serie, dependerá :


• Del comportamiento de la variable en el tiempo, que se deduce de la forma de la poligonal, y
• Del objetivo de la estimación.
La tendencia de una serie se puede determinar y estimar por dos métodos generales, uno gráfico y otro
analítico, el segundo es más utilizado. Así se tiene:
a. Método de los Promedios Móviles (Método gráfico)
b. Método del Ajuste de una Línea o función (Método analítico)

3.1 METODO DE LOS PROMEDIOS MOVILES


Es un método de apreciación gráfica, cuyo objetivo es simplemente suavizar la línea poligonal que
representa la serie cronológica.
Este método requiere de cálculos muy simples y no está forzado a adaptarse a ninguna función
matemática. Aquí la poligonal original se transforma en otra poligonal más suave , y por tanto debe ayudar a
definir la tendencia de la serie.

3.2 AJUSTE DE UNA FUNCION DE TENDENCIA


El ajuste de una función a una serie cronológica consiste en elegir una función matemática que mejor
represente la tendencia de la serie.
Se trata de sustituir la línea poligonal por una función matemática conocida y que facilite analizar la
tendencia y perspectiva de la serie cronológica.
Esta función proporcionará una idea del comportamiento histórico de la variables y lo más importante es que
permite estimar los valores futuros de la variable.

Para ajustar una función (lineal o no lineal) a una serie cronológica se sigue el mismo procedimiento
y método de trabajo que se indica en el caso general de regresión y correlación.
En general, para definir la función de ajuste, es recomendable:
• Graficar la línea poligonal de la serie(diagrama de dispersión de los puntos);
• Analizar gráficamente la tendencia y forma de la poligonal;
• Definir la función de ajuste, estimar los parámetros y escribir la ecuación respectiva.
Las funciones de tendencia más conocidas son: la línea recta, la parábola, la curva exponencial y la
función logística.

Las series cronológicas tienen dos variables (t, Y)


donde Y = f (tiempo) ò Y = f (t),
también se puede decir Y = f (X) donde X representaría al tiempo.

- 15 -
Análisis de correlación y Regresión - Series Cronológicas

4. TENDENCIA LINEAL: AJUSTE DE UNA LINEA RECTA


La ecuación más sencilla de una línea recta es
𝑌̂ = a + bX
función de primer grado en X cuyos parámetros son estimados por «a» y «b».
Con esta ecuación, hallar la línea de tendencia, que permita estimar Y (producción, consumo, población, etc.) en
función del tiempo.
El método de los mínimos cuadrados (MMC) es el más utilizado para ajustar o determinar líneas de tendencia;
por su precisión, las desviaciones o sesgos de los valores originales de la serie respecto a la línea ajustada son
mínimos.
Este método permite un adecuado tratamiento matemático de los datos de la serie cronológica, y obtener buenas
estimaciones con menor sesgo y error estadístico.

El procedimiento para determinar la líneas rectas de tendencia es similar al seguido en el caso de las líneas de
regresión, aquí la variable X representará el tiempo.

Como se recordará para obtener la 𝑌̂ = 𝑎 + 𝑏𝑋se tiene los estimadores «a» y «b» de los parámetros de
regresión. Para hallar el valor de «a» y «b», se utilizan las mismas fórmulas del análisis de regresión simple. Así
n ∑ Xi Yi − (∑ Xi )(∑ Yi )
b=
n ∑ X2i −(∑ Xi )2

̅ – b 𝑋̅
a=𝑌

Fórmula para calcular el coeficiente de correlación Lineal Simple (de Pearson) r:


n ∑ Xi Yi − (∑ Xi )(∑ Yi )
r =
√[n ∑ X2i −(∑ Xi )2 ][n ∑ Y2i −(∑ Yi )2 ]

Coeficiente de Determinación ( R2% )

R2 % =( r )2 x100

Error de Estimación del modelo de regresión:

̂ i )2
∑( Yi −Y
Sy/x =
𝑛−2

En la práctica: la fórmula para calcular el error de estimación del modelo de regresión lineal simple, puede
expresarse de la siguiente manera:
∑ 𝒀𝟐 −𝒂 ∑ 𝒀−𝒃 ∑ 𝑿𝒀
Sy/x= √
𝒏−𝟐

- 16 -
Análisis de correlación y Regresión - Series Cronológicas

Previamente el tiempo calendario debe convertirse en escala de X.

CONVERSION DEL TIEMPO CALENDARIO EN ESCALA DE X:

En toda serie cronológica, cuando se trabaja con una función:


y = f(x) x = tiempo
el tiempo calendario, que puede ser meses, trimestres, años, etc, debe convertirse en una escala o valor de x, que
generalmente es un número entero.
Puede elegirse cualquier escala, lo fundamental es que el tiempo calendario quede expresado en valores de X.
Según los valores que se elijan para X, es posible abreviar los cálculos.

Ejemplo: dada la siguiente serie de años


2007, 2008, 2009, 2010, 2011, 2012, 2013
Puede elegirse cualquier año como origen de la serie, pero la recomendación general, es asignar valores de X de
modo que  X = 0.
Así se tiene
2007, 2008, 2009, 2010, 2011, 2012, 2013
X: -3 -2 -1 0 1 2 3 donde  X = 0
En este caso dado que  X = 0, las fórmulas de los coeficientes de regresión se reducen y se obtiene que:
∑𝒀
a= 𝒏

∑ Xi Yi
b=
∑ X2i

Para convertir el tiempo calendario en escala de X, se presentan los siguientes casos:

1. Si se tienen series cronológicas con datos para períodos consecutivos y equidistantes:


a) Cuando la serie tiene un número impar de observaciones consecutivas, se elige el punto medio como
nuevo origen de la serie, en el ejemplo correspondería al año 2010, al cual se asigna el valor 0.

2007, 2008, 2009, 2010, 2011, 2012, 2013


X: -3 -2 -1 0 1 2 3 donde: X=0

b) Cuando la serie cronológica tiene un número «par» de observaciones consecutivas, por ejemplo 8 años
consecutivos. El punto medio de la serie está ubicado entre dos años centrales; en este caso se considera
una escala de 2 , unidades entre dos años consecutivos, tal como se ilustra:

2006 2007 2008 2009 2010 2011 2012 2013


X: -7 -5 -3 -1 1 3 5 7 donde :  X = 0
El artificio de conseguir que  X = 0, facilita el cálculo de los estimadores «a» y «b» de los parámetros de
regresión en caso de la recta.

- 17 -
Análisis de correlación y Regresión - Series Cronológicas

2. Cuando la serie tiene datos para períodos no consecutivos, no es muy fácil hallar  X = 0; entonces para evitar
confusiones es preferible usar una escala de números enteros positivos.
Por ejemplo, para una serie de tiempo con los años:

2001, 2004, 2006, 2009, 2012, 2013


X: 0 3 5 8 11 12

Ejemplo:
Considerando la Serie Cronológica de la Deuda Externa Total del Perú para el período 2001 - 2013(Cuadro N° 2),

Cuadro N° 2
DETERMINACION DE LA TENDENCIA LINEAL DEUDA EXTERNA TOTAL DEL PERU. PERIODO 2008 - 2020.
(Millones de dólares)

Años 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020
Deuda Total 10619 11131 11849 12877 14904 17634 17964 18609 19856 20787 21409 22157 23429
Fuente: INEI - Perú Compendio Estadístico 2020.

1) UE: Cada año , Tamaño de la muestra n= 13 años ,

2) Variable Independiente X: Años cronológicos, 2008 - 2020


Variable dependiente Y: Deuda Externa
3) Gráfica de la serie .La serie tiene 13 datos cuya poligonal está en el Gráfico N° 2.
Gráfico N° 2: DEUDA EXTERNA TOTAL DEL PERU. 2008 - 2020.
(millones de dólares)

26000
24000
22000 23429
20000 22157
21409
20787
18000 19856
18609
Deuda Total

16000 17634 17964


14000
14904
12000
12877
10000 11849
10619 11131
8000
6000
4000
2000
0
2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021
Tiempo cronológico(Años)

Análisis del diagrama de dispersión: Se observa una tendencia creciente. Significa que a medida que pasan los
años la deuda externa total tiende a aumentar.
- 18 -
Análisis de correlación y Regresión - Series Cronológicas

3) Calculo de las sumatorias: ∑X ∑Y ∑XY ∑X2 ∑Y2

Como se trata de una serie de 13 años (número impar de observaciones), elegimos como punto medio el
año 2014 de donde X = 0, luego la escala para X es:

X : -6, -5, -4, -3, -2, -1, 0, 1, 2, 3, 4, 5, 6, de donde X=0

Deuda Total
Años X Y XY X2 Y2
2008 -6 10619 -63714 36 112763161
2009 -5 11131 -55655 25 123899161
2010 -4 11849 -47396 16 140398801
2011 -3 12877 -38631 9 165817129
2012 -2 14904 -29808 4 222129216
2013 -1 17634 -17634 1 310957956
2014 0 17964 0 0 322705296
2015 1 18609 18609 1 346294881
2016 2 19856 39712 4 394260736
2017 3 20787 62361 9 432099369
2018 4 21409 85636 16 458345281
2019 5 22157 110785 25 490932649
2020 6 23429 140574 36 548918041
n=13 0 223225 204839 182 4069521677
∑X ∑Y ∑XY ∑X2 ∑Y2

4) Coeficiente de correlación : utilizando las sumas del cuadro se calcula que el coeficiente de correlación
entre la deuda externa y el tiempo cronológico es r = 0.987. La relación es directa entre ambas variables.

5) La línea recta de tendencia


En estas condiciones se obtiene que: a = 17 171.15, b = 1125.49; sustituyendo estos valores en
la ecuación de la recta, se tiene:

ŷ = 17171.15 + 1125.49 X
que constituyen la recta de tendencia de la evolución de la deuda externa total del Perú.

6) Grafica la recta de tendencia.

Para graficar la recta de tendencia obtenida es suficiente determinar dos puntos, reemplazando X en la ecuación,
por ejemplo X1 = -3, X2 = 5 se obtiene los puntos P1(-3; 13714) y P2(5; 22798.6), los mismos que se gráfica y por
ellos se traza la gráfica de la recta ŷ = 17171.15 + 1125.49 X indicado en el Gráfico N° 2.

- 19 -
Análisis de correlación y Regresión - Series Cronológicas

Gráfico N° 2. DEUDA EXTERNA TOTAL DEL PERU. 2008-2022.


(millones de dólares)

26000
Y* = 17171.15 + 1125.5X
24000
R² % = 97.49%
22000 23429
20000 22157
20787 21409
18000 19856
18609
16000 17634 17964
Deuda Total

14000
14904
12000
12877
10000 11849
10619 11131
8000
6000
4000
2000
0
2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021
Tiempo cronológico(Años)

7) Deuda estimada para los años 2022, 2023 y 2024.


La recta de tendencia obtenida es un modelo que ayuda a hacer algunas proyecciones o estimaciones de la deuda
futura. En este sentido, para estimar la deuda de 2022 bastará reemplazar en la ecuación X = 8, obteniendo:
𝑦̂2022 = 17 171.15 + 1 125.49 (8) 𝑦̂2022 = 26 175 millones de dólares.
De igual manera, para 2023 (X = 9) y para 2024 (X = 10), estimándose como deuda:
𝑦̂2023 = 27 300 millones de dólares. 𝑦̂2023 = 28 425 millones de dólares.
y así sucesivamente se puede estimar la deuda total para los años siguientes. Estos valores estimados no tienen
necesariamente que ocurrir exactamente en el futuro; como estimación tienen un error o sesgo probable, el mismo
que se puede determinar mediante el error estándar de estimación.

8) El error estándar de estimación.


El error está definido por las desviaciones de los valores de y respecto a la función de la tendencia, al igual que
en el caso de la regresión y correlación, el error estándar de estimación se calcula por la fórmula:

S = 
y − a  y − b xy 2

n−2
y/x

donde reemplazando valores, se obtiene que Sy/x =735.30 millones de dólares. Es decir, que el error promedio en
las estimaciones sería 735.30millones de dólares; luego se puede definir intervalos con distintos niveles de
probabilidad, como:

P ( yˆ − S y / x  y  yˆ + S y / x ) = 0.683
que para el caso del ejemplo, sería
P( ̂𝑌 - 735.30 < Y < ̂𝑌 + 735.30 ) = 0.683
y concretamente para 2022, existe una probabilidad del 68.3% que la deuda total del país estaría comprendida
entre 25439.7 y 26910.3 millones de dólares.

- 20 -

También podría gustarte