Sem09 - Texto - TA09 - AnálisisCorrelación y Regresión Nov 2022
Sem09 - Texto - TA09 - AnálisisCorrelación y Regresión Nov 2022
Sem09 - Texto - TA09 - AnálisisCorrelación y Regresión Nov 2022
En el análisis de correlación y regresión lineal simple se requiere tener dos variables, que convenientemente
se denotarán con letras Y (a la variable dependiente) y X (a la variable independiente).
El análisis de correlación:
Permite analizar el grado de Relación entre las variables del problema.
Análisis de Regresión:
Permite analizar la forma de la Relación entre las variables del problema.
1. La Variable dependiente y la variable independiente se determinan según el objetivo del trabajo.
2. El diagrama de dispersión, diagrama de esparcimiento o nube de puntos consiste en la representación
gráfica del conjunto de pares ordenados (Xi,Yi) donde i= 1,2,......, n
Así se tendrán n puntos en el plano cartesiano. Sin embargo si algunos pares ordenados coinciden en
coordenadas (Xi,Yi), por lógica, en el plano se visualizará menos puntos. Esto debido a que los puntos cuyas
coordenadas coinciden estarán ocupando el mismo lugar en el espacio.
Usando el diagrama de dispersión se puede visualizar la forma de la relación existente entre las variables X, Y.
Ejemplo: Y Y
X X
a) Relación Lineal Directa b) Relación Lineal Inversa
X X
c) Relación No Lineal d) Ninguna Relación
3. Covarianza:
Permite analizar el grado de dispersión conjunta entre las variables X, Y cuantitativas.
̅ ) (𝒀𝒊 −𝒀
∑(𝑿𝒊 −𝑿 ̅)
Cov(X,Y) = Sxy =
𝒏
-1-
Análisis de correlación y Regresión - Series Cronológicas
Reagrupando los términos, se tiene una expresiónmás útil en la práctica, para obtener el valor de la covarianza:
𝒏 ∑ 𝑿𝒊 𝒀𝒊 − (∑ 𝑿𝒊 )(∑ 𝒀𝒊 )
C(X,Y) = = ̅̅̅̅
𝑿𝒀 − 𝑋̅𝑌̅
𝑛2
Donde:
̅̅̅̅
𝑿𝒀 promedio de los valores de los productos XY
𝑋̅ promedio de los valores de X
𝑌̅ promedio de los valores de Y
4. Coeficiente de Correlación de Pearson (r): Mide el grado de relación o asociación entre las variables X, Y.
-1 r 1
-1 0 1
Observar que en este caso, el valor de r varía desde un valor mayor que cero hasta 1
0 1
Tener presente que el grado de relación directa aumenta según el valor de r se aleja más de cero, hacia la
derecha.
Si 0 < r < 0.2 la correlación es directa no significativa.
Si 0.2 r < 0.4 existe baja correlación directa.
Si 0.4 r < 0.7 existe correlación directa significativa.
Si 0.7 r ≤ 1 existe alto grado de correlación directa .
Si r = 1, la relación entre X, Y es Directa Perfecta.
Y
c) Si el valor de r < 0, la relación entre las variables X, Y es INVERSA. Indica que a mayor valor de X, el valor
de Y disminuye.
-2-
Análisis de correlación y Regresión - Series Cronológicas
Observar que en este caso, el valor de r varía desde un valor menor que cero hasta -1
-1 0
Tener presente que el grado de relación inversa aumenta según el valor de r se aleja más de cero, hacia la
izquierda.
Si - 0.2 < r < 0 la correlación es inversa no significativa.
Si - 0.4 < r - 0.2 existe baja correlación inversa.
Si - 0.7 < r -0.4 existe correlación inversa significativa.
Si -1 ≤ r - 0.7 existe alto grado de correlación inversa.
Si r = -1, la relación entre X, Y es Inversa Perfecta.
Y
El análisis de regresión lineal simple, permite analizar la forma de la relación lineal entre las Variables X, Y.
La función de regresión lineal simple o modelo de regresión lineal simple corresponde a la ecuación de una
recta.
Y = α + βX + ε
-3-
Análisis de correlación y Regresión - Series Cronológicas
Coeficiente “ b “
En el modelo de regresión lineal simple el coeficiente “ b “, matemáticamente viene a ser la pendiente de la
recta de Regresión.
En el análisis de regresión, “ b “ se interpreta como “ la razón de cambio de la variable dependiente Y, por
cada unidad de cambio en la variable independiente X “.
(Representa el peso o ponderación de la Variable independiente X en la variable dependiente Y).
n ∑ Xi Yi − (∑ Xi )(∑ Yi )
b=
n ∑ X2i −(∑ Xi )2
-4-
Análisis de correlación y Regresión - Series Cronológicas
̅ – b 𝑋̅
a=𝑌 donde: 𝑋̅: Promedio de los valores de Y
𝑌̅: Promedio de los valores de X
6. Coeficiente de Determinación ( R2% )
0 R2 1
En porcentaje 0 % R2 % 100 %
En general, entre el valor Y, y el estimado Y existe una diferencia o sesgo que puede ser menor o mayor, en
la medida en que los n puntos del diagrama de esparcimiento estén más o menos cerca de la línea de
regresión considerada.
Se espera que cuanto mayor sea el coeficiente de correlación, el error en la estimación sea menor.
̂ i )2
∑( Yi −Y
Sy/x =
𝑛−2
En la práctica: la fórmula para calcular el error de estimación del modelo de regresión lineal simple, puede
expresarse de la siguiente manera:
∑ 𝒀𝟐 −𝒂 ∑ 𝒀−𝒃 ∑ 𝑿𝒀
Sy/x= √
𝒏−𝟐
Varianza de la regresión
̂ i )2
∑( Yi −Y
S2y/x=
𝑛−2
∑ 𝒀𝟐 −𝒂 ∑ 𝒀−𝒃 ∑ 𝑿𝒀
S2y/x= 𝒏−𝟐
-5-
Análisis de correlación y Regresión - Series Cronológicas
Ejercicio: Análisis de la Relación entre el Ingreso diario y el Tiempo de servicio de 20 empleados de un centro
comercial
X Y
Empleado Tiempo de Servicio (años) Ingreso diario (S/.)
1 4 20
2 8 40
3 2 10
4 6 20
5 3 13
6 5 20
7 4 13
8 6 30
9 3 12
10 8 35
11 4 14
12 5 15
13 6 31
14 8 32
15 10 40
16 3 10
17 5 14
18 6 30
19 4 12
20 3 15
45
40
Ingreso Diario (S/.)
35
30
25
20
15
10
5
0
0 5 10 15
Tiempo de Servicio (años)
r = 0.92
-1 0 0.92 1
Puesto que r = 0.92 > 0, la relación entre el Ingreso y el Tiempo de Servicio es DIRECTA.
El valor 0.92 está muy próximo a 1, lo que indica que existe un alto grado de correlación directa entre las variables
Ingreso y Tiempo de Servicio de los 20 empleados.
-7-
Análisis de correlación y Regresión - Series Cronológicas
Interpretación:
A mayor valor del Tiempo de servicio, se espera mayor valor del Ingreso.
Además, puesto que el 0.92 está bastante alejado de "cero" y muy cerca de 1, existe un alto grado de asociación entre
el Ingreso y el Tiempo de Servicio de estos 20 empleados.
6. Estimación de la Ecuación de Regresión Lineal Simple (o Recta de Regresión Lineal Simple de la muestra):
̂
𝒀 = a + bX
Previamente debe hallarse el valor estimado de los coeficientes de la ecuación de regresión lineal simple.
Es decir debe hallarse el valor de “ a ” y ” b ”.
20 ∑ Xi Yi − (∑ Xi )(∑ Yi )
b = [20 ∑ X2i −(∑ Xi )2 ]
20 ( 2573 ) – 103 ( 426 ) 7582
b = = = 4.48
[ 20 (615) − ( 103 )𝟐 ] [ 1691 ]
𝟒𝟐𝟔 𝟏𝟎𝟑
̅- b𝑿
a= 𝒀 ̅ a= - 4.48( )
𝟐𝟎 𝟐𝟎
a = -1.772 soles
̂ = -1.772 + 4.48 X
𝒀
El valor b = 4.48 soles/años indica que por cada unidad de variación del tiempo de Servicio, se produce 4.48
soles de cambio en el ingreso.
Puesto que este valor es mayor de 0, entonces el cambio se da, en el sentido que al aumentar el Tiempo de Servicio,
también aumenta el Ingreso diario.
El valor a = -1.772 soles indica el efecto en el Ingreso diario producido por otras variables que no fueron
consideradas en el modelo.
-8-
Análisis de correlación y Regresión - Series Cronológicas
En este caso puesto que a = -1.772 < 0, el efecto hace que el ingreso diario disminuya y esta disminución es de
aproximadamente 1.772 soles.
8. Estimar el Ingreso diario de un empleado para un determinado valor del Tiempo de Servicio.
Ejemplo: Estimar el ingreso diario de un empleado que tenga 7 años de servicio.
Es decir hallar el valor estimado de Y, si X = 7 años
̂ = -1.772 soles + 4.48 soles/años (7 años)
𝒀
̂ = -1.772 soles + 31.36 soles
𝒀
̂ = 29.588 soles aprox.
𝒀
Entonces se puede considerar los puntos ( 0 , -1.772) y ( 10 , 43.028) para trazar la recta de regresión que
pase por dichos puntos. Se observa la recta de regresión trazada sobre el diagrama de dispersión.
60
Y = -1.772 + 4.48 X
50
Ingreso Diario (S/.)
40
30
20
10
0
-5 0 5 10 15
-10 Tiempo de Servicio (años)
Del 100% de la variación total, en los puntos (X, Y) del diagrama de dispersión, el 84.64% es explicada por la recta
̂ = -1.772 + 4.48X ( El 15.36% no es explicada por la ecuación de regresión hallada).
de regresión 𝒀
Interpretación: Aproximadamente el 84.64%de la variabilidad en los ingresos diarios se asocia a la variabilidad en los
Tiempos de Servicio.
-9-
Análisis de correlación y Regresión - Series Cronológicas
Considerando el modelo lineal Simple, el error de estimación del modelo para el problema propuesto se obtiene con
la fórmula:
S y/x = Y2 – aY - b XY
n–2
Si se considera el primer empleado, su tiempo de Servicio es X1 = 4 años y su correspondiente ingreso estimado con
la ecuación de regresión sería:
̂ 1 = Ingreso diario estimado = -1.772 + 4.48 X1
𝒀
Reemplazando X1 = 4 se tiene ̂ 1 = -1.772 + 4.48 (4)
𝒀
̂ 1 =-1.772 + 17.92
𝒀 ̂ 1= 16.148 soles
𝒀
Comparando los dos valores de Y para el primer empleado, hallamos el error de estimación para el ingreso de dicho
empleado, estimado con la ecuación de regresión hallada en base a los datos observados.
11078+754.872 − 11527.04
Sy/x= √ = √𝟏𝟔. 𝟗𝟗𝟎𝟕𝒔𝒐𝒍𝒆𝒔𝟐 = 4.12 soles
𝟐𝟎−𝟐
Interpretación:
̂ = -1.772 + 4.48X para estimar el ingreso diario de un empleado, en función
Si se utiliza la ecuación de regresión 𝒀
de su tiempo de servicio, el error de estimación es de 4.12 soles aproximadamente.
- 10 -
Análisis de correlación y Regresión - Series Cronológicas
SERIES CRONOLÓGICAS
1. GENERALIDADES
a) Una serie cronológica o serie de tiempo, es un conjunto de datos estadísticos observados, recopilados y
registrados sistemáticamente en un cierto período de tiempo.
La serie cronológica es un registro de las variaciones cuantitativas de una variable o un fenómeno a lo
largo del tiempo (tiempo calendario).
Algunos ejemplos de series cronológicas son :
• La producción de algodón en los 10 últimos años.
• Las exportaciones anuales entre los países de la Región Andina desde 2000 a la fecha.
• Las ventas mensuales en los supermercados.
• La matrícula por ciclo académico regular en Ingeniería en el período 2000-2019.
• Los cambios de temperatura diaria de la ciudad de Trujillo.
• El monto total de la inversión trimestral en la pequeña industria.
• El número semanal de accidentes de tránsito.
Importancia del estudio de las series cronológicas:
*Constituyen un elemento de análisis estadístico de los hombres de negocios, economistas, planificadores,
políticos, etc.
* Es de suma importancia para los especialistas que se dedican al análisis del desarrollo actual y futuro de las
actividades económicas, sociales, políticas y educativas de un país o región.
* Ninguna planificación de necesidades futuras de materia prima, de inversión, de atención educativa, de
servicios de salud, de producción, etc., por ejemplo, puede hacerse sin el análisis y predicción del
comportamiento de las variables fundamentales, como la demanda de bienes, de producción, de consumo; de
crecimiento poblacional, etc.
b) Como método de análisis, en la serie cronológica se comienza por mirar fundamentalmente el pasado, para
luego ayudar a definir el probable comportamiento de los datos o variable en el futuro.
Las aplicaciones más importantes de la serie cronológica son las proyecciones.
.Debe advertirse que las proyecciones no son valores determinantes que tienen que ocurrir
necesariamente en el futuro, son valores estimados o esperados; estos. resultados pueden variar
dependiendo de diversos factores que en forma directa o indirecta participan en los resultados de una serie
cronológica.
Por ejemplo, para analizar el comportamiento de los indicadores de la economía nacional se usan series
cronológicas, que ayudan a proyectar o estimar para los próximos años el nivel de inflación, producción,
desocupación, pobreza, etc. del país, estos resultados ayudan a la elaboración de Planes y Programas de
Desarrollo de mediano y largo plazo.
c) El propósito, es estudiar las técnicas y métodos básicos para analizar los componentes de las series
cronológicas, históricas o de tiempo, ilustrando algunas aplicaciones en la economía, desarrollo social,
investigación, etc.
Matemáticamente, una Serie Cronológica está definida por un par de valores (t i, yi) donde Y es el valor de la
variable observada en el tiempo t.
Esto significa que Y puede tomar valores : yi, y2, y3, . . . en los tiempos o momentos ti, t2, t3 . . ., respectivamente.
- 11 -
Análisis de correlación y Regresión - Series Cronológicas
Para un momento «t» queda definido un valor de «Y», de donde resulta que Y depende o es función de t,
pudiendo expresarse como:
Y = f (t) ó Y = f (tiempo)
d) Las serie cronológicas se representan gráficamente mediante un Línea Poligonal, que se construye sobre un
plano cartesiano o sistema de ejes coordenados.
En el eje horizontal (abscisas) se ubica el tiempo calendario (años, meses, semanas, etc.), en el eje vertical
(ordenadas) los valores de las observaciones correspondientes de Y (producción, ventas, exportaciones, etc.).
A manera de ejemplo, en el Gráfico N° 1, se presenta la poligonal de la serie cronológica correspondiente a la
Exportación del Café Peruano durante 2001-2020, cuyos valores se indican en Cuadro N° 1.
Esta serie tiene 20 observaciones o valores para Y, que están representados gráficamente por 20 puntos (ti, yi).
Cuando se unen consecutivamente los puntos, resulta la línea poligonal de la serie. La poligonal, facilita
la comprensión de la evolución y tendencia de la variable Y en el período t observado.
CUADRO N° 1
EXPORTACIÓN DE CAFÉ PERUANO 2001-2020
(Miles de T.M.)
Fuente: INEI - Perú; Compendio Estadístico 2001 - 2020.
Años 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020
Exportación 42.2 46.9 44.5 53.5 69.5 44.2 45.3 43.3 55.4 52 60 75 70 49 86 66 75 61 49 68
95
90
85
80 86
75
70 75 75
65 70
60 69.5 68
66
55 60 61
50 55.4
45 53.5 52
40 46.9 44.5 49 49
35 42.2 44.2 45.3 43.3
30
25
20
15
10
5
0
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021
Tiempo cronológico(AÑOS)
- 12 -
Análisis de correlación y Regresión - Series Cronológicas
Se observa que el volumen exportado ha variado en todos los años, deduciéndose que la exportación más baja
ocurrió en el año 2001 (42 200 TM), en tanto que el mejor año corresponde a 2015 con 86 000 TM de café.
En un estudio más detallado, puede analizarse las causas y consecuencias de la evolución histórica de la serie
cronológica, diseñar estrategias y políticas para planificar la producción, exportación, etc. en un futuro de
mediano o largo plazo.
e) Es interesante pensar en el gráfico de una serie cronológica, tal como el Gráfico N° 1 u otros, y observar cómo
está descrita por puntos que se mueve o cambia de posición de acuerdo al tiempo.
Este movimiento o variación se debe a la participación combinada de diversos factores que pueden ser de
carácter económico, social, político, geográfico, económico, educacional, psicológico, etc., o también a hechos
accidentales o aleatorios. Frecuentemente es necesario explicar estos factores para responder a las
preocupaciones del futuro comportamiento de la variable.
En este esquema o modelo, existe una variable dependiente (Y) con varias independientes, así como variables
intervinientes.
La experiencia con muchos ejemplos de series cronológicas, ha revelado ciertos «movimientos
característicos o variacionales», que se presentan en grado variado y se constituyen en las «componentes
de la serie cronológicas», estos movimientos se pueden estudiar analíticamente.
El objetivo del análisis de las series cronológicas es determinar y cuantificar estas variaciones o componentes,
que son de gran de valor en muchas relaciones y conclusiones, especialmente en el problema del «pronóstico» o
predicción de los movimientos y del valor de la variable.
El aspecto fundamental es responder cuál será el valor esperado de Y para un momento futuro.
- 13 -
Análisis de correlación y Regresión - Series Cronológicas
3. ESTUDIO DE LA TENDENCIA
La tendencia es la dirección que en general sigue la serie cronológica, que se puede visualizar con facilidad a
partir de la gráfica de la poligonal de la serie.
Hay series cuyos valores crecen con cierta frecuencia, entonces se trata de una serie de «tendencia
ascendente o creciente», en tanto hay otros valores que en su mayoría decrecen, se trata de una serie con
«tendencias descendentes»; sin embargo también existen series que no es fácil advertir su tendencia.
El estudio de la tendencia es de suma importancia para determinar el probable comportamiento de los
datos en el futuro.
Las proyecciones de la tendencia, concretamente la proyección de la serie cronológica, constituye el aspecto
más importante de la planificación social, económica, educacional de mediano y largo plazo.
Un empresario que programa la instalación de una fábrica necesita saber cuál será la demanda de su
producto dentro de cinco, diez o más años.
- 14 -
Análisis de correlación y Regresión - Series Cronológicas
Para ajustar una función (lineal o no lineal) a una serie cronológica se sigue el mismo procedimiento
y método de trabajo que se indica en el caso general de regresión y correlación.
En general, para definir la función de ajuste, es recomendable:
• Graficar la línea poligonal de la serie(diagrama de dispersión de los puntos);
• Analizar gráficamente la tendencia y forma de la poligonal;
• Definir la función de ajuste, estimar los parámetros y escribir la ecuación respectiva.
Las funciones de tendencia más conocidas son: la línea recta, la parábola, la curva exponencial y la
función logística.
- 15 -
Análisis de correlación y Regresión - Series Cronológicas
El procedimiento para determinar la líneas rectas de tendencia es similar al seguido en el caso de las líneas de
regresión, aquí la variable X representará el tiempo.
Como se recordará para obtener la 𝑌̂ = 𝑎 + 𝑏𝑋se tiene los estimadores «a» y «b» de los parámetros de
regresión. Para hallar el valor de «a» y «b», se utilizan las mismas fórmulas del análisis de regresión simple. Así
n ∑ Xi Yi − (∑ Xi )(∑ Yi )
b=
n ∑ X2i −(∑ Xi )2
̅ – b 𝑋̅
a=𝑌
R2 % =( r )2 x100
̂ i )2
∑( Yi −Y
Sy/x =
𝑛−2
En la práctica: la fórmula para calcular el error de estimación del modelo de regresión lineal simple, puede
expresarse de la siguiente manera:
∑ 𝒀𝟐 −𝒂 ∑ 𝒀−𝒃 ∑ 𝑿𝒀
Sy/x= √
𝒏−𝟐
- 16 -
Análisis de correlación y Regresión - Series Cronológicas
∑ Xi Yi
b=
∑ X2i
b) Cuando la serie cronológica tiene un número «par» de observaciones consecutivas, por ejemplo 8 años
consecutivos. El punto medio de la serie está ubicado entre dos años centrales; en este caso se considera
una escala de 2 , unidades entre dos años consecutivos, tal como se ilustra:
- 17 -
Análisis de correlación y Regresión - Series Cronológicas
2. Cuando la serie tiene datos para períodos no consecutivos, no es muy fácil hallar X = 0; entonces para evitar
confusiones es preferible usar una escala de números enteros positivos.
Por ejemplo, para una serie de tiempo con los años:
Ejemplo:
Considerando la Serie Cronológica de la Deuda Externa Total del Perú para el período 2001 - 2013(Cuadro N° 2),
Cuadro N° 2
DETERMINACION DE LA TENDENCIA LINEAL DEUDA EXTERNA TOTAL DEL PERU. PERIODO 2008 - 2020.
(Millones de dólares)
Años 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020
Deuda Total 10619 11131 11849 12877 14904 17634 17964 18609 19856 20787 21409 22157 23429
Fuente: INEI - Perú Compendio Estadístico 2020.
26000
24000
22000 23429
20000 22157
21409
20787
18000 19856
18609
Deuda Total
Análisis del diagrama de dispersión: Se observa una tendencia creciente. Significa que a medida que pasan los
años la deuda externa total tiende a aumentar.
- 18 -
Análisis de correlación y Regresión - Series Cronológicas
Como se trata de una serie de 13 años (número impar de observaciones), elegimos como punto medio el
año 2014 de donde X = 0, luego la escala para X es:
Deuda Total
Años X Y XY X2 Y2
2008 -6 10619 -63714 36 112763161
2009 -5 11131 -55655 25 123899161
2010 -4 11849 -47396 16 140398801
2011 -3 12877 -38631 9 165817129
2012 -2 14904 -29808 4 222129216
2013 -1 17634 -17634 1 310957956
2014 0 17964 0 0 322705296
2015 1 18609 18609 1 346294881
2016 2 19856 39712 4 394260736
2017 3 20787 62361 9 432099369
2018 4 21409 85636 16 458345281
2019 5 22157 110785 25 490932649
2020 6 23429 140574 36 548918041
n=13 0 223225 204839 182 4069521677
∑X ∑Y ∑XY ∑X2 ∑Y2
4) Coeficiente de correlación : utilizando las sumas del cuadro se calcula que el coeficiente de correlación
entre la deuda externa y el tiempo cronológico es r = 0.987. La relación es directa entre ambas variables.
ŷ = 17171.15 + 1125.49 X
que constituyen la recta de tendencia de la evolución de la deuda externa total del Perú.
Para graficar la recta de tendencia obtenida es suficiente determinar dos puntos, reemplazando X en la ecuación,
por ejemplo X1 = -3, X2 = 5 se obtiene los puntos P1(-3; 13714) y P2(5; 22798.6), los mismos que se gráfica y por
ellos se traza la gráfica de la recta ŷ = 17171.15 + 1125.49 X indicado en el Gráfico N° 2.
- 19 -
Análisis de correlación y Regresión - Series Cronológicas
26000
Y* = 17171.15 + 1125.5X
24000
R² % = 97.49%
22000 23429
20000 22157
20787 21409
18000 19856
18609
16000 17634 17964
Deuda Total
14000
14904
12000
12877
10000 11849
10619 11131
8000
6000
4000
2000
0
2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021
Tiempo cronológico(Años)
S =
y − a y − b xy 2
n−2
y/x
donde reemplazando valores, se obtiene que Sy/x =735.30 millones de dólares. Es decir, que el error promedio en
las estimaciones sería 735.30millones de dólares; luego se puede definir intervalos con distintos niveles de
probabilidad, como:
P ( yˆ − S y / x y yˆ + S y / x ) = 0.683
que para el caso del ejemplo, sería
P( ̂𝑌 - 735.30 < Y < ̂𝑌 + 735.30 ) = 0.683
y concretamente para 2022, existe una probabilidad del 68.3% que la deuda total del país estaría comprendida
entre 25439.7 y 26910.3 millones de dólares.
- 20 -