Correlacion y Regresion Lineal
Correlacion y Regresion Lineal
Correlacion y Regresion Lineal
DOCENTE: MAT-370
ING. FLAVIO CARREÑO HEVIAVACA
ANALISIS DE LA
REGRESION Y
CORRELACION LINEAL
DIAGRAMAS DE DISPERSIÓN
El diagrama de dispersión, también conocido como gráfico de
dispersión o gráfico de correlación consiste en la
representación gráfica de dos variables para un conjunto de
datos. En otras palabras, analizamos la relación entre dos
variables, conociendo qué tanto se afectan entre sí o qué tan
independientes son una de la otra.
En este sentido, ambas variables se representan como un
punto en el plano cartesiano y de acuerdo a la relación que
exista entre ellas, definimos su tipo de correlación.
Con base en el comportamiento que toman las variables de
estudio, podemos encontrar 3 tipos de correlación: Positiva, negativa y nula.
Correlación positiva
Se presenta cuando una variable aumenta o disminuye y la
otra también, respectivamente. Hay una relación
proporcional. Por ejemplo, para un vendedor de carros, si él
vende más carros (variable 1), va a ganar más dinero
(variable 2).
Correlación negativa
Se presenta cuando una variable se comporta de forma contraria
o a la otra, es decir que, si una variable aumenta, la otra
disminuye. Hay una relación inversa proporcional. Por ejemplo,
para la construcción de un edificio, entre más trabajadores estén
construyendo un edificio (variable 1), menos tiempo se necesitará
para tenerlo listo (variable 2)
Correlación nula
Si no encuentras un comportamiento entre las variables,
existe una correlación nula.
Estos son pues, los tipos de correlación más visibles.
Aunque si lo miramos desde una perspectiva que evalúa
qué tan fuerte o débil es la correlación, encontramos otra
clasificación.
El coeficiente de correlación en un diagrama de dispersión
El coeficiente de correlación nos describe cómo es la relación existente entre dos
variables, en otras palabras, al conocer este número sabemos si la correlación es
positiva o negativa y qué tan fuerte o débil es. Se usa la letra r para expresarla,
veamos cómo:
• r=1
La correlación es positiva perfecta. Si una variable crece, la otra también lo hace en
una proporción constante. Es una relación directa, por eso si trazamos una línea de
ajuste esta va pasar por todos y cada uno de los puntos.
• 0<r<1
Es cuando r esta entre 0 y 1 sin llegar a ser 0 y 1. Es una correlación positiva. El grado
de cercanía de 1 define qué tan directa y proporcional es la relación entre ambas
variables, por ende, entre más cerca esté de 0, más débil será su correlación negativa.
• r=0
La correlación es nula, es decir que no existe una relación lineal entre ambas
variables. Qué tal si pruebas buscando otro tipo de relación.
• -1<r<0
Es cuando r esta entre -1 y 0 sin llegar a ser –1 y 0. Es una correlación negativa. El
grado de cercanía a -1 define que tan inversa y proporcional es la relación entre
ambas variables, por ende, entre más cerca esté de 0, más débil será su correlación
negativa.
• r=-1
La correlación es negativa perfecta. Si una variable crece, la otra va a disminuir en
proporción constante. Es una relación directa e inversa, por lo tanto, una línea de
ajuste va a tocar todos los puntos graficados.
∑𝑌 2 −(𝑎∗∑𝑌)−(𝑏∗∑𝑋𝑌)
Se = √
𝑛−2
SOLUCIÓN:
1. Obtención de los datos muestrales:
Datos muestrales
n = 10
X = Población de personas en miles
Y = Ventas trimestrales en miles de bs
2. Los datos obtenidos se tabulan. (tener cuidado
en determinar correctamente quien es la variable
independiente y dependiente)
3. La información se gráfica en un
diagrama de dispersión, estableciéndose
la posible relación entre las dos variables.
4. Se calcula la pendiente:
CORRELACION SIMPLE.
La correlación y la Regresión lineales simple son métodos estadísticos que estudian la
relación lineal existente entre dos variables, el análisis de correlación es la herramienta
estadística que podemos usar para describir el grado o fuerza en el que una variable
esta linealmente relacionada con otra. También se define como la fuerza y sentido de
asociación entre dos variables
Dependiendo del tamaño de esta medida cuantitativa se puede decir, que tan
carcamente se mueven dos variables y, por lo tanto, con cuanta confiabilidad se puede
estimar una variable con la ayuda de la otra.
Una técnica estadística que establece un índice que proporciona, en un solo número,
una medida de la fuerza de asociación entre dos variables de interés, se llama análisis
de correlación simple.
El análisis de correlación es la herramienta estadística de la cual nos valemos para
describir el grado de relación que existe entre dos variables.
A menudo el análisis de correlación simple se utiliza junto con el análisis de regresión
lineal simple, para medir la eficacia con que la línea de regresión explica la variación
de la variable dependiente, Y.
Existen dos medidas para describir la correlación entre dos variables: el coeficiente de
determinación y el c Existen dos medidas para describir la correlación entre dos
variables: el coeficiente de determinación y el coeficiente de correlación.
COEFICIENTE MUESTRAL DE DETERMINACION
La medida más importante de que también ajusta la línea de regresión estimada en los
datos muestrales en los que está basada, es el coeficiente de determinación
muestral, este es igual a la proporción de la variación total de los valores de la
variable dependiente, “y”, que puede explicarse por medio de la asociación de la
variable Y con la variable X medida por la línea de regresión estimada.
El coeficiente de determinación es la manera primaria de medir el grado, o fuerza, de
relación que existe entre dos variables X y Y.
El coeficiente de determinación muestral se representa como r², y mide
exclusivamente la fuerza de una relación lineal entre dos variables.
El cálculo del coeficiente de determinación se lleva a cavo con la siguiente fórmula
INTERVALO DE CONFIANZA
Debido a que la recta estimada de regresión, no es del todo real, es necesario elaborar
un intervalo de confianza que le de seguridad a nuestros cálculos.
Llamadas Ventas
Representantes x Y X - x̅ (x – X*Y X2 Y2
de ventas x̅)2
JUAN 20 30 -2 4 600 400 900
JORGE 40 60 18 324 2400 1600 3600
RODRIGO 20 40 -2 4 800 400 1600
ANA 30 60 8 64 1800 900 3600
SARA 10 30 -12 144 300 100 900
ALICIA 10 40 -12 144 400 100 1600
PATRICIA 20 40 -2 4 800 400 1600
HERNAN 20 50 -2 4 1000 400 2500
FELIPE 20 30 -2 4 600 400 900
GABRIELA 30 70 8 64 2100 900 4900
Ŷ= a+bx
Ŷ=18,94+1,1842(25)
Ŷ=48,54
SEGUNDO PASO. encontrar el valor t en la tabla.
valor de t-student
n=10=>gl=8
IC=95%=>t=2,306
∑ 𝑦 2 −(𝑎∗Ʃ𝑦)−(𝑏∗Ʃ𝑥𝑦) 22100−(18,94)(450)−(1,1842)(10800)
𝑆=√ = √
n−2 10−2
S=9,92
CUARTO PASO. calcular la parte faltante de la formula
1 (𝑥−𝑥 )2
IC= Ŷ± ts √ +
n Ʃ(x−7)2
1 (25−22)2
IC= 48,54±2,306(9,92)͘ √ +
10 760
IC=48,54±7,63
48,54-7,63< IC<48,54+7,63
40,91<IC<56,17
Se puede asegurar con un nivel de confianza del 95% que se realizan 25 llamadas al
día y se logra vender de 40 a 56 computadoras.
INTERVALO DE PREDICCIÓN
El intervalo de predicción, como su nombre lo indica, se utiliza para predecir
un intervalo de valores de Y, dado un valor de X. El intervalo de predicción se
calcula con la siguiente fórmula:
Para entender mejor la diferencia entre cada tipo de intervalo, consideremos el caso
extremo en que conocemos los verdaderos parámetros de la población. En tal caso, se
elimina completamente la incertidumbre sobre µ, por lo que no tendría sentido constuir
un intervalo de confianza para este parámetro. Mientras que una nueva observación
aún es aleatoria, porque ese es nuestro supuesto, entonces aún podríamos construir
un intervalo de predicción
PROCEDIMIENTO PARA REALIZAR UN ANÁLISIS DE CORRELACIÓN
LINEAL SIMPLE
Por ejemplo: Un gerente de ventas reunió los datos siguientes relacionados con
las ventas anuales en miles de pesos y los años de experiencia de diez vendedores.
Estime las ventas anuales para un vendedor con 7 años de experiencia.
Vendedor X Y
SOLUCIÓN: 1 1 80
2 3 97
1. Obtención y tabulación de los datos muestrales. 3 4 92
4 4 102
Datos muestrales 5 6 103
X: Años de experiencia 6 8 111
Y: Ventas anuales en miles de pesos. 7 10 119
8 10 123
9 11 117
2. La información se gráfica en un diagrama de dispersión. 10 13 136
∑= 70 1080
Vendedor X Y XY X² Y²
1 1 80 80 1 6400
2 3 97 291 9 9409
3 4 92 368 16 8464
4 4 102 408 16 10404
5 6 103 618 36 10609
6 8 111 888 64 12321
7 10 119 1190 100 14161
8 10 123 1230 100 15129
9 11 117 1287 121 13689
10 13 136 1768 169 18496
∑= 70 1080 8128 632 119082
Este número nos indica que las variables X Y tienen una correlación positiva intensa.
Se puede asegurar con un nivel de confianza del 95% que las ventas de los
vendedores con 7 años de experiencia están entre 104.6 y 111.4 miles pesos anuales.
10. Determinar el intervalo de predicción para un vendedor con 9 años de
experiencia se tiene:
Se puede asegurar con un nivel de confianza del 95% que las ventas pronosticadas de un
vendedor con 9 años de experiencia están entre 96.71 y 119.3 miles pesos anual.