Correlacion y Regresion Lineal

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 18

METODOS ESTADISTICOS

DOCENTE: MAT-370
ING. FLAVIO CARREÑO HEVIAVACA

ANALISIS DE LA
REGRESION Y
CORRELACION LINEAL

GRUPO LOS HIPERESTATICOS (7A)


INTEGRANTES:

GONZALES MENDEZ MARIA DE LOS ANGELES 219022682

CHOQUE CHOQUE SAUL 219185336

CESARI MORUA LORENZO EUSEBIO 212066773

CARDENAS CASTELLÓN GABRIEL 218009771

CHORÉ MÉNDEZ ELÍAS 217012116

NEGRETTY QUIRUCHI NOELIA 218155476

VILLARROEL VILLARROEL JOHNS 211161659


INDICE
1. REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE
2. REGRESIÓN LINEAL SIMPLE
3. VARIABLE INDEPENDIENTE (X)
4. VARIABLE DEPENDIENTE (Y)
5. DIAGRAMAS DE DISPERSIÓN
6. METODO DE MINIMOS CUADRADOS
7. ERROR ESTANDAR DE ESTIMACIÓN
8. PROCEDIMIENTO PARA REALIZAR UN ANÁLISIS DE
REGRESIÓN LINEAL SIMPLE
9. CORRELACIÓN SIMPLE
10. COEFICIENTE MUESTRAL DE DETERMINACIÓN
11. COEFICIENTE MUESTRAL DE CORRELACIÓN
12. INTERVALO DE CONFIANZA
13. INTERVALO DE PREDICCIÓN
14. PROCEDIMIENTO PARA REALIZAR UN ANÁLISIS DE
CORRELACIÓN LINEAL SIMPLE
REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE
El término regresión fue utilizado por primera vez por el genetista y estadístico
inglés Francis Galton (1822-1911) en 1877 Galton efectúo un estudio que
demostró que la altura d los hijos de padres altos tendía a retroceder, o
“regresar”, hacia la talla media de la población. Regresión fue el nombre que le
dio al proceso general de predecir una variable, (la talla de los niños) a partir de
otra (la talla de los padres).
Importancia del análisis de regresión El análisis de regresión es útil para una
organización, ya que permite determinar el grado en que las variables
independientes influyen en las variables dependientes. Además, permite
explicar un fenómeno y predecir cosas acerca del futuro, además de obtener
información empresarial valiosa y accionable.
Regresión lineal simple La regresión lineal simple es la técnica más utilizada,
es una forma que permite modelar una relación entre dos conjuntos de variables.
El resultado es una ecuación que se puede utilizar para hacer proyecciones o
estimaciones sobre los datos.
La correlación y la regresión lineales simple son métodos estadísticos que
estudian la relación lineal existente entre dos variables. ... A nivel experimental,
la correlación se suele emplear cuando ninguna de las variables se ha
controlado, simplemente se han medido ambas y se desea saber si están
relacionadas
REGRESIÓN LINEAL SIMPLE
“Una técnica estadística que establece una ecuación para estimar el valor desconocido
de una variable, a partir del valor conocido de otra variable, (en vez de valores de
muchas otras variables) se denomina análisis de regresión simple.”
Por lo tanto, el análisis de regresión lineal simple, es el proceso general de predecir
una variable (Y) a partir de otra (X). Las relaciones entre las variables pueden ser
directas o también inversas.

Relación directa: la pendiente de esta línea es positiva,


porque la variable Y crece a medida que la variable X también lo
hace.

Relación inversa: La pendiente de esta línea es negativa,


porque a medida que aumenta el valor de la variable Y, el valor
de la variable X disminuye.
VARIABLE INDEPENDIENTE (X)
En el análisis de regresión una variable cuyo valor se suponga conocido y que se
utilice para explicar o predecir el valor de otra variable de interés se llama variable
independiente; se simboliza con la letra X.
Otros nombres alternativos para la variable independiente (X), son variable
explicatoria, variable predictora y en ocasiones variable regresora.

VARIABLE DEPENDIENTE (Y)


En el análisis de regresión una variable cuyo valor se suponga desconocido y que se
explique o prediga con ayuda de otra se llama variable dependiente y se simboliza con
la letra Y.
La variable dependiente, al igual que la variable independiente es llamada de
diferentes maneras algunas de ellas son: variable explicada o variable pronosticada.
Ejemplo
Esta sería la evolución de precios de las pizzas de un restaurante italiano en función
de su tamaño. La variable dependiente (y) sería el precio, mientras la variable
independiente (x) sería el tamaño. Como se observa, la pizza pequeña cuesta 9 Euros,
la mediana 12 Euros y la familiar 15 Euros. Por lo tanto, a medida que aumenta el
tamaño de la pizza, esta vale más cara. Es decir, el precio sería dependiente del
tamaño.

Ejemplos de variables dependientes e independientes


– Un estudio se centra en saber los efectos del paracetamol a la hora de disminuir la
fiebre en un paciente con coronavirus. La cantidad de gramos de medicamento
consumida a diario sería la variable independiente (causa), mientras que la fiebre será
la variable dependiente (efecto).
– El centro de estadísticas de un equipo de fútbol quiere saber las opciones de victoria
que tiene su club en función al nivel del césped del terreno de juego. El tamaño del
césped será la variable independiente (causa) y el número de victorias será la variable
dependiente (efecto).
– Una empresa de productos lácteos probióticos quiere analizar los efectos de un
yogur anti colesterol en sus clientes según su consumo habitual. La cantidad de yogur
ingerida cada día será la variable independiente (causa), mientras que los niveles de
colesterol definirían la variable dependiente (efecto).

DIAGRAMAS DE DISPERSIÓN
El diagrama de dispersión, también conocido como gráfico de
dispersión o gráfico de correlación consiste en la
representación gráfica de dos variables para un conjunto de
datos. En otras palabras, analizamos la relación entre dos
variables, conociendo qué tanto se afectan entre sí o qué tan
independientes son una de la otra.
En este sentido, ambas variables se representan como un
punto en el plano cartesiano y de acuerdo a la relación que
exista entre ellas, definimos su tipo de correlación.
Con base en el comportamiento que toman las variables de
estudio, podemos encontrar 3 tipos de correlación: Positiva, negativa y nula.

Correlación positiva
Se presenta cuando una variable aumenta o disminuye y la
otra también, respectivamente. Hay una relación
proporcional. Por ejemplo, para un vendedor de carros, si él
vende más carros (variable 1), va a ganar más dinero
(variable 2).

Correlación negativa
Se presenta cuando una variable se comporta de forma contraria
o a la otra, es decir que, si una variable aumenta, la otra
disminuye. Hay una relación inversa proporcional. Por ejemplo,
para la construcción de un edificio, entre más trabajadores estén
construyendo un edificio (variable 1), menos tiempo se necesitará
para tenerlo listo (variable 2)

Correlación nula
Si no encuentras un comportamiento entre las variables,
existe una correlación nula.
Estos son pues, los tipos de correlación más visibles.
Aunque si lo miramos desde una perspectiva que evalúa
qué tan fuerte o débil es la correlación, encontramos otra
clasificación.
El coeficiente de correlación en un diagrama de dispersión
El coeficiente de correlación nos describe cómo es la relación existente entre dos
variables, en otras palabras, al conocer este número sabemos si la correlación es
positiva o negativa y qué tan fuerte o débil es. Se usa la letra r para expresarla,
veamos cómo:
• r=1
La correlación es positiva perfecta. Si una variable crece, la otra también lo hace en
una proporción constante. Es una relación directa, por eso si trazamos una línea de
ajuste esta va pasar por todos y cada uno de los puntos.
• 0<r<1
Es cuando r esta entre 0 y 1 sin llegar a ser 0 y 1. Es una correlación positiva. El grado
de cercanía de 1 define qué tan directa y proporcional es la relación entre ambas
variables, por ende, entre más cerca esté de 0, más débil será su correlación negativa.
• r=0
La correlación es nula, es decir que no existe una relación lineal entre ambas
variables. Qué tal si pruebas buscando otro tipo de relación.
• -1<r<0
Es cuando r esta entre -1 y 0 sin llegar a ser –1 y 0. Es una correlación negativa. El
grado de cercanía a -1 define que tan inversa y proporcional es la relación entre
ambas variables, por ende, entre más cerca esté de 0, más débil será su correlación
negativa.
• r=-1
La correlación es negativa perfecta. Si una variable crece, la otra va a disminuir en
proporción constante. Es una relación directa e inversa, por lo tanto, una línea de
ajuste va a tocar todos los puntos graficados.

METODO DE MINIMOS CUADRADOS


El método de los mínimos cuadrados se utiliza para calcular la recta de regresión lineal
que minimiza los residuos, esto es, las diferencias entre los valores reales y los
estimados por la recta. Se revisa su fundamento y la forma de calcular los coeficientes
de regresión con este método.
Sabiendo que los valores de un conjunto de variables X1, X2,… Xn. A la variable Y la
llamamos dependiente, aunque también se la conoce como variable objetivo,
endógena, criterio o explicada. Por su parte, las variables X son las variables
independientes, conocidas también como predictoras, explicativas, exógenas o
regresoras.
Como ya hemos dicho, la regresión lineal requiere eso, que la relación entre las dos
variables sea lineal, así que puede representarse mediante la siguiente ecuación de
una línea recta:
ERROR ESTANDAR DE ESTIMACIÓN
El error estándar mide la variabilidad o dispersión de los valores observados o reales
alrededor de la línea de regresión.
La predicción perfecta es prácticamente imposible, por lo tanto es necesaria una
medida que indique que tan precisa es una predicción de Y basada en X. Esta medida
es llamada el error estándar de estimación.
La desviación estándar mide la dispersión alrededor de la media
El error estándar de estimación mide la dispersión alrededor de la línea de regresión.
Su fórmula es la siguiente:

∑𝑌 2 −(𝑎∗∑𝑌)−(𝑏∗∑𝑋𝑌)
Se = √
𝑛−2

Cuanto mayor sea el error estándar de la


estimación, más grande será la dispersión (o
esparcimiento) de puntos alrededor de la línea
de regresión.

PROCEDIMIENTO PARA REALIZAR UN ANÁLISIS DE REGRESIÓN


LINEAL SIMPLE
Por ejemplo:
Una cadena de constructoras toma una muestra de diez de sus sucursales para tratar
de encontrar un modelo matemático que le permita predecir sus ventas y obtuvo los
siguientes datos: la población de personas en miles fue de 2, 6, 8, 8, 12, 16, 20, 20,
22, 26; y las ventas trimestrales en miles de bolivianos (Bs.) fue de: 58, 105, 88, 118,
117, 137, 157, 169, 169, 149, 202.
Realice una regresión para estimar las ventas de dos sucursales que tienen
14,000 y 30,000 personas como potenciales clientes respectivamente.

SOLUCIÓN:
1. Obtención de los datos muestrales:
Datos muestrales
n = 10
X = Población de personas en miles
Y = Ventas trimestrales en miles de bs
2. Los datos obtenidos se tabulan. (tener cuidado
en determinar correctamente quien es la variable
independiente y dependiente)

3. La información se gráfica en un
diagrama de dispersión, estableciéndose
la posible relación entre las dos variables.

Se puede observar una relación lineal directa


Calculamos los datos faltantes:

4. Se calcula la pendiente:

5. Se calcula la ordenada de origen:

6. Se obtiene la ecuación que mejor se ajusta a la información obtenida.


7. Se traza la línea estimada en el diagrama de dispersión.

8. Se calcula el error estándar de estimación.

CORRELACION SIMPLE.
La correlación y la Regresión lineales simple son métodos estadísticos que estudian la
relación lineal existente entre dos variables, el análisis de correlación es la herramienta
estadística que podemos usar para describir el grado o fuerza en el que una variable
esta linealmente relacionada con otra. También se define como la fuerza y sentido de
asociación entre dos variables
Dependiendo del tamaño de esta medida cuantitativa se puede decir, que tan
carcamente se mueven dos variables y, por lo tanto, con cuanta confiabilidad se puede
estimar una variable con la ayuda de la otra.
Una técnica estadística que establece un índice que proporciona, en un solo número,
una medida de la fuerza de asociación entre dos variables de interés, se llama análisis
de correlación simple.
El análisis de correlación es la herramienta estadística de la cual nos valemos para
describir el grado de relación que existe entre dos variables.
A menudo el análisis de correlación simple se utiliza junto con el análisis de regresión
lineal simple, para medir la eficacia con que la línea de regresión explica la variación
de la variable dependiente, Y.

Diagrama de dispersión con correlación débil y fuerte.

Existen dos medidas para describir la correlación entre dos variables: el coeficiente de
determinación y el c Existen dos medidas para describir la correlación entre dos
variables: el coeficiente de determinación y el coeficiente de correlación.
COEFICIENTE MUESTRAL DE DETERMINACION
La medida más importante de que también ajusta la línea de regresión estimada en los
datos muestrales en los que está basada, es el coeficiente de determinación
muestral, este es igual a la proporción de la variación total de los valores de la
variable dependiente, “y”, que puede explicarse por medio de la asociación de la
variable Y con la variable X medida por la línea de regresión estimada.
El coeficiente de determinación es la manera primaria de medir el grado, o fuerza, de
relación que existe entre dos variables X y Y.
El coeficiente de determinación muestral se representa como r², y mide
exclusivamente la fuerza de una relación lineal entre dos variables.
El cálculo del coeficiente de determinación se lleva a cavo con la siguiente fórmula

Ejercicio: Entre la comunidad del ITCH se realizó una encuesta a 20 miembros, de


los cuales se quiere conocer la relación que hay entre la edad de estos y la cantidad
de libros que leen en un año.
Solución
Obtención y tabulación de los datos muestrales.

X: Edad de los miembros.

Y: Número de libros leídos en un año.


COEFICIENTE MUESTRAL DE CORRELACIÒN
La raíz cuadrada del coeficiente de determinación muestral es in índice alternativo
común del grado de asociación entre dos variables cuantitativas. Esta mediad se llama
coeficiente de correlación muestral (r) y es un estimador puntual del coeficiente de
correlación poblacional (p).

El coeficiente de correlación muestral es la segunda medida con que puede describirse


la eficacia con que una variable es explicada por otra, así pues, el signo de r indica la
dirección de la relación entre las dos variables X y Y.

El siguiente esquema representa


adecuadamente la intensidad y la
dirección del coeficiente de
correlación muestra

El cálculo del coeficiente de correlación muestral se lleva a cabo con la siguiente


formula:

INTERVALO DE CONFIANZA

Debido a que la recta estimada de regresión, no es del todo real, es necesario elaborar
un intervalo de confianza que le de seguridad a nuestros cálculos.

Como se ha visto, cuando se utilice el método de mínimos cuadrados, los coeficientes


de regresión, a y b con estimadores insesgados, eficientes y consistentes de y β,
también aquí es muchas ocasiones es deseable establecer intervalos de confianza.

Los intervalos de confianza se calculan con la siguiente formula:


EJEMPLO:

• Realice un pronóstico de ventas de computadoras, con un intervalo de confianza


del 95% para todos los representantes de ventas que hacen 25 llamadas en
promedio al día. La tabla anexa muestra los registros de 10 agentes de ventas y
la relación de llamadas – ventas de dicho equipo de cómputo.
Representantes de Llamadas x Ventas y
ventas
Juan 20 30
Jorge 40 60
Rodrigo 20 40
Ana 30 60
Sara 10 30
Alicia 10 40
patricia 20 40
Hernán 20 50
Felipe 20 30
Gabriela 30 70

• la fórmula para hallar el


intervalo de confianza es:

PRIMER PASO. cuantas computadoras se puede vender en 25 llamadas.

Llamadas Ventas
Representantes x Y X - x̅ (x – X*Y X2 Y2
de ventas x̅)2
JUAN 20 30 -2 4 600 400 900
JORGE 40 60 18 324 2400 1600 3600
RODRIGO 20 40 -2 4 800 400 1600
ANA 30 60 8 64 1800 900 3600
SARA 10 30 -12 144 300 100 900
ALICIA 10 40 -12 144 400 100 1600
PATRICIA 20 40 -2 4 800 400 1600
HERNAN 20 50 -2 4 1000 400 2500
FELIPE 20 30 -2 4 600 400 900
GABRIELA 30 70 8 64 2100 900 4900

Ʃ 220 450 760 10800 5600 22100


Promedio X= 22
Promedio Y=45
∑ 𝐱𝐲−𝐧𝐱Ȳ 10800−10(22)(45)
𝒃= Ʃ 𝐱 𝟐 −𝐱𝟐
= 5600−10(484)
=1,1842
1
a= Ȳ- bx̅= 45- 1,1842(22) =18,94 10

Ŷ= a+bx
Ŷ=18,94+1,1842(25)
Ŷ=48,54
SEGUNDO PASO. encontrar el valor t en la tabla.

valor de t-student
n=10=>gl=8
IC=95%=>t=2,306

TERCER PASO. encontrar el error estándar

∑ 𝑦 2 −(𝑎∗Ʃ𝑦)−(𝑏∗Ʃ𝑥𝑦) 22100−(18,94)(450)−(1,1842)(10800)
𝑆=√ = √
n−2 10−2

S=9,92
CUARTO PASO. calcular la parte faltante de la formula
1 (𝑥−𝑥 )2
IC= Ŷ± ts √ +
n Ʃ(x−7)2

1 (25−22)2
IC= 48,54±2,306(9,92)͘ √ +
10 760

IC=48,54±7,63
48,54-7,63< IC<48,54+7,63
40,91<IC<56,17
Se puede asegurar con un nivel de confianza del 95% que se realizan 25 llamadas al
día y se logra vender de 40 a 56 computadoras.
INTERVALO DE PREDICCIÓN
El intervalo de predicción, como su nombre lo indica, se utiliza para predecir
un intervalo de valores de Y, dado un valor de X. El intervalo de predicción se
calcula con la siguiente fórmula:

Como sugiere su nombre, un intervalo de predicción proporciona un rango de valores


que probablemente contenga una ocurrencia futura de un evento o el valor de una
muestra de datos adicional. Este rango se basa en el análisis de una población de
datos descrita anteriormente. El intervalo de predicción se calcula generalmente en
relación con un modelo estadístico de los datos conocidos, a menudo utilizando un
análisis de regresión lineal.
La incertidumbre asociada con el intervalo de predicción se establece por adelantado y
forma parte del proceso de cálculo. Por ejemplo, es posible que deseemos encontrar
un intervalo de predicción del 95% para los datos. En este caso, los cálculos nos
llevarán a estar seguros de que una observación específica tomada en el futuro caerá
dentro del intervalo de predicción 95 de 100 veces.
Intervalos de predicción frente a intervalos de confianza
Diferencias entre predicción y confianza Lo primero que se debe notar es que los
intervalos de predicción para una nueva observación son más amplios que los
intervalos de confianza para los parámetros desconocidos. ¿Por qué? El tamaño del
intervalo de confianza para el parámetro θ depende de la incertidumbre de la
estimación que hacemos a partir de una muestra. Mientras que el tamaño del intervalo
de predicción para una nueva observación tiene dos fuentes de incertidumbre, una
debida a la estimación de los parámetros desconocidos y la otra es propia de la
aleatoriedad que suponemos, porqué se debe recordar que esa nueva observación es
una variable aleatoria!.

Para entender mejor la diferencia entre cada tipo de intervalo, consideremos el caso
extremo en que conocemos los verdaderos parámetros de la población. En tal caso, se
elimina completamente la incertidumbre sobre µ, por lo que no tendría sentido constuir
un intervalo de confianza para este parámetro. Mientras que una nueva observación
aún es aleatoria, porque ese es nuestro supuesto, entonces aún podríamos construir
un intervalo de predicción
PROCEDIMIENTO PARA REALIZAR UN ANÁLISIS DE CORRELACIÓN
LINEAL SIMPLE

Por ejemplo: Un gerente de ventas reunió los datos siguientes relacionados con
las ventas anuales en miles de pesos y los años de experiencia de diez vendedores.
Estime las ventas anuales para un vendedor con 7 años de experiencia.

Vendedor X Y
SOLUCIÓN: 1 1 80
2 3 97
1. Obtención y tabulación de los datos muestrales. 3 4 92
4 4 102
Datos muestrales 5 6 103
X: Años de experiencia 6 8 111
Y: Ventas anuales en miles de pesos. 7 10 119
8 10 123
9 11 117
2. La información se gráfica en un diagrama de dispersión. 10 13 136
∑= 70 1080

3. Realizar los cálculos necesarios para el calculo de pendiente y ordenada al origen:

Vendedor X Y XY X² Y²
1 1 80 80 1 6400
2 3 97 291 9 9409
3 4 92 368 16 8464
4 4 102 408 16 10404
5 6 103 618 36 10609
6 8 111 888 64 12321
7 10 119 1190 100 14161
8 10 123 1230 100 15129
9 11 117 1287 121 13689
10 13 136 1768 169 18496
∑= 70 1080 8128 632 119082

4. Calcular la pendiente y ordenada al origen.


5. Se obtiene la ecuación que mejor se ajusta a la información obtenida

6. Se traza la línea estimada en el diagrama de dispersión.

7. Calcular el error estándar de estimación.

Calcular el coeficiente de determinación.


El 93% de las ventas anuales se deben a la experiencia de los vendedores y el 7% restante de
debe a otros factores.

8. Determinar el coeficiente de correlación.

Este número nos indica que las variables X Y tienen una correlación positiva intensa.

9. Determinar el intervalo de confianza al 95% Considerando

Y = 108 ventas anuales

Se puede asegurar con un nivel de confianza del 95% que las ventas de los
vendedores con 7 años de experiencia están entre 104.6 y 111.4 miles pesos anuales.
10. Determinar el intervalo de predicción para un vendedor con 9 años de
experiencia se tiene:

Se puede asegurar con un nivel de confianza del 95% que las ventas pronosticadas de un
vendedor con 9 años de experiencia están entre 96.71 y 119.3 miles pesos anual.

También podría gustarte