Lectura-Práctica Semana 5 - CLagos

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 9

Semana 5

Lectura - práctica

Unidad II: Regresión y


Correlación
2
Unidad 3 | Regresión y Correlación

Lectura

Aprendizaje
Realiza Aplica modelos de regresión
proyección de Indicadores lineal simple y múltiple, así
Esperado variables por de logro como métodos de
medio de correlación, para el análisis
modelos de de datos.
regresión.
Interpreta los resultados
para entender la relación
entre variables en un
conjunto de datos dados

Pablo está convencido que existe una relación entre la edad y el salario que puedes recibir por
tu trabajo. Según él, a mayor edad, mayor es el salario que recibirías. No obstante, está
empeñado en demostrar su hipótesis, y para eso recoge datos entre familiares y amigos para
comprobar si la relación que establecen es verdad.

Reúne en total 12 datos que son los que se presentan, pero Pablo se pregunta: - más allá de lo
que puedo evidenciar con los datos que tengo, ¿de qué manera puedo comprobar mi hipótesis?

Edad 21 33 41 35 28 53 47 58 62 27 31 49
Salario
en
525 590 660 620 550 850 900 720 610 580 650 950
cientos
de miles

Afortunadamente para Pablo, existe una forma científica de verificar la relación que existe
entre dos variables, que además nos permite hacer un modelo estimativo para esta
relación.

Este tema se llama Correlación lineal y es el que estudiaremos en esta unidad.


3
Unidad 3 | Regresión y Correlación

Correlación

Valor que no depende de otro


valor, dato o resultado

Valor cuyo resultado está


sujeto o depende de otro.

La relación entre una variable independiente y una dependiente puede ser de


distintas formas: lineal, exponencial, logarítmica, etc., siendo la relación lineal las
más frecuente y más simple de construir.

Para determinar el tipo de relación entre variables y construir un modelo estadístico


lineal, que permita responder, por ejemplo, si la hipótesis de Pablo es correcta,
necesitamos conocer:

- Covarianza – Coeficiente de Correlación lineal – Coeficiente de


determinación – Modelo de Regresión Lineal - Diagrama de Dispersión

Covarianza: es un valor que permite medir la variación conjunta de dos variables.

La fórmula que permite calcular la Covarianza es:


4
Unidad 3 | Regresión y Correlación

Su interpretación es:
Covarianza positiva: al aumentar los valores de la
variable X, aumentan los valores de la variable Y.
El gráfico de dispersión se ve así: Centro de gravedad,
donde se ubican las
medias marginales

Covarianza negativa: al aumentar el valor de la


variable X, la variable Y disminuye. El gráfico de
dispersión.

Coeficiente de correlación varianza “r: es un valor que expresa si la relación entre


dos variables es lineal, es decir, si una aumenta, la otra también lo hace de manera
proporcional.

: es un valor que permite medir la variación conjunta de dos variables.


La fórmula que permite calcular la Coeficiente de correlación o Coeficiente de Pearson es:

Es el cuociente entre la Covarianza y producto de las Desviaciones Estándar de cada variable.

El coeficiente r es un número que


no depende de las unidades en las que
están expresado X ni Y
El valor de r está comprendido
entre -1 y 1.

Si r= -1 o r=1, la correlación es
perfecta o correlación lineal funcional.

Si r está próximo a -1 o 1 es una


correlación fuerte.
Si r es cercano a 0, la correlación es
débil.
El signo de r ±, indica relación
directa o inversa
5
Unidad 3 | Regresión y Correlación

Coeficiente de Determinación “R2”: indica la proporción de variabilidad la variable


dependiente. Refleja la bondad del ajuste de un modelo a la variable que pretender
explicar.

La fórmula que permite calcular la Coeficiente de Determinación es:

Para tener aclarar, representa los valores de y calculados con el Modelo de Regresión Lineal

Modelo de Regresión lineal: es la ecuación de una recta que se construye a partir de


la relación y estadísticos de las variables x e y.

La fórmula del Modelo o recta de regresión (también se conoce como recta de mínimos
cuadrados) es:

Para calcula b, que es la pendiente y a que es el coeficiente de posición son las siguientes:

Cuando se hace el Modelo, se pueden calcular los aplicando el valor de xi en la ecuación.


}

S2x = Var(x)
6
Unidad 3 | Regresión y Correlación

Antes de avanzar, es importante decir que existen distintos Modelos, pues no


siempre las variables se relacionan de manera lineal.

Cada Modelo genera una línea recta, en


el caso del Modelo lineal, y líneas curvas
de acuerdo a los otros modelos.
Las variables se relacionarán según lo
próximo que estén la coordenadas (x,y) a
la línea.

Es decir, si los puntos se aproximan más


a la curva exponencial, los datos se
relacionan bajo esa tendencia.

Diagrama deDiagrama
Dispersión
de Correlación Lineal: es un tipo de gráfico de dispersión de nube de
puntos donde cada punto es el par (x, y). Nos permite reconocer como se comportan los
datos

Para construir un gráfico de Dispersión, los datos de la variable x corresponde al eje X (abscisas),
y los datos de la variable y corresponde a eje Y (ordenado):
7
Unidad 3 | Regresión y Correlación

Ahora, con la información presentada, y apoyándonos en Excel, comprobaremos si


la hipótesis de Pablo es verdadera.

Calculando correlación con Excel

1. Como primer procedimiento, debemos ingresar los datos X e Y

2. Siempre es bueno calcular el promedio y la desviación, son estadísticos que


proporciona gran información:

PROMEDI DESVIACIO
O N

EDAD 40,42 12,69

SALARI
OS 683,75 135,54

3. En Excel, la covarianza (COV (X,Y)) se calcula con la función respectiva:


COVAR(X,Y)=1027,19
Cuando la varianza es positiva, significa que
ambas variables aumentan, es decir, si aumenta la
edad, también aumenta el salario.
4. Para calcular el Coeficiente de Correlación lineal, aplicamos la fórmula de
Excel.

Para nuestro ejemplo r=0,59681349


Aunque no es una relación lineal tan fuerte
(cercano a 1), pues r=0,6 (aprox.) podemos
asegurar que efectivamente, a mayor edad,
mayor es el salario.
8
Unidad 3 | Regresión y Correlación

5. Seguimos igual para calcular el Coeficiente de Determinación. Para nuestro


ejemplo, R2= 0,35
Importante ver que para este
coeficiente debe ingresarse primer la
variable Y, y luego la variable X.

6. Para el Modelo de Regresión Lineal, construiremos el Diagrama de Dispersión


donde dentro de los formatos, se selecciona aquel diagrama que muestra el
Modelo Lineal. Sigamos los pasos

a) Seleccionar los
datos

b) Seleccionar
INSERTAR
GRAFICO

c) Seleccionar grafico
de Dispersión

d) Seleccionar el
gráfico
9
Unidad 3 | Regresión y Correlación

e) En DISEÑO
RÁPIDO,
seleccionar f(x)

f) Se obtiene el
Modelo de
Salario en cientos de miles
2
Regresión y R 1000
800
Salario en Miles

600
400
200 y = 6,3704x + 426,28
R² = 0,3562
0
0 10 20 30 40 50 60 70
Edad

El Modelo de Regresión Lineal es y=6,3704x + 426,28, tal como se muestra.


Cada punto del gráfico es uno de los pares de datos.

¿Qué puede concluir Pablo? En efecto, la relación Edad –Salario existe, y podemos
evidenciar que a mayor edad o mejor dicho, las personas de más edad, obtienen un
mejor salario, aunque se aprecia que sobre los 50 años, los salario comienzan a
bajar. En relación al R2, nos muestra que el Modelo de Regresión nos permite
justificar la variable y en un 35,6% (0,3562*100).

También podría gustarte