Sesión 7
Sesión 7
Sesión 7
CAPACIDADES:
Analiza el coeficiente de correlación de
Pearson para dos variables
cuantitativas y los coeficientes para el
modelo de regresión lineal simple.
TEMÁTICA:
⮚ Aplicaciones con el diagrama de
dispersión.
⮚ Coeficiente de correlación lineal de
Pearson.
⮚ Modelo de regresión lineal simple
(Uso de EXCEL).
Diagrama de Dispersión
Es la representación de los puntos o datos de cada una de
las variables en el plano cartesiano.
Altura Peso en
en cm. Kg. Pesa 85
187 76 kg.
Pesa 76
161 50
kg.
197 85
179 65
Pesa 50
Mide 197
Mide 187
171 66
kg.
169 60
cm.
Mide
cm.
166 54 161 cm.
176 84
163 68
…. ….
5
Relación entre las variables altura (X) y peso (Y) de los
30 individuos vistos en el ejemplo anterior.
ESO
L P
A ,E
N T
ME
A AU
R
LTU
A A
I L TA
S EN
M
AU Por lo tanto existe una relación lineal
positiva
6
DIAGRAMA DE DISPERSION
O NUBE DE PUNTOS
•• • •
• •
•
• •
• ••
• ••
• • •
• • • •
•
•• X
•• •
X X
Y • Y Y
• •• • • • ••
•• •
•• • • •
•• • •• • • •
• ••
•
•
•• • • • • ••
•• • • ••
•
•• •• •• • • •
•• •
•••
• ••
•
X X X
(d) Curvilínea inversa (e) Lineal inversa (d) Ninguna relación
con más dispersión
COEFICIENTE DE CORRELACIÓN (ρ)
X Y XY X2 Y2
∑
Correlación Lineal - Tendencias
Muy Alt Modera Baj Muy Muy Baj Modera Alt Muy
Alta a da a baja baja a da a Alta
- -- - -- - -- - -- - -- 0 + 0. + 0. + 0. + 0. + 1
1 0.8 0.6 0.4 0.2 Nul 2 4 6 8
Perfecta a Perfecta
-- +
25 80
Capacidad de atención
80
33 42 70
23 84 60
50
79 19
40
11 75
30
48 25 20
50 20 10
30 54 0
0 10 20 30 40 50 60 70 80 90
78 19
7 84
Estrés
Coeficiente de Correlación de
Pearson «R»
Ejemplo 1:
Capaci
Estrés dad de
(x) atenció
n (Y)
XY X2 Y2
62 39 2418 3844 1521
25 80 2000 625 6400
33 42 1386 1089 1764
23 84 1932 529 7056
79 19 1501 6241 361
11 75
825 121 5625
48 25 1200 2304 625
50 20 1000 2500 400
30 54 1620 900 2916
78 19 1482 6084 361 Existe una relación inversa y muy alta
7 84 588 49 7056 entre El estrés (X) y la capacidad de
∑ 446 541 15952 24286 34085 atención (Y).
Ejemplo 2: (en Excel)
Calcule e interprete la
correlación.
Dinámica
• ¿Se podrá determinar la estatura de una persona si se
conoce la medida de la extensión de su brazo?.
• ¿Existirá la relación entre dichas variables?
Caracteriza la relación entre una var. dependiente (Y) y una variable independiente (X). Es decir,
estudia cómo los cambios en una variable X afecta a una variable dependiente Y.
El propósito de la regresión lineal, es modelar la
dependencia de la variable Y en función de la variable X a
Y
través de la ecuación de una recta.
Variable Variable b=
dependient independiente a pendiente
e
Intercepto Pendiente
MODELO DE REGRESIÓN LINEAL SIMPLE
La relación entre 2 variables numéricas puede ser representada mediante la línea de mejor
ajuste a los datos llamada recta de regresión
Se busca encontrar una función de X muy simple (lineal) que nos permita aproximar Y
mediante la siguiente formula:
Y
Dependientes
X
Independientes
Explicativas
MODELO DE REGRESIÓN LINEAL SIMPLE
Extensió
Diagrama de Dispersión
Estatura
n de 185
en cm.
brazos. 180
72 cm 172
175
69 cm 161
70 180 170
71 175 165
Estatura (cm)
70 169
160
75 172
70 162 155
68 163 150
65 150
Y = 8.9623 +
68 166
145 2.264x
140 R2 = 0.4985
La recta de regresión nos 135
64 66 68 70 72 74 76
describe cómo varía la media de
una variable (dependiente) en Extensión de los brazos (cm)
función de la otra (independiente)
Recta de Regresión
Para estimar la recta de regresión se aplica el método de mínimos
cuadrados. Esta línea es la que hace mínima la suma de los cuadrados de
los residuos 🡪 ∑e2 = ∑(Yreal – Yest)2.
Pendient
e
yi
Intercept
o
a
El método de Mínimos Cuadrados
IMPORTANTE
• Si bien hay relación entre R2 y r, cada uno tiene una finalidad diferente:
• El coef. de correlación lineal (r) mide el grado de relación entre dos variables
• El coef. de determinación (R2) Nos indica que porcentaje de los datos es explicado por
el modelo. Cuanto más cerca a uno, las variables tendrán mayor correlación.
Y
Variación no
* Explicada
Variación Y’
Total
* Variación
Explicada
Error Estándar y Error de Estimación
Cuando se realiza una predicción, es importante determinar
el error estándar, el cual se representa por Sy.x y mide la
dispersión de los datos observados con respecto a la línea
de regresión.
Error de
predicción
El error de estimación,
que esta representado: e=y–y
EJEMPLO:
En un estudio de la relación entre la publicidad por radio y las ventas
de un producto, durante 10 semanas se han recopilado, los tiempos de
duración en minutos de la publicidad por semana (X), y el número de
artículos vendidos (Y).
Semana 1 2 3 4 5 6 7 8 9 10
Publicidad en 20 30 30 40 50 60 60 60 70 80
minutos X
Ventas Y 50 73 69 87 108 128 135 132 148 170
Interpretación
B0: El Número real de artículos vendidos es de 10 unidades.
B1: El número promedio de artículos vendidos aumenta en 2 unidades a medida que aumenta
cada minuto de duración, de la publicidad en la semana.
Regresión Lineal Simple
Ejemplo
- :
Tomando los datos del
ejemplo de la ausencia al
trabajo y la edad del
empleado :
- Obtenga la ecuación de
regresión.
- Interprete el valor de la
pendiente.
- Si un trabajador tiene 38
años, ¿cuántos días se
espera que falte al año?
Regresión Lineal Simple
Ejemplo
- : calcular el valor de los Coeficientes de la Ecuación:
Para
Las sumatorias:
Pendiente:
Intercepto en el
origen:
Regresión Lineal Simple
Ejemplo
- :La Ecuación:
- Interpretación de la Pendiente:
Editamos y rotulamos
en vista de variables
Técnicas e
Programa de Investigación
Instrumentos para
Formativa
la Investigación
Elegimos
regresión/lineales
Elegimos variable
dependiente e
independiente
Técnicas e
Programa de Investigación
Instrumentos para
Formativa
la Investigación
Escogemos
estimaciones y ajuste
del modelo/ continuar
Técnicas e
Programa de Investigación
Instrumentos para
Formativa
la Investigación
Elegimos la variable
dependiente
(DEPENDENT) y
ajuste de la variable
predictora
(*ADJPRED)
Técnicas e
Programa de Investigación
Comparando resultados Formativa
Instrumentos para
la Investigación
Coeficiente de
correlación de
Pearson
Error estándar
Coeficiente de
determinación
𝒃 𝒂
Técnicas e
Programa de Investigación
Instrumentos para
Formativa
la Investigación
Gráfico de dispersión
12
También nos
10
muestra el grafico
Actitud hacia la ciudad
8 de dispersión
6
0
0 2 4 6 8 10 12 14
Elegimos
correlacionar /
bivariadas
Técnicas e
Programa de Investigación
Instrumentos para
Formativa
la Investigación
Elegimos las
variables
Técnicas e
Programa de Investigación
Instrumentos para
Formativa
la Investigación
Correlación de
Pearson para
variables
paramétricas
Correlación
significativa,
(P<0.05) evidencia
estadística para
rechazar H0
Análisis de regresión simple
100
Distancia Recorrida (x) Curva de regresión ajustada
95
90
Carga Útil (y)
80
75
0 10 20 30 40 50 60 70
Niño 1 2 3 4 5 6 7 8 9 10
Estatura
121 123 108 118 111 109 114 103 110 115
(cm) x
Peso (kg) y 25 22 19 24 19 18 20 15 20 21
Ejercicios para desarrollar
1. Los datos de la producción de trigo en toneladas (X) y
el precio del kilo de harina en soles (Y) en la década
de los 80 en Lima fueron:
Producción de trigo (X) 30 28 32 25 25 25 22 24 35 40
Precio de la harina (Y) 25 30 27 40 42 40 50 45 30 25
Tiempo 3 3 3 4 4 5 5 5 6 6 7 8
de
estudio
Calificació 9 12 11 12 15 14 16 15 18 16 15 17
n
a) Hallar la recta de regresión
b) Interpreta la pendiente
c) Estimar la calificación cuando el tiempo de estudio es
10
d) Estimar el tiempo de estudio cuando la calificación es 8
En la siguiente tabla , donde :Y = Peso, x= Altura
a) Realice un diagrama de dispersión e indique
¿Sugiere la gráfica una asociación lineal?
b) Realice la ecuación de regresión
c) Interprete la pendiente
d) Calcule e interprete el coeficiente de
correlación
e) Calcule e interprete el coeficiente de
determinación
f) Calcular e interpretar el error estándar de
estimación o de regresión
La materia prima que se usa en la elaboración de una fibra Contenido
sintética se almacena en un local que no tiene control de de
humedad. Las mediciones de la humedad relativa en el local Humedad humedad
y del contenido de humedad de una muestra de la materia (X) (Y)
42 12
prima (ambos en porcentajes) durante 12 días, dieron
35 8
los siguientes resultados.
50 14
43 9
48 11
a) Realice un diagrama de dispersión e indique ¿Sugiere la 62 16
gráfica una asociación lineal? 31 7
b) Realice la ecuación de regresión 36 9
44 12
c) Interprete la pendiente, realice un pronóstico 39 10
55 13
d) Calcule e interprete el coeficiente de correlación
48 11
e) Calcule e interprete el coeficiente de determinación
f) Calcular e interpretar el error estándar de estimación o de
regresión
El siguiente conjunto de datos se ha tomado sobre grupos de trabajadoras de.
Cada grupo está formado por trabajadores de la misma profesión, en cada uno
de los veinticuatro grupos muestreados se han observado dos variables: el índice
de estandarizado de consumo de cigarrillos (x) y el índice de muertes por cáncer
de pulmón (Y) variable dependiente. Se desea estudiar la relación entre estas
dos variables.
Accidentes 5 7 5 3 2 1 9
xi
Vehículos yi 15 18 13 11 10 8 20
MES 1 2 3 4 5 6 7 8 9 10
INTERES 12.3 10.5 10.6 9.6 10.6 8.3 8.7 11.2 15.2 12
CASAS 198 298 126 226 240 303 208 102 104 114