Ejercicios de Repaso

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 6

EJERCICIOS DE REPASO

1.-Los estudiantes universitarios que aprenden más rápido tienen mejores calificaciones promedio (CP)
y por lo tanto mejores oportunidades de obtener buenos empleos después de graduarse. Suponga que
los datos que se presentan a continuación representan las calificaciones promedio de 15 recién
graduados y sus correspondientes salarios iniciales (miles de US$):

CP 2.95 3.20 3.40 3.60 3.20 2.85 3.10 2.85 3.05 2.70 2.75 3.10 3.15 2.95 2.75

Salario
18.50 20.00 21.10 22.40 21.20 15.00 18.00 18.80 15.70 14.40 15.50 17.20 19.00 17.20 16.80
Inicial

a) Construya un diagrama de dispersión, relacionando las dos variables. ¿Cree usted que la gráfica
sugiere un comportamiento lineal de las variables?
CÓDIGOS R:
### Lectura de datos
datos <- read.delim("clipboard")

### Diagramas de dispersión (x = CP, y = Salario Inicial)


plot(datos$x,datos$y)

En el gráfico podemos observar que existe una relación lineal directa entre las variables.
b) Ajuste el modelo de regresión lineal simple. Interprete las estimaciones de los parámetros.

#### Obtener los parámetros del modelo


ejemplo.m1<-lm(Y~X, data=datos)
summary(ejemplo.m1)

lm(y ~ x, data = datos)

Residuals:
Min 1Q Median 3Q Max
-2.4345 -0.7167 -0.1227 0.8744 2.2892

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -6.627 4.298 -1.542 0.147
x 8.119 1.409 5.760 6.6e-05 ***
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.327 on 13 degrees of freedom


Multiple R-squared: 0.7185, Adjusted R-squared: 0.6968
F-statistic: 33.18 on 1 and 13 DF, p-value: 6.598e-05

El modelo de regresión ajustado está dado por:

^y =−6.627+8.119 x
Interpretación de los estimadores:
 No se puede interpretar el intercepto (-6.627) porque no se tiene valores negativos
de los salarios iniciales.

 En el caso de la pendiente tenemos: Si la Calificación Promedio aumenta un punto,


en promedio, El Salario inicial aumenta 8.119 miles de dólares (aumenta 8119
dólares).

c) Obtenga la tabla ANOVA. Plantee y pruebe la hipótesis de interés. Use α=0.05

#### Obtener la tabla de análisis de varianza para verificar


#### la significación del modelo
anova(ejemplo.m1)

### Obtención tabla ANOVA


anova(modelo)

Analysis of Variance Table

Response: y
Df Sum Sq Mean Sq F value Pr(>F)
x 1 58.396 58.396 33.178 6.598e-05 ***
Residuals 13 22.881 1.760
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Del resumen del modelo también se puede obtener F0:


F-statistic: 33.18 on 1 and 13 DF, p-value: 6.598e-05

H0: El modelo no es significativo


H1: El modelo sí es significativo

α=0.05

Estadístico de prueba: F0 = 33.178


Valor crítico: V.C. = 4.667193 = 4.667

library(fastGraph)
shadeDist(qf(0.05,1,13,lower.tail = F),"df",1,13,lower.tail = F)

Conclusión: El estadístico de prueba cae en la región de rechazo. Por lo tanto, se puede


concluir que el modelo sí es significativo.

d) Halle e interprete el coeficiente de correlación. (Pearson)

### Correlación de Pearson


cor(datos$x,datos$y)

[1] 0.8476342

La relación lineal entre las variables es directa (es positiva) y fuerte (cercano a uno en
valor absoluto).

e) Halle e interprete el coeficiente de determinación.

El resultado se obtiene con el resumen del modelo:


Multiple R-squared: 0.7185

El 71.85% de las variaciones en el salario inicial se explica por las variaciones en la


calificación promedio.

f) Halle un intervalo de confianza al 92% para la pendiente de la recta.


confint(modelo, level = 0.92)

4 % 96 %
(Intercept) -14.789024 1.535149
x 5.442152 10.794868

El intervalo pedido es (5.442152; 10.794868).

g) Estime el salario de un estudiante que obtuvo una calificación promedio de 4.00, usando una
confianza del 92%.

predict(modelo, data.frame(x = 4), level = 0.92, interval =


'prediction')
fit lwr upr
1 25.8471 22.1905 29.5037

Al 92% de confianza el salario estimado está entre 22.1905 y 29.5037 miles de dólares.

h) Estime el salario medio de un grupo de estudiantes que obtuvieron una calificación promedio de
3.5, usando una confianza del 99%.
predict(modelo,data.frame(x = 3.5), level = 0.99, interval =
"confidence")
fit lwr upr
1 21.78785 19.57903 23.99667
El salario medio estará entre 19.57903 y 23.99667 miles de dólares, con 99% de confianza.

1. Se hizo un estudio de mercado sobre el consumo de helados durante la primavera y el verano (kg
per cápita por semana), el precio por kg de helado (dólares), el ingreso mensual del consumidor
(dólares) y la temperatura (grados farenheit), obteniéndose los siguientes datos:

Consumo Precio Ingreso Temperatura


0.387 1.33 359 63
0.375 1.37 358 61
0.394 1.30 360 65
0.428 1.25 370 69
0.407 1.28 366 68
0.345 1.39 357 55
0.328 1.40 357 47
0.289 1.43 352 42
0.269 1.45 343 32
0.258 1.46 343 23

a) Encuentre la ecuación de regresión que explique el consumo en términos del precio, ingreso y
temperatura.
### Lectura de datos
datos2 <- read.delim("clipboard")
### Obtención del modelo de regresión múltiple lineal
modelo2 <- lm(Y ~ X1 + X2 + X3, data = datos2)
summary(modelo2)

RESULTADOS:
Residuals:
Min 1Q Median 3Q Max
-0.013769 -0.003964 0.001099 0.003617 0.009865

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.6357983 0.5019503 1.267 0.25223
X1 -0.3418664 0.1193339 -2.865 0.02862 *
X2 0.0001869 0.0011430 0.164 0.87546
X3 0.0021438 0.0005696 3.764 0.00936 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.008564 on 6 degrees of freedom


Multiple R-squared: 0.9864, Adjusted R-squared: 0.9797
F-statistic: 145.6 on 3 and 6 DF, p-value: 5.415e-06
El modelo de regresión múltiple pedido es:
^
Y=0.6357983−0.3418664 X 1 +0.0001869 X 2 +0 .0021438 X 3

b) ¿Cuáles de las variables seleccionaría usted, para considerarlas en la regresión? Use α = 0.05.

β
H0: 1 = 0, H1 :
β1 ≠ 0 (H0: la variable no es significativa; H1: la variable sí es
significativa)

H0:
β2 = 0, H1:
β2 ≠0

H0:
β3 = 0, H1:
β3 ≠0

α = 0.05

Estadísticos de prueba: t1 = -2.865, t2 = 0.164, t3 = 3.764

Valores críticos: VC1 =-2.446912 , VC2 = 2.446912

Conclusiones: Se rechazan las hipótesis nulas para β1 y β3; y se acepta la hipótesis nula para
β2.
Para el modelo de regresión seleccionaría las variables X 1 y X3. (Debería retirarse de modelo la
variable X2). (Las variables seleccionadas para el modelo son las significativas)

c) Para la ecuación obtenida con las variables seleccionadas en (b):


### Obtención del nuevo modelo de regresión múltiple lineal
modelo3 <- lm(Y ~ X1 + X3, data = datos2)
summary(modelo3)

Residuals:
Min 1Q Median 3Q Max
-0.013407 -0.004618 0.001440 0.003853 0.009735

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.7134733 0.1507365 4.733 0.00212 **
X1 -0.3519789 0.0947050 -3.717 0.00749 **
X3 0.0021968 0.0004348 5.052 0.00148 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.007947 on 7 degrees of freedom


Multiple R-squared: 0.9864, Adjusted R-squared: 0.9825
F-statistic: 253.6 on 2 and 7 DF, p-value: 2.942e-07

i) ¿Qué porcentaje de las variaciones observadas en el consumo se deben a las variaciones


en las variables predictoras seleccionadas? ¿Qué significa este porcentaje?

ii) Analice la significación del modelo. Use α = 0.05.

iii) Halle el intervalo del 98% de confianza para el coeficiente de la temperatura.

iv) Pruebe que se cumple el supuesto de normalidad, use α = 0.05

También podría gustarte