Ejercicios de Laboratorio de Estadistica

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 37

UNIVERSIDAD NACIONAL DEL SANTA ESTADÍSTICA PARA INGENIEROS

Inferencia

1. Se probaron con dos máquinas distintas A y B, para pruebas de torsión de alambre


de acero, doce pares de distintos tipos de alambre; se probó un miembro de cada par
en cada máquina. Los resultados (ángulos de ruptura) fueron los siguientes:

Tipo de 1 2 3 4 5 6 7 8 9 10 11 12
alambre
Máquina A 32 35 38 28 40 42 36 29 33 37 22 42
Máquina B 30 34 39 26 37 42 35 30 30 32 20 41

¿Hay evidencia en el nivel de significación del 5% que indique que la máquina B da


una lectura menor que la máquina A?

Tabla Nº 01 Estadísticos Descriptivos de Ambas Maquinas para pruebas de torsión de


alambre
Variables Media Desviación Coeficiente de Mínimo-
estándar Variación Máximo
Máquina A 34,45 6,038 17,5268% 22-42
Máquina B 33,00 6,382 19,339% 20-42

• El valor de la primera variable es sh =0,952 y de la segunda sh=0.964 y la


significancia de la primera variable es 0,666 (p>0.05) y de la segunda es
0,835 (p>0.05). Cuyos valores P son mayores de 0,05 lo que nos permite
concluir que el diámetro de los alambres de ambas maquinas se distribuyen
de forma normal, por lo tanto, usaremos la prueba t para muestras
independientes.
Tabla Nº2 Comparación de medias para las pruebas de torsión de alambres para ambas
Maquinas.
IC del 95%
Resultad
Prueba de para la
Variable Media o de la Decisión
hipótesis diferencia
prueba
de medias
P= 0,560
Máquina A 34.45 Ho: μSA=μSB (P>0.05) -3.760-
to= 0.591 Ho se
Máquina B 33 Ha: μSA> μSB 6.760
acepta

Fuente: Elaboración Propia en SPSS

RESULTADOS:
• Prueba de comparación de varianzas: F=0,030 y P=0,865 (p>0,05) y
concluimos que las varianzas son iguales u homogéneas.
• Prueba de comparación de medias: To=0,0591 y P=0,0560 (p>0,05) , H0 se
acepta y concluimos que las medias son iguales o no existen diferencias
significativas en el diámetro promedio de las maquinas.

2. Se emplean dos máquinas para llenar botellas de soda con un volumen neto de 16.0
oz. Se toma una muestra aleatoria de la producción de cada máquina. El
departamento de Control de Calidad sostiene que no hay diferencias de ambas
máquinas en el proceso de llenado de las botellas de soda.
Máquin 16.03 16.04 16.05 16.05 16.02 16.01 15.96 15.98 16.02 15.9
aA 9
Máquin 16.02 15.97 15.96 16.01 15.99 16.03 16.04 16.02 16.01 16
aB

a. Elabore un intervalo de confianza del 99% para la diferencia de medias de


la producción de ambas Máquinas.

Intervalo de confianza de 99% para la diferencia de medias de producción de


ambas maquinas:

INFERIOR= -0,02603 SUPERIOR=0,04603

Debido a que el límite inferior es negativo, y este incluye al cero, este resultado
nos permite afirmar que no se observa una real diferencia en la producción de
Ambas maquinas, al nivel de 99% de confianza.

b. Realice la prueba de hipótesis correspondiente e indique si el departamento de


control de calidad está en lo correcto. Use un nivel del 1%.
La hipótesis:

Ho : μMaquinaA=μMaquinaB

Ha : μMaquinaA ≠ μMaquinaB

Tabla Nº3 Estadísticos descriptivos del volumen de llenado

Desviación Coeficiente Mínimo –


Máquinas Media
estándar de variación Máximo

16,0150
Máquina A 0,03028 0,189% 15,96-16,05
16,0050
Máquina B 0,02550 0,159% 15,96-16,04

Fuente: Elaboración Propia en base a SPSS.

PRUEBA DE NORMALIDAD:
El valor de la primera variable es sh =0,935 y de la segunda sh=0.949 y la
significancia de la primera variable es 0,501 (p>0.01) y de la segunda es 0,660
(p>0.05). Cuyos valores P son mayores de 0,01 lo que nos permite concluir que
el volumen neto de las botellas de soda en ambas maquinas se distribuyen de
forma normal, por lo tanto, usaremos la prueba T para muestras independientes.

Tabla Nº4 Comparación de medias para las pruebas de torsión de alambres para
ambas Maquinas.
Variable Media Prueba de Resultad Decisión IC del 99 %
Hipótesis o de la para la
prueba diferencia de
las medias
Máquina 16,0150 H0: μMA = To=0,799 P=0,435 -0,02603-
A 16,0050 μM 2 (P>0,05) 0,04603
Máquina Ho se
Ha: μMA ≠
B acepta
μM 2
Fuente: Elaboración Propia en base a SPSS.

RESULTADOS:
• Prueba de comparación de varianzas: F=0,332 y P=0,572 (P>0,05) y
concluimos que las varianzas son iguales u homogéneas.
• Prueba de comparación de medias: To=0,799 y P=0,0560 (P>0,05), Ho
se acepta y concluimos que las medias son iguales o no existen
diferencias significativas en el volumen promedio de las maquinas.

3. Un ingeniero que trabaja para una empresa que fabrica llantas investiga la duración
promedio de un compuesto nuevo de caucho. Para ello, se fabrica 16 llantas y las
prueba en una carretera hasta alcanzar el fin de la vida útil de éstas. Los datos en
km, obtenidos son los siguientes:
60613 59836 59554 60252 59784 60221 60311 50040
60450 60257 60000 59997 69947 60135 60220 60523
a. Elabore un intervalo de confianza del 95% para la vida útil promedio de la
nueva llanta.

Shapiro-Wilk

Variable Estadístico gl Sig.

Duración caucho 0,585 16 0,000

La prueba de Shapiro-Wilk tiene valor de P= 0,000 (P<0,05); lo cual este


resultado nos permite concluir que los datos no se distribuyen en forma
normal.

b. Al ingeniero le interesa demostrar que la vida útil promedio de la nueva


llanta excede los 60 000 km. Pruebe la hipótesis apropiada y obtenga la
conclusión al nivel del 5%.

Tabla N°1: Estadísticos descriptivos para la variable


N Media Desv. Desv. Error
Desviación promedio
16 60133,75 3645,309 911,327

Tabla N°2: Prueba de hipótesis para la educación del caucho de la nueva


llanta
Variable Media Prueba de Resultado Decisión IC del 99% para
hipótesis de la prueba la diferencia de
las medias
Duración del 60133,75 Ho: μ= 60000 to= 0,147 P = 0,885 -1808,70 –
caucho Ha: μ > 60000 (P >0,05) 2076,20
Ho se
acepta

La prueba de hipótesis; no resultó significativa. P=0,885 (P>0,05), por consiguiente, se


acepta Ho y se rechaza Ha; así se concluye que la vida útil de la nueva llanta es 60000
km.
Entonces:

No se puede demostrar que la vida útil de la nueva llanta exceda a los 60000km, con una significancia del 5%.

4. Se analizan dos catalizadores para determinar la forma en que afectan el


rendimiento promedio de un proceso químico. De manera específica, el catalizador
1 es el que se está empleando en este momento, pero el catalizador 2 también es
aceptable. Debido a que el catalizador 2 es más económico, éste puede adoptarse
siempre y cuando no cambie el rendimiento del proceso. Se hace una prueba en una
planta piloto, los resultados se muestran a continuación:

Catalizador 1: 91,50 94,18 92,18 95,39 91,79 89,07 94,72 89,21


Catalizador 2: 89,19 90,95 90,46 93,21 97,19 97,04 91,07 92,75

a. Construya un intervalo de confianza del 95% para la media de ambos


catalizadores.
INFERIOR= -3,37389 SUPERIOR= 2,41889
Debido a que el límite inferior es negativo, y este incluye al cero, este resultado nos
permite afirmar que no se observa una real diferencia en la producción de Ambas
maquinas, al nivel de 95% de confianza.

b. ¿Existe alguna diferencia entre los rendimientos promedio de ambos


catalizadores? ¿Conforme a los resultados qué puede concluir respecto al
catalizador 2?
Hipótesis:

Ho : μCatalizador 1 ≠μCatalizador 2

Ha : μCatalizador 1 =μCatalizador 2

Tabla Nº5 Estadísticos descriptivos del volumen de llenado.


Maquinas Media Desviación Coeficiente Mínimo – Máximo
estándar de variación
Catalizar1 92,2550 2,38502 2,585% 89,07-95,39
Catalizar2 92,7325 2,98345 3,217% 89,19-97,19
El valor del Catalizador 1 Sh =0,922 y de la segunda Sh=0.882 y la
significancia de la 1era 0,444 (p>0.05) y de la 2da es 0,196 (p>0.05). En este
caso ambos p son menos a 0.05. Concluimos que el rendimiento de ambos
catalizadores para un proceso químico se distribuye de forma normal, por lo
tanto, usaremos la prueba t para muestras independientes.

Tabla Nº6 Comparación de medias para las pruebas de torsión de alambres


para ambas Maquinas.

Variable Media Prueba de Resultado Decisión IC del 95


Hipótesis de la % para la
prueba diferencia
de las
medias
Catalizador1 92,2550 H0: μMA = to=0,729 P=0,729 -3,37389
Catalizador2 92,7325 μM 2 (P>0,05) – 2,41889
Ho se
Ha: μMA ≠ acepta
μM 2

• Prueba de comparación de varianzas:


F=0,341 y P=0,569 (p>0,05) y concluimos que las varianzas son iguales u
homogéneas.
• Prueba de comparación de medias:
0,354, y P=0,729 (p>0,05), Ho se acepta y concluimos que las medias son iguales o no existen diferencias significativas en ambo

añía desea demostrara a un asesor independiente que la resistencia media a la tensión de este nuevo producto es mayor que 3

a. Construya un intervalo de confianza del 99% para la resistencia media a la tensión de este nuevo producto.
La prueba de Shapiro Wilk tiene valor de 0.983 y P=0.993 (P>0.05), este
resultado nos permite concluir que la resistencia se distribuye de forma normal

b.Al nivel de significación del 1% ¿prueban estos datos que la resistencia


MEDIA DESVIACIÓN MEDIA MÁXIMO
MINIMO
RESISTENCIA 29,792 2,4141 27,627-31,956

media a la tensión de este nuevo producto es mayor que 30 pulg²?

MEDIA PRUEBA DE RESULTADO DECISION IC DEL 99%


HIPÓTESIS DE LA PARA LA
PRUEBA DIFERENCIA
DE MEDIAS
RESISTENCIA 29,792 Ho: uM1= To=42,749 P= 0.000 27,627-31,956
Um2 P<0.05
Ha: uM1≠ Ho se
Um2 rechaza
➢ La resistencia media de la tensión es 29,79

6. Una compañía debe decidir entre dos suministradores de dispositivos


electrónicos. La alta dirección ha decidido hacer el pedido al suministrador
A, a menos que se pueda probar que la vida media de los dispositivos del
suministrador B es superior. Se chequean 28 dispositivos de A y 32 de B,
obteniéndose los siguientes resultados:

Suministrador A 121 76 88 103 96 89 100 112 105 101 92 98 87 75


111 118 121 96 93 82 105 78 84 96 104 119 85 84
Suministrador B 127 133 87 91 81 122 115 107 109 89 82 90 81 104
109 110 106 85 93 90 100 122 117 109 98 94 103
107 101 99 112 90
Tabla 1. Pruebas de Normalidad Shapiro Wilk

Estadístico gl Sig.
Suministrador A 28 0.960 28 0.353

Suministrador B 32 0.961 28 0.369

La prueba de Shapiro Wilk para ambos suministros tiene valores de


0.960(P=0.353) y 0.961(P=0.369), cuyos valores P son mayores que 0.05, estos
resultados nos permiten concluir que la vida de los dispositivos electrónicos de
ambos suministros se distribuye en formal normal, por lo tanto, usaremos la
prueba paramétrica T para muestras independientes, para probar cuál de los 2
suministradores tiene mejor vida media de los dispositivos.

Tabla 2. Estadísticos descriptivos de la vida de los dispositivos electrónicos.


SUMINISTRADO Media Desviación Coeficiente Mínimo-
R Estándar de variación Máximo
%
Suministrador A 97.11 13.634 14.039 75-121
Suministrador B 101.9 13.743 13.477 83-133
7

Tabla 3. Comparación de medias para la vida de los dispositivos electrónicos.


IC del 95%
Resultad
SUMINISTRADO Prueba de para la
Media o de la Decisión
hipótesis diferencia
R prueba
de medias
97.11 Ho: μSA<μSB P= 0,933
Suministrador A to= (P>0.05) -11.954-
101.9 Ha: μSA>
Suministrador B Ho se
-1.372 2.231
7 μSB acepta

a. Construya un intervalo de confianza del 95% para la diferencia de la vida


media de los dispositivos de ambos suministradores.
El intervalo es de -11.954 a 2.231

b. Al nivel de significación del 5% ¿a qué suministrador se debería elegir?


To=-1.372 y p=0.933 (P>0.05), Ho se acepta.
La prueba resultó no significativa, este resultado nos indica que debemos
aceptar Ho, es decir podemos concluir que utilizaremos el Suministrador B.

7. Los costos de mano de obra y materiales son dos componentes básicos para
analizar el costo de construcción. Desde luego, los cambios en los costos de
componentes originarán cambios en los costos totales de construcción.

Costos de construcción 193.2 193.1 193.6 195.1 195.6 198.1 200.9


Y 202.7
Índice de costo de 180.0 181.7 184.1 185.3 185.7 185,9 187.7
todos los materiales de
construcción X 189.6

Tabla 1. Independencia de los residuos.


R cuadrado Error estándar
Modelo R R cuadrado Durbin-Watson
ajustado de la estimación

1 0,899a 0,809 0,777 1,7303 0,782

Puesto que Durbin-Watson= 0,782 se encuentra entre 1,5 y 2,5, podemos


asumir que los residuos son independientes.

Observando el diagrama de dispersión podemos ver que los residuos y los


pronósticos son independientes, pues la nube de puntos no sigue ninguna pauta
de asociación ni lineal ni de otro tipo, lo cual indica que las varianzas son
homogéneas.

Tabla 2. Determinación de Normalidad del Residuo.


Estadístico gl Sig.
Unstandardized
0.880 8 0.186
Residual

La prueba de Shapiro Wilk se realiza con los Residuos no estandarizados,


Sh=0.880 y P=0.186(P>0.05), los residuos se distribuyen en forma normal.

En el Gráfico P – P, se observa que los puntos se encuentran, ligeramente


alineados sobre la diagonal del gráfico, lo cual nos indica que se cumple el
supuesto de la normalidad.
Note que existe un salto en el histograma, debido a que la muestra es pequeña
n=8

a. Considera plausible que existe relación lineal entre las variables.

Tabla 1. Anova para probar la significancia de la regresión


Grados de Suma de Cuadrados
Razón F0 Sig.
Libertad cuadrados medios

Regresión 1 76,015 76,015


F0= 25,390 ,002b
Residuo 6 17,964 2,994
Total 7 93,979

La tabla ANOVA informa sobre si existe o no relación significativa entre las


variables.
Sabemos que:
Ho: 𝗉 =0 No existe relación entre X e Y
Ha: 𝗉 0 El modelo que explica la relación entre X e Y es lineal.
P<0.05. Rechaza Ho. Si es posible construir un modelo de regresión lineal
con estas 2 variables según la relación analizada.

b. Determine la ecuación de regresión y diga si hay suficiente evidencia como para


indicar que el Índice de costo de los materiales contribuye con información para
la predicción de los costos de construcción.

Tabla 2. Coeficientes e intervalo de la Ecuación de Regresión.

Coeficientes no Coeficientes 95.0% intervalo de confianza


estandarizados estandarizados para B
Modelo t Sig.
Desv. Límite
B Beta Límite inferior
Error superior

(Constante) -1,196 39,247 -0,030 0,977 -97,229 94,837

Índice de 0,899
1,069 ,212 5,039 ,002 0,550 1,588
Costo X

Ecuación de Regresión:
y= -1.196+1.069x
c. Determine intervalos de confianza para los coeficientes de regresión.
Intervalos de confianza para β = 0 y β ≠ 0
P(-97.299≤ βo ≤ 94.837)=0.95
El coeficiente poblacional β1 asume un valor de P (0.550≤ β1 ≤ 1.588)
=0.95

d. Obtenga el Coeficiente de determinación e interprételo: 0.809


El r2 expresa la proporción de varianza de la variable dependiente que está
explicada por la variable independiente. Esto indica que el 80.9% de la
variación de costos de construcción esta explicada por el Índice de costo.

8. Se considera que el acabado superficial de una parte metálica está relacionado


linealmente con la velocidad de corte de la máquina que la produce. El acabado
superficial se mide empleando una escala de 0 a 20, siendo 0 el acabado más
áspero. Los datos son los siguientes:

4.893 5.948 6.323 5.998 7.701 9.496


Acabado superficial
9.7725 9.503

Velocidad 12 13 14 15 16 18 19 20

a. Obtenga el diagrama de dispersión para los datos y analice lo que observa.

Tabla 1. Independencia de los residuos.


R cuadrado Error estándar
Modelo R R cuadrado Durbin-Watson
ajustado de la estimación

1 0,963a 0,928 0,916 10.5518 1.887


Puesto que Durbin-Watson= 1.887 se encuentra entre 1,5 y 2,5, podemos
asumir que los residuos son independientes.

Figura 1. Diagrama de dispersión de la variable dependiente


Acabado superficial

Observando el diagrama de dispersión podemos ver que los residuos y los


pronósticos son independientes, pues la nube de puntos no sigue ninguna pauta
de asociación ni lineal ni de otro tipo, lo cual indica que las varianzas son
homogéneas.

b. Ajústese un modelo de regresión lineal simple a los datos y realice la


prueba de significación.
Tabla 1. Anova para probar la significancia de la regresión
Grados de Suma de Cuadrados
Razón F0 Sig.
Libertad cuadrados medios

Regresión 1 24.161 24.161


F0= 77.547 ,000b
Residuo 6 1.869 0.312
Total 7 26.030

La tabla ANOVA informa sobre si existe o no relación significativa entre las


variables.
Sabemos que:
Ho: 𝗉 =0 No existe relación entre X e Y
Ha: 𝗉 0 El modelo que explica la relación entre X e Y es lineal.
P<0.05. Rechaza Ho. Si es posible construir un modelo de regresión lineal
con estas 2 variables según la relación analizada.

c. Elabore un intervalo de confianza del 90% cuando el acabado superficial


en x=15

El intervalo es:
y=
P (5,73671 ≤ y0 ≤ 8,05086) =0.90

d. Obtenga el Coeficiente de determinación e interprételo. 0.928


El r2 expresa la proporción de varianza de la variable dependiente que está
explicada por la variable independiente. Esto indica que el 92.8% del
acabado superficial esta explicada por la Velocidad.

9. Una empresa desea estimar la proporción de trabajadores de la línea de


producción que están a favor de que se corrija el programa de aseguramiento de
la calidad. La estimación debe quedar a menos de 0,05 de la proporción
verdadera de los que favorecen el programa, con coeficiente de confianza del
90%. ¿Cuántos trabajadores se deben muestrear? SCHE
S
P= 0.5
q=0.5 1.642∗0.5∗0.5
n=
e=0.05 0.052
Z 0.90=1.64

n=268.96

n ≅269
RPTA: Se deben muestrear a 269 trabajadores en la empresa.

10. Un ingeniero de procesos ha hecho 4 determinaciones del punto de 88fusión del


manganeso, obteniendo los valores de 1269 1271 1263 1265 °C. Docímese la
hipótesis de que la media μ d esta población difiere en menos de 5 unidades del
valor publicado 1260°C, al nivel 0,05. (supóngase la normalidad y σ² = 5).

PRUEBA DE HIPOTESIS
Tabla Nº 13. Prueba de hipótesis para el punto de fusión del manganeso
VARIABLE MEDI DESVIACIO PRUEBA RESULTADO INTERVALO
A N DE DE DE
ESTANDAR HIPOTESI LAPRUEBA CONFIANZ
S A
Punto de 1267 3,651 Ho = μ = to = 3,834 1261,19-
fusión del 1260 p = 0,31 1272,81
manganeso Ha = μ (P<0,05)
>1260 Ha se acepta

Fuente: Elaboración propia en base de SPSS


⟶ Prueba de la normalidad de la variable: Punto de fusión del manganeso:
El valor de SH= 0,950 y P = 0,714 (P >0,05), concluimos que el punto de
fusión del manganeso se distribuye en forma normal.
⟶ La prueba de hipótesis resulto significativa (P<0,05), lo cual nos permite
concluir, a un nivel de significancia del 5% que el punto de fusión del
manganeso difiere en más de 5 unidades del valor publicado 1260ºC.

11. Encuestas pasadas indican que los turistas que visitan Cusco gastan más de $
1000: El gerente de un gran hotel quiere actualizar esta información. En el nuevo
estudio se debe utilizar un intervalo desconfianza del 90%. La estimación no debe
alejase de la media poblacional más del 1%. ¿De qué tamaño debe ser la muestra?
LIND
Datos:
⟶ Z = 1,64
⟶ E = 0,01
⟶ P = 0,5
⟶ Q = 0,5 =
0,5∗0,5
0,012
Solución:

z2 pq 1,642∗
n= 2
0,6724
0,0001 =
= 6724

Respuesta: El tamaño de muestra debe ser 6724

12. Dos muestras de las calificaciones de la I Unidad del curso de Estadística


para Ingenieros de los alumnos de la EP de Ingeniería de Sistemas e Informática
III Ciclo 2020 son las siguientes.

Hombres 14 07 12 13 09 16 14 16 10 13 12 08 14 15 11 11 12

Mujeres 18 13 13 12 10 16 12 13 14

a. Obtenga un intervalo de confianza para la diferencia de las calificaciones


medias de hombres y mujeres. Use un nivel de confianza del 99%.
b. Al nivel de significancia de 0,01. ¿La calificación media de las mujeres es
más alta que la calificación media de los hombres?

Tabla 1. Prueba de Normalidad.

Shapiro Wilk Estadístico gl Sig.

Calificación de
Hombres 0,937 9 0,555

Calificación de
Mujeres 0,927 9 0,454

La prueba de Shapiro Wilk para ambas calificaciones tiene valores de


0.937(P=0.555) y 0.927(P=0.454), cuyos valores P son mayores que 0.01,
estos resultados nos permiten concluir que las calificaciones de ambos
géneros se distribuyen de forma normal, por lo tanto, usaremos la prueba T
para muestras independientes, para probar si ambos géneros tienen las
mismas calificaciones.

Tabla 2. Estadísticos descriptivos de la Calificación de Hombres y Mujeres.

Coeficiente Mínimo-
Desviación
Calificaciones Media de variación Máximo
Estándar %

Hombres 12.33 3.122 25.3 7-16

Mujeres 13.44 2.351 17.49 10-18


Tabla 3. Comparación de medias para las Calificaciones.

IC del 95%
Resultado
Prueba de para la
Calificaciones Media de la Decisión
hipótesis diferencia de
prueba medias
P= 0,237
Hombres 12.33 Ho: μM1= μM2 (P>0.05)
to= -1.212 Ho se -4.195 – 1.659
Mujeres 13.44 Ha: μM1≠ μM2 acepta

P=0.237(P>0.05), Ho se acepta y concluimos que las medias son iguales.


Intervalo de confianza para la diferencia de las calificaciones medias de hombres
y mujeres es de -4.195 a 1.659.

¿La calificación media de las mujeres es más alta que la calificación media
de los hombres?
No, ya que ambas calificaciones medias son iguales.

ANÁLISIS DE REGRESIÓN LINEAL SIMPLE Y REGRESIÓN MÚLTIP


1. Una compañía desea modelar la relación entre sus ventas y las ventas de la industria
en general.

Ventas de 0. 1. 1.
la Cia. Y 5 1 1 1.4 3 6
Ventas de 1 1
la Industria 10 2 3 15 14 15
X

a. Encontrar una recta que se ajuste a los datos. Obtenga el diagrama de


dispersión.
b. ¿Parecen contribuir las ventas de la industria con alguna información a la
predicción de las ventas de la Compañía? Probar en el nivel del 1%

Tabla 1. Independencia de los errores para los residuos.


R cuadrado
Modelo R R cuadrado Durbin-Watson
ajustado

1 0,973a 0,948 0,935 1.781

Puesto que DW= 1.781 se encuentra entre 1.5 y 2.5, podemos asumir que los
residuos son independientes.

Figura 1. Diagrama de dispersión de la variable dependiente Venta de


la CIA
Observando el diagrama de dispersión podemos ver que los residuos y los
pronósticos son independientes, pues la nube de puntos no sigue ninguna
pauta de asociación ni lineal ni de otro tipo., lo cual indica que las varianzas
son homogéneas.

Figura 1. Diagrama P-P normal de regresión

En el Gráfico P – P, se observa que los puntos se encuentran, ligeramente


alineados sobre la diagonal del gráfico, lo cual nos indica que se cumple el
supuesto de la normalidad.

Tabla 1. Prueba de Shapiro Wilk.


Estadístico gl Sig.
Unstandardized Residual 0,905 6 0,403

La prueba de Shapiro Wilk se realiza con los Residuos no estandarizados, Sh


=0.905 y P = 0,403 (P > 0,01), los residuos se distribuyen en forma normal.

Tabla 2. Anova para probar la significancia de la regresión

Fuente de Grados de Suma de Cuadrados


Variación Libertad Cuadrados medios Razón F0 Sig.
Regresión 1 0.714 ,714 72,347 0,001b
Residuo 4 0.039 ,010
Total 5 0.753
Sig=0.001(P<0.01) Ho se rechaza, es decir, β≠0, existe una relación lineal
entre X e Y.

c. Si las ventas de la industria es 16, determinar intervalos de confianza del


95% para las ventas de la Compañía y para las ventas promedio de la
Compañía.

Intervalos de confianza del 95% si las ventas de la industria son 16: 1.33685-
2.03304
Intervalos de confianza del 95% para las ventas promedio de la compañía:
1.47259-1.89732.

d. Estimar un intervalo de confianza para la pendiente poblacional.

Tabla 3. Coeficientes e intervalo de la Ecuación de Regresión.

Coeficientes no Coeficientes 95.0% intervalo de confianza


estandarizados estandarizados para B
Modelo t Sig.
Desv. Límite
B Beta Límite inferior
Error superior

(Constante) -1,430 0.304 -4.703 0,009 -2.274 -0.586

Ventas de la 0,973
0.195 0.023 8.506 ,001 0.131 0.258
Industria X

El intervalo de confianza es de: P [0.131≤ βi ≤0.258]=0.95


El coeficiente poblacional βi asume un valor entre 0.131 y 0.258 al nivel del
95%.

e. Grafique la línea de regresión estimada en el diagrama de dispersión


Figura 2. Gráfica de línea de regresión estimada en el diagrama
de dispersión

2. Para el problema anterior:

Tabla 4. Independencia de los errores para los residuos.


R cuadrado
Modelo R R cuadrado Durbin-Watson
ajustado

1 0,973a 0,948 0,935 1.781

a. Calcular el coeficiente de correlación de datos.


R=0.973, hay una alta relación entre las variables.
El r= 97.3% esta aplicada por las Ventas de la industria.

b. Calcular el coeficiente de determinación e interprete.


El r2 expresa la proporción de varianza de la variable dependiente que está
explicada por la variable independiente. Esto indica que el 94.8% de la
variación de ventas de la CIA esta explicada por las ventas de la industria.

c. Determine un intervalo de confianza para . Usar 𝛼 = 0.05

1 I =[ tanh ( Zr−E 0 ) ≤ ρ ≤ tanh ( Zr+ E 0 ) ]


Zr =
2
Z α
1+r 0 1−r 1− 2
∈ E =
√ n−3
Obtener los valores de Zr y Eo:
α
1−α =0.95 α=0.05 =0.0 25 1− α =0.975
2 2
Z0.975=1.96

1.96
E= =1.133
0 √ 6−3

1 1+ 0.973 = 1∈ 1.97 =2.146


r=0.973−→ Zr= ∈
2 1− 3
0.973 2 0.027

Luego:
P [ tanh (2.146−1.133 )≤ ρ ≤ tanh ( 2.146+1.133) ] =0.95
P [ tanh (1.013)≤ ρ ≤ tanh ( 3.279) ]=0.95
P [ tanh (1.013)≤ ρ ≤ tanh ( 3.279) ]=0.95

P [ 0.767 ≤ ρ ≤0.997 ] =0.95

P [ 0.77 ≤ ρ ≤ 0.99 ] =0.95

P asume unvalor enel intervalo de 0.77 y 0.99, alnivel deconfianza del 95 % .

3. Consideremos los siguientes datos sobre el número de derrames


accidentales de petróleo en el mar (X) la cantidad de petróleo derramado
(en millones de metros cúbicos, Y).
Número de 36 48 45 29 49 35 65 32 33 9 17 15 8
derrames
X
Cantidad 84.5 67.1 188 204.2 213.1 260.5 723.5 135.6 45.3 1.7 387.8 24.2 15
de petróleo
derramado
Y

a) Obtenga el diagrama de dispersión y encuentre una recta que se ajuste a los


datos.

➢ Como se observa en el diagrama de dispersión los puntos no forman ningún patrón


ni lineal de otro tipo, lo que indica que las varianzas son homogéneas

b) ¿El número de derrames influirá en la cantidad de petróleo derramado?


Probar en el nivel del 1%
Nivel de 99%

MODELO DE REGRESIÓN SIMPLE

Y = -44,487 + 6,957x

Y= cantidad de petróleo derramado

X = número de derrames

Intervalos:

Bo = {-363,402; 274,427}
B1 = {-1,839;15,753}

Coeficiente de determinación y error de estimación


R2 = 0,354 y σˆ = 166,4724

Tabla Nº19 Estadísticos descriptivos de las variables

Variables Media Desviación Mínimo-


estándar Máximo

Cantidad de petróleo Y 180,80 198,3393 1,7-723,5


Numero de derrames X 8 16,968 8-65
32,38

Fuente: Elaboración propia a base de SPSS

SUPUESTOS EN EL ANÁLISIS DE REGRESIÓN:

Tabla Nº20 Prueba de la normalidad y prueba de independencia de los errores para


la cantidad de petróleo y numero de derrames

Variables Valor Prueba Valor de Decisión Durbin Decisión


de Shapiro significancia P Watson
Wilk

Cantidad de Los
petróleo Y vs residuos se Existe
P =0,060 independenci
Numero de 0,875 distribuye 1,756
(P > 0,01) n en forma a de los
derrames X errores
normal
Fuente: Elaboración propia a base de SPSS

Tabla Nº21 Anova para probar la significancia de la regresión


Variables Valor Valor de Decisión
experimental F significancia
P
Cantidad de petróleo Y 6,034 0,032 La ecuación
Numero de derrames X (p > 0,01) no es valida
Fuente: Elaboración propia a base de SPSS

El número de derrames no influye en la cantidad de petróleo derramado, debido


a que la ecuación no es validad y no existe una relación entre X e Y

c) Si ocurren 55 derrames, determine intervalos de confianza del 95%


para la cantidad de petróleo derramado y para la cantidad media de
petróleo derramado, cuando ocurren 40 derrames.

X = 55, Yo = 338,13959
Intervalo de confianza: -67,38676 ≤ Yo ≤ 743,66595

X = 40, Yo = 233,78680

Intervalo de confianza para la cantidad media: 121,62415≤ M40 ≤


345,94945

d) Estimar un intervalo de confianza para los coeficientes de regresión


poblacional.

Prueba de hipótesis para R o :

1. Ho:  =  Ausencia de relación X e Y) Aceptar


Ha:  ≠ 0 (Existe relación entre X e Y) Rechazar

2. α = 0,01

3. Prueba estadística:


to = r n−2 = 2,455 (valor experimental)
1−r2


13−2
4. to = 0,595
1−0,5952

=
5. Reglones de aceptación y rechazo: t tabular = tt(
α 2 se busca el valor en la

6. Decisión: to = 2,455 > 3,106, Ho se acepta y se rechaza Ha, con lo cual


concluimos que no existe relación entre X e Y, es decir  = 0
Intervalo de confianza para R o :

I = [ tanh (Zr – Eo) ≤  ≤ tanh (Zr + Eo)]


1 Z
Dónde: Zr = 1+ , Eo =
2 ln r
1−r √n−3
DATOS
⟶ α = 0,01
α/2 = 0,01/2 = 0,005

1 - α/2 = 1- 0,005 = 0,995

Z0,995 = 2,58 (en la tabla inversa)


2,58
⟶ Eo = = 0,8159
√13 −3
1+ 0,595
⟶ Zr = ½ ln = 0,6854
1−0,595

P[tanh(0,6854 – 0,8159) ≤  ≤ tanh ( 0,6854 + 0,8159)] = 0,99

P[tanh (-0,1305) ≤  ≤ tanh (1,5013)] = 0,99

P (-0,12976 ≤  ≤ 0,90538) = 0,99

e) Grafique la línea de regresión estimada en el diagrama de dispersión


➢ Como se observa en el gráfico P-P los puntos están muy cerca de la diagonal,
esto nos indica que los errores se distribuyen en forma normal

4. Para el problema anterior.

a) Calcular el coeficiente de correlación de datos


R = 0,595

b) Calcular el coeficiente de determinación e interprete.


R2 = 0,354: El 35,4% de la variabilidad en la cantidad de petróleo
derramado se explica por la influencia de la numero de derrames.

c) Determine un intervalo de confianza para . Usar 𝛼 = 0.01.


Prueba de hipótesis para R o :

7. Ho:  =  Ausencia de relación X e Y) Aceptar


Ha:  ≠ 0 (Existe relación entre X e Y) Rechazar

8. α = 0,01

9. Prueba estadística:

n−2
to = r
1−r2


13−2
10. to = 0,595 = 2,455 (valor experimental)
1−0,5952

α
11. Reglones de aceptación y rechazo: t tabular = tt( se busca el valor en la
n-2)
2
tabla T de Student
= t(0,005;11) = 3,106

12. Decisión: to = 2,455 > 3,106, Ho se acepta y se rechaza Ha, con lo cual
concluimos que no existe relación entre X e Y, es decir  = 0
Intervalo de confianza para R o :

I = [ tanh (Zr – Eo) ≤  ≤ tanh (Zr + Eo)]


1 Z
Dónde: Zr = 1+ , Eo =
2 ln r
1−r √n−3
DATOS
⟶ α = 0,01
α/2 = 0,01/2 = 0,005

1 - α/2 = 1- 0,005 = 0,995

Z0,995 = 2,58 (en la tabla inversa)


2,58
⟶ Eo = = 0,8159
√13 −3
1+ 0,595
⟶ Zr = ½ ln = 0,6854
1−0,595

P[tanh(0,6854 – 0,8159) ≤  ≤ tanh ( 0,6854 + 0,8159)] = 0,99

P[tanh (-0,1305) ≤  ≤ tanh (1,5013)] = 0,99


P (-0,12976 ≤  ≤ 0,90538) = 0,99

5. En un artículo publicado por Kwan, Kowalski y Skogenboe en Journal of


Agricultural and Food Chemistry, se ofrecen datos de 38 marcas de vino de variedad
Pinot Noir. A través del juicio de varios expertos se ha medido la “Calidad” de cada
vino y se dispone de valores de 4 variables (Aroma, Cuerpo, Sabor, Oakiness,
Claridad) que pueden explicar dichos valores de calidad.
CALIDAD_Y AROMA_X1 CUERPO_X2 SABOR_X3 OAKINESS_X4 CLARIDAD_X5 PRE_1 RESID_1
9,8 3,3 2,8 3,1 4,1 1,0 951,095 ,28905
12,6 4,4 4,9 3,5 3,9 1,0 1,121,952 138,048
11,9 3,9 5,3 4,8 4,7 1,0 1,205,913 -,15913
11,1 3,9 2,6 3,1 3,6 1,0 1,008,785 101,215
13,3 5,6 5,1 5,5 5,1 1,0 1,336,905 -,06905
12,8 4,6 4,7 5,0 4,1 1,0 1,287,709 -,07709
12,8 4,8 4,8 4,8 3,3 1,0 1,331,446 -,51446
12,0 5,3 4,5 4,3 5,2 1,0 1,159,000 ,41000
13,6 4,3 4,3 3,9 2,9 1,0 1,215,871 144,129
13,9 4,3 3,9 4,7 3,9 1,0 1,230,010 159,990
14,4 5,1 4,3 4,5 3,6 1,0 1,276,694 163,306
12,3 3,3 5,4 4,3 3,6 0,5 1,079,543 150,457
16,1 5,9 5,7 7,0 4,1 0,8 1,564,632 ,45368
16,1 7,7 6,6 6,7 3,7 0,7 1,644,992 -,34992
15,5 7,1 4,4 5,8 4,1 1,0 1,493,617 ,56383
15,5 5,5 5,6 5,6 4,4 ,9 1,381,907 168,093
13,8 6,3 5,4 4,8 4,6 1,0 1,331,296 ,48704
13,8 5,0 5,5 5,5 4,1 1,0 1,387,280 -,07280
11,3 4,6 4,1 4,3 3,1 1,0 1,257,937 -127,937
7,9 3,4 5,0 3,4 3,4 0,9 1,075,552 -285,552
15,1 6,4 5,4 6,6 4,8 0,9 1,509,345 ,00655
13,5 5,5 5,3 5,3 3,8 1,0 1,403,098 -,53098
10,8 4,7 4,1 5,0 3,7 0,7 1,233,321 -153,321
9,5 4,1 4,0 4,1 4,0 0,7 1,075,967 -125,967
12,7 6,0 5,4 5,7 4,7 1,0 1,415,129 -145,129
11,6 4,3 4,6 4,7 4,9 1,0 1,180,730 -,20730
11,7 3,9 4,0 5,1 5,1 1,0 1,178,091 -,08091
11,9 5,1 4,9 5,0 5,1 1,0 1,248,898 -,58898
10,8 3,9 4,4 5,0 4,4 1,0 1,225,215 -145,215
8,5 4,5 3,7 2,9 3,9 1,0 1,023,899 -173,899
10,7 5,2 4,3 5,0 6,0 1,0 1,175,773 -105,773
9,1 4,2 3,8 3,0 4,7 0,8 922,328 -,12328
12,1 3,3 3,5 4,3 4,5 1,0 1,083,055 126,945
14,9 6,8 5,0 6,0 5,2 1,0 1,443,656 ,46344
13,5 5,0 5,7 5,5 4,8 ,8 1,298,073 ,51927
12,2 3,5 4,7 4,2 3,3 ,8 1,149,094 ,70906
10,3 4,3 5,5 3,5 5,8 ,8 956,766 ,73234
13,2 5,2 4,8 5,7 3,5 ,8 1,395,427 -,75427
Fuente: Elaboración propia en base de SPSS

Tabla. 1 Estadísticos descriptivos de las variables


Intervalo de confianza
VARIABLES MEDIA DESV. EST Mínimo - Máximo del 99%
CALIDAD Y 12,437 2,0454 9,223-16,450
2,246-7,637
SABOR X3 4,768 1,0280 -2,8555-1,6809
1,019-2,125
Fuente: Elaboración propia en base de SPSS
Supuestos en el análisis de regresión:

a. Obtenga un modelo de regresión múltiple, pruebe previamente los supuestos


de independencia de criterios, homocedasticidad y la normalidad de los
residuos.

Tabla 2. Prueba de la normalidad y prueba de independencia de los errores para los


residuos para cada par de variables
Valor de
Valor Prueba Durbin
Variables significancia Decisión Decisión
de Shapiro Watson
P
Wilk
Los residuos se No existe
CALIDAD Y P = 0,3 Dw=0,83
P= 0.3 distribuyen en independencia
vs SABOR X3 (P > 0,05) 7
forma normal de los errores
Fuente: Elaboración propia en base de SPSS

b. Obtenga intervalos de confianza del 99% para la calidad del vino cunado las
variables independientes asumen los siguientes valores: X1 = 4,7, X2 = 2,5,
X3
= 3,6; X4 = 2,8 y X5 = 0,8

Modelo de regresión múltiple


Y = 4,941 + 1,572 X3
Y: Recuentos
X3: Sabor
Y = 4,941 + 1,572 X3 => 4,941+1,572(3,6) = 10,6002
Los intervalos de confianza
B0 = (2,246; 7,637)
B3 = (1,019; 2,125)

c. Pruebe la validez del modelo encontrado

Tabla 3. ANOVA PARA PROBAR


LA SIGNIFICANCIA DEL MODELO DE REGRESIÓN MÚLTIPLE
Grados
Fuente de Suma de Cuadrados Razón
de
Variación Cuadrados Medios Significancia P
Libertad
Regresión 1 96,615 96,615 59,789
Error o Residual 36 58,173 1,616 0.00
Total 37 154,788
Fuente: Elaboración propia en base de SPSS
Significativo al nivel de 0,01

d. Obtenga e interprete el coeficiente de

determinación Coeficiente de determinación y Error

de estimación:
• R² = 0,624
• σˆ2 = 58.173 =1,616
• σˆ= 1.27122

• R2=0.624 el 62,4% de la variabilidad en la Calidad del vino


explica por la influencia de varianza de la variable de Sabor.

GRÁFICOS
➢ Como se observa en el gráfico P-P los puntos están muy cerca de la diagonal,
esto nos indica que los errores se distribuyen en forma normal

Fuente: Elaboración propia en base de SPSS

➢ Como se observa en el diagrama de dispersión los puntos no forman ningún


patrón ni lineal, ni de otro tipo lo que indica que las varianzas son homogéneas.

6. El objetivo de un estudio es identificar cuáles son los factores más influyentes en el


consumo de combustible por los vehículos. En el estudio en cuestión, se
consideraron 25 modelos diferentes, y se seleccionaron las siguientes variables: X1,
X2, X3, X4, X5, X6, X7, Y.

Consumo
Caballos de Momento
de Cilindraje Cuerpo Curburador Longitud Ancho PRE_1 RES_1
fuerza de torcion
combustible
18,90 350,0 165 260 4 200,3 69,9 2910 2,105,171 -215,171
20,00 350,0 105 185 1 196,7 72,2 3,510 1,848,021 151,979
18,25 351,0 143 255 2 199,9 74,0 3890 1,752,839 0,72161
20,07 225,0 95 170 1 194,1 71,8 3,365 2,385,360 -378,360
11,20 440,0 215 330 4 184,5 69,0 4215 1,166,169 -0,46169
22,12 231,0 110 175 2 179,3 65,4 3020 2,321,706 -109,706
34,70 89,7 70 81 2 155,7 64,0 1905 3,036,145 433,855
30,40 96,9 75 83 2 165,2 65,0 2320 3,027,942 ,12058
16,50 350,0 155 250 4 195,4 74,4 3,885 1,865,392 -215,392
36,50 85,3 80 83 2 160,6 62,2 2,009 3,087,080 562,920
21,50 171,0 109 146 2 170,4 66,9 2,655 2,608,252 -458,252
19,70 258,0 110 195 1 171,5 77,0 3,375 1,960,836 0,09164
17,80 302,0 129 220 2 199,9 74,0 3890 2,017,325 -237,325
14,39 500,0 190 360 4 224,1 79,8 5290 1,082,644 356,356
14,89 440,0 215 330 4 231,0 79,7 5185 1,511,560 -0,22560
17,80 350,0 155 250 4 196,7 72,2 3,910 1,870,020 -0,90020
23,54 231,0 110 175 2 179,3 65,4 3050 2,315,319 ,38681
21,47 360,0 180 290 2 214,2 76,3 4250 1,760,620 386,380
16,59 400,0 185 300 4 196,0 73,0 3,850 1,588,307 0,70693
31,90 96,9 75 83 2 165,2 61,8 2,275 3,030,507 159,493
13,27 460,0 223 366 4 228,0 79,8 5430 1,273,346 0,53654
23,90 133,6 96 120 2 171,5 63,4 2535 2,837,250 -447,250
19,73 318,0 140 255 2 215,3 76,3 4,370 1,963,789 0,09211
13,90 351,0 148 243 2 185,2 78,5 4,540 1,486,399 -0,96399
Fuente: Elaboración propia en base de SPSS

Tabla. 1 Estadísticos descriptivos de las variables

Intervalo de
VARIABLES MEDIA DESV. Mínimo - Máximo
confianza del 99%
EST
Consumo de 12,437 6,6476 10,7872-30,4688
31,324-37,710
combustible Y
Cilindraje X1 289,183 126,0063 -4,90147-6,03122
0,58-0,37
Fuente: Elaboración propia en base de SPSS

a. Obtenga un modelo de regresión múltiple, pruebe previamente los supuestos


de independencia de criterios, homocedasticidad y la normalidad de los
residuos.
Tabla 2. Prueba de la normalidad y prueba de independencia de los errores para los
residuos para cada par de variables
Valor de
Valor Prueba Durbin
Variables significancia Decisión Decisión
de Shapiro Watson
P
Wilk
Los residuos
CONSUMO DE No existe
P = 0,539 se distribuyen
COMBUSTIBLE Y P= 0.539 Dw=2,621 independencia
vs CILINDRAJE X3 (P > 0,05) en forma
normal de los errores
Fuente: Elaboración propia en base de SPSS
b. Pruebe la validez del modelo encontrado

Tabla 3. ANOVA PARA PROBAR


LA SIGNIFICANCIA DEL MODELO DE REGRESIÓN MÚLTIPLE
Grados
Fuente de Suma de Cuadrados Razón
de
Variación Cuadrados Medios Significancia P
Libertad
Regresión 1 822,557 822,557 93,932
Error o Residual 22 192,652 8,757 0.00
Total 37 1015,209
Fuente: Elaboración propia en base de SPSS
Significativo al nivel de 0,05

c. Obtenga intervalos de confianza del 95% para el consumo de combustible


cunado las variables independientes asumen los siguientes valores: X1 =
270, X2 = 150, X3 = 190; X4 = 4 y X5 = 196,0 X6 = y X7 = 3000

Modelo de regresión múltiple


Y = 34,517 - 0.047,572 X1
Y: Consumo de
combustible X1: Cilindraje

Y = 4,941 + 1,572 X3 => 4,941+1,572(3,6) = 10,6002

Los intervalos de confianza


B0 = (31,324-37,710)
B1 = 0,58-0,37

d. Obtenga e interprete el coeficiente de determinación


Coeficiente de determinación y Error de estimación:
• R² = 0.81
• σˆ2 = 192,652= 8,757
• σˆ= 2,9592

R2=0.81 el 81% de la variabilidad en el consumo de combustible explica por la


influencia de varianza de la variable de Cilindraaje

GRÁFICOS:
Fuente: Elaboración propia en base de SPSS

➢ Como se observa en el gráfico P-P los puntos están muy cerca de la diagonal,
esto nos indica que los errores se distribuyen en forma normal

Fuente: Elaboración propia en base de SPSS

➢ Como se observa en el diagrama de dispersión los puntos no forman ningún


patrón ni lineal, ni de otro tipo lo que indica que las varianzas son homogéneas

También podría gustarte