Estadistica I Hoja 6 Soluciones
Estadistica I Hoja 6 Soluciones
Estadistica I Hoja 6 Soluciones
a) Realiza un histograma.
b) Realiza un QQ-plot para comparar la distribución de los valores observados con una dis-
tribución normal. Utiliza los cuantiles 0.1, 0.2, . . . , 0.9. ¿Qué conclusiones obtienes?
Solución. a)
0
1.5 2 2.5 3 3.5 4 4.5 5
b) Los cuantiles muestrales son Qp = x([np]) , p = 0.1, 0.2, . . . , 0.9, donde x(1) , . . . , x(n) repre-
sentan los valores muestrales ordenados de menor a mayor. Como n = 25, los cuantiles
muestrales serán x(2) , x(5) , x(7) , x(10) , x(12) , x(15) , x(17) , x(20) y x(22) . La muestra ordenada
es
1.65 1.83 2.06 2.12 2.14 2.28 2.45 2.48 2.59 2.78 2.81 2.82 2.84
2.87 2.91 3.12 3.13 3.33 3.35 3.43 3.51 3.96 4.06 4.36 4.92
por tanto los cuantiles buscados son Q0.1 = 1.83, Q0.2 = 2.14, Q0.3 = 2.45, Q0.4 = 2.78,
Q0.5 = 2.82, Q0.6 = 2.91, Q0.7 = 3.13, Q0.8 = 3.43 y Q0.9 = 3.96.
Por otro lado, los respectivos cuantiles de una distribución normal con media y desvia-
ción tı́pica 2.94 y 0.78 respectivamente (los valores correspondientes a la muestra) son:
q0.1 = 1.94, q0.2 = 2.28, q0.3 = 2.53, q0.4 = 2.74, q0.5 = 2.94, q0.6 = 3.13, q0.7 = 3.34,
q0.8 = 3.59 y q0.9 = 3.94.
1
Gráfica Cuantil−Cuantil
4.5
3.5
Datos 2.5
1.5
1
1 1.5 2 2.5 3 3.5 4 4.5
Distribución Normal
2. (Examen Junio 2012) En un centro comercial se está realizando un estudio acerca de la calidad
del servicio que se está dando a los clientes. Concretamente se han recogido datos acerca del
tiempo de espera (en minutos) para acceder a los ascensores del mismo. A continuación se
muestran algunos de los análisis llevados a cabo:
Se pide:
a) Justificar si es cierto que el tiempo de espera para acceder a los ascensores de los clientes
del centro comercial puede describirse mediante una ley de probabilidad Normal.
b) El centro comercial afirma que el tiempo de espera para acceder a los ascensores de los
clientes del centro comercial es en media de 6 minutos con una desviación tı́pica de 5
minutos. Si 50 personas toman el ascensor independientemente, cual es la probabilidad de
que la suma de sus tiempos de espera esté entre 5.5 y 6 horas.
T −6
Z= ∼ N (0, 1) .
√5 aprox.
50
2
Por lo tanto,
50
!
X 330 360
P 330 < Ti < 360 = P <T < = P 6.6 < T < 7.2 =
i=1
50 50
!
6.6 − 6 7.2 − 6
=P 5 <Z< 5 = P (0.8485 < Z < 1.6970) =
√ √
50 50
= P (Z < 1.6970) − P (Z < 0.8485) = 0.9545 − 0.7995 = 0.1550.
3. Las notas de un test de aptitud siguen una distribucion normal con desviacion tı́pica 28.2. Una
muestra aleatoria de 9 alumnos arroja los resultados siguientes:
n
X n
X
xi = 1098 x2i = 138148
i=1 i=1
Solución.
X = “notas del test de aptitud”. X ∼ N (µ, 28.2). Mediante muestreo aleatorio simple se toma
una muestra donde
v !
9 u 9
1X u1 X
n = 9, x = xi = 122, s = t x2 − 9 · x2 = 21.58.
9 i=1 8 i=1 i
X −µ
√ ∼ N (0, 1)
σ/ n
y el intervalo de confianza para µ es
σ
IC1−α (µ) = x̄ ∓ zα/2 √ .
n
En nuestro caso
28.2
IC0.90 (µ) = 122 ∓ z0.05 √ = [106.54 , 137.46] .
9
b) El intervalo al 95 % será mayor, puesto que a mayor nivel de confianza, mayor longitud
del intervalo (a mayor α, mayor es el valor de zα/2 ).
3
Solución. X = “presencia de defectos en un periódico”. X ∼ B(p), donde p es la proporción
de periódicos que se imprimen con defectos. Mediante muestreo aleatorio simple se toma una
muestra donde
100
1 X 35
n = 100, p̂ = x = xi = = 0.35.
100 i=1 100
En nuestro caso,
" r #
0.35 · 0.65
IC0.90 (p) = 0.35 ∓ z0.05 = [0.27 , 0.43] .
100
5. (Examen Mayo 2013) Con el fin de medir la salinidad del Océano Pacı́fico se seleccionaron de
forma aleatoria 100 probetas de agua y se midió su salinidad (en %).
a) Atendiendo los gráficos siguientes, ¿Es correcto describir la salinidad mediante una distri-
bución normal? Justifica la respuesta.
b) Si para la muestra de tamaño 100 anterior se ha obtenido una media de 3.45, calcula el
intervalo de confianza al 95 % para la salinidad media suponiendo una varianza poblacional
conocidad de 0.04.
c) El intervalo de confianza al 99 % será ¿más estrecho o más ancho que el anterior? Justifica
la respuesta sin calcular el nuevo intervalo.
Solution:
a) No. The histogram is skewed to the left and does not fit the normal density. The sample
quantiles of the qq-plot are also not fitting the line.
b) We have z0.975 = 1.96. Hence the confidence interval equals [3.4108, 3.4892].
c) The 99 % confidence interval will be wider, since this confidence interval should include the
true mean with higher probability than the 95 % one.
4
6. (Examen mayo 2017) A continuación, en la Tabla 1, se presentan los resultados del estudio
realizado por el CIS sobre ”Actitudes y Comportamientos Innovadores en la Sociedad Española”.
A los encuestados se les pregunta por la importancia que asignan a la innovación en distintos
ámbitos o sectores (las fuentes de energı́a, las infraestructuras, el medio ambiente, la medicina,
la alimentación, la administración pública, la enseñanza, las empresas y los servicios sociales).
Adicionalmente, con las respuestas de los encuestados se construye el siguiente indicador global
de la importancia de la innovación:
X1i + X2i + X3i + X4i + X5i + X6i + X7i + X8i + X9i
IN N OV Ai =
9
El análisis descriptivo básico del ı́indice IN N OV A se muestra en la Tabla 2 a continuación:
Solución:
a) Una estimación de la media de IN N OV A puede obtenerse de las estimaciones de las
medias de las variables Xi , es decir, utilizando:
9
1X 8, 47 + 7, 86 + 8, 3 + 9, 41 + 7, 60 + 7, 19 + 8, 55 + 8, 3 + 7, 95
innova = xj = = 8, 2,
9 j=1 9
También es posible obtener el valor del indicador para los 2434 encuestados y utilizar la
expresión de la media muestral:
P2434 2434
i=1 innovai 1 X x1i + x2i + x3i + x4i + x5i + x6i + x7i + x8i + x9i
innova = = .
2434 2134 i=1 9
5
b) Tenemos que µ̂IN N OV A = innova ≈ 8, 20 y sIN N OV A ≈ 1, 2. Puesto que el tamaño muestral
es suficientemente grande podemos utilizar la siguiente expresión para el intervalo de
confianza de µI :
sIN N OV A sIN N OV A
IC(1−α)100 % (µIN N OV A ) = innova − z α2 √ , innova + z α2 √ ,
n n
7. (Examen junio 2017) La duración, en minutos, en que los usuarios de un número de atención
telefónica consiguen obtener la información requerida se puede modelizar según una variable
aleatoria de media 2 minutos y desviación tı́pica 1.9 minutos. Responda justificadamente a las
siguientes cuestiones:
a) Se ha tomado una muestra de 100 tiempos y se han obtenido los siguientes gráficos:
¿Podemos suponer que la muestra sigue un modelo de probabilidad Normal? ¿Por qué?
b) Si es posible, calcule la probabilidad de que el tiempo medio de atención telefónica de 100
usuarios seleccionados al azar supere los dos minutos y medio. Comente por qué ha sido
posible o no calcular dicha probabilidad. ¿Podrı́a calcular la probabilidad requerida para
una muestra seleccionada al azar de 10 clientes?
c) Se han recogido los tiempos de atención de 100 usuarios seleccionados al azar obteniéndose
que 38 tuvieron una duración superior a 2 minutos, calcule un intervalo de confianza para la
proporción poblacional de duraciones superiores a 2 minutos a un 95 % de nivel confianza.
a) El histograma muestra una distribución asimétrica. Por tanto, no podemos suponer que
X se pueda moldeizar como una normal.
P100
i X
b) Nos piden la probabilidad P {X > 2.5} siendo X = i=1
100
con X1 , . . . , X100 m.a.s. Pode-
mos aplicar entonces el TCL para aproximar la probabilidad que nos piden por:
2.5 − 2
P {X > 2.5} ≈ P {Z > √ } = P {Z > 2.63} = 0.0043
1.9/ 100
6
c) Como n = 100 podemos aplicar el TCL para obtener el intervalo de confianza que nos
piden:
r √
p̂(1 − p̂) 0.38 · 0.62
IC95 % (p) = p̂ ± z1− α2 = 0.38 ± 1.96 = (0.28; 0.475)
n 10
a) ¿Podemos concluir que los tiempos de espera en ese consultorio médico siguen una distri-
bución normal? Justifica tu respuesta.
b) Obtén una estimación puntual para el tiempo medio de espera de un paciente de dicho
consultorio médico.
c) Con la información de la que dispones, ¿puedes obtener un intervalo de confianza al 90%
para el tiempo medio de espera? ¿Por qué? Si la respuesta es afirmativa, calcúlalo.
d) Obtén una estimación puntual para la proporción p de pacientes que tienen que esperar para
ser atendidos más de 12 minutos. Con la información dada, ¿puedes obtener un intervalo de
confianza al 95% para p? ¿Por qué? Si la respuesta es afirmativa, calcúlalo.
Solución.
a) No, el histograma no tiene forma de campana, más bien parece una distribución uniforme.
En el qq-plot las dos colas se separan.
b) La estimación puntual es µ̂ = x = 10.76 minutos.
X−µ
c) Para obtener el IC nos basamos en que √s
) ≈ N (0, 1) aplicando el TLC, ya que n = 100
100
es lo suficientemente grande. Además √s = 0.2796 (error tı́pico en la tabla). Luego,
100
38
d ) La estimación puntual que obtenemos es de p̂ = 100 = 0.38. Podemos obtener un IC para p
ya que al ser n = 100 grande podemos aplicar el Teorema del Lı́mite Central. El intervalo
de confianza que se obtiene es de
r r
p̂ × (1 − p̂) 0.38 · 0.62
IC(p̂)95 % = (p̂±z0.025 × ) = (0.38±1.96· ) = (0.38±0.095) = (0.285; 0.475)
n 100
7
9. Se quiere estudiar la superficie de las viviendas de una ciudad. Para ello, se va a elegir una m.a.s.
de tamaño 100. En base al teorema central del lı́mite, indica cuál de las siguientes afirmaciones
es cierta:
a) La superficie de las viviendas de esa ciudad sigue una distribución normal.
b) La superficie de las viviendas de la muestra seguirá una distribución normal.
c) Antes de elegir la muestra, la superficie media de las viviendas que seleccionemos es una
v.a. con distribución aproximadamente normal.
d) Una vez elegida la muestra, la superficie media de las viviendas seleccionadas es una v.a.
con distribución aproximadamente normal.
Solución. c).
Solución. b).
11. Considera los siguientes histogramas que corresponden a la distribución muestral de la altura
media de los individuos de una población. Esta altura media está calculada a partir de mues-
tras aleatorias simples de alturas de tamaño n1 para el histograma 1 y de tamaño n2 para el
histograma 2.
Histograma 1 Histograma 2
4
x 10
12 18
16
10
14
8 12
10
6
8
4 6
4
2
2
0 0
1.5 1.55 1.6 1.65 1.7 1.75 1.8 1.85 1.9 1.95 1.55 1.6 1.65 1.7 1.75 1.8 1.85 1.9
8
a) n1 ≥ n2 .
b) n2 ≥ n1 .
c) El número de muestras aleatorias simples utilizadas en cada histograma es el mismo.
d) No se puede establecer ninguna comparación a partir de los histogramas.
Solución. b).