Notas de Clase Inferencia Capítulos 3 y 4 2015 - I
Notas de Clase Inferencia Capítulos 3 y 4 2015 - I
Notas de Clase Inferencia Capítulos 3 y 4 2015 - I
Inferencia Estadística
Universidad de Cartagena
Facultad de Ciencias Exactas y Naturales
Programa de Matemáticas
Cartagena de Indias D.T. y C., Colombia
2015
Índice general
2. ESTIMACIÓN PUNTUAL 88
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
2.2. El problema de la estimación: Estimación puntual . . . . . . . . . . . . . . . . . . . . . . . . . . 90
2.3. Propiedades de los estimadores puntuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
2.3.1. Error cuadrático medio del estimador . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
2.3.2. Estimador insesgado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
2.3.3. Estimador insesgado de mínima varianza . . . . . . . . . . . . . . . . . . . . . . . . . . 104
2.3.4. Estimador eficiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
Índice general 3
Existen innumerables situaciones reales donde es necesario encontrar regiones en las cuales se tenga la confianza
de que en ellas se halle el verdadero valor de un parámetro desconocido de la población. A modo de ejemplos:
Ejemplo 3.1.
Un vendedor desea establecer la duración de la garantía de un determinado electrodoméstico, de forma que du-
rante el período de garantía deba sustituir el menor número posible de piezas. El tiempo hasta el primer fallo,
viene dado por una variable aleatoria, X, tal que, E[X] = θ, donde θ es un parámetro desconocido.
Si el vendedor no quiere pagar ninguna pieza, el tiempo de garantía debería de ser nulo, pero ésto supondría
una mala imagen de cara al público, con los consecuentes perjuicios. Por tanto, deberá buscar una cota inferior
del tiempo hasta que se produzca el primer fallo del electrodoméstico, “confiando” en que la vida media de ese
electrodoméstico sea superior a esa cota inferior. Es decir, extraída una muestra aleatoria simple, X1 , X2 , . . . , Xn ,
de la población, para α > 0 se busca θ(X1 , X2 , . . . , Xn ) tal que
P [θ(X1 , X2 , . . . , Xn ) ≤ θ] ≥ 1 − α.
Ejemplo 3.2.
Un laboratorio está interesado en estudiar la toxicidad media de un determinado producto químico, para ello
quiere establecer una cota superior de dicha media y así tener cierta certeza o seguridad de que la toxicidad del
producto estará por debajo de esa cota superior. Por tanto, si la toxicidad del producto viene dada por una variable
aleatoria, X, tal que E[X] = θ donde θ es un parámetro desconocido, se quiere obtener una cota superior del
nivel de toxicidad medio “confiando” en que dicho nivel se encuentre por debajo de esa cota. Es decir, extraída
una muestra aleatoria simple, X1 , X2 , . . . , Xn , de esta población, para α > 0 se busca θ(X1 , X2 , . . . , Xn ) tal
que
P θ ≤ θ(X1 , X2 , . . . , Xn ) ≥ 1 − α.
8 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
Ejemplo 3.3.
Una empresa tabaquera desea estudiar el nivel medio de nicotina de sus cigarros. A la compañía le interesa que el
nivel medio de nicotina se encuentre entre unos márgenes debido a que un nivel medio alto supone que el cigarro
es muy perjudicial para la salud y un nivel medio bajo implica que el cigarro carece de sabor. De este modo,
si el nivel de nicotina de un cigarro viene dado por una variable aleatoria, X, tal que E[X] = θ, donde θ es
un parámetro desconocido, se desea, a partir de una muestra aleatoria simple, X1 , X2 , . . . , Xn , y para α > 0
obtener θ(X1 , X2 , . . . , Xn ) y θ(X1 , X2 , . . . , Xn ) tal que
P θ(X1 , X2 , . . . , Xn ) ≤ θ ≤ θ(X1 , X2 , . . . , Xn ) ≥ 1 − α.
Estos ejemplos ponen de manifiesto la necesidad que existe de construir regiones donde se tenga la “confianza”
de encontrar el parámetro. Nuestro estudio se centra en el caso en que el parámetro sea unidimensional y las
regiones sean intervalos, por ello, de ahora en adelante, se hablará de intervalos de confianza.
I = [θ(X1 , X2 , . . . , Xn ); θ(X1 , X2 , . . . , Xn )]
Como se puede apreciar, los extremos del intervalo son estadísticos, es decir función de las variables aleatorias
que componen la muestra y en consecuencia ellos mismos son variables aleatorias. Los valores de dichos extremos
dependen de la muestra aleatoria simple y para una realización muestral determinada, x1 , x2 , . . . , xn , toman dos
valores puntuales.
Los extremos inferior y superior del intervalo serían θ(X1 , X2 , . . . , Xn ) y θ(X1 , X2 , . . . , Xn ), respectivamente,
aunque habitualmente escribiremos θ y θ para simplificar la notación.
Nótese, que en la definición anterior se habla de nivel de confianza 1 − α, que es una medida que nos refleja
la confianza que tenemos acerca de que el verdadero valor del parámetro θ se encuentre dentro del intervalo. Sin
embargo, la probabilidad en dicha expresión es mayor o igual que 1 − α, esto se debe a que existen situaciones,
como en poblaciones discretas, donde no es posible que dicha probabilidad sea exactamente 1 − α.
La definición de la confianza se entiende usualmente desde un punto de vista frecuentista más que probabilista
en el sentido que los límites del intervalo se calculan de tal manera que, si construimos muchos intervalos, cada
vez con distintos valores muestrales el 100(1 − α) % de ellos contendrán el verdadero valor del parámetro.
3.2 Conceptos generales 9
Cuando en la definición se dice que la probabilidad de que el parámetro θ esté en el intervalo I = [θ, θ] es, al
menos, 1 − α, quiere decir que en el 100(1 − α) % de las posibles muestras, el valor de θ estaría en los correspon-
dientes intervalos [θ, θ].
1o Que se trata de un intervalo aleatorio, pues los extremos dependen de la muestra seleccionada y, por tanto,
θ y θ son variables aleatorias.
3o En consecuencia y antes de seleccionar una muestra no podemos decir que la probabilidad de que el pará-
metro θ tome algún valor en el intervalo [θ, θ] es, al menos, 1 − α, afirmación que no sería correcta después
de seleccionar la muestra.
Ejemplo 3.4.
Sea X una variable aleatoria que sigue una distribución U (0, θ). El nivel de confianza, basado en una muestra de
tamaño uno, del intervalo aleatorio [X, 2X] es:
1 1
P [X ≤ θ ≤ 2X] = P θ≤X≤θ = .
2 2
I = [θ(x1 , x2 , . . . , xn ); θ(x1 , x2 , . . . , xn )]
Obsérvese que en este caso no tiene sentido hablar de probabilidad, dado que seleccionada una muestra alea-
toria simple X1 , X2 , . . . , Xn la probabilidad de que el parámetro θ esté incluido en el intervalo de confianza
I = [θ, θ] es 1 ó 0, dependiendo de que el parámetro θ esté o no esté entre los dos números en que se convierten
θ(X1 , X2 , . . . , Xn ) y θ(X1 , X2 , . . . , Xn ) al particularizarlos para una muestra concreta X1 , X2 , . . . , Xn .
Sin embargo, diremos que tenemos una confianza del 100(1 − α) % en el sentido de que si tomásemos infinitas
muestras y con cada una de ellas construyésemos el intervalo numérico correspondiente.
I = [θ(x1 , x2 , . . . , xn ); θ(x1 , x2 , . . . , xn )]
el 100(1 − α) % de los mismos contendrían el verdadero valor del parámetro, mientras que los restantes 100(α) %,
no.
La explicación anterior justifica que tenga que hablarse en términos de “confianza”, en lugar de probabilidad,
cuando se considera una muestra concreta. De esta forma, si el intervalo obtenido para una muestra concreta se ha
construido con un nivel de confianza de 100(1 − α) %, se prevé que dicho intervalo contiene al valor del parámetro
θ, ya que de cada 100 realizaciones muestrales, del mismo tamaño, aproximadamente el intervalo concreto para
100(1 − α) de ellas contiene dicho parámetro.
10 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
Así, cuando hablemos de un intervalo de confianza para el parámetro θ con nivel de confianza 100(1 − α) %,
entenderemos que antes de tomar una muestra, hay, al menos, una probabilidad 1 − α de que el intervalo que se
construya a partir de ella, contenga el valor del parámetro θ. O, dicho de otro modo, si tomamos 100 muestras
aleatorias simples de tamaño n de la misma población y calculamos los límites de confianza θ y θ para cada mues-
tra aleatoria simple, entonces esperamos que aproximadamente el 100(1 − α) % de los intervalos contendrán en
su interior el verdadero valor del parámetro µ, y el 100(α) % restante no lo contendrán. Pero como nosotros, en
la práctica, sólo tomamos una muestra aleatoria simple y, por tanto, sólo tendremos un intervalo de confianza, no
conocemos si nuestro intervalo es uno del 100(1 − α) % o uno del 100(α) %, y por eso hablamos de que tenemos
un nivel de confianza del 100(1 − α) %.
En el gráfico 3-1 tenemos representados los 100 intervalos del parámetro media poblacional µ, correspondien-
tes a 100 muestras aleatorias simples del mismo tamaño n, y podemos observar que exactamente 97 intervalos
contienen en su interior el parámetro µ, resultado que concuerda con nuestra esperanza o confianza que era de
aproximadamente 95.
100
80
Muestra ejecutada
60
40
20
0
Figura 3-1: Representación gráfica de 100 intervalos de confianza pura la media µ de una población N(µ, σ 2 ), con
muestras del mismo tamaño n y coeficiente de confianza del 0.95.
3.3 Intervalos de confianza de longitud mínima 11
La precisión de la estimación por intervalos vendrá caracterizada por el coeficiente de confianza 1 − α y por
la amplitud del intervalo. Así pues, para un coeficiente de confianza fijo, cuanto más pequeños sea el intervalo
de confianza más precisa será la estimación, o bien para una misma amplitud del intervalo, cuanto mayor sea el
coeficiente de confianza mayor será la precisión.
En la definición (3.1) se habla de intervalo de confianza en el caso acotado, pero de igual forma, como se aprecia
en los ejemplos, se puede hablar de intervalo de confianza acotado inferiormente para θ a un nivel de confianza
100(1 − α) %, como el intervalo [θ(X1 , X2 , . . . , Xn ); +∞) donde θ(X1 , X2 , . . . , Xn ) verifica que
P [θ(X1 , X2 , . . . , Xn ) ≤ θ] ≥ 1 − α,
y de intervalo de confianza acotado superiormente para θ a un nivel de confianza 100(1 − α) % como el intervalo
(−∞; θ(X1 , X2 , . . . , Xn )], donde θ(X1 , X2 , . . . , Xn ) verifica que
P θ(X1 , X2 , . . . , Xn ) ≥ θ ≥ 1 − α.
Finalmente, cuando tampoco pueda resolverse este problema, el criterio más empleado consiste en el reparto
equitativo del complemento del nivel de confianza entre las dos colas, es decir,
α
P [θ(X1 , X2 , . . . , Xn ) ≤ θ] =
2
α
P [θ(X1 , X2 , . . . , Xn ) ≥ θ] = .
2
12 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
Este criterio presenta la ventaja de que conduce a un intervalo único y que en el caso de distribución simétrica con
respecto al parámetro es de longitud mínima.
A continuación se dan algunos procedimientos para obtener intervalos de confianza en las situaciones que usual-
mente se presentan.
También veremos cómo se obtiene un intervalo de confianza cuando no se conoce la distribución de la población
de partida. Por último, basándonos en las propiedades asintóticas de los estimadores, obtendremos intervalos de
confianza para muestras grandes.
Definición 3.2.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple procedente de una población con función de distribución
F (x; θ), donde θ es un parámetro desconocido, que toma valores en el espacio paramétrico Θ.
Una variable aleatoria de la forma T (X1 , X2 , . . . , Xn ; θ) se dice una cantidad pivotal o un pivote para el
parámetro θ si su distribución no depende de θ (ni de ningún parámetro desconocido, cuando hay varios paráme-
tros).
Por definición, la distribución del pivote T (X1 , X2 , . . . , Xn ; θ) no depende de θ. Para cada α ∈ (0, 1) notare-
mos mediante qα el cuantil-α del pivote. Si el pivote tiene distribución continua y su función de distribución es
estrictamente creciente, qα es la única solución de la ecuación
P [T (X1 , X2 , . . . , Xn ; θ) ≤ qα ] = α.
Si el pivote T (X1 , X2 , . . . , Xn ; θ) es una función monótona en θ se puede ver que existen θ(X1 , X2 , . . . , Xn )
y θ(X1 , X2 , . . . , Xn ) tales que
a ≤ T (X1 , X2 , . . . , Xn ; θ) ≤ b ⇐⇒ θ(X1 , X2 , . . . , Xn ) ≤ θ ≤ θ(X1 , X2 , . . . , Xn )
y entonces
P θ(X1 , X2 , . . . , Xn ) ≤ θ ≤ θ(X1 , X2 , . . . , Xn ) = 1 − α,
de modo que I1−α (θ) = [θ(X1 , X2 , . . . , Xn ); θ(X1 , X2 , . . . , Xn )] es un intervalo de confianza para θ de nivel
1 − α.
Pivotes decrecientes
Sea T (X1 , X2 , . . . , Xn ; θ) un pivote para θ que goza de las siguientes propiedades:
(i) la función de distribución de T (X1 , X2 , . . . , Xn ; θ) es continua y estrictamente creciente;
(ii) para cada x1 , x2 , . . . , xn , la función T (x1 , x2 , . . . , xn ; θ) es continua y monótona decreciente en la variable
θ:
θ1 < θ2 =⇒ T (x1 , x2 , . . . , xn ; θ1 ) > T (x1 , x2 , . . . , xn ; θ2 )
Sea γ ∈ (0, 1), arbitrario pero fijo y sea qγ el cuantil-γ del pivote T (X1 , X2 , . . . , Xn ; θ). Para cada x1 , x2 , . . . , xn ,
sea θ(x1 , x2 , . . . , xn ; γ) la única solución de la ecuación en θ
T (x1 , x2 , . . . , xn ; θ) = qγ .
Como el pivote T (X1 , X2 , . . . , Xn ; θ) es decreciente en θ tenemos que
T (X1 , X2 , . . . , Xn ; θ) ≤ qγ ⇐⇒ θ(X1 , X2 , . . . , Xn ; γ) ≤ θ.
En consecuencia,
P [θ(X1 , X2 , . . . , Xn ; γ) ≤ θ] = P [T (X1 , X2 , . . . , Xn ; θ) ≤ qγ ] = γ, ∀θ ∈ Θ.
Por lo tanto, θ(X1 , X2 , . . . , Xn ; γ) es una cota inferior de confianza para θ de nivel γ y una cota superior de
nivel 1 − γ.
14 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
Método
Sea α ∈ (0, 1). Si se dispone de un pivote T (X1 , X2 , . . . , Xn ; θ) que satisface las propiedades (i) y (ii) enun-
ciadas más arriba, entonces
3. el intervalo aleatorio I1−α (θ) = [θ(X1 , X2 , . . . , Xn ); θ(X1 , X2 , . . . , Xn )] cuyos extremos son las solu-
ciones respectivas de las ecuaciones T (x1 , x2 , . . . , xn ; θ) = q1−α/2 y T (x1 , x2 , . . . , xn ; θ) = qα/2 , es un
intervalo de confianza para θ de nivel 1 − α.
Pivotes crecientes
Sea T (X1 , X2 , . . . , Xn ; θ) un pivote para θ que goza de las siguientes propiedades:
Sea γ ∈ (0, 1), arbitrario pero fijo y sea qγ el cuantil-γ del pivote T (X1 , X2 , . . . , Xn ; θ). Para cada x1 , x2 , . . . , xn ,
sea θ(x1 , x2 , . . . , xn ; γ) la única solución de la ecuación en θ
T (x1 , x2 , . . . , xn ; θ) = qγ .
En consecuencia,
Por lo tanto, θ(X1 , X2 , . . . , Xn ; γ) es una cota superior de confianza para θ de nivel γ y una cota inferior de
nivel 1 − γ.
Método
Sea α ∈ (0, 1). Si se dispone de un pivote T (X1 , X2 , . . . , Xn ; θ) que satisface las propiedades (i) y (ii’) enun-
ciadas más arriba, entonces
3. el intervalo aleatorio I1−α (θ) = [θ(X1 , X2 , . . . , Xn ); θ(X1 , X2 , . . . , Xn )] cuyos extremos son las solu-
ciones respectivas de las ecuaciones T (x1 , x2 , . . . , xn ; θ) = qα/2 y T (x1 , x2 , . . . , xn ; θ) = q1−α/2 , es un
intervalo de confianza para θ de nivel 1 − α.
3.4 Métodos de construcción de intervalos de confianza 15
1 1 Pn Pn
El estimador de máxima verosimilitud para λ es , donde X = Xi . Sabemos que la suma nX = Xi
X n i=1 i=1
tiene distribución Γ(n, λ).
Construyendo una cota superior de confianza. Dado α ∈ (0, 1), para construir una cota superior de confianza
para λ, de nivel 1 − α, primero observamos que el pivote T (X1 , X2 , . . . , Xn ; λ) = 2λnX es una función continua
y decreciente en λ. Debido a que
χ2
2λnX = χ21−α ⇐⇒ λ = 1−α
2nX
resulta que
χ21−α
λ(X1 , X2 , . . . , Xn ) = P n
2n Xi
i=1
0.5380, 0.4470, 0.2398, 0.5365, 0.0061, 0.3165, 0.0086, 0.0064, 0.1995, 0.9008.
10
Xi = 3.1992. Tomando 1 − α = 0.975, tenemos de la tabla de la distribución χ2(20)
P
En tal caso tenemos
i=1
que χ2(20,0.975) = 34.17, entonces λ(x1 , x2 , . . . , xn ) = 5.34 es una cota superior de confianza para λ de nivel
1 − α = 0.975.
Ejemplo 3.7.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple extraída de una población con distribución U (0, θ). Se quiere
encontrar un intervalo de confianza para θ a un nivel de significación 1−α. Para ello se considera como estimador
b 1 , X2 , . . . , Xn ) = máx {X1 , X2 , . . . , Xn } que se sabe tiene una función de distribución
de θ a θ(X
n
t
Fθ(X
b 1 ,X2 ,...,Xn ) (t) =
θ
que al ser función de distribución de una variable aleatoria continua verifica que
d
Fθ(X
b 1 ,X2 ,...,Xn ) (θ(X1 , X2 , . . . , Xn )) = U (0, 1),
b
16 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
α α
Por simplicidad se toma k1 (α) = y k2 (α) = 1 − .
2 2
Resolviendo las siguientes ecuaciones
!n
θ(X
b 1 , X2 , . . . , Xn ) α
=
θ 2
!n
θ(X
b 1 , X2 , . . . , Xn ) α
=1− ,
θ 2
se obtiene que;
θ(X
b 1 , X2 , . . . , Xn )
θ= α n1
2
θ(X1 , X2 , . . . , Xn )
b
θ= α n1
1−
2
con lo cual un intervalo de confianza a un nivel 100(1 − α) % para θ es,
θ(X1 , X2 , . . . , Xn ) θ(X1 , X2 , . . . , Xn )
b b
I1−α (θ) = ; .
α n1 α n1
1−
2 2
Hay que hacer notar que este procedimiento no conduce a un único intervalo de confianza, ya que k1 (α) y k2 (α)
se pueden escoger de formas diferentes para que cumplan
de lo cual puede deducirse que existen diferentes θ(X1 , X2 , . . . , Xn ) y θ(X1 , X2 , . . . , Xn ) tal que
P θ(X1 , X2 , . . . , Xn ) ≤ θ ≤ θ(X1 , X2 , . . . , Xn ) = 1 − α.
Como ya se comentó en la sección anterior, k1 (α) y k2 (α) se eligen de manera que θ(X1 , X2 , . . . , Xn ) −
θ(X1 , X2 , . . . , Xn ) sea mínima, con lo cual, se habrá obtenido un intervalo de confianza a un nivel 100(1 − α) %
de longitud mínima construido a partir de T (X1 , X2 , . . . , Xn ; θ). Sin embargo, no podrá decirse que es un inter-
valo de longitud mínima de entre todos los intervalos de confianza a nivel 100(1 − α) %, ya que podría existir otro
pivote T ∗ del cual se obtuviera un intervalo más pequeño.
Ejemplo 3.8.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple procedente de una población N(µ, σ 2 ), con σ 2 conocida.
Deseamos obtener un intervalo de confianza al nivel del 100(1 − α) % para el parámetro poblacional µ.
Solución.
3.4 Métodos de construcción de intervalos de confianza 17
Sabemos un buen estimador de la media poblacional µ es la media muestral X, la cual sigue una distribución
que
σ2
N µ, , en donde el parámetro µ es desconocido.
n
Pero el estadístico
X −µ
Z= √
σ/ n
se distribuye según una N(0, 1), la cual no depende de µ.
X −µ
T (X1 , X2 , . . . , Xn ; µ) = √ (3-2)
σ/ n
Podemos encontrar dos valores simétricos −z( α2 ) y z( α2 ) tales que nos proporcionen el siguiente intervalo:
h i
1 − α = P −z( α2 ) ≤ Z ≤ z( α2 )
X −µ
= P −z( α2 ) ≤ √ ≤ z( α2 )
σ/ n
σ σ
= P −z( α2 ) √ ≤ X − µ ≤ z( α2 ) √
n n
σ σ
= P X − z( α2 ) √ ≤ µ ≤ X + z( α2 ) √
n n
Ejemplo 3.9.
Un físico hace 16 mediciones de cierta magnitud (a determinar), dichas mediciones Xi serán Xi = µ + i donde
i son los errores de medición.
Supongamos que los i son variables aleatorias independientes con distribución N(0, 4) (dato que se conoce por
experimentos anteriores).
Suponiendo que el promedio de las 16 observaciones obtenidas es X 16 = 20, encontrar un intervalo de confianza
al nivel del 95 % para el parámetro poblacional µ.
Solución.
Como 100(1 − α) % = 95 %, se tiene que α = 0.05 y de las tablas normales se obtiene que z( α2 ) = z0.025 = 1.96.
Luego el intervalo de confianza será:
" √ √ #
4 4 2 2
I1−α (µ) = 20 − 1.96 √ ; 20 + 1.96 √ = 20 − 1.96 ; 20 + 1.96 = [20 − 0.98 ; 20 + 0.98]
16 16 4 4
18 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
Es decir,
I1−α (µ) = [19.02 ; 20.98]
y su longitud es 1.96.
Supongamos ahora que se quiere conocer cuál deberá ser el número de observaciones para que el intervalo sea
de longitud 0.1. Entonces
√
4 √ 2
0.1 = 1.96 √ o sea que n = 1.96 = 1.96(20) = 39.2
n 0.1
De donde, n = (39.2)2 = 1536.64.
Por lo tanto, se necesitan 1537 observaciones para obtener un intervalo con la longitud deseada.
Posteriormente y a lo largo de este capítulo utilizaremos este método pivotal junto con las distribuciones mues-
trales para obtener, en algunos casos, intervalos de confianza.
La dificultad de este método surge porque no siempre es posible obtener una cantidad pivotal con esas condicio-
nes, que dé lugar a un intervalo de confianza.
Sea una población cuya función de densidad o de masa de probabilidad es f (x; θ), en donde θ es un pa-
rámetro desconocido. Con la ayuda de una muestra aleatoria simple X1 , X2 , . . . , Xn , obtenemos el estimador
θ(X
b 1 , X2 , . . . , Xn ) (generalmente por el método de máxima verosimilitud) cuya función de densidad represen-
tamos por g(θ, b θ) y pretendemos obtener un intervalo de confianza, del parámetro θ, al nivel de confianza del
100(1 − α) %.
Para ese coeficiente de confianza 1 − α, determinaremos los extremos del intervalo h1 (θ) y h2 (θ), tales que:
h i Z h2 (θ)
P h1 (θ) ≤ θb ≤ h2 (θ) = b θ)dθb = 1 − α
g(θ, (3-3)
h1 (θ)
en donde suponemos que las funciones h1 (θ) y h2 (θ) son funciones continuas y monótonas de θ. También se
pueden determinar h1 (θ) y h2 (θ) de manera que:
Z h1 (θ)
g(θ,
b θ)dθb = α1 (3-4)
−∞
Z ∞
g(θ,
b θ)dθb = α2 (3-5)
h2 (θ)
α1 + α2 = α
α
Habitualmente se hace α1 = α2 = , pues en muchas ocasiones coincide con el intervalo de menor longitud,
2
como se puede ver en el gráfico 3-2.
3.4 Métodos de construcción de intervalos de confianza 19
Figura 3-2:
En todo el razonamiento hemos utilizado h1 (θ) y h2 (θ) en lugar de h1 (α1 ; θ) y h2 (α2 ; θ), pues facilita la nota-
ción.
Luego los valores de las funciones h1 (θ) y h2 (θ) para cualquier valor de θ se obtienen a partir de las expresiones
[3-4] y [3-5], haciendo:
h1 (θ) = θb y h2 (θ) = θb
Una vez obtenidas las funciones h1 (θ) y h2 (θ) las representamos gráficamente como se indica en el Gráfico
3-3, y supongamos que para una muestra de tamaño n el valor que toma el estimador θb es θb0 ; por este punto θb0 , de
ordenadas trazamos una paralela al eje de abscisas que cortará a las curvas h1 (θ) y h2 (θ) en los puntos A y B que
pueden proyectarse sobre el eje de abscisas θ obteniendo los valores θ1 y θ2 que serán los extremos del intervalo
de confianza [θ1 , θ2 ] al nivel de confianza del 100(1 − α) %.
Figura 3-3:
20 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
Supongamos ahora que la muestra extraída procede de una población en que el verdadero valor del parámetro θ
es θ0 , entonces la probabilidad de que la estimación θb0 , para esa muestra, esté comprendida entre h1 (θ0 ) y h2 (θ0 )
será 1 − α: h i
P h1 (θ0 ) ≤ θb0 ≤ h2 (θ0 ) = 1 − α
pero si la estimación θb0 , no cae entre h1 (θ0 ) y h2 (θ0 ), entonces la horizontal, AB, trazada por el correspondiente
valor de θb0 , no cortará a la vertical CD, entre las curvas, y entonces el intervalo correspondiente [θ1 , θ2 ] no incluirá
a θ0 , es decir si a cada valor del estimador θb0 le hacemos corresponder una recta horizontal trazada por ese valor
del estimador veremos que siempre que
h1 (θ0 ) < θb0 < h2 (θ0 )
la recta horizontal AB trazada por el valor del estimador θb0 cortará a la vertical CD, trazada por θ0 , entre los
puntos C y D, limitadas por ambas curvas, de manera que el segmento aleatorio AB cuya proyección es [θ1 , θ2 ],
incluye el verdadero valor del parámetro θ0 . En consecuencia, la confianza que tenemos de que el intervalo [θ1 , θ2 ],
construido por este método, incluya a θ0 , será 1 − α.
Del gráfico 3-3 deducimos que los extremos del intervalo para el parámetro θ serán los puntos θ1 y θ2 tales que
y teniendo en cuenta las expresiones [3-4] y [3-5] diremos que θ1 es el valor de θ para el cual
Z θb0
g(θ,
b θ)dθb = α1
−∞
Luego, resolviendo estas ecuaciones resultará que las raíces serán los extremos del intervalo de confianza [θ1 , θ2 ]
con un coeficiente de confianza del 1 − α.
Ejemplo 3.10. Dada una población N(µ, σ 2 ), con σ 2 conocida. Obtener, aplicando el método general de Neyman,
un intervalo de confianza para la media poblacional µ, con la ayuda de una muestra aleatoria simple de tamaño
n, al nivel de confianza del 100(1 − α) %.
Solución.
El estimador insesgado de la media poblacional µ es la media muestral X, es decir µ
b = X.
Z +∞ (X−µ)2
1 −1 α
√ √ e 2 σ2 /n dX =
h2 (µ) (σ/ n) 2π 2
Haciendo el cambio:
X −µ dX
Y = √ ⇒ dY = √
σ/ n σ/ n
resultará que
d
Y = N(0, 1)
y designando por:
h1 (µ) − µ h2 (µ) − µ
λ1 = √ y λ2 = √
σ/ n σ/ n
tenemos: Z λ1
1 1 2 α
√ e− 2 y dy =
−∞ 2π 2
Z +∞
1 1 2 α
√ e− 2 y dy =
λ2 2π 2
Teniendo en cuenta la simetría de la distribución normal, obtenemos un valor z( α2 ) como se muestra en el gráfico
3-4,
Figura 3-4:
donde
λ1 = −z( α2 ) y λ2 = z( α2 )
y sustituyendo en las expresiones de h1 (µ) y h2 (µ):
σ σ
h1 (µ) = µ + λ1 √ = µ − z( α2 ) √
n n
σ σ
h2 (µ) = µ + λ2 √ = µ + z( α2 ) √
n n
Y considerando una muestra aleatoria simple de tamaño n, el estimador X 0 , del parámetro µ, tomara un valor, por
ejemplo, x0 , luego tenemos las ecuaciones:
σ
x0 = µ − z( α2 ) √
n
σ
x0 = µ + z( α2 ) √
n
que representan dos rectas paralelas a la bisectriz del primer cuadrante, siendo el intervalo de confianza:
σ σ
I1−α (µ) = x0 − z( α2 ) √ ; x0 + z( α2 ) √
n n
22 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
Figura 3-5:
Ejemplo 3.11. Sea una población cuya función de densidad viene dada por:
2 (θ − x),
0<x<θ
f (x) = θ2
0, en otro caso.
Utilizando el método general de Neyman y con una muestra de tamaño uno, obtener un intervalo de confianza
para el parámetro poblacional θ al nivel de confianza del 95 %.
Solución.
Como el tamaño de muestra es uno, la función de verosimilitud coincide con la función de densidad, y entonces el
estimador de máxima verosimilitud del parámetro θ será:
2
L(θ|x) = (θ − x).
θ2
El logaritmo de la función de verosimilitud es:
θb = 2X
3.4 Métodos de construcción de intervalos de confianza 23
1b
x= θ
2
y tendremos:
1
g(θ,
b θ) = (2θ − θ),
b 0 < θb < 2θ.
θ2
Para obtener el intervalo de confianza al nivel de confianza del 95 %, obtendremos h1 (θ) y h2 (θ) tales que:
Z h1 (θ)
1
(2θ − θ)d
b θb = 0.025
0 θ2
Z 2θ
1
(2θ − θ)d
b θb = 0.025
h2 (θ) θ2
" !#2θ
1 θb2
2θθb − = 0.025
θ2 2
h2 (θ)
Como la muestra que consideramos es de tamaño n = 1, supongamos que la observación muestral ha sido, por
ejemplo, x = 3, entonces:
x = 3 ⇒ θb0 = 6.
√ 3
2(1 − 0.9875)θ = 6 y θ= √
1 − 0.9875
√ 3
2(1 − 0.0125)θ = 6 y θ= √
1 − 0.0125
y el intervalo de confianza para el parámetro θ será:
3 3
Iθ = √ ; √
1 − 0.0125 1 − 0.9875
Si hacemos la representación gráfica como aparece en el Gráfico 3-6 el intervalo de confianza se obtiene fácil-
mente.
24 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
Figura 3-6:
En esta sección se tratan tanto los intervalos de confianza en una población como en dos poblaciones Normales.
En ambos casos, dependiendo del parámetro para el cual se busca un intervalo de confianza y del conocimiento o
no de los otros parámetros, se presentan diferentes situaciones que a continuación se van a estudiar. En primer lugar
se analizan las distintas situaciones para el caso de una población X que sigue una distribución Normal de media
µ y varianza σ 2 y de la cual se extrae una muestra aleatoria simple, X1 , X2 , . . . , Xn , de tamaño n. Posteriormente
se estudia el caso de dos poblaciones Normales de medias µ1 y µ2 , varianzas σ12 y σ22 y de las cuales se extraen
dos muestras aleatorias simple, X1 , X2 , . . . , Xn y Y1 , Y2 , . . . , Yn , de tamaños n1 y n2 , respectivamente.
Notación
En todo lo que sigue usaremos la siguiente notación: para cada γ ∈ (0, 1), zγ será el único número real tal que
Φ(zγ ) = γ. Gráficamente, a izquierda del punto zγ el área bajo la campana de Gauss es igual a γ.
Nótese que de la simetría de la campana de Gauss, se deduce que para cada 1 − α ∈ (0, 1) se tiene que
d
z(1− α2 ) = −z( α2 ) . Por lo tanto, para Z = N(0, 1) vale que
h i α
P −z(1− α2 ) ≤ Z ≤ z(1− α2 ) = Φ(z(1− α2 ) ) − Φ(−z(1− α2 ) ) = 2Φ(z(1− α2 ) ) − 1 = 2 1 − − 1 = 1 − α.
2
X −µ
varianza σ 2 , la variable Z = √ sigue una distribución normal estándar, N(0, 1).
σ/ n
X −µ
y con ello, la nueva variable √ sigue una distribución t de Student con n − 1 grados de libertad, t(n−1) .
S/ n
Para muestras pequeñas (n < 30) también pueden aplicarse los resultados anteriores, siempre y cuando la varia-
ble aleatoria de partida X, siga una distribución normal.
A partir de lo anterior y teniendo en cuenta los tres factores de clasificación expuestos: si la población de partida
en la que obtenemos la muestra sigue o no una distribución normal, si la varianza de dicha población es conocida o
desconocida, y si la muestra es grande (n ≥ 30) o no, pueden deducirse las siguientes expresiones correspondientes
a los diferentes intervalos de confianza.
Varianza σ 2 conocida
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de tamaño n de una población N(µ, σ 2 ), donde el paráme-
tro µ es desconocido y deseamos obtener un intervalo de confianza para el parámetro µ al nivel de confianza del
100(1 − a) %.
Para ello, buscaremos un estadístico (cantidad pivotal o pivote) que dependa del parámetro µ y de su estimador
y cuya distribución muestral no dependa del parámetro µ.
que se distribuye según una N(0, 1), pues sabemos que el estadístico media muestral
σ2
d
X = N µ, .
n
Como ya hemos indicado, utilizando la tabla de la distribución N(0, 1), podemos encontrar dos valores λ1 (α) y
λ2 (α) (que para un mejor entendimiento serán denotados por λ1 = λ1 (α) y λ2 = λ2 (α)), tales que:
P [λ1 ≤ Z ≤ λ2 ] = 1 − α (3-6)
Dados α1 ≥ 0, α2 ≥ 0, tales que α1 + α2 = α (α1 y α2 representan el reparto de la probabilidad α entre las dos
colas), λ1 y λ2 se obtendrán a partir de las igualdades
P [Z ≤ λ1 ] = α1
P [Z ≥ λ2 ] = α2 .
26 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
2. λ1 = −λ2 , luego el intervalo de longitud mínima será simétrico en la N(0, 1) y según la expresión [3-8]
Z λ2
1 1 2
√ e− 2 x dx = 1 − α
−λ2 2π
Esto es,
α
2Φ(λ2 ) = 2 − α ⇒ Φ(λ2 ) = 1 −
2
Por lo tanto,
λ2 = z(1− α2 )
Figura 3-7:
Sustituyendo en el intervalo dado por la expresión [3-7], tendremos el intervalo de confianza para la media µ de
una población N(µ, σ 2 ) con σ 2 conocida. Es decir, el intervalo de confianza más pequeño coincide con el obtenido
por el reparto equitativo de α entre ambas colas; lo cual era esperable ya que la distribución Normal es simétrica
respecto a su media.
Observación: Para derivar una integral respecto al límite superior de integración tendremos en cuenta:
Z λ2
∂ f (x)dx
λ1
= f (λ2 ).
∂λ2
Para el limite inferior λ1 , se cambian los límites cambiando de signo la integral, pues
Z λ2 Z λ1
f (x)dx = − f (x)dx
λ1 λ2
Si tenemos una muestra aleatoria simple de n observaciones de una distribución N(µ, σ 2 ), cuya varianza σ 2 es
conocida, y la media muestral observada es x, entonces el intervalo de confianza para la media poblacional µ, al
nivel de confianza del 100(1 − α) % viene dado por
σ σ
I1−α (µ) = x − z(1− α2 ) √ ≤ µ ≤ x + z(1− α2 ) √ (3-11)
n n
donde z(1− α2 ) es tal que
h i α
P Z ≤ z(1− α2 ) = 1 −
2
d
y la variable aleatoria Z = N(0, 1).
En general los intervalos de confianza se deberían expresar siempre en la forma de la expresión [3-10] pero en
algunas ocasiones y por dar mayor claridad se puede utilizar también la forma de la expresión [3-11].
2 σ2
n = 4z(1− α
) (3-13)
2 L2
el cual nos permitirá construir un intervalo al nivel de confianza del 100(1 − α) % y de amplitud L para la media
de una población normal con σ 2 conocida.
Ejemplo 3.12. De una población N(µ, 36) se selecciona una muestra aleatoria cuya media es 25. Obtener un
intervalo de confianza para la media poblacional µ.
Solución.
1. La expresión [3-11] nos da el intervalo de confianza que nos piden
σ σ
I1−α (µ) = x − z( α2 ) √ ; x + z( α2 ) √
n n
siendo x = 25, σ = 6, n = 16, 1 − α = 0.90
Entonces zα/2 = z0.05 = 1.645
Luego el intervalo será:
6 6
I1−α (µ) = 25 − 1.645 √ ; 25 + 1.645 √ = [22.54 ; 27.46]
16 16
2. Para: x = 25, σ = 6, n = 64 y 1 − α = 0.90
6 6
I1−α (µ) = 25 − 1.645 √ ; 25 + 1.645 √ = [23.77 ; 26.23]
64 64
3. Para: x = 25, σ = 10, n = 16 y 1 − α = 0.90
10 10
I1−α (µ) = 25 − 1.645 √ ; 25 + 1.645 √ = [20.88 ; 29.11]
16 16
4. Para: x = 25, σ = 6, n = 16 y 1 − α = 0.95
6 6
I1−α (µ) = 25 − 1.96 √ ; 25 + 1.96 √ = [22.06 ; 27.94]
16 16
Figura 3-8: Representación gráfica del efecto sobre la amplitud del intervalo de σ, n y 1 − α.
30 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
a) Cuando aumenta el tamaño de la muestra, disminuye la amplitud del intervalo y, por tanto, aumenta la
precisión de la estimación por intervalo de confianza.
b) Cuando aumenta la desviación estándar σ, aumenta la amplitud del intervalo y, por tanto, disminuye la
precisión.
c) Cuando aumenta el nivel de confianza, aumenta la amplitud del intervalo y, por tanto, disminuye la precisión.
Ejemplo 3.13. La longitud de los tornillos fabricados por una determinada máquina se distribuye según una dis-
tribución normal con desviación estándar σ = 2mm. Con el fin de obtener un intervalo al 99 % de confianza para
la longitud media de los tornillos producidos durante un día determinado se toma una muestra aleatoria simple
de 10 tornillos cuya longitud media resultó ser de 96 mm. Calcular el correspondiente intervalo de confianza con
estos datos y determinar el tamaño de muestra necesario para construir un intervalo al 99 % de confianza para la
longitud media de esos tornillos, con una longitud de 2 mm.
Solución.
El intervalo de confianza para la media de una población normal se obtiene a partir de la expresión [3-11], pues
sustituyendo:
x = 96, zα/2 = z0.005 = 2.575, σ = 2, n = 10
tenemos que:
2 2
I1−α (µ) = 96 − 2.575 √ ; 96 + 2.575 √ = [94.37 ; 97.63]
10 10
y el tamaño de muestra necesario para un intervalo de longitud 2 mm se obtendrá sustituyendo en la expresión
[3-13]
(2.575)2 × 22
n=4 = 26.52 ' 27.
22
Luego se necesita una muestra de tamaño 27 tornillos para la obtención de un intervalo al nivel de confianza del
99 % y con una longitud de 2 mm.
Ejemplo 3.14. Con el fin de estudiar el número medio de flexiones continuadas que pueden realizar sus alumnos,
un profesor de educación física somete a 80 de ellos, elegidos aleatoriamente, a una prueba. Los resultados fueron
los siguientes:
Flexiones 35 41 46 48 50 52 53 54 56 60
Alumnos 5 6 2 10 15 6 11 10 5 5
Tabla 3-1:
Se sabe que el número de flexiones se distribuye según una Normal de varianza poblacional 7.5. Para construir
un intervalo de confianza al 95 % para la media del número de flexiones, se tiene que la media muestral es
x = 49.78 y que z1−α = 1.96. Por tanto, el intervalo obtenido para esta muestra concreta, viene dado por
" r r #
7.5 7.5
I1−α (µ) = 48.78 − 1.96 ; 48.78 + 1.96 = [49.18 ; 50.38] .
80 80
Pero esta situación no suele ser real, ya que si no conocemos la media de la población, y por ello queremos
obtener un intervalo de confianza para la media poblacional, probablemente tampoco conoceremos la varianza
σ 2 de la población, de tal manera que no podremos aplicar la expresión [3-13], ya que previamente tendríamos
que estimar, con la ayuda de una muestra, la varianza poblacional, utilizando para ello la varianza muestral S 2 y
obtendríamos una expresión distinta a la dada en [3-13].
3.5 Intervalos de confianza en poblaciones normales 31
Varianza σ 2 desconocida
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de tamaño n de una población N(µ, σ 2 ), donde µ y σ 2
son desconocidos y deseamos obtener un intervalo de confianza para el parámetro µ, al nivel de confianza del
100(1 − α) %.
Para ello, buscaremos un estadístico (cantidad pivotal o pivote) que dependa del parámetro µ y de su estimador,
y cuya distribución muestral no dependa µ. Ese estadístico:
X −µ d
T (X1 , X2 , . . . , Xn ; µ) = √ = t(n−1) (3-14)
S/ n
es un pivote, con lo cual, puede usarse para obtener un intervalo de confianza para la media de una población
Normal cuando la varianza es desconocida, que se distribuye según una t-Student con n − 1 grados de libertad,
siendo S 2 la varianza muestral.
Utilizando la tabla estadística de la distribución t-Student, podemos encontrar parejas de valores t1 y t2 , tales
que:
X −µ
P t1 ≤ √ ≤ t2 = 1 − α (3-15)
S/ n
Pero igual que sucedía en el caso anterior, la expresión [3-17] no quiere decir que t1 y t2 estén unívocamente
determinados, sino que existen una infinidad de ellos. Por tanto, tendremos que elegir aquellos valores de t1 y t2
que hagan mínima la longitud del intervalo dado en la expresión [3-16], que será:
S S S
L = x − t1 √ − x − t2 √ = (t2 − t1 ) √
n n n
sujeto a la condición dada por [3-17] que también podemos expresarla, teniendo en cuenta la función de densidad
de una t-Student con n − 1 grados de libertad, como:
n
Z t2 Γ − n2
t2
P [t1 ≤ T ≤ t2 ] = 2 1+ dt
t1 n−1 p n−1
Γ (n − 1)π
2
Z t2 − n2
t2
=k 1+ dt = 1 − α (3-17)
t1 n−1
32 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
Aplicando el método de los multiplicadores de Lagrange, tendremos que hacer mínima la expresión:
" Z
t2 − n2 #
S t2
φ(t1 , t2 , γ) = (t2 − t1 ) √ + γ k 1+ dt − (1 − α) (3-18)
n t1 n−1
Luego haciendo:
t2 = t1− α2
tendremos:
t1 = −t1− α2 y t2 = t1− α2 , como se puede ver en el gráfico 3-9.
Figura 3-9:
Sustituyendo en el intervalo dado por la expresión [3-17], tendremos el intervalo de confianza para la media µ
de una población N(µ, σ 2 ) con σ 2 desconocida:
S S
I1−α (µ) = X − t1− 2 α √ ; X + t1− 2
α √ (3-19)
n n
3.5 Intervalos de confianza en poblaciones normales 33
en donde los valores t1− α2 se obtienen en la distribución t-Student con n − 1 grados de libertad.
Si tenemos una muestra aleatoria simple de n observaciones de una distribución N(µ, σ 2 ). Si σ 2 es desconocida,
y la media y la desviación muestral observadas son x y s, respectivamente, entonces el intervalo de confianza para
la media poblacional µ, al nivel de confianza del 100(1 − α) % viene dado por:
S S
I1−α (µ) = x − t1− 2 √ ≤ µ ≤ x + t1− 2 √
α α (3-20)
n n
Si, previamente, se fija la longitud del intervalo L y deseamos conocer el tamaño n de la muestra para obtener
el correspondiente intervalo al nivel de confianza del 100(1 − α) %, bastará despejar n de la expresión [3-21] y
tendremos que el tamaño de la muestra será:
s2
n = 4t21− α2 (3-22)
L2
en donde s2 sino se conoce se estimará de una muestra piloto o con información indirecta. La expresión [3-22]
permitirá construir un intervalo al nivel de confianza del 100(1 − α) % y de amplitud L para la media de una
población normal con σ 2 desconocida.
Ejemplo 3.15. Un fabricante de una determinada marca de vehículos de lujo sabe que el consumo de gasolina de
sus vehículos se distribuye normalmente. Se selecciona una muestra aleatoria simple de 6 vehículos y se observa
el consumo cada 100 km, obteniendo las siguientes observaciones
Obtener los intervalos de confianza para el consumo medio de gasolina de todos los vehículos de esa marca, a los
niveles de confianza del 90, 95 y 99 %.
Solución.
Con los datos de la muestra obtendremos la media y la varianza muestral
n
1X 1 116.9
x= xi = (19.2 + 19.4 + 18.4 + 18.6 + 20.5 + 20.8) = = 19.48
n i=1 6 6
n n
!
1 X 1 X 1
s2 = (xi − x)2 = x2i − nx2 = (2282.4 − 6 × (19.48)2 ) = 1.12
n − 1 i=1 n−1 i=1
5
34 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
Por lo tanto, √
s= 1.12 = 1.058301 ' 1.06
El intervalo de confianza para la media poblacional cuando σ 2 es desconocida tiene la forma dada por la expresión
[3-20]
S S
I1−α (µ) = x − t 2 α √ ; x+t2 α √
n n
en donde t α2 es tal que en la t-student con 5 grados de libertad se verifica:
α
P t5 > t α2 =
2
Para 1 − α = 0.90, utilizando la tabla estadística correspondiente a la distribución t-Student, tenemos:
Para 1 − α = 0.95,
P [t5 > t0.025 ] = 0.025 ⇒ t0.025 = 2.571
Para 1 − α = 0.99,
P [t5 > t0.005 ] = 0.005 ⇒ t0.005 = 4.032
Y los intervalos de confianza serán: Para 1 − α = 0.90,
1.06 1.06
I1−α (µ) = 19.48 − 2.015 √ ; 19.48 + 2.015 √ = [18.61 ; 20.35]
6 6
Para 1 − α = 0.95,
1.06 1.06
I1−α (µ) = 19.48 − 2.571 √ ; 19.48 + 2.571 √ = [18.37 ; 20.59]
6 6
Para 1 − α = 0.90,
1.06 1.06
I1−α (µ) = 19.48 − 4.032 √ ; 19.48 + 4.032 √ = [17.74 ; 21.22]
6 6
Si representamos gráficamente los tres intervalos, Gráfico 3-10, vemos como, efectivamente, cuando aumenta el
nivel de confianza aumenta la amplitud del intervalo.
Figura 3-10: Representación gráfica de los intervalos de confianza del ejemplo 3.15.
3.5 Intervalos de confianza en poblaciones normales 35
Ejemplo 3.16. Una empresa dedicada al transporte de viajeros en autobuses desea obtener un intervalo al 90 %
de confianza para el tiempo medio µ que tarda el autobús en realizar el recorrido entre Cali y Medellín. La longitud
del intervalo se quiere que sea de 10 minutos, es decir de ± 5 minutos por encima y por debajo de la media. Se
toma una muestra de 12 viajes observando los tiempos invertidos en realizar cada uno, resultando que x = 310
minutos y la desviación estándar muestral s = 20 minutos. Determinar el tamaño de la muestra que tendríamos
que tomar para poder obtener el intervalo indicado.
Solución.
Por lo tanto,
20 20
I1−α (µ) = 310 − 1.796 √ ; 310 + 1.796 √ = [299.6 ; 320.38]
12 12
Para determinar el tamaño de la muestra que tendríamos que tomar para obtener un intervalo de longitud 10
minutos, sustituimos en la expresión [3-22].
(1.796)2 × 202
n=4 = 51.6 ' 52
102
resultando que necesitaríamos una muestra de 52 viajes para obtener el intervalo indicado, es decir hay que tomar
40 observaciones (viajes) aleatorias para completar la muestra previa de tamaño 12.
Ejemplo 3.17. A partir de una muestra de 20 linternas cuyos periodos de duración (en horas) han sido
503 480 345 427 386 432 429 378 440 434
429 436 451 466 394 422 412 507 433 480
se quiere obtener un intervalo de confianza al 95 % para la vida media de una población de linternas que se dis-
tribuye normalmente.
Teniendo en cuenta que x = 434.2, S = 40.63 y que para α = 0.05 y n = 20 es tn−1,1− α2 = 2.093, se tiene
que un intervalo de confianza al 95 % para la vida media de las linternas es
40.63 40.63
I1−α (µ) = 434.2 − 2.093 √ ; 434.2 + 2.093 √ = [415.18 ; 453.21] .
20 20
También podríamos hacer el siguiente razonamiento, cuando σ 2 sea conocido, como lo hacen algunos autores,
si la media µ fuera el valor central del intervalo, entonces x estimaría puntualmente a µ sin error alguno.
36 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
Figura 3-11:
Pero generalmente x no será exactamente igual a µ y entonces se comete un error, e =| x − µ |, ver gráfico 3-11,
y como máximo será:
σ
e = z( α2 ) √ (3-23)
n
entonces si queremos determinar el tamaño de muestra necesario para obtener un intervalo de confianza para la
media poblacional µ, admitiendo un error e, tendremos que despejando de la expresión anterior:
σ2
n = z(2α ) (3-24)
2 e2
S2
n = t2α2 (3-25)
e2
Observemos que el error e es la mitad de la amplitud o precisión del intervalo L, luego las expresiones [3-13] y
[3-22] son equivalentes a las expresiones [3-24] y [3-25], respectivamente.
Supongamos una población N(µ, σ 2 ), en donde µ y σ 2 son desconocidos y deseamos obtener un intervalo
de confianza para la varianza poblacional σ 2 al nivel de confianza del 100(1 − α) %. Para ello tomamos una
muestra aleatoria simple, X1 , X2 , . . . , Xn , de tamaño n, y utilizaremos un estadístico (cantidad pivotal o pivote)
que dependa del parámetro σ 2 y de su estimador y cuya distribución muestral no dependa de σ 2 . Ese estadístico
será
(n − 1)S 2 d 2
T (X1 , X2 , . . . , Xn ; θ) = = χn−1
σ2
que se distribuye según una χ2 de Pearson con n − 1 grados de libertad, siendo S 2 la varianza muestral.
(n − 1)S 2
P k1 ≤ ≤ k 2 =1−α
σ2
pero estos valores k1 y k2 tendríamos que determinarlos de manera que el intervalo fuera de longitud mínima,
pero como la distribución χ2 no es simétrica, resulta que los extremos del intervalo dependerán de los grados de
3.5 Intervalos de confianza en poblaciones normales 37
libertad, y con el fin de simplificar y poder llegar a un intervalo único adoptamos el criterio de considerar la misma
probabilidad en los dos extremos, es decir:
α α
α1 = y α2 =
2 2
en donde los valores χ2n−1, 1− α y χ2n−1, α , se obtienen en la distribución χ2 con n − 1 grados de libertad.
2 2
Si tenemos una muestra aleatoria simple de n observaciones de una distribución N(µ, σ 2 ). Si σ 2 es desconocida
y la varianza muestral observada es s2 , entonces el intervalo de confianza para la varianza poblacional σ 2 , al nivel
de confianza del 100(1 − α) % viene dado por:
" #
2 2
(n − 1)s (n − 1)s
I1−α (σ 2 ) = ≤ σ2 ≤ 2 (3-28)
χ2n−1, 1− α χn−1, α
2 2
38 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
Ejemplo 3.18. Se sabe que el peso por comprimido de un cierto preparado farmacéutico se distribuye según una
Normal. Con el objeto de estudiar la varianza de la distribución, se extrae una muestra aleatoria simple de 6
artículos. Sabiendo que la varianza muestral es igual a 40, se pretende estimar la varianza poblacional mediante
un intervalo de confianza al 90 %.
Solución.
Puesto que µ es desconocida, un intervalo de confianza para σ 2 viene dado por
" #
2 (n − 1)S 2 n − 1)S 2
I1−α (σ ) = ; 2 ,
χ2n−1, 1− α χn−1, α
2 2
donde α = 0.1, n = 6, y S 2 = 40. Así, χ25; 0.95 = 11.07 y χ25; 0.05 = 1.145; con lo cual,
5 × 40 5 × 40
I1−α (σ 2 ) = ;
11.07 1.145
= [18.07 ; 174.67]
Ejemplo 3.19. El precio de un determinado artículo perecedero en los comercios de alimentación de una ciudad
sigue una distribución normal. Se toma una muestra aleatoria simple de 8 comercios y se observa el precio de ese
artículo, obteniendo las siguientes observaciones
Solución.
A partir de las observaciones muestrales podemos calcular la media y la varianza muestral:
n
1X 1 1054
x= xi = (132 + 125 + 130 + 139 + 126 + 138 + 124 + 140) = = 131.75
n i=1 8 6
n n
!
1 X 1 X 1
s2 = (xi − x)2 = x2i − nx2 = (139166 − 8 × (131.75)2 ) = 43.07143
n − 1 i=1 n−1 i=1
7
Por lo tanto, √
s= 43.07143 = 6.562883 ' 6.56
3.5 Intervalos de confianza en poblaciones normales 39
1. El intervalo de confianza para la media poblacional cuando σ 2 es desconocida y 1 − α = 0.95 viene dado
por:
S S
I1−α (µ) = x − t α2 √ ; x + t α2 √
n n
6.56 6.56
I1−α (µ) = 131.75 − t0.025 √ ; 131.75 + t0.025 √
8 8
En la tabla de la distribución t-Student para 7 grados de libertad, obtenemos los valores t α2 :
t0.025 = 2.365
χ2n−1, α
2
≡ χ27, 0.025 = 1.690 y χ2n−1, 1− α2 = χ27, 0.975 = 16.015
En este caso tal estadístico (cantidad pivotal o pivote) que dependa del parámetro σ 2 y cuya distribución muestral
no dependa de σ 2 será:
n
(Xi − µ)2
P
i=1 d
= χ2n
σ2
que para cada valor fijo de σ 2 sigue una distribución ,σ 2 de Pearson con n grados de libertad, pues al ser la media
µ conocida no hay que estimarla y el número de grados de libertad es n.
Razonando análogamente al caso anterior, en donde µ era desconocida, llegamos a obtener el intervalo de con-
fianza:
P n n
(Xi − µ)2 (Xi − µ)2
P
i=1
I1−α (σ 2 ) = ; i=1 2
χ2
(3-29)
n, 1− α χn, α
2 2
40 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
ny ny
1 X 1 X
Y = Yi y Sy2 = (Yi − Y )2
ny i=1 ny − 1 i=1
El pivote que permite construir el intervalo de confianza para la diferencia de medias de ambas poblaciones, se
construye basándose en los resultados anteriores, y depende en gran medida del conocimiento o no de las varianzas
poblacionales.
Para obtener un intervalo de confianza para la diferencia de medias poblacionales µx − µy al nivel de confianza
del 100(1 − a) % se toman dos muestras independientes de tamaños nx y ny de las poblaciones N(µx , σx2 ) y
N(µy , σy2 ), respectivamente. Por el teorema (1.22) sabemos que el estadístico:
!
d σ2 σy2
X − Y = N µx − µy , x +
nx ny
entonces el estadístico (cantidad pivotal o pivote) que depende de los parámetros µx y µy y de sus estimadores y
cuya distribución muestral no depende de los parámetros será:
(X − Y ) − (µx − µy ) d
Z= s = N(0, 1).
σx2 σy2
+
nx ny
Ahora bien, supongamos dos muestras independientes de tamaño nx y ny procedentes de poblaciones normales
N(µx , σx2 ) y N(µy , σy2 ), respectivamente. Si las medias para las muestras observadas son x e y entonces un inter-
valo de confianza, al nivel de confianza del 100(1 − α) %, para la diferencia de medias poblacionales µx − µy ,
viene dado por:
s s
2 2 2 2
σx σ y σx σ y
I1−α (µx − µy ) = (x − y) − z( α2 ) + ≤ µx − µy ≤ (x − y) + z( α2 ) + (3-31)
nx ny nx ny
α
en donde z( α2 ) es el número tal que: P [Z > z( α2 ) ] = y la variable aleatoria Z sigue una distribución N(0, 1).
2
o bien
" s s #
1 1 1 1
I1−α (µx − µy ) = (x − y) − z( α2 ) σ + ≤ µx − µy ≤ (x − y) + z( α2 ) σ + (3-33)
nx ny nx ny
h i α
donde z( α2 ) es el número tal que: P Z > z( α2 ) = y la variable aleatoria Z sigue una distribución N(0, 1).
2
N(µx , σ 2 ) y N(µy , σ 2 )
Teniendo en cuenta la sección 1.8.5, en donde estudiábamos la distribución de la diferencia de medias muestrales
cuando no se conoce la varianza poblacional, expresión [1-23], aquí podemos utilizar como estadístico (cantidad
pivotal o pivote) que dependa de los parámetros µx y µy y de sus estimadores cuya distribución muestral no
dependa de ellos, el estadístico:
(X − Y ) − (µx − µy )
r
1 1
σ +
nx ny
T =r
(nx − 1)Sx2 + (ny − 1)Sy2
/(nx + ny − 2)
σ2
(X − Y ) − (µx − µy ) d
=s = tnx +ny −2 (3-34)
2 2 r
(nx − 1)Sx + (ny − 1)Sy 1 1
· +
nx + ny − 2 nx ny
42 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
α
siendo t α2 el número tal que: P tnx +ny −2 > t α2 = .
2
Ejemplo 3.20. En un estudio sobre los préstamos realizados por dos entidades financieras a sus clientes se toma
una muestra aleatoria simple de 6 préstamos de la primera entidad observando que el importe medio es de $
9972000 y una desviación estándar de $ 7470000. Una muestra aleatoria simple, independiente de la anterior, de
tamaño 9, de préstamos de la segunda entidad muestra un importe medio de $ 2098000 y una desviación estándar
de $ 10834000. Admitiendo que las dos distribuciones poblacionales de préstamos son normales con la misma
varianza, obtener al nivel del 95 % un intervalo de confianza para la diferencia entre sus medias poblacionales.
Solución.
3.5 Intervalos de confianza en poblaciones normales 43
Se trata de obtener un intervalo de confianza para la diferencia de medias poblacionales cuando las varianzas
poblaciones son iguales pero desconocidas. Utilizaremos para ello la expresión [3-37]:
s s
(nx − 1)Sx2 + (ny − 1)Sy2 1 1
I1−α (µx − µy ) = (x − y) − t α2
· + ≤ µx − µy ≤
nx + ny − 2 nx ny
s s
(nx − 1)Sx2 + (ny − 1)Sy2 1 1
(x − y) + t α2 · +
nx + ny − 2 nx ny
nx = 6, x = 9972000, s = 7470000
nx = 9, x = 2098000, s = 10834000
nx + ny − 2 = 6 + 9 − 2 = 13
Utilizando la tabla estadística de la distribución t-student con 13 grados de libertad, se tiene:
De donde,
t0.025 = 2.160
Para simplificar los cálculos utilizaremos las cantidades en miles de pesos.
De donde,
Por lo tanto,
Observemos que este intervalo incluye el cero, lo cual podemos interpretarlo como que no existe diferencia
significativa entre los importes medios de los prestamos de ambas entidades financieras al 95 % de confianza.
Ejemplo 3.21. De una población N(µ1 , σ 2 ), se extrae una muestra aleatoria simple de tamaño 10, tal que la media
muestral es 4,1 y la varianza muestral es 6,09. De otra población N(µ2 , σ 2 ) se toma otra muestra aleatoria simple
de tamaño 16 e independiente de la anterior, cuya media y varianza muestrales son 3,875 y 3,609, respectivamente.
Se quiere obtener un intervalo de confianza del 95 % para la diferencia de medias poblacionales.
Solución.
44 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
Puesto que la varianzas poblacionales son desconocidas pero iguales, el intervalo de confianza para la diferencia
de medias viene dado por
s s
(nx − 1)Sx2 + (ny − 1)Sy2 1 1
I1−α (µx − µy ) = (x − y) − t α2 · + ;
nx + ny − 2 nx ny
s s
(nx − 1)Sx2 + (ny − 1)Sy2 1 1
(x − y) + t α2 · +
nx + ny − 2 nx ny
Por tanto,
I0.95 (µ1 − µ2 ) = [−0.6338646; 1.083865].
Cuando hay evidencia o se sospecha que las dispersiones de ambas muestras son diferentes se usa un intervalo
de confianza aproximado. Ante la duda, es mejor usar este método que el anterior, ya que tiene una suposición
menos.
N(µx , σ 2 ) y N(µy , σ 2 ),
En este caso, puesto que X y Sx2 , así como, Y y Sy2 son independientes, se tiene que
X − Y − (µx − µy ) d
q 2 = N (0, 1),
σx σy2
nx + ny
así como
Sx2 Sy2 d 2
(nx − 1) + (n y − 1) = χnx +ny −2 .
σx2 σy
Por tanto
X−Y −(µx −µy )
r
2
σx σ2
nx + nyy d
s = tnx +ny −2 ,
S2 S2
(x−1) σx
2 +(ny −1) σy
2
x y
nx +ny −2
3.5 Intervalos de confianza en poblaciones normales 45
pero como se ve el estadístico depende de σx y σy por lo que se recurre a la aproximación de Welch, en función
del estadístico
X − Y − (µx − µy )
s , (3-38)
Sx2 Sy2
+
nx ny
La distribución del estadístico (3-38) no es conocida. Sin embargo Welch (1947) verificó que la distribución puede
aproximarse por una distribución t de Student con unos grados de libertad que dependen de las varianzas muestra-
les. La aproximación es la siguiente:
El estadístico (cantidad pivotal o pivote) que dependa de los parámetros µx y µy y de sus estimadores y cuya
distribución muestral no dependa de ellos, será
(X − Y ) − (µx − µy ) d
T = s = t(ν) (3-39)
Sx2 Sy2
+
nx ny
Utilizando este estadístico T y procediendo igual que en el caso anterior, llegaríamos a obtener el intervalo de
confianza al nivel del 100(1 − α) % para la diferencia de medias µx − µy :
s s
2 2 2 2
Sx S y Sx S y
I1−α (µx − µy ) = (X − Y ) − t α2 + ; (X − Y ) + t α2 + (3-41)
nx ny nx ny
α
donde t α2 es el número tal que: P tν > t α2 = y ν viene dado por la expresión [3-40].
2
Ejemplo 3.22. Supongamos que una máquina automática de envasado de un producto químico está preparada
para depositar 8 cm3 de producto en cada frasco de la cadena de envasado. Antes de proceder a una revisión y
ajuste de la máquina se toma una muestra aleatoria simple de 4 frascos observando que la cantidad, medida en
cm3 , depositada de producto químico en cada frasco ha sido:
Después de revisada y ajustada la máquina se vuelve a tomar otra muestra aleatoria simple de 5 frascos, obser-
vando que las cantidades depositadas de producto químico han sido:
Suponemos que las distribuciones del contenido de producto químico en los frascos son normales y que la varianza
poblacional varía cuando la máquina se revisa y se ajusta.
Obtener un intervalo de confianza al nivel de confianza del 98 % para la diferencia de las medias poblacionales.
Solución.
Se trata de obtener un intervalo de confianza para la diferencia de medias poblacionales cuando las varianzas son
distintas y desconocidas. Utilizaremos la expresión [3-42]:
s s
2 2 2 2
sx sy sx s y
I1−α (µx − µy ) = (x − y) − t α2 + ≤ µx − µy ≤ (x − y) + t α2 +
nx ny nx ny
De donde,
t0.01 = 3.747
3.5 Intervalos de confianza en poblaciones normales 47
Es decir,
I1−α (µx − µy ) = [−1.504062 ≤ µx − µy ≤ 0.7040623] = [−1.5 ≤ µx − µy ≤ 0.7]
El intervalo de confianza cubre el cero, lo que indica que no existe diferencia significativa en el rendimiento de
la máquina después de revisada y ajustada, con una confianza del 98 %.
Ejemplo 3.23. Para realizar un estudio sobre la hipertensión y sus consecuencias, se toman dos muestras de 13 y
16 pacientes de ciudades distintas. Los datos muestrales obtenidos fueron los siguientes:
Supuesto que ambas poblaciones son Normales y que sus varianzas son desconocidas y distintas, se quiere deter-
minar un intervalo de confianza al 95 % para la diferencia de medias.
Solución.
Lo primero es calcular el valor de ν.
2
S12 S22
n1 + n2
ν= 2
2 2 − 2 = 13.42522 ' 13.
1 S1 1 S22
n1 +1 n1 + n2 +1 n2
El intervalo de confianza cubre el cero, lo que indica que no existe diferencia significativa entre los hipertensos de
las dos ciudades, con una confianza del 95 %.
Antes de proporcionar el intervalo para la diferencia de medias de estas dos poblaciones, se hace necesario in-
dicar qué se entiende por muestras apareadas.
48 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
Se dice que dos muestras X1 , X2 . . . , Xn e Y1 , Y2 . . . , Yn están apareadas cuando los datos de las muestras
vienen por parejas, uno de cada una de ellas, de manera que cada individuo proporciona dos observaciones.
Ejemplo 3.24. Para estudiar los efectos de un determinado fármaco para adelgazar, se selecciona aleatoriamente
6 personas y se toma nota de sus pesos antes y después de administrarles el medicamento.
Tabla 3-2:
Como puede observarse, los datos vienen por parejas: peso antes y después, dos datos por individuo. Parece
lógico que los datos se encuentren relacionados entre sí.
En los casos de muestras apareadas, el modo de proceder para obtener un intervalo de confianza para la diferen-
cia de medias es considerar una única muestra, D1 , D2 . . . , Dn , formada por la diferencia de los pares de valores,
Di = Xi − Yi con i = 1, 2, . . . , n, reduciendo así el problema a encontrar un intervalo de confianza para la media
de una población.
Por las propiedades de la distribución normal, esta muestra D1 , D2 . . . , Dn procederá también de una población
normal de media:
2
µD = E[D] = E[Xi − Yi ] = E[Xi ] − E[Yi ] = µx − µy y varianza desconocida, σD .
2
La varianza poblacional, σD , se puede estimar por la varianza muestral Sd2 que sería la varianza de las diferencias
que constituyen la muestra:
n
1 X 2
Sd2 = Di − D
n − 1 i=1
siendo
n
1X
D= Di .
n i=1
µD = µx − µy
Ejemplo 3.26. La tabla 3-3 muestra el consumo de gasolina por 1000 km de una muestra aleatoria simple de
9 coches con dos carburantes X e Y . Si admitimos que los consumos de gasolina se distribuyen normalmente,
obtener un intervalo de confianza al nivel de confianza del 99 % para la diferencia de las medias poblacionales.
Solución:
Con la información de la Tabla 3-3 podemos obtener la media y la varianza de las diferencias di en el consumo de
gasolina
n
1X 1
d= di = (18) = 2.
n i=1 9
50 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
Tabla 3-3: Consumo de gasolina por 1000 km, para los modelos X e Y .
n n
!
1 X 2 1 X 2 1
Sd2 = di − d = d2i − nd = (250 − 9, 4) = 26, 75
n − 1 i=1 n−1 i=1
8
Por lo tanto, sd = 5, 17
pivote) que dependa de los parámetros desconocidos σx2 y σy2 y de sus estimadores y cuya distribución muestral no
dependa de los parámetros, el estadístico:
(nx − 1)Sx2
/(nx − 1)
σx2 Sx2 σy2 d
F = = · = Fnx −1, ny −1
(ny − 1)Sy2 Sy2 σx2
/(n y − 1)
σy2
que sigue una distribución F -Snedecor con nx − 1 y ny − 1 grados de libertad.
Utilizando este estadístico F y observando el Gráfico 3-13 podemos escribir:
P Fnx −1, ny −1, α2 ≤ F ≤ Fnx −1, ny −1, 1− α2 = 1 − α
" #
S 2 σy2
P Fnx −1, ny −1, α ≤ x2 · 2 ≤ Fnx −1, ny −1, 1− α2 =1−α
2
Sy σx
Sy2
Multiplicando cada término de la desigualdad por y después al invertir cada término, cambiando el sentido de
Sx2
la desigualdad, nos quedará:
2
σx2 Sx2
Sx 1 1
P 2
· ≤ 2
≤ 2
· =1−α
Sy Fnx −1, ny −1, 1− 2
α σy Sy Fnx −1, ny −1, α
2
Ejemplo 3.27. Con el fin de estudiar el gasto de combustible de dos motos procedentes de dos compañías diferen-
tes, C1 y C2, se seleccionan al azar 9 motos de la compañía C1 y 12 de la C2. Las de la compañía C1 proporcionan
una media de 18 km recorridos por cada litro de combustible, con una varianza de 1.1 km2 /l2 y las de la compa-
ñía C2, una media de 15 km/l y una varianza de 2.9 km2 /l2 . Sabiendo que la distancia recorrida por cada litro
de combustible se distribuye normalmente en las dos compañías, se pretende obtener un intervalo de confianza al
90 % para el cociente de varianzas.
Solución.
Llamando S12 y S22 a las varianzas muestrales de las motos de las compañías C1 y C2 y teniendo en cuenta que
α = 0.1, se tiene que para n1 = 9 y n2 = 12 es
Así pues, un intervalo de confianza al 90 % para el cociente de varianzas viene dado por
2
σ1 1 1.1 1 1.1
I0.9 = ; = [0.13 ; 1, 26].
σ22 2.95 2.9 0.30 2.9
nx Sx∗2
/nx
σx2 Sx∗2 σy2 d
F = = · = F(nx ,ny )
ny Sy∗2 Sy∗2 σx2
/ny
σy2
siendo
nx ny
1 X 2 1 X 2
Sx∗2 = (Xi − µx ) ; Sy∗2 = (Yi − µy )
nx i=1 ny i=1
s∗2 σ2 s∗2
x 1 1
I σ2 = · ≤ x2 ≤ x∗2 · (3-50)
x s∗2
y F nx , ny , 1− α
2
σy sy Fnx , ny , α2
σy2
siendo
nx ny
1 X 2 1 X 2
s∗2
x = (xi − µx ) ; s∗2
y = (yi − µy )
nx i=1 ny i=1
Ejemplo 3.28. Supongamos que la distribución de las notas en la asignatura de estadística en segundo curso de la
carrera ciencias económicas sigue una distribución normal en los dos grupos existentes. Seleccionada una muestra
aleatoria simple de 21 alumnos del primer grupo y otra de 26 alumnos del segundo grupo, ambas independientes,
se obtiene como varianzas 1250 y 900, respectivamente. Obtener un intervalo de confianza para el cociente de las
varianzas poblacionales al nivel de confianza del 90 %.
3.5 Intervalos de confianza en poblaciones normales 53
Solución.
Como las medias poblacionales son desconocidas utilizaremos la expresión [3-48] para el intervalo:
2
σ2 s2
s 1 1
I σ 2 = x2 · ≤ x2 ≤ x2 ·
x sy Fnx −1, ny −1, 1− α2 σy sy Fnx −1, ny −1, α2
σy2
Ejemplo 3.29. Un fabricante de televisores está desarrollando un nuevo modelo de televisor en color, y para este
fin se pueden utilizar dos tipos de esquemas transistorizados. El fabricante selecciona una muestra de esquemas
transistorizados del primer tipo de tamaño 16, y otra del segundo tipo de tamaño 13. Los datos muestrales respecto
a la vida media de cada esquema son los siguientes:
Solución.
Sea la variable aleatoria X1 = “vida media del primer esquema”, que sigue una distribución normal N(µ1 , σ12 ).
Análogamente, la variable aleatoria X2 = “vida media del segundo esquema”, sigue una distribución normal
N(µ2 , σ22 ).
Deseamos construir un intervalo de confianza para la diferencia de medias poblacionales (µ1 − µ2 ) con varian-
zas poblacionales desconocidas, y no sabemos si distintas o no, siendo las muestras pequeñas n1 + n2 = 29 < 30.
Para dilucidar si las varianzas poblacionales desconocidas son o no distintas, construimos primero un intervalo
σ2
de confianza para el cociente de varianzas 12 , de modo que si el intervalo cubre al punto 1 podremos partir de que
σ2
las varianzas son desconocidas pero iguales.
Como las medias poblacionales son desconocidas, para construir un intervalo de confianza para el cociente de
varianzas se emplea la expresión [3-48]:
54 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
s21 σ2 s2
1 1
I σ 2 (1 − α) = 2 · ≤ 12 ≤ 12 · ,
1 s2 Fn1 −1, n2 −1, 1− α2 σ2 s2 Fn1 −1, n2 −1, α
2
σ22
1
siendo Fn1 −1, n2 −1, 1− α2 = .
Fn2 −1, n1 −1, α
2
s21 900
n1 = 16, s21 = 302 = 900 n2 = 13, s22 = 172 = 289 = = 3.114
s22 289
α
Además, 1 − α = 0.90 α = 0.10 = 0.05.
2
De donde, P F ≤ F(15, 12, 0.95) = 0.95, ⇒ F(15, 12, 0.95) = 2.616851 y P [F ≤ F15, 12, 0.05 ] = 0.05.
Como este valor no viene en las tablas aplicamos la propiedad de reciprocidad y tenemos:
1 1
F(15, 12, 0.05) = = = 0.4039893.
F(12, 15, 0.95) 2.475313
Sustituyendo en la expresión del intervalo, se tiene:
1 1
I σ 2 (1 − α) = 3.114 × ; 3.114 × = [1.18998 ; 7.708125] ' [1.19 ; 7.71]
1 2.616851 0.4039893
σ22
El intervalo no cubre el punto uno, y concluimos que las varianzas poblacionales son desconocidas y distintas,
con una confianza del 90 %.
Nos situamos ante un intervalo de confianza para la diferencia de medias poblacionales (µ1 − µ2 ) con varianzas
poblacionales desconocidas y distintas o no, con muestras pequeñas n1 + n2 = 29 < 30.
900 289 2
16 + 13 6159.231 6159.231
ν= (900/16)2 2 −2= −2= − 2 = 27.82 − 2 = 25.82 ' 26.
17 + (289/13)
14
186.1213 + 35.30051 221.4218
Por otra parte, puesto que t(26, 0.05) = 1.314972, el intervalo buscado es
" r r #
900 289 900 289
I1−α (µ1 − µ2 ) = (1400 − 1500) − (1.315) × + ; (1400 − 1500) + (1.315) × +
16 13 16 13
= [−111.6495; −88.3505].
El intervalo no cubre el cero, concluyendo que existe diferencia significativa entre la vida media de cada esquema,
siendo mayor la vida media del segundo esquema con una confianza del 90 %.
de confianza para un parámetro de la población conociendo únicamente la media y varianza del estimador de dicho
parámetro. Para ello, se usará la desigualdad de Chebychev, la cual dice que dada una variable aleatoria, X, tal que
E[X] = µ y V ar[X] = σ 2 , se verifica que
1
P [|X − µ| ≤ kσ] > 1 − .
k2
Sea θ(X
b 1 , X2 , . . . , Xn ) un estimador del parámetro que se quiere estudiar, usando la desigualdad anterior se
puede encontrar un intervalo de confianza con una cota inferior del nivel de confianza prefijado. Así pues, se
verifica que
1
q
P |θ − E[θ]| ≤ k V ar[θ] > 1 − 2 .
b b b
k
En el caso de que el estimador sea insesgado se podrá obtener un intervalo con nivel de confianza de al menos
1 − α que viene dado a partir de las expresiones
1 1
1− =1−α ⇒ k=√
k2 α
1 b ≤ θ ≤ θb + √1
q q
P θb − √ V ar[θ] b ≥ 1 − α.
V ar[θ]
α α
De lo cual se deduce que un intervalo de confianza es
s s
V ar[θ]
b V ar[θ]
b
I1−α (θ) = θb − ; θb + .
α α
En el caso particular de que se quiera encontrar un intervalo de confianza para la media de una población de la
cual se conoce la varianza, puede tomarse como estimador X. De esta forma se obtiene el intervalo
σ σ
I1−α (µ) = X − √ ; X+√ .
nα nα
Ejemplo 3.30. Se quiere comparar el intervalo obtenido en este método con el obtenido usando el método del
pivote bajo la hipótesis de Normalidad. En este caso, el intervalo venía dado por
σ σ
I1−α (µ) = X − z(1− α2 ) √ ; X + z(1− α2 ) √ ,
n n
1 σ
2· √ √ .
α n
1
Para el caso de un intervalo de confianza a un nivel de 0.95 y puesto que z(1− α2 ) = 1.96 y √ = 4.47, se puede
α
deducir que aunque el método aproximado es aplicable en situaciones muy generales, presenta la desventaja de
no proporcionar un intervalo con buenas propiedades.
56 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
Cuando se busca el intervalo de confianza para la media de una población, el estimador natural es la media
muestral X. Sin embargo, puede suceder que se desconozca su distribución y consecuentemente no se pueda cal-
cular dicho intervalo. Para superar esta dificultad, se utiliza el Teorema Central del Límite.
Dada (Xn )n∈N una sucesión de variables aleatorias con función de distribución Fn . Se dice que Xn converge
en ley o en distribución a una variable aleatoria X con función de distribución F , si Fn (x) → F (x) en todo punto
d l
de continuidad de F , este tipo de convergencia se denota por Xn → X o Xn → X.
Así mismo, será de gran utilidad el siguiente teorema conocido como Teorema de Linderberg–Lévy.
Debido a que en la mayoría de las situaciones reales que se presentan la varianza poblacional es desconocida,
en este método asintótico la varianza poblacional, se aproxima por la muestral, obteniéndose que
X − µ√ d
n → N(0, 1).
S
Sabemos que el estimador de máxima verosimilitud del parámetro p de una B(1, p) viene dado por:
pb −→ N(E[b
p], V ar[b
p]) cuando n −→ ∞
donde:
X np
E[b
p] = E = =p
n n
X 1 1 p(1 − p) pq
V ar[b
p] = V ar = V ar[X] = 2 np(1 − p) = =
n n2 n n n
Luego, pq
pb −→ N p, cuando n −→ ∞
n
Lo cual nos permite decir que el estadístico:
pb − p d
Z=r = N(0, 1)
pq
n
En consecuencia este estadístico Z lo podemos utilizar como cantidad pivotal o pivote, pues depende del pará-
metro y de su estimador y su distribución es independiente del parámetro p, pues se trata de una N(0, 1). Por tanto,
podremos obtener un intervalo de confianza para el parámetro p al nivel del 100(1 − a) % a partir de la expresión:
pb − p
P −z( α2 ) ≤ r pq ≤ z( α2 ) = 1 − α
n
r
pq
Multiplicando cada término de la desigualdad por , restado después a cada término pb y multiplicando por −1,
n
se tiene:
r r
pq pq
P pb − z( α2 ) ≤ p ≤ pb + z( α2 ) =1−α (3-51)
n n
Pero los límites de la expresión (3-51) dependen del parámetro desconocido p. Si n es grande una solución satis-
factoria se obtiene sustituyendo p por su estimación pb en el límite interior y en el límite superior, resultando:
" r r #
pbqb pbqb
P pb − z( α2 ) ≤ p ≤ pb + z( α2 ) '1−α (3-52)
n n
Luego el intervalo de confianza al nivel de confianza del 100(1 − α) % para el parámetro p será:
" r r #
pbqb pbqb
Ip = pb − z( α2 ) ; pb + z( α2 ) (3-53)
n n
58 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
Por otro lado, sea una población B(1, p) y si pb representa la proporción de éxitos en una muestra aleatoria simple
de tamaño n suficientemente grande y qb = 1− pb, entonces un intervalo de confianza aproximado para la proporción
poblacional p al nivel de confianza del 100(1 − α) % viene dado por:
" r r #
pbqb pbqb
Ip = pb − z( α2 ) ≤ p ≤ pb + z( α2 ) n (3-54)
n n
Observando la expresión [3-54] podemos decir que si la estimación pb ocupa el lugar central o punto medio del
intervalo de confianza, entonces pb estima puntualmente, sin error, el valor del parámetro proporción poblacional
p, pero generalmente esto no sucederá y se cometerá un error en la estimación que vendrá dado por la diferencia
positiva entre el verdadero valor del parámetro p y la estimación pb, y además tendremos la confianza del 100(1 −
α) % de que este error a lo sumo será
r
pbqb
z( α2 )
n
Gráficamente el error que se comete al estimar el parámetro p mediante pb se observa en el gráfico 3-14.
Figura 3-14:
Ejemplo 3.31. Se selecciona una muestra aleatoria simple de 600 familias, a las cuales se les pregunta si poseen
o no ordenador personal en casa, resultando que 240 de esas familias contestaron afirmativamente. Obtener un
intervalo de confianza al nivel del 95 % para estimar la proporción real de familias que poseen ordenador personal
en casa.
3.8 Intervalos de confianza para la proporción 59
Solución.
El estimador puntuar de p sabemos que es:
X
pb =
n
y para la muestra concreta de 600 familias la estimación correspondiente será:
x 240
pb = = = 0.40
n 600
Utilizando la tabla correspondiente a la distribución N(0, 1):
De donde,
Ip = [0.36 ; 0.44]
y diremos que con un nivel de confianza del 95 % la estimación pb = 0.40 difiere del parámetro p a lo sumo en la
cantidad 0.04, es decir, el error máximo a este nivel de confianza será de 0.04.
z 2α pbqb
2
n=4 (3-55)
L2
Expresión que utilizaremos para determinar el tamaño de la muestra necesario para obtener un intervalo de con-
fianza para la proporción poblacional p al nivel de confianza del 100(1 − α) % y, con una longitud L.
Si en lugar de utilizar la amplitud L del intervalo utilizamos el error e =| pb − p |, el cual como máximo será:
r
pbqb
e = z( α2 )
n
y entonces el tamaño de muestra es:
z 2α pbqb
2
n= (3-56)
e2
que es equivalente a (3-55), pues allí está multiplicado por 4, como veremos en el ejemplo 3.32.
El valor del estimador se puede obtener de varias maneras:
2. Utilizando el valor máximo que puede tomar pbqb = pb(1 − pb), que se alcanzaría en pb = 0.5 y entonces el valor
máximo de pbqb será:
pb(1 − pb) = pbqb = 0.5(1 − 0.5) = 0.25
60 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
Tabla 3-4:
En efecto si consideramos los valores posibles de pb tendremos los valores de qb y los de pbqb en la siguiente tabla:
Luego sustituyendo en la expresión (3-55) tenemos:
z(2α ) 0.25
n=4· 2
(3-57)
L2
que será el tamaño muestral lo suficientemente grande para garantizarnos un intervalo de confianza de longitud L.
Ejemplo 3.32. El Departamento de Estadística de una Universidad pretende estimar la proporción de licencia-
dos matriculados en los estudios de doctorado con un error máximo del 0.05 y un nivel de confianza del 90 %.
Determinar:
1. El tamaño de la muestra necesario si se tiene como información complementaria que la proporción como
máximo es 0.40.
2. El tamaño de la muestra en la misma situación anterior pero con una precisión de 0.1.
3. El tamaño de la muestra cuando no se tiene información alguna acerca del valor de la proporción p y
admitimos una precisión de 0.1.
Solución.
1. Aplicando la expresión (3-56)
z 2α pbqb
2
n=
e2
(1.645)2 · (0.40) · (0.60)
=
(0.05)2
= 259.7
≈ 260
2. Como la precisión es equivalente a la amplitud del intervalo, tendremos que aplicar la expresión (3-55)
z 2α pbqb
n=4· 2
L2
(1.645)2 · (0.40) · (0.60)
=4·
(0.1)2
= 259.7
≈ 260
3.9 Intervalo de confianza para la diferencia de proporciones 61
y vemos que efectivamente coincide con la solución anterior, como ya indicábamos en la sección 3.4.2.
3. Como no se tiene información alguna sobre el parámetro p tomaremos el valor más desfavorable, es decir el
valor de p que nos dé máximo tamaño de muestra n, y ese será el valor de p que hace máximo el producto
pbqb, luego aplicando la expresión (3-23) o directamente la expresión (3-55) tendremos:
z 2α pbqb
n=4· 2
L2
(1.645)2 · (0.50) · (0.50)
=4·
(0.1)2
= 270.6
≈ 271
Ejemplo 3.33. En unas elecciones, el candidato A desea estimar, al 95 % de confianza, la proporción de votantes
que están a su favor. Con este fin, toma una muestra aleatoria simple de 100 votantes, observando que el 55 % son
partidarios suyos, obteniendo un intervalo de confianza de sus probabilidades de triunfo igual a
" r #
p̂(1 − p̂)
I0.95 (p) = p̂ ± Z0.975
n
" r #
0.55 · 0.45
= 0.55 ± 1.96
100
= [0.55 ± 0.1]
= [0.45; 0.65].
pX − pbY ) = E (b
E (b pX ) − E (b
pY ) = pX − pY (3-59)
62 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
pX − pbY ) = V ar (b
V ar (b pX ) + V ar (b
pY )
pX (1 − pX ) pY (1 − pY )
= +
nx ny
pX qX pY qY
= + (3-60)
nx ny
pX − pbY )
Además, sabemos que si los tamaños de muestras son grandes, la distribución de esta variable aleatoria (b
es aproximadamente normal, es decir:
d pX qX pY qY
pbX − pbY = N pX − pY , + .
nx ny
pX − pbY ) − (pX − pY ) d
(b
Z= = N (0, 1) .
pX qX pY qY
r
+
nx ny
de donde llegaremos a:
pX qX pY qY
r
pX − pbY ) − z( 2 )
P (b α + ≤ pX − pY ≤
nx ny
pX qX pY qY
r
≤ (b
pX − pbY ) + z( α2 ) + =1−α
nx ny
y como los extremos de esta expresión dependen de los parámetros desconocidos pX y pY los reemplazaremos por
sus estimaciones que para unas muestras concretas serán:
x y
pbx = , pby = .
nx ny
y nos quedará:
" s s #
pbx qbx pby qby pbx qbx pby qby
px − pby ) − z( α2 )
P (b + ≤ px − px ≤ (b
px − pby ) + z( α2 ) + = 1 − α.
nx ny nx ny
Luego el intervalo de confianza al nivel del 100(1 - u) % para la diferencia de los parámetros poblacionales pX −pY
será:
" s s #
pbx qbx pby qby pbx qbx pby qby
IpX −pY = (b px − pby ) − z( α2 ) + px − pby ) + z( α2 )
; (b + (3-61)
nx ny nx ny
Por otro lado, sea pbx la proporción de éxitos observados en una muestra aleatoria simple de tamaño nx de una
población B(1, pX ), y sea pby la proporción de éxitos observados en una muestra aleatoria simple de tamaño ny
3.9 Intervalo de confianza para la diferencia de proporciones 63
de la población B(1, pY ). Entonces si las muestras son independientes y los tamaños son grandes el intervalo de
confianza al nivel del 100(1 − α) % para la diferencia de los parámetros pX − pY será:
" s s #
pbx qbx pby qby pbx qbx pby qby
px − pby ) − z( α2 )
IpX −pY = (b + ≤ pX − pY ≤ (b
px − pby ) + z( α2 ) + (3-62)
nx ny nx ny
Ejemplo 3.34. En una ciudad A se toma una muestra aleatoria simple de 98 cabezas de familia, de los cuales 48
han sido poseedores de acciones de Telefónica. Mientras que en otra ciudad B se selecciona otra muestra aleatoria
simple de tamaño 127 cabezas de familia, de los cuales 21 han sido poseedores de acciones de Telefónica. Obtener
un intervalo de confianza al nivel del 95 % para la diferencia entre las proporciones de cabezas de familia que han
sido poseedores de ese tipo de acciones en ambas ciudades.
Solución.
De la información del enunciado se deduce:
48
nx = 98 x = 48 pbx = = 0.4897959
98
21
ny = 127 y = 21 pby = = 0.1653543
127
Para el nivel de confianza del 95 %, α = 0.05, se tiene que
De donde,
Como el 0 está fuera del rango del intervalo, esto nos indica que es bastante más probable que un cabeza de familia
de la ciudad A haya tenido acciones de Telefónica que un cabeza de familia de la ciudad B.
Ejemplo 3.35. Una determinada empresa quiere saber si su nuevo producto tendrá más aceptación en la pobla-
ción adulta o entre los jóvenes. Para ello, considera una muestra aleatoria simple de 400 adultos y 600 jóvenes,
observando que sólo a 100 adultos y 300 jóvenes les había gustado su innovador producto. Para comparar las
64 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
proporciones de adultos y jóvenes a los que les gusta el producto, a un nivel de confianza del 99 %, se considera
el intervalo de confianza
s
p̂1 − p̂2 ± Z1− α p̂1 (1 − p̂1 ) + p̂2 (1 − p̂2 ) .
2
n1 n2
Si se considera
p1 = proporción de jóvenes a los que gusta
p2 = proporción de adultos a los que gusta
entonces
300 100
p̂1 = = 0.5 y p̂2 = = 0.25,
600 400
con lo que el intervalo queda
" r #
0.5 · 0.5 0.25 · 0.75
0.5 − 0.25 ± 2.58 + ,
600 400
es decir,
I0.99 (p1 − p2 ) = [0.19; 0.31].
En el apartado anterior, se estudió la construcción de un intervalo de confianza para la media de una población
a través de métodos asintóticos. En esta sección, se extiende el método anterior a cualquier parámetro del cual se
disponga un estimador máximo verosímil. Para ello, se considera el siguiente resultado.
Teorema 3.1. Si fX (x|θ) verifican las condiciones de regularidad de Fisher-Wolfowitz y si θbM V = θ(X
b 1 , X2 , . . . , Xn )
es el estimador máximo-verosímil de θ para una muestra aleatoria simple de tamaño n, entonces θbM V es asintó-
ticamente Normal:
θbM V (X) − θ d
q −→ N (0, 1),
1
(I(θ))− 2
2
∂ log f (x, θ)
donde I(θ) = −E .
∂θ2
Así, dada una muestra aleatoria simple procedente de una población cuya distribución depende de un parámetro
θ desconocido y suponiendo conocido su estimador de máxima verosimilitud, el intervalo de confianza para dicho
parámetro viene dado por la expresión
" #
θ̂M V (X) − θ
1 − α = P −Z1− α2 ≤ p ≤ Z1− α2
I(θ)
h p p i
= P θ̂M V (X) − Z1− α2 I(θ) ≤ θ ≤ θ̂M V (X) + Z1− α2 I(θ) ,
obteniéndose el intervalo
h p p i
I1−α (θ) = θ̂M V (X) − Z1− α2 I(θ) , θ̂M V + Z1− α2 I(θ) .
3.11 Ejercicios 65
Ejemplo 3.36. Sea X una muestra aleatoria simple extraída de una población de Poisson de parámetro descono-
cido λ. Se sabe que el estimador de máxima verosimilitud para λ es
λ̂M V (X) = X
X − λ√ d
√ n → N (0, 1)
X
y de aquí, el intervalo de confianza para λ es
s s
X X
I1−α (λ) = X − Z1− α2 , X + Z1− α2 .
n n
3.11. Ejercicios
3.11.1. Ejercicios resueltos
1. Se han generado aleatoriamente (con el paquete estadístico Statgraphics) 20 datos extraídos de una población
N (0, 4), obteniéndose que X = −0.052783 y s2 = 3.17325. Obtener un intervalo de confianza a un nivel
de confianza 1 − α para el caso en que σ = 1 y en el caso en que no se conozca su valor. De igual forma,
calcúlense los intervalos de confianza para σ en el caso de que µ = 0 y en el caso de que se desconozca su
valor.
Solución.
Hay que señalar que el intervalo encontrado cuando σ es desconocida es más pequeño que el encontrado
cuando es conocida. Esto se debe a que cuando σ es desconocida se toma la varianza, que en este caso vale
S 2 = 3.17325, que es más pequeño que el valor de σ 2 = 4.
66 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
2. Encuéntrense intervalos de confianza para la Exponencial de parámetro λ por los métodos del pivote, la
desigualdad de Tchebychev y los métodos asintóticos I y II. Compárense los resultados obtenidos para un
nivel de confianza del 95 % cuando
a) la muestra es de tamaño 100 y la media muestral X = 0.560001
b) la muestra es de tamaño 10000 y la media muestral X = 0.502409.
Solución.
Los resultados obtenidos vienen reflejados en la tabla 3-6, donde la amplitud del intervalo se denota por L.
L = 0.227 L = 0.081
X
Desigualdad de 1
1+ √αn
, 1−X
√1
[0.387, 1.013] [0.481, 0.526]
αn
Tchebychev " # L = 0.626 L = 0.045
X X
I. Asintótico I Z1− α , Z1− α [0.468; 0.697] [0.493, 0.512]
1+ √ 2 1− √ 2
(T.C.L.) n n L = 0.229 L = 0.019
h Z α Z α i
1− 1−
I. Asintótico II X 1− √n2 , X 1− √n2 [0.45; 0.67] [0.493; 0.512]
(M.V.) L = 0.22 L = 0.019
2. Con el propósito de estudiar la cantidad de nicotina de una determinada marca de cigarrillos se toma una
muestra de 100 de ellos, encontrándose una media de 26 mg. Se sabe que la cantidad de nicotina se distribuye
normalmente, y que su desviación estándar es de 8 mg.
a) Obtenga un intervalo de confianza para el contenido medio en nicotina al 99 %.
b) Estudie cuál debe ser el tamaño de la muestra para que la amplitud del intervalo disminuya en 2 mg.
3. Determine el tamaño muestral necesario para estimar la media de una población Normal con varianza igual
a 12 y un 90 % de confianza, de manera que el error en la estimación no sea mayor de 0.01.
4. Se quiere estimar el promedio del tiempo que tarda un laboratorio en atender un paciente para la toma de
sangre correspondiente. Para tal efecto se toma una muestra aleatoria simple de 28 pacientes, encontrando
que el promedio del tiempo fue de 8.2 minutos y desviación estándar de 0.7 minutos. Calcular el intervalo
de confianza para el valor de la media poblacional con un nivel de confianza del 95 %. Se sabe que el tiempo
3.11 Ejercicios 67
5. La duración media de préstamos en la biblioteca de una universidad en el curso pasado fue de veinte días.
Se toma una muestra de cien libros este año y se obtiene una media de dieciocho días con una desviación
estándar (no corregida) de ocho días. Construir un intervalo de confianza para la duración media de préstamos
en el curso pasado del 99 %.
Respuesta: fluctúa entre 15.9 y 20.1
6. Suponga que se quiere estimar la producción media por hora, en un proceso que produce antibiótico. Se
observa el proceso durante 100 períodos de una hora, seleccionados al azar y se obtiene una media de 34
onzas por hora con una desviación estándar de 3 onzas por hora. Estime la producción media por hora para
el proceso, utilizando un nivel de confianza del 95 %.
Respuesta: fluctúa entre 33.412 y 34.588.
7. Mientras en una muestra aleatoria simple de 32 atletas de una gran ciudad, éstos realizan un ejercicio de-
terminado el pulso cardíaco se incrementa en 26.4 pulsaciones por minuto y desviación estándar de 4.28
pulsaciones por minuto.
a) ¿Qué podemos asegurar con una confianza del 95 % acerca del error máximo en la estimación, si se
utiliza la media muestral de 26.4 como estimación puntual del verdadero incremento del ritmo cardíaco
de los atletas?.
b) Construir un intervalo de confianza del 95 % para estimar el verdadero incremento del ritmo cardíaco.
Respuesta: (a) 1.48 (b) fluctúa entre 24.92 y 27.88 pulsaciones por minuto.
8. Una muestra aleatoria simple de 100 obreros de la industria metalmecánica de una región presenta un salario
quincenal promedio de $287000 con una desviación estándar de $48000. ¿Con qué nivel de confianza pode-
mos afirmar que el salario medio quincenal está entre $272000 y $302000? Si estamos dispuestos a aceptar
un nivel de confianza del 95 %, cual deberá ser el tamaño necesario de muestra.
Respuesta: 99.82 % y n = 39.
9. Un analista desea conocer el ingreso promedio de los hogares de un barrio que consta de 628 familias.
¿Cual deberá ser el tamaño de muestra necesario para poder estimar un intervalo de confianza del 95 % del
promedio del ingreso mensual, si el analista está dispuesto a aceptar un error máximo en la estimación de
$60000 mensuales y si por otra parte se sabe que la desviación estándar de los ingresos mediante una muestra
piloto está calculada en $242000 mensuales?
Respuesta: n = 63
10. En una muestra de 65 sujetos las puntuaciones en una escala de extroversión tienen una media de 32.7 puntos
y una desviación estándar de 12.64.
a) Calcular a partir de estos datos el correspondiente intervalo de confianza, a un nivel del 90 %, para la
media de la población.
b) Indicar, con un nivel de confianza del 95 %, ¿cuál sería el máximo error que podríamos cometer al
tomar como media de la población el valor obtenido en la estimación puntual?.
Respuesta: (a) fluctúa entre 30.06 y 35.34 (b) 3.16
11. Se administra un test estándar a una numerosa clase de estudiantes. La puntuación promedio de 100 estu-
diantes escogidos al azar fue de 75 puntos. Suponga que las puntuaciones tienen distribución normal con
varianza σ 2 = 2.5 y determine un intervalo de confianza del 95 % para la verdadera puntuación promedio.
Interprete el intervalo hallado.
68 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
12. Suponga que las estaturas de los hombres tienen distribución normal con desviación estándar de 6 cm. ¿De
qué tamaño se debe tomar la muestra si se desea determinar un intervalo de confianza del 95 % para la media
con un error de estimación 0.5?
13. Un técnico desea determinar el tiempo promedio que los operarios tardan en preparar sus equipos. ¿Qué
tamaño debe tener la muestra si se necesita una confianza del 95 % de que su media muestral estará dentro
de 15 segundos del promedio real? Suponga que por estudios anteriores se sabe que σ = 45 segundos.
14. Se desea estimar el peso promedio de un lote de 500 naranjas. Para ello se va a escoger aleatoriamente cierto
número de naranjas. Se desea que el error de estimación sea máximo de 2 onzas con un nivel de confianza
del 90 %. ¿Cuántas naranjas deben seleccionarse? Suponga que σ = 5.
15. Dada una variable aleatoria X con distribución normal y media µ y varianza 144. ¿De qué tamaño debe ser
la muestra aleatoria simple si la longitud del intervalo de confianza del 95 % es de 10?
16. Un ingeniero de control de calidad quiere estimar la fracción de elementos defectuosos en un gran lote de
lámparas. Por la experiencia, cree que la fracción real de defectuosos tendría que andar alrededor de 0.2.
¿Qué tan grande tendría que seleccionar la muestra si se quiere estimar la fracción real, exacta dentro de
0.01, utilizando un nivel de confianza fe 95 %?
Respuesta n = 6147.
17. La cantidad de hemoglobina en sangre del hombre sigue una distribución normal con desviación estándar de
2 g/dl. Calcula el nivel de confianza de una muestra de 12 extracciones de sangre que indique que la media
poblacional de hemoglobina en sangre está entre 13 y 15 gramos por decilitro.
Respuesta: 91.64 %
18. La duración media de unas bombillas sigue una distribución normal de media desconocida y desviación
estándar de 50 horas. Para estimar la duración media se experimenta con una muestra de tamaño n. Calcular
el valor de n para que, con un nivel de confianza del 95 %, se haya conseguido un error en la estimación
inferior a 5 horas.
Respuesta: n ≥ 385.
19. Se sabe por experiencia que la desviación estándar de la duración de cierto tipo de fusibles producidos por
una compañía es de 24.8 horas. Se toma aleatoriamente una muestra de 100 unidades de dicho tipo de fusible
y se encuentra que la misma presenta una media de 1685.2 horas.
a) Determine el intervalo de confianza para estimar la media de la duración con un nivel de confianza del
99 %.
b) ¿Cuál es el error máximo en la estimación?
c) Suponga que la muestra fue de tamaño 20 cuya media es 1685.2 horas y desviación estándar 24.8 horas.
Calcule el intervalo de confianza para estimar la media de la duración con un nivel de confianza del
99 %.
d) Si se quiere tener un máximo error en la estimación de 2 horas, cual debe ser el tamaño de la muestra.
Respuesta: (a) fluctúa entre 1678.8 y 1691.6 horas. (b) 6.4 (c) fluctúa entre 1.670.9 y 1.699.5 horas. (d)
n = 1023.
20. Un fabricante de fibras sintéticas desea estimar la tensión de ruptura media de una fibra. Se diseña un experi-
mento en el que se observan las tensiones medias de ruptura, en libras, de 16 hilos del proceso, seleccionados
aleatoriamente. Las tensiones son:
20.8, 20.6, 21.0, 20.9, 19.9, 20.2, 19.8, 19.6, 20.9, 21.1, 20.4, 20.6, 19.7, 19.6, 20.3, 20.7.
3.11 Ejercicios 69
Suponga que la tensión de ruptura de una fibra se encuentra modelada por una distribución Normal, construya
un intervalo al 98 % para el valor real de la tensión de ruptura promedio de la fibra.
21. La oficina de turismo de Cartagena está interesado en estimar la cantidad promedio de dinero que gastan los
turistas durante su estancia en la ciudad. Una encuesta llevada a cabo entre una muestra aleatoria simple de
turistas obtuvo los siguientes datos expresados en dolares:
150, 175, 163, 148, 142, 189, 135, 174, 168, 152, 158, 184, 134, 146, 155, 163.
Suponiendo que la cantidad gastada al día es una variable aleatoria Normal, obténganse los intervalos de
confianza para el promedio de dinero que gastan los turistas al día, estimados al 90, 95 y 98 %.
22. Para determinar el nivel medio de colesterol (en mg/dl) en la sangre de una población, se realizaron análisis
sobre una muestra de 8 personas, obteniéndose los siguientes resultados:
Hallar los intervalos de confianza para la media del nivel de colesterol con niveles de significación 0.1, 0.05
y 0.01. ¿Se puede afirmar que el nivel de colesterol medio de la población está por debajo de 210 mg/dl?
23. La cantidad de horas que duermen los estadounidenses cada noche varía mucho. Consideremos la siguiente
muestra de las horas que duermen cada noche 16 personas.
24. Se está realizando un estudio para determinar el grado de precisión de las medidas efectuadas por un aparato.
Para ello, se realizan 10 medidas, observándose que presentan una desviación estándar de 0.23 unidades.
Suponiendo Normalidad, obténgase un intervalo de confianza al 99 % para la desviación estándar de las
medidas llevadas a cabo por el aparato.
25. Se muestreó el contenido de vitamina C en mg de 100 gramos de jugo de tomate de 17 especímenes, enva-
sados comercialmente. Las concentraciones fueron las siguientes:
16 22 21 20 23 21 19 15 13 23 17 20 29 18 22 16 25
26. Los rendimientos de 10 plantas de fresa en un ensayo de uniformidad en gramos son los siguientes:
239 176 235 217 234 216 318 190 181 225
27. Se analiza la concentración de principio activo en una muestra de 10 envases tomados de un lote de un
fármaco, obteniendo los siguientes resultados en mg/mm3 :
70 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
17.6 19.2 21.3 15.1 17.6 18.9 16.2 18.3 19.0 16.4
a) Calcular el intervalo de confianza para la media de la concentración del lote con nivel de confianza del
95 %, 90 % y del 99 %.
b) Si definimos la precisión del intervalo como la inversa de su amplitud, ¿cómo afecta a la precisión
del intervalo de confianza el tomar niveles de significación cada vez más altos? ¿Cuál puede ser la
explicación?
c) Si, para que sea efectivo, el fármaco debe tener una concentración mínima de 16 mg/mm3 de principio
activo, ¿se puede aceptar el lote como bueno? Justificar la respuesta.
28. Una fábrica produce barras de hierro cuya longitud sigue una distribución Normal. A partir de la muestra
100.9, 101.2, 100.2, 100.4, 99.8, 100.1, 101.5, 100.4, 101.7, 99.5.
29. El tiempo que transcurre para los obreros de una gran compañía entre el momento del ingreso a la planta y el
momento en que están listos para recibir las orientaciones de su jefe inmediato, se distribuye normalmente.
Una muestra de 20 obreros arroja una desviación estándar de 3.5 minutos. Calcular el intervalo de confianza
del 99 % para la desviación estándar del tiempo transcurrido para todos los obreros de la compañía.
Respuesta: fluctúa entre 2.45 y 5.83 minutos.
30. Una industria de muebles compró un lote de piezas de madera de 1 metro de longitud según el vendedor. La
industria con el fin de comprobar la exactitud de dicha medida tomó una muestra aleatoria simple de dicho
lote y encontró las siguientes medidas: 0.99, 1.04, 0.98, 0.97, 1.02, 1.01, 0.99, 0.95, 1.03, 1.02.
Calcular el intervalo de confianza del verdadero promedio de longitud del lote con un nivel de confianza del
90 %.
Respuesta: fluctúa entre 0.988 y 1.012 metros.
31. Se quiere estimar el peso promedio de 500 peces listos para exportación. Si para ello se va a tomar una
muestra aleatoria simple, ¿cual deberá ser el tamaño de ésta, si se desea un máximo error en la estimación
de 2 onzas con un nivel de confianza del 90 %? Se sabe que la desviación estándar poblacional es de 10.
Respuesta: n = 62.
32. Una muestra aleatoria simple de 8 pedidos que le hacen a una compañía, nos muestra que los mismos
demoraron en ser atendidos así: 10, 12, 19, 14, 15, 18, 11 y 13 días. Construir el intervalo de confianza del
99 % para la desviación estándar del tiempo que tarda la compañía en atender la orden.
Respuesta: fluctúa entre 1.76 y 7.98 días.
33. Se ha recogido una muestra aleatoria simple para prever la inflación en el año, en siete países. Las previsiones
han sido
1.5 2.1 1.9 2.3 2.5 3.2 3.0
a) Utilizando estos datos, construye un intervalo de confianza del 99 % para la media de la previsión de
inflación, en estos siete países. Indica los supuestos que necesitas hacer.
b) Construye un intervalo de confianza, también del 90 %, para la desviación estándar.
3.11 Ejercicios 71
c) Los expertos opinan que el intervalo de confianza calculado para la media es demasiado amplio, y
desean que su longitud total sea de 1.2 puntos. Hallar el nivel de confianza para este nuevo intervalo.
Respuesta: (a) fluctúa entre 1.6 y 3.2 (b) fluctúa entre 0.4 y 1.1 (c) 80 %.
34. Se midió el nivel de carotina en la sangre de 17 terneros de la raza Guernsey al nacer. Encuentre el intervalo
de confianza para la media y la varianza (α = 0.05).
6.7, 8.9, 4.5, 4.3, 6.3, 2.9, 4.8, 3.6, 5.6, 5.6, 5.8, 4.6, 5.3, 6.1, 2.5, 4.8, 2.5.
35. Los siguientes datos corresponden a los pesos de 15 hombres escogidos al azar: 72, 68, 63, 75, 84, 91,
66, 75, 86, 90, 62, 87, 77, 70, 69. Obtenga e interprete un intervalo de confianza del 95 % para el
verdadero peso promedio.
36. Se obtiene una muestra de 16 estudiantes con una media de 68 y una varianza de 9 en un examen de es-
tadística. Suponga que las calificaciones tienen distribución normal y determine un intervalo del 98 % de
confianza para σ 2 .
37. Cierto ángulo facial de la quijada de 27 niños de 8 a 12 años de edad se midieron. Los datos dan los siguientes
resultados:
Xn Xn
Xi = 2302.5 y Xi2 = 196706.25
i=1 i=1
38. Se desea estimar la fuerza promedio requerida para levantar un niño de seis años. Como no se tenía informa-
ción sobre la varianza de esta población se procedió a tomar una muestra piloto para estimarla; los resultados
fueron los siguientes: 2.24, 2.26, 2.47, 1.56, 1.72, 1.48, 2.40, 2.03, 1.72, 2.10, 1.74, 1.55. Si
se desea estimar un intervalo del 95 % de confianza con un error de estimación de 0.1. ¿De qué tamaño se
debe escoger la muestra?
39. Se sabe que el consumo semanal de refrescos (en litros) entre los jóvenes de una ciudad es una variable
normal con desviación estándar igual a 0.6 litros. Se pregunta a 100 jóvenes sobre su consumo semanal de
refrescos y se obtiene una media muestral de 1.5 litros.
a) Hallar el intervalo de un nivel de confianza del 95 % para la media de consumo semanal de refrescos
de la población de jóvenes.
b) Si se acepta un error de 0.1 litros y se toma un nivel de confianza del 99 %, ¿cuál es el tamaño de la
muestra de jóvenes que habría que considerar?.
Respuesta: (a) fluctúa entre 1.38 y 1.62. (b) 240.
40. Estima puntualmente y mediante un intervalo de confianza, la cantidad media de gastrina, en mujeres ges-
tantes, entre 15 y 25 semanas de gestación, mediante los datos siguientes:
39 49 35 39 34 21 49 40 35 38
Consideraremos que los valores de gastrina se distribuyen normalmente. Utiliza un nivel de confianza del
95 %.
Sabemos que para un nivel de confianza fijo, mientras más estrecho es el intervalo, más deseable es. ¿Qué
podríamos hacer para obtener, en nuestro problema, una reducción de la anchura del intervalo?
Respuesta: x = 37.9; fluctúa entre 32.2029 y 43.5971
72 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
41. Un dermatólogo investiga cierto tipo de afección de piel induciéndolo en una muestra aleatoria simple de 25
ratas y tratándolas luego con un nuevo fármaco. Se cuenta el número de horas hasta que desaparece dicha
afección, con los resultados siguientes:
Supondremos que el número de horas hasta que desaparece la afección se distribuye normalmente.
a) Estima el número medio de horas que tarda en desaparecer la afección dermatológica con el nuevo
fármaco. ¿Cuál es el error máximo de esta estimación? Utiliza un nivel de confianza del 95 %.
b) Si repetimos este experimento exactamente en las mismas condiciones, la longitud del intervalo que
obtendríamos, ¿sería la misma?. Razona la respuesta.
c) Supongamos ahora que σ = 32 horas. Calcula un intervalo de confianza al 90 % para el número
medio de horas que tarda en desaparecer la afección dermatológica. En estas condiciones, ¿qué tamaño
de muestra se necesitaría para tener el 90 % de confianza de que la media se estima dentro de ±5 horas?
Respuesta: (a) fluctúa entre 115.488 y 148.512. Error=16.512. (b) 240. (c) fluctúa entre 121.504 y 142.496.
n = 111.
42. Estudiando la estatura de los individuos de una población, dos investigadores escogieron, independientemen-
te el uno del otro, dos muestras de 16 y 400 individuos, respectivamente. La muestra de 16 individuos dio
una estatura media de 172.94 cm. y una desviación estándar muestral de 3.3 cm. La muestra de tamaño 400
dio una media de 172.23 cm y una desviación estándar de 2.5 cm. Supongamos que la estatura se distribuye
normalmente.
a) Calcula un intervalo de confianza para la estatura media de la población, en el caso de la muestra de
tamaño 16, para una confianza del 95 %.
b) Ídem para la muestra de tamaño 400.
c) Si nos preguntasen acerca de la estatura media de la población, ¿cuál de las dos experiencias elegiría-
mos para responder?. Razona la respuesta.
Respuesta: (a) fluctúa entre 171.18 y 174.70. (b) fluctúa entre 171.99 y 172.48.
43. Los valores de LH, obtenidos en una muestra aleatoria simple, de mujeres en estado de gestación son los
siguientes:
162 222 245 195 204 240 157 164 183 192
179 191 192 171 146 147 131 248 176 207
(Los valores están expresados en mlU/ml y están redondeados). Suponiendo que los valores de LH se distri-
buyen normalmente, obtén un intervalo que contenga, con una gran confianza, el 95 % de los valores de LH
de mujeres gestantes. Interpreta el resultado obtenido.
Respuesta: fluctúa entre 82.64 y 292.56 al 99 %.
44. Los datos de la tabla adjunta corresponden al peso total del corazón en un grupo de 10 hombres normales y
11 con enfermedad de corazón (valores tomados en autopsias realizadas en un determinado hospital).
Suponiendo normalidad de la variable, construye un intervalo de confianza, para un nivel de confianza del
99 %, para la varianza del peso total del corazón de hombres con la enfermedad. Ídem para hombres norma-
les.
Enfermos 450 760 325 495 285 450 460 375 310 615 425
Normales 245 350 340 300 310 270 300 360 405 290
3.11 Ejercicios 73
30, 30, 26, 32, 30, 23, 29, 31, 3630, 25, 34, 32, 24, 28, 27, 38, 31, 34, 30.
46. El contenido de celulosa de 7 frutos tomados al azar en una determinada especie es, en unidades arbitrarias:
10.2, 10.4, 9.8, 10.8, 10.2, 10 y 9.6. Calcular un Intervalo de Confianza al 95 % para la media de tal contenido,
suponiendo que se trata de una variable con distribución normal. ¿Cuántas observaciones necesitaremos para
tener una confianza del 95 % de que el error máximo cometido por la estimación puntual sea de 0.1?.
47. Una muestra aleatoria simple de 5000 obreros de una ciudad arrojó que 188 de ellos eran hombres que vivían
en unión libre. Calcular el intervalo de confianza del 90 % para la verdadera proporción de éste tipo de unión
entre la totalidad de obreros de la ciudad.
Respuesta: fluctúa entre 3.32 % y 4.20 % de los hombres.
48. Un supermercado utiliza vales de consumo entre sus clientes. Se toma una muestra aleatoria simple de 500
clientes la cual presenta una proporción de utilización de vales de consumo del 68 %. Calcular el nivel de
confianza del 99 % para estimar la proporción para la totalidad de los clientes del supermercado que utilizan
vales de consumo.
Respuesta: [62.6 %; 73.3 %].
49. En una muestra aleatoria simple de 160 trabajadores expuestos a cierta cantidad de radiación 24 experimenta
efectos nocivos. Construir el intervalo de confianza del 99 % para la verdadera proporción poblacional.
Respuesta: fluctúa entre 7.7 % y 22.3 %.
50. De una muestra aleatoria simple de 200 comparendos por infracciones de tránsito, 84 de ellos se debieron
al uso del celular por parte del conductor sin el uso de manos libres mientras el vehículo estaba en marcha.
Construya un intervalo de confianza del 95 % para la proporción real por el uso indebido del celular. ¿Cuál
debió ser el tamaño de muestra necesario para que el error de estimación solo sea de 0.02(2 %)?
Respuesta: fluctúa entre 35.2 y 48.8 % y n = 2339.
51. En una muestra aleatoria simple de 400 accidentes en empresas de la industria de la madera 128 tuvieron su
origen en sierras circulares. Con qué nivel de confianza podríamos calcular un intervalo de confianza para la
verdadera proporción de accidentes con origen en la sierra circular, si queremos tener un máximo error en la
estimación hacia arriba o hacia debajo de la verdadera proporción del 2 %(0.02).
Respuesta: El nivel de confianza es del 61.02 %.
52. Con el propósito de estimar la proporción de estudiantes regulares que asistirán a los cursos intermedios, los
profesores analizaron una muestra aleatoria simple de 200 estudiantes. Cuarenta y cinco de estos indicaron
que asistirían. Construya e interprete un intervalo de confianza del 90 % para la verdadera proporción de los
que asistirán a los cursos intermedios.
53. Un químico ha preparado un producto diseñado para matar el 80 % de un tipo particular de insectos; ¿de qué
tamaño debe escoger la muestra para estimar la verdadera proporción si se requiere un intervalo del 95 % y
un error de estimación del 2 %?
74 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
54. En una población de 10000 niños se desea hacer una campaña de vacunación. Se quiere saber cuántas
vacunas deben preverse, con un 95 % de confianza, si de una muestra aleatoria simple de 90 encuestados 30
estaban vacunados.
55. Se desea estimar la proporción de estudiantes que están a favor de la legalización de las drogas prohibidas.
El error de estimación se requiere del 1 % y un nivel de confianza del 99 %. ¿Cuántos estudiantes deben
incluirse en la muestra?
56. El jefe de personal de una empresa desea realizar una encuesta para determinar la proporción de trabajadores
que está a favor de un cambio en el horario de trabajo. Como es imposible consultar a los 500 trabajadores
en un lapso razonable, procede a escoger aleatoriamente cierto número de trabajadores para entrevistarlos;
determine el número de trabajadores que debe entrevistarse si desea que la proporción estimada presente un
error máximo del 5 % y un nivel de confianza del 95 %.
57. En una prueba sobre la leucemia en ratones AKR, se toma una muestra testigo de 56 ratones, (ratones sin
ningún tratamiento), de los cuales aparecieron 45 leucémicos.
a) Calcula una estimación puntual de la proporción de ratones con leucemia.
b) Calcula un intervalo de confianza, al 95 %, para la proporción anterior. Interpreta el resultado.
Respuesta: (a) 0.8. (b) fluctúa entre 0.67 y 0.93.
58. En un muestreo llevado a cabo en una amplia región se tomaron 125 individuos, al azar, de los cuales 30
padecieron afecciones pulmonares.
a) Calcula un intervalo de confianza, al 95 %, para la verdadera proporción de afecciones pulmonares en
dicha región.
b) Si queremos estimar dicha proporción con un error máximo del 4 %, para una confianza del 95 %, ¿qué
tamaño de muestra debemos tomar?.
Respuesta: (a) fluctúa entre 0.165 y 0.315. (b) n = 601.
59. En una muestra aleatoria simple de 500 familias que tienen televisores en una ciudad, se encuentra que 340
están suscritas a HBO. ¿Qué tan grande se requiere que sea una muestra si se quiere tener 95 % de confianza
de que la estimación de p esté dentro de 0.02?
Respuesta n = 2090.
60. De un lote muy grande de piezas se extrae aleatoriamente una muestra de 200 elementos. De esa muestra,
8 piezas resultan defectuosas. Llamando p a la probabilidad de que una pieza sea defectuosa, encontrar
intervalos de confianza de nivel 0.9, 0.95 y 0.99 para p. Indicar si tiene sentido suponer que el verdadero
valor del parámetro p es 0.1.
61. Tomada al azar una muestra de 60 alumnos de una Universidad se encontró que un tercio hablaban inglés.
a) Hallar con un nivel de confianza del 90 % un intervalo para estimar la proporción de alumnos que
hablan inglés entre los alumnos de esa Universidad.
b) A la vista del resultado anterior se pretende repetir la experiencia para conseguir una cota de error del
0.01 con el mismo nivel de confianza del 90 %. ¿Cuántos individuos ha de tener la muestra?
Respuesta: a) (0.2333; 0.2433); b) 6014 alumnos
62. En una encuesta realizada en una facultad, sobre si el alumnado utiliza habitualmente (al menos una vez a la
semana) la biblioteca de la misma, se han obtenido los siguientes resultados, en los que se ha anotado 1 si la
respuesta ha sido positiva y 0 si ha sido negativa:
3.11 Ejercicios 75
Alumno 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Respuesta 0 1 0 0 0 1 0 1 1 1 1 0 1 0 1 0 0
Alumno 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
Respuesta 0 1 1 1 0 0 1 0 0 1 1 0 0 1 0 1 0
a) Calcular el intervalo de confianza con α = 0.01 para la proporción del alumnado que utiliza habitual-
mente la biblioteca.
b) ¿Qué interpretación tiene dicho intervalo? ¿Cómo es su precisión?
c) ¿Se puede afirmar con un 95 % de confianza que las mujeres visitan la biblioteca más a menudo que
los hombres?
63. A las siguientes elecciones locales en una ciudad se presentan tres partidos: A, B y C. Con el objetivo de
hacer una estimación sobre la proporción de voto que cada uno de ellos obtendrá, se realiza una encuesta
en la que responden 300 personas, de las cuales 60 piensan votar a A, 80 a B, 90 a C, 15 en blanco y 55
abstenciones. Calcular un intervalo de confianza para la proporción de votos, sobre el total del censo, de
cada uno de los partidos que se presentan.
64. Hacemos un estudio comparativo del contenido graso de 2 marcas diferentes de productos comerciales.
Utilizamos dos muestras, cada una de tamaño 7, que podemos suponer a efectos prácticos que provienen de
dos poblaciones normales con la misma varianza desconocida. Los resultados producen medias muestrales
con valores 4.8 y 5.4 g, respectivamente y las varianzas muestrales son 8.38 y 7.62, respectivamente. Usando
un intervalo de confianza a un nivel del 95 %, determinar si ambos productos poseen el mismo contenido
graso medio.
65. Dos universidades siguen métodos distintos a la hora de matricular a sus alumnos. Para comparar el tiempo
que los alumnos tardan en completar los trámites de matrícula se seleccionó al azar una muestra de 100
alumnos de cada universidad, obteniéndose los siguientes resultados, expresados en minutos,
Supuesto que ambas muestras son independientes y procedentes de poblaciones Normales, obténganse los
intervalos al 90, 95 y 99 % para la diferencia de las medias del tiempo de matrícula.
66. Un agricultor siembra, en cinco parcelas diferentes, dos tipos de maíz híbrido. Las producciones, en quintales
métricos por hectáreas, son:
1 2 3 4 5
Híbrido I 90 85 95 76 80
Híbrido II 84 87 90 92 90
67. Se quiere estudiar el comportamiento de una nueva variedad de trigo. Para ello se seleccionan 10 parcelas y
en cada una de ellas se siembra trigo de una variedad tradicional y de la nueva variedad. Los kilos de trigo
recogidos de las dos variedades en cada parcela son:
Tradicional 23 35 29 42 33 19 37 24 35 26
Nueva 26 39 35 40 38 24 36 27 41 27
76 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
Obtener un intervalo de confianza del 95 % para la diferencia media de la producción entre las variedades,
supuesta dicha diferencia normal.
68. Para estudiar la diferencia de estaturas medias, medidas en centímetros, de estudiantes varones en las facul-
tades de ciencias de la Universidad de Cartagena y de la Universidad Nacional, se toma una muestra aleatoria
simple de 15 estudiantes en cada facultad, obteniéndose:
U. de Cartagena: 182, 170, 175, 167, 171, 174, 181, 169, 174, 174, 170, 176, 168, 178, 180
U. Nacional 181, 173, 177, 170, 170, 175, 169, 169, 171, 173, 177, 182, 179, 165, 174
Obtenga el intervalo de confianza al 99 % para la diferencia de estaturas medias entre ambos colectivos de
estudiantes. Se supone que las estaturas siguen una distribución Normal.
69. Para averiguar si el calor disipado por el funcionamiento de un procesador afecta a su eficiencia se miden
los tiempos de espera para ciertas operaciones al encender el ordenador y tras dos horas de funcionamiento
de este. Se obtiene:
Xi 169.7 168.5 165.9 177.8 179.6 168.9 169.2 167.9 181.8 163.3
Yi 168.2 165.5 164.4 175.7 176.6 166.1 167.1 166.3 179.7 161.5
Calcular un intervalo de confianza del 95 % para la diferencia media del tiempo de ejecución.
70. Se ha realizado un estudio para investigar el efecto del ejercicio físico en el nivel de colesterol en la sangre.
En el estudio participaron once personas, a las que se les midió el nivel de colesterol antes y después de
desarrollar un programa de ejercicios. Los resultados obtenidos fueron los siguientes:
Nivel Previo 182 232 191 200 148 249 276 213 241 280 262
Nivel Posterior 198 210 194 220 138 220 219 161 210 213 226
a) Hallar el intervalo de confianza del 90 % para la diferencia del nivel medio de colesterol antes y después
del ejercicio.
b) A la vista de dicho intervalo, ¿se concluye que el ejercicio físico disminuye el nivel de colesterol con
una confianza del 90 %?
71. Se está realizando un estudio sobre la evolución del nivel de colesterol de las personas, para lo cual se
seleccionan 10 individuos al azar y se les somete a una nueva dieta alimenticia durante seis meses, tras la
cual se les volvió a medir el nivel de colesterol en mg/dl. Suponiendo normalidad, obtenga un intervalo de
confianza al 90 % para la diferencia de medias.
Antes 200 156 178 241 240 256 245 220 235 200
Después 190 145 160 240 240 255 230 200 210 195
72. Se pretende conocer la influencia de un tratamiento con metil-dopa sobre pacientes hipertensos. Para ello se
toman 10 pacientes hipertensos a los que se les mide la presión sanguínea. Posteriormente se les administra
el tratamiento y se les vuelve a medir la presión una semana después. Los datos de la presión sanguínea antes
y después de la administración del tratamiento están en la siguiente tabla:
Antes 200 194 236 163 240 225 203 180 177 240
Después 188 212 186 150 200 222 190 154 180 225
3.11 Ejercicios 77
Para probar la efectividad del fármaco, queremos medir la diferencia, D, entre la presión sanguínea inicial
2
y final para cada persona. Supongamos que D está normalmente distribuida con media µD y varianza σD ,
ambas desconocidas.
2
Estimar puntualmente y mediante un intervalo de confianza µD y σD .
2
Respuestas: d = 15.1, sd = 393.88; fluctúa entre 0.9 y 29.3; fluctúa entre 186.27 y 1313.42.
73. Un equipo de investigación biológica está interesado en ver si una nueva droga reduce el colesterol en la
sangre. Con tal fin toma una muestra de diez pacientes y determina el contenido de colesterol en la sangre
antes y después del tratamiento. Los datos muestrales expresados en miligramos por 100 mililitros son los
siguientes:
Paciente 1 2 3 4 5 6 7 8 9 10
Antes 217 252 229 200 209 213 215 260 232 216
Después 209 241 230 208 206 211 209 228 224 203
Construir un intervalo de confianza del 95 % para la diferencia del contenido medio de colesterol en la sangre
antes y después del tratamiento.
Respuesta: fluctúa entre - 0,17 y 14,97. El intervalo abarca el cero, por lo que no existe diferencia significativa
en la diferencia del contenido medio del colesterol antes y después del tratamiento, con una confianza del
95 %.
74. Para ver si una campaña de publicidad sobre un fármaco ha influido en sus ventas, se tomó una muestra de 8
farmacias y se midió el número de unidades de dicho fármaco vendidas durante un mes, antes y después de
la campaña, obteniéndose los siguientes resultados:
75. En una compañía se quiere estimar la diferencia de los promedios de los rendimientos para producir cierta
pieza por parte de los obreros en dos turnos diferentes. Para tal fin el Jefe de producción de la empresa toma
muestras de 32 obreros para el turno 1 y encuentra que la media en la misma es de 20 minutos mientras
que la desviación estándar es de 2.8 minutos. Por otra parte tomó una muestra de 35 obreros del turno 2 y
encuentra que la media de la misma es de 22 minutos mientras que la desviación estándar es de 1.9 minutos.
Calcular el intervalo de confianza de la diferencia de las medias de los rendimientos en los dos turnos con
un nivel de confianza del 90 %.
Respuesta: fluctúa entre −2.99 y −1.01 minutos.
76. Resolver el problema 75 asumiendo que los rendimientos de los obreros en ambos turnos se comportan
normalmente y que el tamaño de muestra para el turno 1 fue de 25 obreros y el tamaño de muestra para el
turno 2 fue de 17 obreros. Calcular el intervalo de confianza con un nivel de confianza del 95 %.
Respuesta: fluctúa entre −3.57 y −0.42 minutos.
78 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
77. El peso de bolsas de aceitunas de dos marcas se distribuye N(300, σi2 ). Para la primera marca se obtiene
(n1 = 10): 300, 290, 280, 307, 305, 295, 299, 305, 300, 307. Para la segunda (n2 = 12): 280, 300, 307,
290, 285, 295, 300, 260, 290, 300, 304, 298. Hallar un intervalo del 90 % para el cociente de varianzas.
78. Se toman dos muestras aleatorias simples de tamaños n1 = 15 y n2 = 10 de dos termómetros diferentes. Las
medias y las varianzas muestrales son x1 = 300; sb21 = 16; x2 = 305 y sb22 = 49. Suponiendo normalidad,
construya un intervalo de confianza del 95 % para µ1 − µ2 ¿Qué conclusión puede obtenerse sobre las
lecturas de temperatura promedio de los dos termómetros?.
79. Se quiere estimar la diferencia de los promedios de los salarios entre la industria metalmecánica y la in-
dustria de los muebles en una ciudad. Para tal fin se toma una muestra aleatoria simple de 200 operarios
en la primera industria la cual arroja un salario promedio de $535000 mensuales y desviación estándar de
$128000, mientras que una muestra de 120 operarios en la segunda industria arroja un salario promedio de
$492000 y desviación estándar de $75000. Estimar el intervalo de confianza para la diferencia de salarios
entre las dos industrias con un nivel de confianza del 90 %.
Respuesta: fluctúa entre $23934 y $62066.
80. En una empresa dedicada al engorde de pollos para la venta se toma una muestra de 400 con una edad de 3
meses y el 60 % de ellos presentan un peso de más de 3 libras. Un año después la empresa decide introducir
unos cambios en la alimentación y en algunas técnicas recomendadas por una casa veterinaria y más tarde
cuando los cambios se suponía que habían hecho efecto, tomó una muestra aleatoria simple de 600 pollos
con una edad de 3 meses y encontró que el 40 % de ellos pesaban más de 3 libras. Calcular un intervalo de
confianza del 95 % para la verdadera diferencia de proporciones antes y después del nuevo tratamiento.
Respuesta: fluctúa entre 13.8 % y 26.2 %.
81. Un profesor de estadística realiza un idéntico cuestionario a dos grupos de estudiantes de dos universidades
diferentes de la misma ciudad. En una muestra aleatoria simple de 9 estudiantes de la universidad A, el
promedio de notas fue de 7.5 y desviación estándar de 0.4. En otra muestra aleatoria simple de 9 estudiantes
de la universidad B la media de las notas fue de 6.7 y desviación estándar de 0,6. Calcular los límites de
confianza del 95 % para la diferencia de medias de las notas entre las dos universidades. Se sabe que la escala
de calificación es de 0 a 10.
Respuesta: fluctúa entre 0.28 y 1.32.
82. Una muestra aleatoria simple de tamaño n1 = 16 que se tomó de una población con una desviación estándar
σ1 = 5 tiene una media x1 = 80. Una segunda muestra aleatoria simple de tamaño n2 = 25 tomada de
una población normal diferente con una desviación estándar σ2 = 3, tiene media x2 = 75. Encuentre un
intervalo de confianza del 95 % para µ1 − µ2 . De acuerdo con el intervalo hallado, ¿hay evidencia de que las
dos medias son iguales?
83. Se ha sometido a una prueba de tensión de ruptura a una muestra aleatoria simple de 12 elementos de una
cierta aleación A, obteniéndose los resultados:
428; 419; 458; 439; 441; 456; 463; 429; 438; 445; 441; 463.
Se ha sometido a la misma prueba a una muestra aleatoria simple de 12 elementos de otra aleación B,
obteniéndose los resultados:
462; 448; 435; 465; 429; 472; 453; 459; 427; 468; 452; 447.
a) Calcular intervalos de confianza al 95 y 99 por ciento para las medias y las varianzas de cada una de
las aleaciones.
b) Calcular un intervalo de confianza sobre el cociente de varianzas al 90 por ciento.
c) Suponiendo que las varianzas de las dos poblaciones son iguales, calcular los intervalos de confianza
para la diferencia de medias al 95 y al 99 por ciento.
84. Se llevan a cabo pruebas de resistencia a la tensión sobre dos diferentes clases de largueros de aluminio
utilizados en la fabricación de alas de aeroplanos comerciales. De la experiencia pasada con el proceso
de fabricación se supone que las desviaciones estándar de las resistencias a la tensión son conocidas. La
desviación estándar del larguero 1 es de 1.0 kg/mm2 y la del larguero 2 es de 1.5 kg/mm2 . Se sabe que el
comportamiento de las resistencias a la tensión de las dos clases de largueros son aproximadamente normal.
Se toma una muestra de 10 largueros del tipo 1 obteniéndose una media de 87.6 kg/mm2 , y otra de tamaño
12 para el larguero 2 obteniéndose una media de 74.5 kg/mm2 . Estime un intervalo de confianza del 90 %
para la diferencia en la resistencia a la tensión promedio.
Respuesta: fluctúa entre 12.22 y 13.98.
85. Se quiere estudiar la tasa de combustión de dos propelentes sólidos utilizados en los sistemas de escape de
emergencia de aeroplanos. Se sabe que la tasa de combustión de los dos propelentes tiene aproximadamente
la misma desviación estándar; esto es s1 = s2 = 3cm/s. ¿Qué tamaño de muestra debe utilizarse en cada
población si se desea que el error en la estimación de la diferencia entre las medias de las tasas de combustión
sea menor que 4cm/s con una confianza del 99 %?
Respuesta n = 8.
86. Una central de productos lácteos recibe diariamente la leche de dos granjas X e Y . Para analizar la calidad
de la leche, durante una temporada, se controla el contenido de materia grasa de la leche que proviene de
ambas granjas, con los siguientes resultados:
X Y
0.34 0.34 0.28 0.29
0.32 0.35 0.30 0.32
0.33 0.33 0.32 0.31
0.32 0.32 0.29 0.29
0.33 0.30 0.31 0.32
0.31 0.32 0.29 0.31
0.33 0.32
0.32 0.33
a) Calcular el intervalo de confianza con un 95 % de confianza para el contenido medio de materia grasa
de la leche sin tener en cuenta si la misma procede de una u otra granja.
b) Calcular los intervalos de confianza con un 95 % de confianza para el contenido medio de materia grasa
de la leche dividiendo los datos según la granja de procedencia de la leche.
c) A la vista de los intervalos obtenidos en el punto anterior, ¿se puede concluir que existen diferencias
significativas en el contenido medio de grasa según la procedencia de la leche? Justificar la respuesta.
A B
263.36 254.68 286.53 254.54
248.64 276.32 284.55 286.30
243.64 256.42 272.52 282.90
272.68 261.10 283.85 253.75
287.33 268.41 252.01 245.26
287.26 282.65 275.08 266.08
250.97 284.27 267.53 252.05
253.82 269.81
a) Calcular el intervalo de confianza para la media de la diferencia de actividad detectada por cada uno de
los químicos con un 95 % de confianza.
b) ¿Se puede decir que existen diferencias significativas en la media de actividad detectada por cada
químico?
88. De una muestra aleatoria simple de 12 economistas en una Universidad pública, los sueldos de su primer
empleo fueron los siguientes (expresados en miles de dólares)
26.2 29.3 31.3 28.7 27.4 25.1 26.0 27.2 27.5 29.8 32.6 34.6
De otra muestra aleatoria simple independiente de 10 economistas en una Universidad privada los primeros
sueldos fueron los siguientes
25.3 28.2 29.2 27.1 26.8 26.5 30.7 31.3 26.3 24.2
Discutir si existen diferencias entre los sueldos de los economistas de Universidades públicas y privadas.
89. A partir de una muestra de 150 enfermos escogidos entre los admitidos en un hospital durante un periodo
de tres años, se observó que 129 tenían algún tipo de seguro hospitalario. En un segundo hospital, se tomó
otra muestra de 160 individuos, extraída de forma similar, de los cuales 144 tenían algún tipo de seguro.
Encuentre los intervalos al 90, 95 y 99 % de confianza para la diferencia de proporciones.
90. A partir de una muestra de 150 enfermos escogidos entre los admitidos en un hospital durante un periodo
de tres años, se observó que 129 tenían algún tipo de seguro hospitalario. En un segundo hospital, se tomó
otra muestra de 160 individuos, extraída de forma similar, de los cuales 144 tenían algún tipo de seguro.
Encuentre los intervalos al 90, 95 y 99 % de confianza para la diferencia de proporciones.
91. En una encuesta tomada entre estudiantes universitarios, 300 de 500 que viven en el recinto universitario
apoyan cierta proposición, mientras que de los 100 estudiantes que viven fuera del recinto universitario
64 apoyan la citada proposición. Calcule e interprete un intervalo de confianza del 95 % para la verdadera
diferencia de proporciones de los que apoyan la proposición. De acuerdo con el intervalo hallado, ¿que se
puede decir sobre la igualdad entre las proporciones?
Respuesta: fluctúa entre −14.3 % y 6.3 %.
92. Una compañía de productos alimenticios contrató a una empresa de investigación de mercadotecnia, para
muestrear dos mercados, I y II, a fin de comparar las proporciones de consumidores que prefieren la comida
congelada de la compañía con los productos de sus competidores. No hay información previa acerca de la
magnitud de las proporciones p1 y p2 . Si la empresa de productos alimenticios quiere estimar la diferencia
dentro de 0.04, con una probabilidad de 0.95, ¿ cuántos consumidores habrá que muestrear en cada mercado?
Respuesta n = 1201.
3.11 Ejercicios 81
93. El decano registró debidamente el porcentaje de calificaciones D y F otorgadas a los estudiantes por dos
profesores universitarios de matemáticas. El profesor I alcanzó un 32 %, contra un 21 % para el profesor II,
con 200 y 180 estudiantes, respectivamente. Estime la diferencia entre los porcentajes de calificaciones D y
F otorgadas por los dos profesores. Utilice un nivel de confianza del 95 % e interprete los resultados.
Respuesta: fluctúa entre 0.0222 y 0.1978.
95. En una encuesta realizada en los dos hospitales de una ciudad, se pregunta a los pacientes hospitalizados
cuando salen del hospital por si consideran que el trato recibido ha sido correcto. En el primero de ellos se
pregunta a 100 pacientes y 70 responden que sí, mientras que en el segundo, se pregunta a 150 pacientes y
80 responden que sí.
a) Calcular el intervalo de confianza para la diferencia de proporciones de pacientes satisfechos con el
trato recibido.
b) ¿Hay pruebas significativas de que el trato recibido en un hospital es mejor que en el otro?
96. El Ministerio de Salud está interesado en la elaboración de un intervalo de confianza para la proporción
de personas mayores de 65 años con problemas respiratorios que han sido vacunadas en una determinada
ciudad. Para ello, después de preguntar a 200 pacientes mayores de 65 años con problemas respiratorios en
los hospitales de dicha ciudad, 154 responden afirmativamente.
a) Calcular el intervalo de confianza al 95 % para la proporción de pacientes vacunados.
b) Si entre los objetivos del Ministerio se encontraba alcanzar una proporción del al menos un 70 %
de vacunados en dicho colectivo, ¿se puede concluir que se han cumplido los objetivos? Justificar la
respuesta.
97. Para tratar un determinado síndrome neurológico se utilizan dos técnicas A y B. En un estudio se tomó una
muestra de 60 pacientes con dicho síndrome y se le aplicó la técnica A a 25 de ellos y la técnica B a los
35 restantes. De los pacientes tratados con la técnica A, 18 se curaron, mientras que de los tratados con la
técnica B, se curaron 21. Calcular un intervalo de confianza del 95 % para la proporción de curaciones con
cada técnica. ¿Qué intervalo es más preciso?
98. Un profesor universitario ha tenido dos grupos de clase a lo largo del año; uno con horario de mañana y otro
de tarde. En el de mañana, sobre un total de 80 alumnos, han aprobado 55; y en el de tarde, sobre un total de
90 alumnos, han aprobado 32. Calcular el intervalo para la diferencia de proporciones de alumnos aprobados
en cada grupo.
99. Una empresa se dispone a comercializar un nuevo producto y estudia la conveniencia de lanzar una campaña
publicitaria previa. Para averiguar si el porcentaje de personas que comprarían el producto aumentaría con
esta campaña se llevaron a cabo dos encuestas distintas. La primera encuesta se realizó sobre 100 personas
que no habían visto la campaña publicitaria, de las cuales 25 se mostraron interesadas en la compra del
producto. En la segunda encuesta, las 100 personas visualizaron previamente la publicidad antes de respon-
der si comprarían el producto, resultando que un total de 30 personas afirmaron su intención de adquirir el
producto.
82 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
100. Partiendo de una muestra aleatoria simple de tamaño n, construya un intervalo de confianza utilizando la
desigualdad de Chebychev con un nivel 1 − α para el parámetro θ de las siguientes ditribuciones:
a) B(θ).
b) U (0, θ).
c) N(0, θ).
101. A partir de una muestra de tamaño 100, cuya media fue 0.37, obtenga un intervalo de confianza del 92.5 %
para el parámetro de una distribución B(1, p).
102. Una empresa cosmética se plantea lanzar al mercado un nuevo producto para hombre y quiere saber qué
proporción θ de hombres de un grupo de edad comprarán ese producto. Dado que una pregunta directa
puede no obtener una respuesta sincera, se opta por un procedimiento de respuesta aleatorizada mediante el
cual el encuestador nunca puede saber la respuesta dada por el encuestado.
Cada encuestado lanza un dado sin que el encuestador vea el resultado. Según el resultado obtenido, habría
de codificar su respuesta (“Sí, compraré el nuevo producto” o “No, no compraré el nuevo producto”) como
A, B o C, según la siguiente tabla:
Resultado en el dado 1 2 3 4 5 6
Verdadera Sí C C C A B A
Falsa No C A A B A B
En una muestra de 1000 hombres las veces que aparecieron las respuestas A, B y C fueron 440, 310 y 250,
respectivamente.
a) Prueba que el logaritmo de la verosimilitud de θ es
104. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de una distribución Uniforme sobre los N primeros natu-
rales. Encontrar un intervalo de confianza, a nivel 1 − α para N de la forma (a, ∞), basado en el máximo
de la muestra.
105. Sea X una población distribuida uniformemente sobre el intervalo (0, θ). Escribir un intervalo de confianza
para θ con nivel de confianza 1 − α. En particular, calcular un intervalo de confianza para α = 0.1 si se
obtiene la siguiente muestra de 4 elementos: 1.13, 0.67, 1.32, 0.27.
106. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de una población con distribución exponencial de pará-
metro λ. Utilizar un pivote para construir un intervalo de confianza a nivel 1 − α para el parámetro λ.
107. Sean X1 , X2 , . . . , Xn una muestra aleatoria simple de una población U (0, θ). Dar intervalos de confianza a
nivel 1 − α para el parámetro θ en los siguientes casos:
a) Por el método de la desigualdad de Chebychev.
b) Utilizando un pivote basado en un estadístico suficiente, calcular el de longitud mínima.
c) Basándose en el mismo estadístico del apartado (b), hallar un intervalo de confianza por el método de
Neyman.
108. Las peleas semanales en una Ciudad se distribuyen como una Poisson con parámetro desconocido. En 30
semanas se observan 217 peleas. Determinar un intervalo de confianza al 90 % para el número medio de
peleas semanales.
109. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de tamaño n de una población Γ(r, λ), con λ conocido.
Utilizar el teorema central del límite para calcular un intervalo de confianza a nivel 1 − α para el parámetro
r (suponer n suficientemente grande).
110. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de una población X con función de densidad
(
e−(x−θ) , x>0
f (x) =
0, e.o.c.
Utilizar un pivote basado en un estadístico suficiente de θ para construir un intervalo de confianza, a nivel
1 − α de longitud mínima.
111. Dar un intervalo de confianza asintótico para el parámetro λ de una distribución de Poisson a nivel 1 − α.
112. Se admite que el número de microorganismos en una muestra de 1 mm cúbico de agua de un río sigue una
distribución de Poisson de parámetro λ. En 40 muestras se han detectado, en total, 833 microorganismos.
Calcula un intervalo de confianza al 90 % para λ.
113. Utilizando un intervalo de confianza a un nivel 0.95 para el parámetro p de una distribución B(n, p), de-
terminar si una moneda que ha sido lanzada 500 veces y con la que se han obtenido 225 caras se puede
considerar “correcta” en su construcción.
114. Hallar intervalos de confianza a nivel 1 − α para θ en caso de muestras grandes y muestras pequeñas si
1 x
tenemos una función de densidad exponencial de la forma f (x, θ) = e− θ , x > 0.
θ
2
115. Sea f (x, θ) = 2 (θ − x)I(0,θ) (x) y sea una muestra de tamaño 1. Consideremos el estimador T = 2x.
θ
Construir un intervalo de confianza a nivel 1 − α por el método de Neyman.
84 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
116. Se supone que el número de microorganismos por gramo en un terreno es una variable aleatoria Poisson de
parámetro λ. Se han tomado 60 muestras de terreno, cada una de un gramo, y se han contado el número de
microorganismos, dando un total de 4330. Hallar un intervalo de confianza al 90 % para λ.
117. Sea X una variable aleatoria absolutamente continua con función de densidad
2
f (x) = 2θxeθx , x>0
siendo θ > 0. Utilizando una muestra aleatoria simple de tamaño n de X, determinar un intervalo de
confianza de colas iguales para θ, por el método de la cantidad pivotal.
118. Sea X1 , X2 , . . . , Xn e Y1 , Y2 , . . . , Ym dos muestras aleatorias simple de dos poblaciones independientes con
distribuciones exponenciales de parámetros λ1 y λ2 , respectivamente. Determinar un intervalo de confianza
λ1
para .
λ2
Los métodos estudiados en el capítulo anterior usan la información proporcionada por los estadísticos mues-
trales para estimar con cierta probabilidad el valor de un parámetro poblacional. En éste capítulo se introducirán
los contrastes de hipótesis que es un enfoque diferente. En éste caso, se supone a priori el valor del parámetro y
sobre la base de la información obtenida en una muestra se somete a prueba la suposición, para luego tomar con
cierta probabilidad, la decisión de rechazar o no rechazar la hipótesis. En éste punto es importante señalar que la
expresión “no rechazar” pudiera ser sustituida por “aceptar”, sin embargo antes de hacerlo es necesario atender
cuidadosamente algunas explicaciones que se darán más adelante. Los contrastes de hipótesis también conocidos
como prueba, docimasia o contrastación de hipótesis es uno de los métodos estadísticos más usados en las ciencias
naturales por ser un procedimiento que le proporciona al investigador un criterio objetivo para tomar decisiones
con base a un número limitado de observaciones.
En muchos aspectos, el procedimiento formal para pruebas de hipótesis es semejante al método científico. Éste
observa la naturaleza, formula una teoría y la confronta con lo observado. En nuestro contexto, el científico plantea
una hipótesis respecto a uno o más parámetros poblacionales: de que son iguales a valores especificados. Ense-
guida toma una muestra de la población y compara sus observaciones con la hipótesis. Si las observaciones no
concuerdan con la hipótesis, las rechaza. De lo contrario, concluye que la hipótesis es verdadera o que la muestra
no detectó la diferencia entre los valores real e hipotético de los parámetros poblacionales.
Por ejemplo, un investigador médico puede plantear la hipótesis de que un nuevo medicamento es más eficaz
que otro para combatir una enfermedad. Para probarla, selecciona aleatoriamente pacientes infectados con la enfer-
medad y los divide en dos grupos. El nuevo medicamento A se administra a los pacientes del primer grupo y el B a
los del segundo. Entonces, con base en el número de pacientes de cada grupo que se recuperen de la enfermedad,
el investigador decide si el nuevo medicamento es más eficaz que el anterior.
Las pruebas de hipótesis se llevan a cabo en todos los campos en los que la teoría se pueda probar contra ob-
servación. Un ingeniero de control de calidad puede plantear la hipótesis de que un nuevo método de ensamble
produce sólo 5 % de piezas defectuosas. Un educador puede decir que dos métodos de enseñanza de lectura son
igualmente eficaces, o un candidato político afirmar que la mayoría de los votantes está a favor de él. Todas estas
hipótesis pueden ser tema de verificación estadística mediante el uso de datos muestrales observados.
¿Cuál es el papel de la estadística en pruebas de hipótesis? Dicho sin rodeos, ¿para qué sirve la estadística en
este procedimiento de pruebas de hipótesis? Probar una hipótesis requiere tomar una decisión cuando se compara
la muestra observada contra la teoría. ¿Cómo decidimos si la muestra no concuerda con la hipótesis del científi
co? ¿Cuándo debemos rechazar la hipótesis, cuándo debemos aceptarla y cuándo no revelar el juicio? ¿Cuál es
la probabilidad de que tomemos una mala decisión y, en consecuencia, sufrir una pérdida? Y, en particular, ¿qué
función de las mediciones muestrales debe emplearse para llegar a una decisión? Las respuestas a estas preguntas
están contenidas en un estudio de pruebas de hipótesis estadísticas.
4.1 Conceptos básicos 87
A continuación, se define lo que se entiende por hipótesis estadística y contraste de hipótesis, observando que en
la literatura se pueden encontrar sinónimos de este último término tales como prueba estadística, test de hipótesis
o dócima.
Por ejemplo, la premisa formulada por un productor de baterías para autos de que su batería dura en promedio 48
meses, es una hipótesis estadística porque el manufacturero no inspecciona la vida de cada batería que él produce.
Usualmente se dispone de una muestra X1 , X2 , . . . , Xn de una variable aleatoria X con función de distribución
F y función de densidad (o función de masa de probabilidad) f . Sobre la distribución de X se realizan dos afirma-
ciones entre las que se debe decidir. En general esas dos afirmaciones serán exhaustivas y mutuamente exclusivas.
El tratamiento que se da a las dos hipótesis no es simétrico y esto se refleja en el nombre que reciben: una se
llama hipótesis nula y la otra hipótesis alternativa. Se denotan por H0 y H1 , respectivamente. Se dice que en
un contraste de hipótesis se contrasta H0 frente a H1 .
La hipótesis que se desea contrastar se denomina Hipótesis Nula, mientras que la que se acepta cuando la evi-
dencia muestral está claramente en contra de ésta se denomina Hipótesis Alternativa. Por lo general la hipótesis
alternativa es la que queremos comprobar con base en la información contenida en la muestra. Frecuentemente la
hipótesis nula está formada por un único valor del parámetro mientras que la hipótesis alternativa está formada
por un conjunto de valores. A la hipótesis alternativa se la denomina también hipótesis de trabajo o hipótesis a
investigar ya que, en la mayor parte de las situaciones practicas reales es la hipótesis alternativa la que se desea
aceptar.
Por ejemplo, para probar o desaprobar el reclamo pronunciado por el productor de baterías debemos probar la
hipótesis estadística de que µ ≥ 48. Por lo tanto, la hipótesis nula es
H0 : µ ≥ 48.
Luego se procede a tomar una muestra aleatoria simple de baterías y medir su vida media. Si la información ob-
tenida de la muestra no apoya el reclamo en la hipótesis nula (H0 ), entonces otra cosa es cierta. La premisa alterna
a la hipótesis nula es la hipótesis alternativa (H1 ). Así, para el productor de baterías H0 : µ ≥ 48 y H1 : µ < 48.
La hipótesis nula es más conservadora en el sentido de que no será rechazada a menos que la evidencia muestral
en su contra sea muy clara. Esta hipótesis suele establecer un modelo sencillo para la distribución de X (por ejem-
plo, si F pertenece a una familia paramétrica, H0 fija el valor del parámetro) o bien propone como distribución de
88 4 CONTRASTE DE HIPÓTESIS
X aquella que es comúnmente aceptada como una buena descripción del fenómeno que modeliza X.
La hipótesis alternativa especifica el tipo de alejamiento de la hipótesis nula que podría presentar la distribución
de X. Puede expresar un modelo general que incluya a H0 como caso particular. Si un investigador considera que
un fenómeno aleatorio no ha estado adecuadamente modelizado hasta ese momento y cree tener una explicación
más satisfactoria, propondrá ésta como hipótesis alternativa y el modelo vigente como hipótesis nula. Sólo sí hay
evidencia muestral suficiente para rechazar la hipótesis nula, será aceptada la hipótesis alternativa.
Es importante recordar que las hipótesis siempre son afirmaciones sobre la población o distribución bajo estudio,
no afirmaciones sobre la muestra. Por lo general, el valor del parámetro de la población especificado en la hipótesis
nula se determina en una de tres maneras diferentes:
1. Puede ser resultado de la experiencia pasada o del conocimiento del proceso, entonces el objetivo de la
prueba de hipótesis usualmente es determinar si ha cambiado el valor del parámetro.
2. Puede obtenerse a partir de alguna teoría o modelo que se relaciona con el proceso bajo estudio. En este
caso, el objetivo de la prueba de hipótesis es verificar la teoría o modelo.
3. Cuando el valor del parámetro proviene de consideraciones externas, tales como las especificaciones de
diseño o ingeniería, o de obligaciones contractuales. En esta situación, el objetivo usual de la prueba de
hipótesis es probar el cumplimiento de las especificaciones.
Si se quisiera contrastar la hipótesis de que un cierto parámetro θ de una población toma un valor dentro de una
región Θ0 , siendo Θ el campo de variación de dicho parámetro, la hipótesis alternativa debe contemplar que el
parámetro tome valores en una región Θ1 .
Cuando los subconjuntos Θ0 y Θ1 se componen de un único elemento las hipótesis correspondientes se deno-
minan simples y, en caso contrario, hipótesis compuestas.
Definición 4.2. Se define una prueba de hipótesis (o un test de hipótesis o un contraste de hipótesis) como un
procedimiento inferencial consistente en rechazar o no, una hipótesis de tipo estadístico sobre una población, te-
niendo en cuenta la hipótesis alternativa y la evidencia experimental proporcionada por una muestra particular
obtenida de dicha población. Esto es, una prueba de hipótesis es un procedimiento para decidir si se acepta o se
rechaza una hipótesis.
En otras palabras, un contraste, Υ, de hipótesis H, supone una partición del espacio muestral en dos regiones,
región de aceptación y región crítica o de rechazo, de forma que si la muestra considerada se encuentra dentro de
la región crítica se rechaza la hipótesis nula, mientras que en el caso contrario no se rechaza dicha hipótesis al no
existir evidencias para rechazarlas.
Debe tenerse en cuenta que el no rechazo de la hipótesis nula no supone ninguna garantía de la certeza de ésta,
sino la falta de evidencia en contra de su veracidad. Se podría asimilar la hipótesis nula a una persona que está
siendo juzgada según el principio de presunción de inocencia, de forma que sólo se rechaza su inocencia, es decir,
la hipótesis nula, en caso de encontrar pruebas suficientes en contra.
Ejemplo 4.1. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de una variable aleatoria X cuya distribución
6
es N(µ; 36). Considere H0 : µ ≤ 15 y la prueba Υ: rechazar H0 sí x > 15 + √ . Otra prueba Υ∗ es: rechazar
n
H0 sí al lanzar un dado aparece un número par.
4.1 Conceptos básicos 89
La primera prueba se llama no aleatorizada y la última prueba se conoce como aleatorizada. El nombre de la
última hipótesis se debe a que la decisión de rechazar la hipótesis depende de un experimento ajeno a la muestra.
A la vista de la definición, se podría decir que un contraste es una regla de decisión, pero dado que a la hora de
adoptar dicha decisión y, como se verá en el desarrollo del capítulo, no se estará a la misma distancia de ambas
hipótesis, sino que se dará mucho mayor crédito a la hipótesis nula, se trata más bien de una regla de decisión-
confirmación. Por ello, teniendo en cuenta el desequilibrio entre las hipótesis, sólo se debería contrastar aquello
sobre lo que se tuviera una justificada sospecha de su certeza.
Puesto que los contrastes paramétricos utilizan más información que los no paramétricos, ofrecen mejores re-
sultados. Por ello, siempre que sea posible se debe recurrir a los primeros.
Este capítulo trata los contrastes paramétricos de una y dos muestras, dejando para cursos siguientes los con-
trastes no paramétricos.
En primer lugar, se distingue entre contrastes con hipótesis nula y alternativa simples y aquellos que tienen
alguna de estas hipótesis compuestas. En segundo lugar, dentro de estos últimos, dependiendo de la estructura de
sus hipótesis, se distingue entre los siguientes tipos de contrastes:
1. Contrastes bilaterales: en ellos se propone un valor puntual para el parámetro bajo estudio, de forma que
se rechazará bien porque la evidencia muestral lleve a decidir que el valor es mayor que el propuesto o bien
que es menor. Formalmente:
Suponemos que F (y f ) pertenecen a una cierta familia paramétrica indexada por un parámetro θ ∈ Θ y
planteamos el contraste
(
H0 : θ = θ0
H1 : θ 6= θ0
2. Contrastes unilaterales: en ellos se propone que el valor del parámetro se encuentre bien por debajo o bien
por encima de un cierto valor. Las dos situaciones se plantearían de la siguiente forma:
(
H0 : θ ≥ θ0
H1 : θ < θ0
(
H0 : θ ≤ θ0
H1 : θ > θ0
90 4 CONTRASTE DE HIPÓTESIS
Se puede observar que en todos los casos el signo igual está incluido en la hipótesis nula, el motivo de ello se
encuentra en el enfoque que se va a utilizar para realizar el contraste.
Para probar si la hipótesis nula es cierta, se toma una muestra aleatoria simple y se calcula la información, como
el promedio, la proporción, etc. Esta información muestral se llama estadística de prueba.
Definición 4.3. Una Hipótesis simple es aquella que especifica completamente la distribución de X. En otro
caso, se dice que la afirmación es una Hipótesis compuesta.
Por ejemplo, si f ∈ {fθ : θ ∈ Θ ⊆ R}, la hipótesis H : θ = θ0 es una hipótesis simple. La hipótesis H : θ > θ0
es compuesta.
Para contrastar la hipótesis H0 frente a H1 seleccionamos una muestra aleatoria simple x = (x1 , x2 , . . . , xn )
de la población y trataremos de tomar una decisión de acuerdo con la información que nos proporcionan los valores
muestrales, a través de una estimación de la característica (parámetro) a estudiar y de su distribución muestral. Las
partes esenciales de una prueba de hipótesis estadística son el estadístico de prueba y una región crítica o de
rechazo asociada. El estadístico de prueba (al igual que un estimador) es una función de las mediciones muestrales
en las que la decisión estadística estará basada. El estadístico de prueba a una variable aleatoria con distribución
conocida cuando la hipótesis nula es cierta. La región crítica o de rechazo de una prueba Υ, subconjunto del espacio
muestral Ω, que de aquí en adelante se denotará por C, especifica los valores del estadístico de prueba para el cual
se decide rechazar la hipótesis nula a favor de la hipótesis alternativa. Si, para una muestra particular, el valor
calculado del estadístico de prueba cae en la región de rechazo C, rechazamos la hipótesis nula H0 y aceptamos la
hipótesis alternativa H1 . Si el valor del estadístico de prueba no cae en la C, aceptamos H0 . El complementario
de C se llama región de aceptación. Un contraste queda definido por su región crítica o de rechazo C.
Ejemplo 4.2. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de una variable aleatoria X cuya distribución es
6
N(µ; 36). Entonces Ω = Rn . Si se considera H0 : µ ≤ 15 y la prueba Υ: rechazar H0 sí y sólo sí x > 15 + √ .
n
Entonces Υ es una prueba no aleatorizada y la región crítica es:
6
C = (x1 , x2 , . . . , xn ) ∈ Rn : x > 15 + √
n
información limitada que nos proporciona la muestra podemos realizar decisiones erróneas. Para cualquier región
de rechazo fija, dos tipos de errores se pueden cometer al llegar a una decisión. Podemos decidir a favor de H1
cuando H0 es verdadera (error tipo I), o podemos decidir a favor de H0 cuando H1 es verdadera (error tipo II).
El error tipo I se considera más grave que el error tipo II, dado que la hipótesis nula es siempre la más conservadora.
Para casi todas las situaciones reales, las decisiones incorrectas cuestan dinero, prestigio o tiempo e implican
una pérdida. Entonces, α y β, las probabilidades de cometer estos dos tipos de error, miden los riesgos relacionados
con las dos posibles decisiones erróneas que podrían resultar de una prueba estadística. Como tales, proporcionan
una forma muy práctica de medir la bondad de una prueba.
El cuadro siguiente refleja las repercusiones que se derivan de la decisión que se adopte en la realización de un
contraste:
Estado de la naturaleza
Decisión H0 es cierta H0 es falsa
Aceptar H0 Decisión correcta Error tipo II (β)
Rechazar H0 Error tipo I (α) Decisión correcta
α = P (X ∈ C|H0 cierta) y β = P (X ∈
/ C|H0 f alsa) .
Es deseable disponer de contrastes que tengan probabilidades de errores bajas. Pero en general no es posible
diseñar contraste que tengan ambas probabilidades pequeñas: cuando un contraste se modifica para reducir su pro-
babilidad de error tipo I, esta modificación conlleva un aumento de la probabilidad de error tipo II, y viceversa.
Obsérvese que si se desea reducir la probabilidad del error tipo I, α = PF (X ∈ C|H0 ), se habrán de reducir
los puntos de la región crítica C, pero ello implica que el conjunto C, complementario de C, aumenta y así la
probabilidad de error tipo II, β = PF X ∈ C|H1 , también crecerá en general.
Dado que el error tipo I se ha considerado más grave que el error tipo II, la práctica habitual en un contraste
de hipótesis es considerar únicamente pruebas que garantizan que la probabilidad de cometer un error tipo I será
inferior a un valor dado α suficientemente pequeño (por ejemplo, α = 0.01, 0.05 o 0.1) y buscar entre todas ellas
92 4 CONTRASTE DE HIPÓTESIS
aquélla que hace mínima la probabilidad de cometer un error tipo II. ¿Cómo podemos reducir los riesgos de co-
meter errores tipo I y tipo II? La respuesta es clara y lógica: debemos obtener más información sobre la verdadera
naturaleza de la población al aumentar el tamaño muestral. Para casi todas las pruebas estadísticas, si α está fija en
algún valor aceptablemente pequeño, β disminuye cuando el tamaño muestral aumenta.
De acuerdo con lo explicado, los pasos que se han de realizar para llevar a cabo un contraste de hipótesis son los
siguientes:
a) Determinar las hipótesis nula y alternativa, traduciendo hipótesis básicas de trabajo en hipótesis acerca de
parámetros (o características) de una distribución de probabilidad asignada a la población.
b) Fijar un nivel de significación: Generalmente el 0.01 (1 %), 0.05 (5 %) y 0.1 (10 %).
La decisión se toma utilizando el estadístico de prueba que nos facilitó la muestra y si el mismo cae en la región
crítica se rechaza H0 y por tanto se acepta H1 ; si cae en la región de no rechazo (de aceptación) no existen ele-
mentos para rechazar H0 .
Si el menor valor obtenido β para la probabilidad de error tipo II es inaceptablemente grande, pueden tomarse
dos medidas para reducirlo:
donde Θ0 ∪ Θ1 = Θ, Θ0 ∩ Θ1 = ∅.
Puesto que en la práctica no se sabrá si la decisión adoptada es correcta o no, habrá que elegir contrastes que
minimicen las probabilidades de error de tipo I y II. Sin embargo, esto no es posible ya que dichas probabilidades
son, en cierto sentido, complementarias, ya que cuando disminuye una aumenta la otra. Por ello, el criterio que
se utiliza es el de fijar el nivel de significación, eligiendo de entre todos los contrastes posibles con ese nivel de
significación aquel que haga mínimo el riesgo o, lo que es lo mismo, máxima la potencia.
En general, la potencia del contraste dependerá de la realidad de la situación, que será desconocida, por lo que
lo ideal será utilizar, si es que existe, el contraste denominado uniformemente más potente, es decir, aquel que se
comporta mejor que el resto en cualquier situación.
Por último, la reducción simultánea de los dos errores, una vez seleccionado el contraste a utilizar, sólo será
factible si se dispone de una mayor información, es decir, si se aumenta el tamaño de la muestra.
4.2 Los errores de un contraste 93
Ejemplo 4.4. Sea X una variable con distribución Exponencial de parámetro θ. Se desea contrastar
(
H0 : θ = 1
H1 : θ = 2
Para realizar el contraste se toma como región de aceptación para una muestra de tamaño 1 el intervalo [0, T ).
Los errores α y β vienen dados por:
con lo que la relación entre las probabilidades queda β = 1 − α2 , lo que significa que cuando uno crece el otro
decrece y viceversa.
Ejemplo 4.5. Sea X una variable aleatoria que se distribuye según N(µ, 1). Se desea realizar el contraste
(
H0 : µ = 0
H1 : µ = 3
La regla de decisión que se va a utilizar es la siguiente: si una muestra de tamaño 1 pertenece al intervalo
(−∞, 2.575) no se rechaza H0 , en caso contrario se rechaza. Se procede a calcular el nivel de significación y la
94 4 CONTRASTE DE HIPÓTESIS
mientras que
Ejemplo 4.6. Si en el ejemplo anterior se elige como región de aceptación (−3, 2.69), entonces
Por tanto, si se ha de decidir entre los dos contrastes propuestos, puesto que el nivel de significación es el mismo,
se elegirá el primero al ser más potente.
Para 0 ≤ α ≤ 1, una prueba de hipótesis con función de potencia η(θ) tiene tamaño α si
sup η(θ) = α.
θ∈Θ0
Para 0 ≤ α ≤ 1, una prueba de hipótesis con función de potencia η(θ) tiene nivel de significación α si
sup η(θ) ≤ α.
θ∈Θ0
se considera la función de verosimilitud de la muestra, L(X; θ), en cada uno de los valores del parámetro que
proporciona cada hipótesis, es decir, L(X; θ0 ), en la nula y L(X; θ1 ) en la alternativa. El lema de Neyman–Pearson
dice que la región
L(X; θ1 )
C= X∈Ω: ≤K
L(X; θ0 )
tal que P [X ∈ C|H0 ] = α es de máxima potencia para el contraste anterior, a un nivel de significación α.
El siguiente resultado determina cuál es la prueba más potente cuando se contrasta una hipótesis nula simple
frente a una alternativa simple.
Teorema 4.1 (Lema de Neyman-Pearson). Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de X con función
de densidad (o función de masa de probabilidad) f (x; θ). Se desea contrastar H0 : θ = θ0 frente a H1 : θ = θ1 .
Si L(X; θ) es la función de verosimilitud, la mejor prueba de tamaño α tiene región crítica de la forma
L(X; θ1 )
C= X∈Ω: ≤K
L(X; θ0 )
H0 (en caso contrario hay que recurrir a una prueba aleatorizada; sobre este tema se darán referencias cuando se
presente el ejemplo 4.9).
L(X; θ1 )
Sea K tal que Pθ0 (X ∈ C) = α, donde C = X ∈ Ω : ≤ K . Sea C ∗ la región crítica de otra
L(X; θ0 )
prueba de tamaño α. Queremos probar que
β = Pθ1 X ∈ C ≤ β ∗ = Pθ1 X ∈ C ∗ .
Calculemos la diferencia β ∗ − β:
Z Z
β ∗ − β = Pθ1 X ∈ C ∗ − Pθ1 X ∈ C =
L(θ1 |X)dX − L(θ1 |X)dX
X∈C ∗ X∈C
Z Z Z Z
= L(θ1 |X)dX + L(θ1 |X)dX − L(θ1 |X)dX − L(θ1 |X)dX
X∈C ∗ ∩C X∈C ∗ ∩C X∈C∩C ∗ X∈C∩C ∗
Z Z
= L(θ1 |X)dX − L(θ1 |X)dX
X∈C ∗ ∩C X∈C∩C ∗
Z Z
≥ KL(θ0 |X)dX − KL(θ0 |X)dX
X∈C ∗ ∩C X∈C∩C ∗
"Z Z Z Z #
=K L(θ0 |X)dX + L(θ0 |X)dX − L(θ0 |X)dX − L(θ0 |X)dX
X∈C ∗ ∩C X∈C ∗ ∩C X∈C∩C ∗ X∈C∩C ∗
"Z Z #
=K L(θ0 |X)dX − L(θ0 |X)dX
X∈C ∗ X∈C
= K (α − α)
= 0.
La prueba que se propone en el Lema de Neyman-Pearson se denomina también Prueba de la razón de vero-
similitudes.
Para determinar la constante K y con ella la región crítica, se puede considerar el estadístico T (X; θ0 , θ1 ), de
manera que la región crítica C vendría dada por
C = {X ∈ Ω : T (X; θ0 , θ1 ) ≤ K1 } .
Ejemplo 4.7. Se considera una muestra aleatoria simple de tamaño n extraída de una distribución N(µ; 1) y se
desea realizar el contraste
(
H0 : µ = 0
H1 : µ = 1
4.3 El enfoque de Neyman–Pearson 97
x21 x2
n
√1 e− 2 · · · √12π e− 2
L(x1 , x2 , . . . , xn ; 0) 2π
= (x1 −1) 2 (xn −1)2
L(x1 , x2 , . . . , xn ; 1) √1 e− 2 · · · √12π e− 2
2π
n
x2
P
i
− i=12
e
= n n
x2 −2
P P
xi +n
i
i=1 i=1
e− 2
n
xi + n
P
− 2
=e i=1
n
xi + n
P
− 2
e i=1 ≤ K,
tomando logaritmos
n
X n
− xi + ≤ log K,
i=1
2
luego
n
P
xi
i=1 log K 1
≥− + = K1 .
n n 2
d
Ejemplo 4.8 (Test Z). Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de X = N(µ; σ 2 ) con σ 2 conocida.
Se desea contrastar H0 : µ = µ0 frente a H1 : µ = µ1 , con µ1 > µ0 .
Solución. Nuestra intuición nos dice que se debe rechazar H0 si se observan valores grandes de X. Veamos que
la aplicación del Lema de Neyman-Pearson conduce a esta solución.
(n
)
2 −n/2 1 X
(xi − µ)2
L(µ|X) = 2πσ exp − 2
2σ i=1
98 4 CONTRASTE DE HIPÓTESIS
y el cociente de verosimilitudes
n
−n/2 1 P
2πσ 2 exp − 2 (xi − µ1 )2
L(µ1 |X) 2σ i=1
= n
L(µ0 |X) 2 −n/2 1 P 2
(2πσ ) exp − 2 (xi − µ0 )
2σ i=1
( n
)
1 X
(xi − µ0 )2 − (xi − µ1 )2
= exp
2σ 2 i=1
( n
)
1 X 2 2 2 2
= exp x − 2µ0 xi + µ0 − xi + 2µ1 xi − µ1
2σ 2 i=1 i
( n
)
1 X 2 2
= exp 2(µ1 − µ0 )xi + (µ0 − µ1 )
2σ 2 i=1
( n
!)
1 X
2 2
= exp 2(µ1 − µ0 ) xi + n(µ0 − µ1 )
2σ 2 i=1
n n o
= exp 2
2(µ1 − µ0 )x + (µ20 − µ21 )
n 2σn o
2 2
= exp 2x(µ 1 − µ 0 ) + (µ 0 − µ1 ) .
2σ 2
Así, la región crítica de la prueba de Neyman-Pearson tiene la forma
n n n o o
C = X : exp 2
2x(µ1 − µ0 ) + (µ20 − µ21 ) ≥ K
2σ
n n 2 2
o
= X: 2x(µ 1 − µ 0 ) + (µ 0 − µ1 ) ≥ log K
2σ 2
2σ 2 log K
= X : 2x(µ1 − µ0 ) + (µ20 − µ21 ) ≥
n
2
2σ log K 2 2
= X : 2x(µ1 − µ0 ) ≥ + (µ1 − µ0 )
n
2σ 2 log K
(µ1 + µ0 )(µ1 − µ0 )
= X:x≥ +
2n(µ1 − µ0 ) 2(µ1 − µ0 )
2
σ log K (µ1 + µ0 )
= X:x≥ + =B
n(µ1 − µ0 ) 2
Vemos que el cociente de verosimilitudes es función creciente del estadístico minimal suficiente x porque µ1 −
µ0 > 0, y por tanto la región crítica puede escribirse así:
C = {X : x ≥ B} .
En este caso las constantes K y B se relacionan de este modo:
σ 2 log(K) µ1 + µ0
B= +
n(µ1 − µ0 ) 2
Sin embargo no es necesario calcular B a partir de K, sino que es posible determinar su valor teniendo en cuenta
que la prueba que se propone tiene tamaño α:
P (C|H0 ) = P X ≥ B|H0 = α.
d
Bajo H0 la distribución de la media muestral es X = N(µ; σ 2 /n), de donde se deduce que el valor de B debe ser
σ
B = µ0 + zα √ .
n
4.3 El enfoque de Neyman–Pearson 99
X n − µ0 Xn − 5
Z= √ = √ ≥ 1.645.
σ/ n 1/ 4
Supongamos que se observa la muestra X = (5.1, 5.5, 4.9, 5.3), luego la media muestral vale x = 5.2. Como
x−5 5.2 − 5
z= √ = √ = 0.4 1.645
1/ 4 1/ 4
no se rechaza H0 .
X − µ0
Esta prueba se denomina test Z porque usa el estadístico Z = √ que tiene distribución N(0, 1) bajo H0 .
σ/ n
d
Ejemplo 4.9. Sean Y1 , Y2 , . . . , Yn una muestra aleatoria simple de Y = Bern(p). Se desea contrastar
(
H0 : p = p0
H1 : p = p1
con p1 > p0 .
n
P d
Solución. Sea X = Yi = B(n, p). La verosimilitud de la muestra es
i=1
n x
L(p|x) = p (1 − p)n−x .
x
Calculamos el logaritmo del cociente de verosimilitudes:
n x
n−x
x p1 (1 − p1 )
L(p1 |x)
log = log
L(p0 |x) n x
p0 (1 − p0 )n−x
x
x
= log p1 (1 − p1 )n−x − log px0 (1 − p0 )n−x
p1 1 − p1
= x log + (n − x) log .
p0 1 − p0
Así, la región crítica de la prueba de Neyman-Pearson será
p1 1 − p1
C = x : x log + (n − x) log ≥ log(K)
p0 1 − p0
p1 1 − p1 1 − p1
= x : x log − log ≥ −n log + log(K)
p0 1 − p0 1 − p0
1 − p1
log(K) − n log
1 − p0
= x:x≥B= .
p1 (1 − p0 )
log
p0 (1 − p1 )
Para determinar el valor de B usaremos el hecho de que la distribución de X es conocida bajo H0 y que se desea
definir una prueba con tamaño α.
100 4 CONTRASTE DE HIPÓTESIS
Supongamos que n = 10, p0 = 0.5 y p1 = 0.8. Para diferentes valores de B se obtienen pruebas con diferentes
tamaños α y potencias β:
B 0 3 7 8 9
α 1.000 0.945 0.172 0.055 0.011
β 0.000 0.001 0.121 0.322 0.624
Vemos que no es posible construir una prueba de tamaño α para todos los valores α ∈ [0, 1]. Si por ejemplo
queremos tener una prueba de tamaño α = 0.05 hay tres formas de actuar:
Pensar que 0.05 es la máxima probabilidad de error tipo I aceptable y, por tanto, rechazar H0 si x ≥ 9,
dando lugar a α = 0.011,
Corolario 4.1. En las hipótesis del Lema de Neyman-Pearson, si T es un estadístico suficiente del parámetro de
interés θ con función de densidad (o de masa de probabilidad) g(t|θ), la mejor prueba para el contraste
(
H0 : θ = θ0
H1 : θ = θ1
1. Definir la hipótesis nula a contrastar sobre el parámetro θ objeto de estudio, que puede concretarse en H0 :
θ = θ0 , lo que determinará la hipótesis alternativa, H1 : θ 6= θ0 .
4.4 Metodología de Fisher para la realización de un contraste paramétrico 101
4. Si d0 es muy grande, es decir, si P [d ≥ d0 ] < α es muy pequeña, menor que α, se rechaza H0 , mientras
que si P [d ≥ d0 ] > α, no se rechaza H0 .
La expresión concreta de d depende del criterio o, como dice Fisher, de la imaginación del investigador. Así, el
propio Fisher propone como medidas:
1. d = θb − θ0 .
2. d = |θb − θ0 |.
2
3. d = θb − θ0 .
θb − θ0
4. d = q .
b2b
σ
θ
2
θb − θ0 d
5. d = = χ2(1) , si el estimador utilizado es de máxima verosimilitud.
b2b
σ
θ
Al igual que en el enfoque anterior, el nivel de significación es el que determina la región de aceptación y la de
rechazo, para lo que se calcula el valor dc , tal que
P [d > dc |H0 ] = α
A la probabilidad
p = P [d > d0 |H0 ]
se le llama nivel crítico o p-valor (p-value) del contraste. Cuando p ≥ α no se rechaza H0 mientras que cuando
p < α se rechaza, además, el nivel crítico proporciona una información adicional de las garantías con las que se
rechaza o no la hipótesis nula. Así, si p está próximo a α hay que ser más prudente en la decisión que se adopte,
pudiendo recurrirse, si fuera posible, a conseguir más información tomando más elementos muestrales o una nueva
muestra. En cambio si p es mucho más pequeño o mucho más grande que α, la decisión adoptada estará más
respaldada.
Los procedimientos de contraste pueden diseñarse también utilizando alguna media de la discrepancia o de la
similitud entre el valor teórico de la hipótesis nula y el valor estimado a partir de la muestra, la hipótesis se rechaza
102 4 CONTRASTE DE HIPÓTESIS
El p-valor o valor de probabilidad de la prueba, se define como el supremo de los valores α para los cuáles
se rechazará la hipótesis nula si ésta se contrastase a nivel α. El p-valor depende de los datos muestrales. Puede
interpretarse como la probabilidad de observar otra muestra que sea al menos tan poco favorable a la hipótesis
nula como la que se ha observado. A partir del p-valor se puede tomar la decisión de rechazar (respectivamente,
aceptar) H0 si el p-valor es pequeño (respectivamente, grande).
En general, cuando la región crítica de una prueba de tamaño α es tal que se rechaza H0 si y sólo si W (X) ≥ cα ,
donde W (X) es un estadístico y cα se elige para que la prueba tenga tamaño α, entonces el p-valor de la prueba
para una muestra observada X es
p(X) = sup Pθ (W (X) ≥ W (x)) .
θ∈Θ0
Se puede definir el p-valor de un contraste como la probabilidad de obtener un valor muestral más extremo que el
obtenido en nuestro caso particular (cuando H0 es cierta). Si el p-valor es muy pequeño rechazaremos la hipótesis
nula ya que el valor experimental es muy extremo, mientras que si el p-valor es grande aceptaremos la hipótesis
nula ya que el valor es compatible con la misma.
En la práctica se suele adoptar el criterio de aceptar la hipótesis cuando el p-valor es mayor que el nivel de
significación fijado en el procedimiento de contraste.
y por tanto no hay suficiente evidencia en contra de H0 como para rechazar esta hipótesis.
Ejemplo 4.11. Se considera una población N(µ, 1) de la que se extrae una muestra aleatoria simple de tamaño
16 para realizar el contraste (
H0 : µ = 1
H1 : µ 6= 1
4.5 Pruebas uniformemente más potentes 103
X −µ
Para calcular el punto crítico, puesto que √ sigue una distribución N(0, 1), se tiene que;
σ/ n
Buscando en las tablas resulta que dc = 1.96. Por otra parte, se tiene que
1.5 − 1
d0 = √ = 2
1/ 16
por lo que se está dentro de la región crítica. Es decir, hay que admitir que la media de la población es distinta de
uno, para un nivel de significación de 0.05.
Por tanto, hay que mostrar ciertas reservas en la decisión tomada ya que 0.046 está muy próximo a 0.05.
Ejemplo 4.12. Con los mismos datos del ejemplo anterior, se supone que la desviación estándar de la población
es desconocida y que Sn = 1.2, deseándose realizar el contraste
(
H0 : µ ≤ 1
H1 : µ > 1.
Ahora preocupa el comportamiento en los valores del parámetro a la derecha de uno, donde debe concentrarse la
región crítica. Como medida de la discrepancia se toma
X −µ
d(X) = √ .
Sn / n − 1
d
Al ser d = t(n−1) , el punto crítico viene dado por P [d > dc |H0 ] = α , P [t15 > dc |H0 ] = 0.05, buscando en las
tablas se encuentra que dc = 1.7531.
Puesto que
1.5 − 1
d0 = √ = 1.94
1.2/ 15
debe rechazarse H0 y concluir que la media de la población es mayor que uno para un nivel de significación de
0.05.
Queremos contrastar (
H0 : θ ∈ Θ0
H1 : θ ∈ Θ1
donde Θ0 ∪ Θ1 = Θ, Θ0 ∩ Θ1 = ∅. Por ejemplo, si Θ = [0, 1) podemos contrastar
(
H0 : θ = θ0
H1 : θ ≥ θ0
Diremos que se trata de una prueba unilateral.
Si Θ = R, las pruebas ( (
H0 : θ ≤ θ 0 H0 : θ ≥ θ0
y
H1 : θ > θ0 H1 : θ < θ0
son también unilaterales y la prueba (
H0 : θ = θ0
H1 : θ 6= θ0
se dice que es bilateral.
Diremos que una prueba de hipótesis es uniformemente más potente (UMP) de tamaño α para contrastar
H0 : θ ∈ Θ0 frente a H1 : θ ∈ Θ1 si su función de potencia η(θ) verifica que
sup η(θ) = α
θ∈Θ0
y para cualquier otra prueba con función de potencia η ∗ que sea también de tamaño α, es decir, que cumpla
sup η ∗ (θ) = α
θ∈Θ0
Si esas regiones críticas no dependen de θ1 , es decir, si C(θ1 ) = C para todo θ1 ∈ Θ1 , entonces la prueba
estadística que tiene región crítica C es UMP de tamaño α.
4.5 Pruebas uniformemente más potentes 105
Demostración. Sea η(θ) la función de potencia de la prueba que tiene región crítica C. Por la definición de C se
tiene que esta prueba tiene tamaño α. Sea η ∗ la función de potencia de cualquier otra prueba de tamaño α.
Para cualquier θ1 ∈ Θ1 , por el Lema de Neyman-Pearson la prueba con región crítica C es la mejor para
contrastar (
H0 : θ = θ 0
H1 : θ = θ 1
y por lo tanto, η(θ1 ) ≥ η ∗ (θ1 ). Como eso ocurre para todo θ1 ∈ Θ1 se sigue que η(θ1 ) ≥ η ∗ (θ1 ) para todo
θ1 ∈ Θ1 . Luego, la prueba C es UMP de tamaño α.
d
Ejemplo 4.13. Sea X1 , X2 , . . . , Xn muestra aleatoria simple de X = N(µ, σ 2 ) con σ 2 conocido. Se desea
contrastar (
H0 : µ = µ0
H1 : µ > µ0
En el ejemplo 4.8 se vio que para cualquier µ1 > µ0 la mejor prueba para contrastar H0 : µ = µ0 frente a
0
H1 ; µ = µ1 tiene por región crítica
σ
C = {X : x ≥ B} con B = µ0 + zα √ .
n
Por lo tanto, la región crítica es la misma para todos los posibles valores θ1 ∈ Θ1 = (µ0 , ∞). Se sigue que la
prueba con región crítica C es UMP de tamaño α para contrastar H0 frente a H1 .
El siguiente resultado extiende el anterior al caso en el que la hipótesis nula es también compuesta.
Corolario 4.2. Se contrasta una alternativa compuesta frente a otra compuesta:
(
H0 : θ ∈ Θ0
H1 : θ ∈ Θ1
Supongamos que existe un procedimiento de prueba basado en un estadístico suficiente T con región crítica C que
satisface las hipótesis siguientes:
1. la prueba tiene tamaño α,
2. existe θ0 ∈ Θ0 tal que Pθ0 (T ∈ C) = α,
3. si g(t|θ) denota la función de densidad (o de masa de probabilidad) de T , para el valor θ0 cuya existencia
garantiza la hipótesis anterior y para cada θ1 ∈ Θ1 existe un K(θ1 ) ≥ 0 tal que
g(t|θ1 )
si > K(θ1 ) ⇒ t ∈ C, y
g(t|θ0 )
g(t|θ1 )
si < K(θ1 ) ⇒ t ∈ C.
g(t|θ0 )
106 4 CONTRASTE DE HIPÓTESIS
Demostración. Sea η(θ) la función de potencia de la prueba que tiene región crítica C y sea η ∗ (θ) la función de
potencia de otra prueba que tiene tamaño α. Veamos que η(θ0 ) ≤ α.
Una familia de funciones de densidad o de probabilidad {g(t|θ) : θ ∈ Θ} para una variable aleatoria T tiene
razón de verosimilitudes monótona (RVM) si para cada θ2 > θ1 el cociente g(t|θ2 )/g(t|θ1 ) es una función no
decreciente de t para los valores t tales que g(t|θ2 ) > 0 o g(t|θ1 ) > 0.
Demostración. Veamos en primer lugar que la función de potencia η(θ) = P (T > t0 |θ) es creciente. Sea θ1 < θ2 .
Queremos comprobar que η(θ1 ) ≤ η(θ2 ).
0 0
El Lema de Neyman-Pearson
H0 : θ = θ1 frente a H1 : θ = θ2 establece que la mejor prueba
para contrastar
L(θ2 |X)
tiene región crítica C = X : ≥ K . Como T es suficiente para θ, será L(θ|X) = g (T (X)|θ) H(X).
L(θ1 |X)
Dado que T tiene RVM el conjunto C es
g (T (X)|θ2 )
C= X: ≥ K = {X : T (X) ≥ t0 } .
g (T (X)|θ1 )
Esta prueba tiene tamaño α0 = P (T > t0 |θ1 ) = η(θ1 ). Consideremos una prueba que rechaza H0 con proba-
bilidad α0 sea cuál sea el valor X observado. Su función de potencia es η ∗ (θ) = α0 y se trata de una prueba de
tamaño α0 . Por el Lema de Neyman-Pearson se tiene que
Para demostrar que la prueba con región crítica {X : T (X) ≥ t0 } es UMP para contrastar H0 frente a H1
usaremos el corolario 4.2. Para aplicarlo hay que comprobar que se cumplen sus tres hipótesis:
2. Existe θ0 tal que Pθ0 (T ∈ C) = P (T > t0 |θ0 ) = α. Esto es cierto por definición de t0 .
g(t|θ1 )
3. Para cada θ1 ∈ Θ1 , existe K(θ1 ) tal que t ∈ C si y sólo si > K(θ1 ). Esto se verifica si definimos
g(t|θ0 )
g(t|θ1 )
K(θ1 ) = ı́nf ,
t∈τ g(t|θ0 )
g(t|θ1 )
donde τ = {t : t > t0 y g(t|θ1 ) > 0 o g(t|θ0 ) > 0}. Si > K(θ1 ) entonces t > t0 , puesto
g(t|θ0 )
que T tiene RVM. Si t > t0 entonces
g(t|θ1 ) g(t|θ1 )
> ı́nf = K(θ1 )
g(t|θ0 ) t∈τ g(t|θ0 )
Acabamos de ver que frecuentemente se encontrarán pruebas UMP para pruebas unilaterales. Sin embargo, no
es tan sencillo tener pruebas UMP para pruebas bilaterales, como pone de manifiesto el siguiente ejemplo.
d
Ejemplo 4.14. Sea X1 , X2 , . . . , Xn muestra aleatoria simple de X = N(µ; σ 2 ) con σ 2 conocido. Se desea
contrastar H0 : µ = µ0 frente a H1 : µ 6= µ0 .
Para contrastar H0 frente a H1 parece razonable rechazar H0 si se observan valores de la media muestral
mucho mayores o mucho menores que µ0 :
C = {X : xn ≤ K1 o xn ≥ K2 } ,
La forma de fijar K1 y K2 puede atender a distintos criterios. Una posibilidad es elegir K1 y K2 de forma que
α
P X n ≤ K1 |µ = µ0 = P X n ≥ K2 |µ = µ0 = ,
2
σ σ
es decir, K1 = µ0 − zα/2 √ y K1 = µ0 + zα/2 √ .
n n
σ
Entonces se rechazará H0 si |X n − µ0 | ≥ zα/2 √ . La función de potencia es tal como se refleja en la figura
n
siguiente (curva de trazo continuo).
108 4 CONTRASTE DE HIPÓTESIS
σ
Esta prueba no es UMP porque, por ejemplo, si rechazamos H0 cuando X n ≥ µ0 + zα/2 √ esta prueba tiene
n
potencia superior para µ > µ0 , como puede verse en la figura anterior (curva de trazo discontinuo).
Vemos en el ejemplo anterior que no es posible atender las desviaciones bilaterales de la hipótesis nula y, a la
vez, superar en potencia a las pruebas que han sido diseñadas para detectar desviaciones en una sola dirección.
En los casos en los que no existen pruebas UMP es posible aún elegir pruebas que tengan propiedades desea-
bles. Una posibilidad (que será desarrollada en la sección 4.8) es construir pruebas que sean válidas en muchas
situaciones, fácilmente aplicables y con buenas propiedades teóricas.
Otra posibilidad es restringir la clase de pruebas considerada y buscar la prueba UMP dentro de esa clase. La
sección 4.6 se ocupa de esta alternativa.
Es razonable pedir que una prueba sea insesgada, puesto que nos dice que la potencia nunca es menor bajo la
hipótesis alternativa que bajo la nula: siempre es más probable rechazar la hipótesis nula si ésta es falsa que si
no lo es. Es entonces lógico restringir la clase de pruebas que se consideran a aquella que contiene sólo pruebas
insesgadas. Entre éstas se buscarán las pruebas UMP.
Si se adopta este enfoque, puede probarse que en el muestreo de la normal con σ 2 conocida la prueba que re-
σ
chaza H0 : µ = µ0 si |X n − µ0 | ≥ zα/2 √ es insesgada y es UMP en la clase de las pruebas insesgadas.
n
En la búsqueda de pruebas UMP, un planteamiento alternativo al de reducir la clase de pruebas consideradas
(que nos lleva, por ejemplo, a buscar pruebas insesgadas UMP) consiste en reducir las hipótesis alternativas que se
4.6 Pruebas insesgadas. Pruebas localmente más potentes 109
tienen en cuenta. En este sentido, es lógico buscar procedimientos que sean uniformemente más potentes sólo para
las hipótesis alternativas cercanas a la hipótesis nula. Serán estas pruebas las más potentes para detectar pequeñas
desviaciones de la hipótesis nula. En cada caso concreto se ha de especificar qué se entiende por hipótesis cercanas
a la nula.
Supongamos que el parámetro θ es real. Se dice que una prueba con función de potencia η(θ) es el más potente
localmente para contrastar H0 : θ ≤ θ0 (o H0 : θ = θ0 ) frente a H1 : θ > θ0 si, para cualquier otra prueba con
función de potencia η ∗ (θ) tal que η(θ0 ) = η ∗ (θ0 ), existe un δ > 0 tal que η(θ) ≥ η ∗ (θ) para todo θ ∈ (θ0 , θ0 + δ].
Veamos cómo podemos encontrar la prueba más potente localmente en este caso. Restringimos la hipótesis
alternativa del siguiente modo: (
H0 : θ = θ0
H1 : θ = θ0 + δ
para δ > 0 cercano a 0.
ya que, bajo H0 , E [S (θ0 ; X)] = 0, V [S (θ0 ; X)] = Iθ0 y S (θ0 ; X) es aproximadamente normal.
d
Ejemplo 4.15. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de X = Cauchy(θ), con función de densidad
1
f (x|θ) = .
2
π 1 + (x − θ)
Se desea contrastar (
H0 : θ = θ0
H1 : θ > θ0
Demostración. La verosimilitud y su logaritmo son
n n
Y 1 X
2
L(θ; X) = , l(θ; X) = − log π + log 1 + (x − θ) .
2
i=1 π 1 + (xi − θ) i=1
La función score es
n
X 2(xi − θ)
S (θ0 ; X) = 2
i=1 1 + (xi − θ)
110 4 CONTRASTE DE HIPÓTESIS
y la información de Fisher
n
Iθ = .
2
Asintóticamente la prueba localmente más potente rechaza H0 : θ = θ0 en favor de H1 : θ > θ0 si y sólo si
n r
X 2(xi − θ0 ) n
2 ≥ zα/2 2
.
i=1 1 + (xi − θ0 )
Observemos que las pruebas localmente más potentes son útiles sólo para alternativas unilaterales. Si θ es un
vector, serán útiles cuando nos preocupa una dirección específica en la que el parámetro pueda alejarse de θ0 .
Supongamos que una prueba depende del tamaño n de la muestra y que su función de potencia se denota por
ηn (θ). Diremos que una prueba es consistente si
lı́m ηn (θ) = 1
n→∞
para todo θ ∈ Θ1 . Las pruebas derivadas del Lema de Neyman-Pearson son consistentes (ver, por ejemplo, el
teorema 6.6.1 de Bickel y Doksum 1977).
Esta definición lleva aparejado un concepto de eficiencia relativa entre pruebas. Sean H0 y H1 dos hipótesis
simples. Dadas dos pruebas T1 y T2 , ambas de tamaño α y consistentes para contrastar H0 frente a H1 , se
consideran respectivamente los tamaños muestrales n1 y n2 más pequeños necesarios para obtener potencia mayor
o igual que η, un valor fijo. Se define la eficiencia relativa de T1 comparado con T2 como
n2
.
n1
Se define la eficiencia relativa asintótica de T1 comparado con T2 como
n2
lı́m ,
η→1 n1
n2
es decir, es el límite del cociente cuando ambos tamaños muestrales tienden a infinito conjuntamente, en el
n1
sentido de que ambos garantizan potencia η y η tiende a 1.
Existen otros conceptos de eficiencia relativa entre pruebas que contemplan la posibilidad de que la hipótesis
alternativa tienda hacia la nula cuando n tiende a infinito (eficiencia de Pitman; ver, por ejemplo, Bickel y Dok-
sum 1977). Otras definiciones se basan en la comparación de p-valores (eficiencia de Bahadur; ver, por ejemplo,
Shorack y Wellner, 1986).
Dada una población representada por la variable X cuya distribución depende de un parámetro θ, se desea
contrastar (
H0 : θ ∈ Θ0
H1 : θ ∈ Θ1
donde Θ = Θ0 ∪ Θ1 y Θ0 ∩ Θ1 = φ.
Para realizar el contraste se toma una muestra aleatoria simple, X = (X1 , X2 , . . . , Xn ), de X, variable aleatoria
con función de densidad (o de probabilidad) f (x; θ) para algún θ ∈ Θ, y se calcula, el estadístico de la razón de
verosimilitudes:
máx L(X|θ)
θ∈Θ0
λ = λ(X) = .
máx L(X|θ)
θ∈Θ
1. 0 ≤ λ ≤ 1.
máx L(X|θ)
θ∈Θ0
λ(X) = .
L(X|θ)
b
La idea intuitiva que sustenta este método de prueba es simple. Obsérvese que 0 ≤ λ ≤ 1 y que cuanto más
cercano a 1 sea el valor de λ más verosímil es que θ ∈ Θ0 , mientras que cuanto más se aleje λ de 1, más creíble
será la hipótesis alternativa θ ∈ Θ1 .
Una vez calculado λ el desarrollo del test es muy intuitivo; así, se busca un número k ∈ (0, 1), tal que si λ ≤ k
se rechaza H0 . La desigualdad λ ≤ k determina una región C en el espacio muestral, tal que si x ∈ C se rechaza
H0 , no rechazándose en caso contrario. Para calcular el valor de k, fijado un nivel de significación α, se procede
como sigue
P [X ∈ C/θ ∈ θ0 ] = P (λ ≤ k/θ ∈ θ0 ] ≤ α.
Sólo se tiene garantizado que el valor de k queda unívocamente determinado cuando la hipótesis nula es simple.
2. El no rechazar H0 depende, en primer lugar, de lo próximo que se encuentre θ0 del estimador máxi-
mo–verosímil, caso de existir, y en segundo lugar, de la curvatura de la función de verosimilitud, de forma
que cuando dicha curvatura es muy pequeña resulta más difícil rechazar H0 , haciéndose menor la capacidad
de discriminación de λ(X).
112 4 CONTRASTE DE HIPÓTESIS
En el caso de hipótesis nula simple frente a alternativa simple, el contraste de la razón de verosimilitudes coincide
con el de Neyman–Pearson. Además, si existe un estadístico suficiente para el parámetro, el contraste de la razón
de verosimilitudes es función de dicho estadístico.
Ejemplo 4.16. Sea una población N(µ, 1). Se quiere realizar el contraste
(
H0 : µ = 1
H1 : µ 6= 1
a través del método de razón de verosimilitudes.
d
Solución. Para ello se toma una muestra aleatoria simple, X1 , X2 , . . . , Xn , de X = N(µ; 1), de tamaño n y se
fija el nivel de significación α.
Puesto que el máximo del parámetro para la función de verosimilitud se alcanza en el estimador máximo–verosímil,
µ
bM V = X, y la hipótesis nula sólo contiene el valor µ = 1 del parámetro, la razón de verosimilitudes viene dada
por
n
n (Xi −1)2
P
1 − i=1
√ e 2
2π
λ(X) = n
n (Xi −X )2
P
1 − i=1
√ e 2
2π
por lo que operando se tiene que
n
(1−X )2
P
− i=1 2
λ(X) = e .
La región crítica del contraste viene dada por
n
(1−X )2
P
− i=1 2
e ≤k
P [λ(X) ≤ k|H0 ] = α
d
Ejemplo 4.17. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de X = N(µ; σ 2 ), µ y σ 2 desconocidos:
b2 ), donde
El estimador MV en general es θb = (x; σ
n
n−1 2 1X
e2 =
σ S = (xi − x)2 ,
n n i=1
y el máximo de la verosimilitud es
n no
σ 2 )−n/2 exp −
máx L(θ|X) = (2πb .
θ∈Θ0 2
Por lo tanto,
n
P −n/2
2 −n/2
(xi − µ0 )2
σ
e i=1
λ = λ(X) = = n
b2
σ P
(xi − x)2
i=1
n
P −n/2
(xi − x)2 + n(x − µ0 )2 −n/2
t2
i=1
= n
= 1+ ,
P n−1
(xi − x)2
i=1
x − µ0 d
donde t = √ = H0 . Por lo tanto, el estadístico λ es decreciente en |t|.
S/ n
La prueba de razón de verosimilitudes rechaza H0 si λ < K para algún K, lo cuál ocurrirá si y sólo si |t| > B
para algún B.
114 4 CONTRASTE DE HIPÓTESIS
|x − µ0 |
√ >B
S/ n
La prueba que rechaza H0 cuando λ ≤ K tiene la misma región crítica (y, por tanto, es la misma prueba) que el
L(θ1 |X) 1
que la rechaza cuando ≥ , que es la región crítica dada por la prueba de Neyman-Pearson.
L(θ0 |X) K
La única distorsión es que no se pueden construir pruebas de la razón de verosimilitudes con niveles α ∈
(1 − p; 1), donde p es
L(θ0 |X)
p=P > 1|H0 ,
L(θ1 |X)
ya que si rechazamos H0 cuando λ(X) ≤ K < 1, entonces
L(θ0 |X) L(θ0 |X)
α=P ≤ K|H0 ≤ P ≤ 1|H0 = 1 − p
L(θ1 |X) L(θ1 |X)
. Si H0 es simple y existe una prueba UMP para contrastar H0 frente a H1 , entonces la prueba de razón
de verosimilitudes coincide con la prueba UMP. (Véase Garthwaite, Jollife y Jones 1995, página 84, y las
referencias allí citadas para una demostración de esta propiedad.)
Muchas de las propiedades asintóticas de las pruebas de la razón de verosimilitudes son comunes a todos ellos.
Citemos las siguientes:
. Bajo las condiciones de regularidad que garantizan que el estimador de máxima verosimilitud es consistente,
se tiene que la prueba de razón de verosimilitudes es una prueba consistente. (Véase Cristóbal 1992, página
589).
. La prueba de razón de verosimilitudes es asintóticamente la prueba insesgada más potente. (Véase Garth-
waite, Jollife y Jones 1995, página 84.)
d
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de X = fθ , θ ∈ Θ ⊆ Rk . Se desea contrastar
(
H0 : θ = θ 0
H1 : θ 6= θ1
que, bajo H0 y suponiendo que se cumplen las condiciones habituales de regularidad, se distribuye asintoicamente
como una χ2k dado que
Sn (θ0 ; xn ) ≈ N(0; In (θ0 )).
Para el caso k = 1 se tiene que bajo H0 .
2
−1 ∂ log L(θ; xn )
TnS = In (θ0 ) ≈ χ21 .
∂θ
Cualquier estimador consistente de la matriz de información asintótica podría ser usado en lugar de In (θ0 ).
Los tests del score se conocen en econometría como tests de los multiplicadores de Lagrange.
el estadístico t
Wn = θc
n − θ 0 I (θ
n 0 ) θ
cn − θ 0
116 4 CONTRASTE DE HIPÓTESIS
Wn ≈ χ2k .
Aquí, al igual que ocurría con el test del score, la matriz In (θ0 ) puede ser sustituida por otro estimador consis-
tente de la matriz de información. Por ejemplo, puede usarse In (θc n ).
Obsérvese que para calcular el estadístico Wn sólo es necesario calcular el estimador máximo verosímil global.
Por este motivo se le llama a veces prueba de la máxima verosimilitud.
Obsérvese que la expresión de la prueba de la razón de verosimilitudes es completamente diferente de las expre-
siones de los test del score o de Wald. Sin embargo, es fácil ver (usando desarrollos de Taylor) que las tres pruebas
son asintóticamente equivalentes en el sentido siguiente:
Ejemplo 4.18. En un experimento de Bernoulli con probabilidad de éxito p que se repite n veces, se llama X al
d
número de éxitos observados: X = B(n; p). Se trata de contrastar las hipótesis
(
H0 : p = p0
H1 : p 6= p0
Así, el EMV es
x
pb = .
n
y la información de Fisher es
∂l2 (p; X)
n
In (p) = E − 2
= .
∂p p(1 − p)
El estadístico del test del score es
2 2
(x − np0 )2
−1 ∂l(p; X) p0 (1 − p0 ) x − np0
TnS = (In (p0 )) − = = ,
∂p n p0 (1 − p0 ) np0 (1 − p0 )
máx L(p|x)
p=p0 L(p0 |x)
λ(x) = = ,
máx L(p|x) p|x)
L(b
p∈(0,1)
Desarrollando la función log en serie de Taylor hasta el orden 2 alrededor del 1, se obtiene que la expresión
aproximada de Qn coincide con Wn .
El procedimiento que se sigue para realizar los contrastes es el de aplicar si es factible el Lema de Ney-
man–Pearson. En los casos que ello no sea posible, se aplica el Contraste de la Razón de Verosimilitudes y si
tampoco esto fuera posible, se aplica la Metodología de Fisher. No obstante, en poblaciones Normales los contras-
tes coinciden en la mayoría de los casos, sea cual sea el método que se utilice.
Sea una muestra aleatoria simple, X, extraída de una población N(µ, σ 2 ). La tabla 4-3 proporciona las regiones
críticas en función de las distintas situaciones que se pueden presentar.
118 4 CONTRASTE DE HIPÓTESIS
Ejemplo 4.19. En una fábrica se producen cuerdas cuya resistencia promedio es de 500 kgf (kilogramofuerza),
con una desviación estándar de 40 kgf. El jefe de producción plantea que con otra materia prima la resistencia
promedio puede aumentarse. Para probar su planteamiento se utilizó de forma experimental la nueva materia
prima, tomándose una muestra de 64 de las cuerdas producidas, para la cual la resistencia promedio fue de 510
kgf. Se quiere realizar la prueba de hipótesis correspondiente para un 5 % de significación.
Solución. Al enfrentar un problema de este tipo, lo primero que se hace es analizar a que parámetro se le va a
hacer la prueba, y esto está en dependencia de lo que se va a investigar. En este caso se plantea que con la nueva
materia prima la resistencia promedio puede aumentarse, por lo que evidentemente se debe efectuar una prueba de
4.10 Contrastes en poblaciones Normales 119
hipótesis de media (µ). Se debe determinar entonces si se conoce la varianza poblacional (σ 2 ) o no; para ello lo
segundo que se hará es sacar la información que brinda el problema.
σ2
Dado que σ es conocida, se tiene que N µ,
2
, luego las fórmulas para el cálculo de la región crítica que se
n
deben utilizar son las de la normal.
Nota: H0 hubiera podido ser también totalmente contraria a H1 , o sea: µ ≤ 500, es decir, que con la nueva
materia prima la resistencia promedio no varía o incluso disminuye.
Región crítica:
σ
C = x : x > µ0 + Z1−α √
n
40
= x : x > 500 + Z0.95 √
64
= {x : x > 500 + 1.64 × 5}
= {x : x > 500 + 8.2}
= {x : x > 508.2}
Figura 4-2:
Por tanto, se rechaza H0 . Esto implica que se acepta H1 , lo cual permite concluir, con un nivel de significación
del 5 %, que con la nueva materia prima la resistencia promedio puede aumentarse.
120 4 CONTRASTE DE HIPÓTESIS
Al tomar esta decisión pudo cometerse el error tipo I, rechazar una hipótesis nula cierta, por ello se indica el
nivel de significación usado.
La prueba hubiera podido desarrollarse también por la llamada vía interna; en este caso, para las mismas hipó-
tesis planteadas se tendría:
Región crítica: C = {Z0 : Z0 > Z1−α } = {Z0 : Z0 > Z0.95 } = {Z0 : Z0 > 1.64}.
x − µ0 510 − 500 10
Decisión: Z0 = √ = √ = = 2 > 1.64 o sea: Z0 ∈ C.
σ/ n 40/ 64 5
Por tanto, de la misma manera, se rechaza H0 , y se llega a igual conclusión: el cambio de materia prima puede
aumentar la resistencia promedio de las cuerdas.
Ejemplo 4.20. La producción promedio diaria de leche por vaca, en cierta hacienda, en los meses de verano ha
sido en los años anteriores de 10.1 litros. Este año en una muestra simple aleatoria de 16 días de los meses de
verano se obtuvo una producción media diaria por vaca de 9.9 litros con una desviación estándar de 1.1 litros.
¿Hay razón para afirmar que ha variado la producción media diaria de leche por vaca?
Solución. Esta es una prueba paramétrica sobre la media, ya que de lo que se trata es de verificar si ha tenido
variación la producción promedio diaria de leche por vaca.
Este es un caso típico en que se desconoce la varianza poblacional (σ 2 ), pues la desviación estándar disponible
es una estimación calculada sobre la propia muestra. Luego, al ser n < 30, se tiene que trabajar obligatoriamente
con la distribución t-Student, para el cálculo de la región crítica.
Hipótesis:
H0 : µ = 10.1
H1 : µ 6= 10.1
Nivel de significación:
α = 0.05 (Cuando no se sugiere ninguno, el nivel de significación lo decide el estadístico.)
Región crítica:
S S
C = x : x < µ0 − t1− α2 , n−1 √ ó x > µ0 + t1− α2 , n−1 √
n n
1.1 1.1
= x : x < 10.1 − t0.975, 15 √ ó x > 10.1 + t0.975, 15 √
16 16
= {x : x < 10.1 − 2.13 × 0.275 ó x > 10.1 + 2.13 × 0.275}
= {x : x < 10.1 − 0.586 ó x > 10.1 + 0.586}
= {x : x < 9.514 ó x > 10.686}
4.10 Contrastes en poblaciones Normales 121
Regla de decisión: Se rechaza H0 si x < 9.514 ó x > 10.686. No se rechaza H0 si 9.514 ≤ x ≤ 10.686.
El error que se pudo haber cometido al tomar la decisión anterior es de tipo II.
Por supuesto, se llegaría a idéntica conclusión si se utilizara la vía interna de análisis, como se demuestra a
continuación:
Región crítica: C = t0 : |t0 | > t1− α2 , n−1 = {t0 : |t0 | > t0.975, 15 } = {t0 : |t0 | > 2.13}.
Ejemplo 4.21. Se afirma que un lote de piezas contiene menos del 30 % de piezas defectuosas. Para comprobarlo
se revisan 50 piezas del lote seleccionadas al azar, entre las cuales se detectan 10 defectuosas. ¿Hay razón para
mantener la afirmación con una significación del 5 %?
Solución. Esta prueba, evidentemente es de proporciones, ya que lo que se está investigando es sobre la propor-
ción de piezas defectuosas, y se tiene como dato con el conteo de éstas en la muestra tomada. La afirmación que se
quiere verificar, referente a que menos del 30 % de las piezas es defectuosa, no es algo dado por seguro, luego, es
una hipótesis: la hipótesis alternativa; y el dato a tomar como referencia, el 30 %, es el equivalente a una proporción
histórica.
Datos:
X: cantidad de piezas defectuosas.
n = 50 piezas xn = 10 piezas defectuosas α = 0.05 p0 = 0.30.
Hipótesis:
H0 : p ≥ 0.30
H1 : p < 0.30
Región crítica:
r
p0 q0
C = pb : pb < p0 − Z1−α
n
( r )
0.30 × 0.70
= pb : pb < 0.30 − Z0.95
50
n √ o
= pb : pb < 0.30 − 1.64 0.0042
= {b
p : pb < 0.30 − 1.64 × 0.064}
= {b
p : pb < 0.30 − 1.05}
= {b
p : pb < 1.95}
122 4 CONTRASTE DE HIPÓTESIS
Xn 10
Decisión: pb = = = 0.20 > 0.195, o sea: pb ∈
/ C.
n 50
Por tanto, no se rechaza H0 .
Entonces, bajo el α usado no se puede afirmar que el lote contiene menos del 30 % de piezas defectuosas.
Región crítica: C = {Z0 : Z0 < −Z1−α } = {Z0 : Z0 < −Z0.95 } = {Z0 : Z0 < −1.64}.
Ejemplo 4.22. El precio de cierto producto en el mercado mundial exhibió durante el pasado año una variabili-
dad expresada en términos de una desviación estándar de 0.4 dólares. Una muestra aleatoria simple de 30 días
correspondiente al presente año dio como resultado una desviación estándar de 0.5 dólares. ¿Hay razón suficiente
para creer que el precio del producto es menos estable este año que el pasado? Considere un α = 0.05.
Solución. Ya que lo que se quiere investigar es la estabilidad del precio, es decir su variabilidad, y se cuenta dato
con desviaciones estándares, queda claro se debe efectuar una prueba de varianzas.
Es bueno destacar que un precio menos estable implica mayor varianza, mientras que, por el contrario, un precio
más estable implica menor varianza.
Datos:
σ0 = 0.4 S = 0.5 n = 30 α = 0.05.
Hipótesis:
H0 : σ 2 = 0.16 (El precio actual se mantiene con la misma estable.)
H1 : σ 2 > 0.16 (El precio actual es menos estable, o sea, con mayor variabilidad.)
Región crítica:
σ2 2
C = S2 : S2 > χ1−α; n−1
n−1
0.16
= S2 : S2 > χ20.95; 29
29
0.16
= S2 : S2 > 42.6
29
2 2
= S : S > 0.235
Esto que implica que se acepte H1 , esto es, puede decirse, con una significación del 5 % (o una confiabilidad
del 95 %) que el precio del producto este año es menos estable que en el anterior.
4.10 Contrastes en poblaciones Normales 123
Región crítica: C = χ20 : χ20 > χ21−α = χ20 : χ20 > χ20.95 = χ20 : χ20 > 42.6 .
O sea, χ20 ∈ C.
Por tanto, como era de esperar, se rechaza H0 , llegándose a las mismas conclusiones.
En primer lugar, habría que distinguir si las muestras son extraídas de poblaciones Normales independientes o
por el contrario, se trata de muestras apareadas.
Supóngase X1 , X2 , . . . , Xn1 y Y1 , Y2 , . . . , Yn2 dos muestras aleatoria simple extraídas de dos poblaciones in-
dependientes, N(µ1 , σ12 ) y N(µ2 , σ22 ), respectivamente. La tabla 4-4 proporciona las regiones críticas en función
de las distintas situaciones que se pueden presentar.
Cuando las dos muestras aleatoria simple, X1 , X2 , . . . , Xn1 e Y1 , Y2 , . . . , Yn2 , extraídas de dos poblaciones
N(µ1 , σ12 ) y N(µ2 , σ22 ), respectivamente, son apareadas, se considera la muestra de las diferencias y se aplican los
contrastes para una población.
124 4 CONTRASTE DE HIPÓTESIS
4.12. Ejercicios
1. Un investigador ha preparado un nivel de dosis de droga que según él, inducirá el sueño en 80 % de las
personas que sufren de insomnio. Después de examinar la dosis, pensamos que lo dicho por él respecto a la
efectividad de la dosis es exagerado. En un intento por refutar su dicho, administramos la dosis prescrita a
20 personas que padecen de insomnio y observamos X, el número de individuos a quienes la dosis induce
el sueño. Deseamos probar la hipótesis H0 : p = 0.8 contra la alternativa, H1 : p < 0.8. Suponga que se
usa la región de rechazo C = {x ≤ 12}.
a) De acuerdo con la información de este problema, ¿qué es un error tipo I?
b) Encuentre α.
c) Con base en la información de este problema, ¿qué es un error tipo II?
126 4 CONTRASTE DE HIPÓTESIS
2. Consulte el problema 1.
a) Defina la región de rechazo de la forma C = {x ≤ c} de modo que α ' 0.01.
b) Para la región de rechazo del inciso (a), encuentre β cuando p = 0.6.
c) Para la región de rechazo del inciso (a), encuentre β cuando p = 0.4.
3. Suponga que deseamos probar la hipótesis nula H0 de que la proporción p de hojas de contabilidad con
errores es igual a 0.05 contra la alternativa H1 de que la proporción es mayor que 0.05 usando el siguiente
esquema. Se seleccionan al azar dos hojas de contabilidad. Si ninguna de ellas tiene errores, rechazamos
H0 ; si una o más contienen un error, vemos una tercera hoja. Si ésta no tiene errores, rechazamos H0 . En
todos los otros casos aceptamos H0 .
a) De acuerdo con la información de este problema, ¿qué es un error tipo I?
b) ¿Cuál es el valor de α relacionado con esta prueba?
c) Con base en la información de este problema, ¿qué es un error tipo II?
d) Calcule β = P (error tipo II) como una función de p.
4. Nos interesa probar si una moneda está o no balanceada, con base en el número de caras X en 36 tiros de
la moneda. (H0 : p = 0.5 contra H0 : p 6= 0.5). Si usamos la región de rechazo C = {x : |x − 18| ≥ 4},
¿cuál es el valor de α? y ¿cuál es el valor de β si p = 0.7?
5. El dueño de una fábrica sostiene que su producto tiene una vida media de 10 años. Para comprobar tal
afirmación se toma una muestra de 120 productos comprobándose que su vida media había sido de 9.6 años
y su desviación estándar de 1.2 años.
a) ¿Qué se puede decir de la afirmación del fabricante, supuesto que sus productos siguen una distribución
Normal, con un nivel de confianza del 95 %?
b) ¿Cómo se vería afectada la conclusión anterior si la desviación estándar hubiese sido de 1.5?
6. En un determinado instituto aseguran que las notas obtenidas por sus alumnos en las pruebas de acceso a la
Universidad tienen una media igual o superior a 7 puntos. Pero la media obtenida en una muestra aleatoria
simple de 80 alumnos en los últimos exámenes fue de 6.89 puntos. Si sabemos que la varianza es igual a
4.84, ¿podemos considerar, con un nivel de significación del 1 %, que la afirmación hecha por el instituto es
cierta?
7. Un partido político realiza un sondeo para conocer la intención de voto. En una muestra de 300 votantes se
encuentra que solo 105 son favorables al partido. Contraste la hipótesis a un nivel de significación del 10 %
de que al menos el 40 % de la población lo votará.
8. Se sabe que el promedio de las calificaciones de los estudiantes en la asignatura de Estadística en los últimos
dos años ha sido de 5.6. Tras tomar una muestra aleatoria simple de 30 estudiantes del presente curso, se
obtuvo un promedio de 6.4 y una desviación estándar de 1.25. Suponiendo que se distribuyen normalmente,
¿se puede afirmar que los alumnos de este año obtuvieron calificaciones por encima de lo habitual?
9. Sea X una variable aleatoria distribuida según una N(µ, 9). A partir de la muestra 6, 7, 8, 3, 5, 6, 7, 8, 9, 1,
7, 6, 3, 8, 9, 7, contraste, con un nivel de significación de 0.05, la hipótesis de que la media real sea 5.
4.12 Ejercicios 127
10. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de una población N(µ, 1) con µ desconocido. Construir
el test MP de tamaño α para contrastar H0 : µ = 0 contra H1 : µ = µ1 con µ1 > 0. Calcular su potencia.
Suponer ahora fijados α y β (potencia del test) y calcular el tamaño muestral mínimo n que se necesita para
obtener dichos valores de α y β.
11. Durante 100 años la desviación estándar de las temperaturas anuales máximas de una ciudad ha sido de 16o F.
Pero en los últimos 12 años se estuvo tomando la temperatura máxima los días uno de cada mes y dio una
desviación estándar de 10o F. Supuesto que la temperatura se distribuya normalmente, ¿se puede afirmar con
un 95 % de fiabilidad que la variabilidad de las temperaturas ha disminuido?
12. El fabricante de un determinado aparato de medida garantiza que éste tiene una desviación estándar de
0.25 unidades. Transcurrido un periodo de 9 meses, una muestra de 20 medidas proporcionó una desviación
estándar de 0.32 unidades. ¿Puede afirmarse con un nivel de significación del 5 % que el aparato de medida
está estropeado? ¿Y con un 1 % de significación?
13. Para averiguar si difieren los niveles de una determinada sustancia química en dos grupos de personas, se
toman muestras con los siguientes resultados:
Muestra n X S
Vitaminas 31 8.5 5.5
Normal 25 4.8 5.1
14. Se pretende estudiar si existe diferencia, en lo que a eficacia se refiere, entre el paracetamol y un nuevo
producto, Y, en el alivio de determinados síntomas. Para ello, se seleccionó dos grupos de 10 y 16 personas
y se midió el tiempo medio que tardaban los enfermos en sentirse bien. Los resultados indicaron que mientras
el primer grupo tardaba 15.8 minutos de media con una desviación estándar de 7.8 minutos, el segundo lo
hacía en 13.2 minutos de media y desviación estándar de 6.6 minutos. Si se supone normalidad en ambos
casos, realice el contraste adecuado para un nivel de significación de 0.05.
15. De dos poblaciones Normales se extraen dos muestras aleatorias X e Y , de tamaño 121 y 41 y cuasivarianzas
muestrales 70.2 y 76.8, respectivamente. Realice un contraste para averiguar si existen evidencias para pensar
que las dos muestras procedan de poblaciones con varianza diferente, a un nivel de significación del 10 %.
16. Si la producción diaria de la máquina de una fábrica tiene más de 10 % de artículos defectuosos, es necesario
repararla. Una muestra aleatoria de 100 piezas de la producción del día contiene 15 piezas defectuosas y el
supervisor decide que la máquina debe ser reparada. ¿La evidencia muestral apoya su decisión? Use una
prueba con nivel 0.01.
17. El vicepresidente de ventas de una gran empresa afirma que los vendedores están promediando no más de
15 contactos de venta por semana. (Le gustaría aumentar esta cantidad.) Como prueba de su afirmación,
aleatoriamente se seleccionan n = 36 vendedores y se registra el número de contactos hechos por cada
uno para una sola semana seleccionada al azar. La media y varianza de las 36 mediciones fueron 17 y 9,
respectivamente. ¿La evidencia contradice lo dicho por el vicepresidente? Use una prueba con nivel α =
0.05.
18. Se sabe que ciertas piezas de una máquina tienen una vida media de 1940 horas. Al variar uno de sus
componentes se observa que una muestra de 100 piezas ha dado una duración media de 2000 horas y una
desviación estándar de 150 horas. ¿Se puede afirmar a un nivel de significación del 10 % que el componente
modificado ha supuesto un cambio significativo en la duración media de las piezas?
128 4 CONTRASTE DE HIPÓTESIS
19. En una encuesta realizada a 200 habitantes de una población A, 95 personas afirmaban que preferían la playa
a la montaña para pasar la vacaciones. La misma encuesta realizada a 150 habitantes de otra población B, dio
como resultado que 100 personas preferían ir a la playa. ¿Puede pensarse que los habitantes de la población
B son más aficionados a la playa que los de la población A? Contrástese dicha hipótesis al 99 %.
20. Una muestra de tamaño 1 se toma a partir de una población con función de densidad
f (x) = θ2
0, e.o.c.
21. Calcular el test MP de tamaño α, por el método de Neyman-Pearson para contrastar H0 : θ = θ0 contra
H1 : θ = θ1 con θ1 < θ0 basado en una muestra de tamaño 1 de una población con función de densidad
(
2θx + 2(1 − θ)(1 − x), si 0<x<1
f (x) =
0, e.o.c.
22. Con el propósito de saber si debe poner neumáticos diferentes en los trenes delanteros (D) y traseros (T)
de sus vehículos, un fabricante ha medido el desgaste producido en 20 de ellos después de 15000 km,
obteniendo los siguientes resultados:
a) Suponiendo normalidad, ¿confirman los datos, con un nivel de significación de 0.05, la hipótesis de
que el desgaste medio en el tren delantero es de 21 unidades?
b) ¿Se puede afirmar que los neumáticos sufren el mismo desgaste en los dos trenes?
23. El número de defectos congénitos de una población se distribuye según una Poisson de parámetro λ. Se
pretende realizar el contraste
(
H0 : λ = 0.3
H1 : λ = 0.2
para lo que se toma una muestra aleatoria de 100 individuos de la población. Los resultados obtenidos fueron
los siguientes:
Defectuosos 0 1 2 3 4 5
Frecuencias 84 9 3 2 1 1
A la vista de tales resultados, ¿qué conclusión puede obtenerse con un nivel de significación del 0.025?
24. Se sabe que el porcentaje de curación espontánea de una determinada enfermedad es del 30 %. Para asegurar
la eficacia de un nuevo tratamiento se selecciona aleatoriamente una muestra de 100 enfermos y se les somete
a tal tratamiento, obteniéndose que el porcentaje de personas curadas fue del 45 %. ¿Se puede afirmar la
eficacia del mencionado tratamiento con una confianza del 95 %?
4.12 Ejercicios 129
25. En un estudio realizado sobre las tendencias de los fumadores se seleccionó de manera aleatoria una muestra
de 400 hombres de los cuales 190 eran fumadores y otra muestra aleatoria de 800 mujeres, de las que
fumaban 300. ¿Se puede afirmar que la proporción de fumadores es la misma en hombres que en mujeres
con una confianza del 90 %?
26. A partir de una muestra aleatoria simple de tamaño 36 extraída de una población Normal con desviación
estándar 5 se desea realizar el siguiente contraste:
(
H0 : µ = 14
H1 : µ = 17
27. La empresa BBM afirma que nueva gama de neumáticos duran en promedio más de 28.000 km. Las pruebas
con 64 neumáticos dan como resultado una duración media de 27.800 km, con una desviación estándar
muestral de 1.000 km.
a) Si se usa un nivel de significación del 5 %, comprobar si hay evidencia suficiente para rechazar la
afirmación de la empresa. Establecer claramente la hipótesis nula y alternativa. Rta. No hay evidencias
suficientes para rechazar la afirmación de la empresa.
b) Explica brevemente qué es el p–valor. ¿Cuál es el p-valor? Rta. El p–valor es el menor nivel de signi-
ficación para el que se rechaza la hipótesis nula. El cual es 0.0548.
28. Una línea de producción funciona con un peso de llenado de 16 gr por envase. De acuerdo con datos an-
teriores, se sabe que el peso sigue una distribución normal. El exceso o defecto de peso en el llenado son
problemas graves, y la línea de producción debe parar si se presenta alguno de ellos. Un inspector de calidad
toma una muestra de 30 artículos y de acuerdo con los resultados toma la decisión de parar la línea o dejarla
trabajando.
a) Para un nivel de significación α = 0.05, si se encuentra que x = 16.32 gr y SbX = 0.8 gr ¿qué acción
recomendarías? ¿Cuál es el p–valor? Rta. Existe un problema grave en el llenado y debe pararse la
línea de producción. El p–valor es 0.05.
b) Para el mismo nivel de significación y el mismo valor de SbX ¿qué acción recomendarías si se obtiene
que x̄ = 15.82 gr? Rta. No es necesario detener la línea de producción.
29. El número diario de llamadas atendidas por una centralita telefónica tiene una distribución de Poisson de
parámetro λ. Se considera que la centralita no es rentable y debe ser suprimida si λ < λ0 . A fin de estudiar
la conveniencia de cerrarla se registra el número de llamadas durante n días.
a) Obtener el test de tamaño α y uniformemente de máxima potencia para contrastar H0 : λ ≥ λ0 frente
a H1 : λ < λ0 . ¿Por qué es razonable colocarlas en este orden?. Aplicarlo al caso λ0 = 50, n = 12 y
α = 0.025. Con tales especificaciones, ¿qué decisión debe adoptarse si se ha obtenido la muestra 32,
63, 39, 31, 42, 73, 37, 58, 46, 45, 30, 44? ¿Cuál es el nivel crítico asociado a ella?
130 4 CONTRASTE DE HIPÓTESIS
b) El riesgo de cerrar una centralita claramente rentable: λ ≥ 55, se desea que sea menor que 0.001 y
el de mantener abierta una centralita muy poco rentable: λ ≤ 45 se quiere que sea menor que 0.005.
¿Cuál es el tamaño de la muestra necesario para que el test diseñado cumpla tales especificaciones?
30. Construir el test UMP de tamaño α para contrastar H0 : θ = θ0 frente a H1 : θ < θ0 para el parámetro θ
1 x
de una función de densidad f (x, θ) = e− θ con x > 0, basado en muestras de tamaño 1. Hacer lo mismo
θ
con muestras de tamaño n para contrastar H0 : θ ≤ θ0 frente a H1 : θ > θ0 .
31. Una determinada empresa le propone al director de una fábrica un nuevo método que, supuestamente, reduce
el tiempo empleado en el montaje de uno de sus productos. Con el propósito de comparar tal método con
el empleado habitualmente, seleccionó aleatoriamente a siete de sus empleados para que llevasen a cabo
el montaje con los dos sistemas y anotó los tiempos empleados en el montaje, obteniendo los siguientes
resultados:
Trabajador 1 2 3 4 5 6 7
Método habitual 38 32 41 35 42 32 45
Método nuevo 30 32 34 37 35 26 38
Supuesto que el tiempo de montaje sigue una distribución Normal, ¿se puede afirmar que efectivamente el
nuevo método reduce el tiempo en más de dos minutos?
32. En el equipo de análisis que acompaña a los acuarios para la determinación de la dureza del agua de los
mismos en %, se indica que la varianza de las determinaciones es igual o menor que el 5 %.
Llevamos a cabo 20 determinaciones de la dureza del agua del acuario y obtenemos una varianza para los
mismos igual al 6 %. Si la variable determinación de la dureza del agua es normal, ¿aceptaremos la indicación
con un nivel de significación de 0.01?.
33. Puesto que un nivel de colesterol elevado es un factor de alto riesgo en el desarrollo de la aterosclerosis
cardíaca y coronaria, es importante determinar los niveles a esperar en los diferentes grupos de edad.
Se realizó un estudio para comparar el nivel de colesterol en varones de entre 20 y 29 años frente a mujeres
del mismo grupo de edad.
Varones Mujeres
n1 = 25 n2 = 31
x1 = 167.16 x2 = 178.12
S1 = 30 S1 = 32
34. Dada una media de muestra de 83 elementos, una desviación estándar de muestra de 12.5 y un tamaño de
muestra de 22, pruebe la hipótesis de que el valor de la media de la población es 70, frente a la otra opción
de que es más de 70. Utilice un nivel de significancia de 0.025
35. Se ha realizado un estudio sobre el salario de profesores de instituto de matemáticas en dos estados diferentes
de Estados Unidos. Para ello se han seleccionado 100 profesores en cada estado. En el estado 1 se ha obtenido
4.12 Ejercicios 131
un sueldo medio de 29.6 dólares por semana, con una varianza de 1100, mientras que en el estado 2 se ha
obtenido un sueldo medio de 30.8 dólares por semana, con una varianza de 1000. Suponer normalidad en
los datos e igualdad de varianzas poblacionales. ¿Es razonable suponer que el estado 2 ofrece un sueldo más
atractivo que el estado 1? Utilizar un nivel de confianza de 0.02.
36. Una corredora de bienes raíces tomó una muestra aleatoria de 12 hogares de un barrio de gente acomodada
y encontró que el valor de mercado promedio estimado era de $780000 con una desviación estándar de
$49000. Pruebe la hipótesis que para todas las casas del área, el valor estimado medio es de $825000, frente
a la otra opción de que es menos de $825000. Utilice un nivel de significancia de 0.05.
37. Los siguientes datos corresponden a la longitud medida en centímetros de 18 pedazos de cables sobrantes
en cada rollo utilizado 9.00; 3.41; 6.13; 1.99; 6.92; 3.12; 7.86; 2.01; 5.98; 4.15; 6.87; 1.97; 4.01; 3.56; 8.04;
3.24; 5.05; 7.37. Basados en estos datos, ¿podemos decir que la longitud media de los pedazos de cable es
mayor de 4 cm? Suponga la población normal con desviación estándar de 2.3 y tome un nivel de significancia
de 0.05
38. Una fábrica de pilas garantiza que su producto tiene una vida media de 1000 horas y una desviación estándar
de 50 horas. Pruebe la hipótesis de que µ = 1000 en contraposición a la alterna de que µ 6= 1000, si una
muestra aleatoria de 30 baterías tiene una duración promedio de 950 horas. Utilice un α = 5 %.
39. Un manufacturero de juguetes Tailandés reclama que solo un 10 % de los osos de juguete hechos para hablar
están defectuosos. Cuatrocientos de éstos juguetes se sometieron a prueba de forma aleatoria y se encontró
que 50 estaban defectuosos. Pruebe el reclamo del manufacturero con un nivel de significancia de 5 %.
40. Una agencia de empleos afirma que el 80 % de todas las solicitudes hechas por mujeres con hijos prefieren
trabajos a tiempo parcial. En una muestra aleatoria de 200 solicitantes mujeres con niños, se encontró que
110 prefirieron trabajos a tiempo parcial. Pruebe la hipótesis de la agencia con un nivel de significancia de
5 %.
41. Nacionalmente, un 16 % de los hogares tiene una computadora personal. En una muestra aleatoria de 80 ho-
gares en Baltimore, solo 13 poseían una computadora personal. Con un nivel de significancia de 5 %, pruebe
si el porcentaje de hogares en Baltimore que tienen computadoras personales es menor que el porcentaje
nacional.
42. El registrador de cierta universidad ha dicho que está dispuesto a permitir una sección del curso ESTAD
121 una vez a la semana si más del 65 % de los estudiantes matriculados en el curso expresan que prefieren
el curso una vez a la semana, en vez de dos veces a la semana. En una muestra aleatoria de 40 estudiantes,
26 indicaron su preferencia de una vez a la semana. Usando un nivel de significancia de 0.01, ¿debe el
registrador autorizar el ofrecimiento del curso ESTAD 121 una vez a la semana?
43. Se sabe que el diámetro de los agujeros para una montura de cable tiene una desviación estándar de 0.01 in.
se obtiene una muestra de 10 monturas donde el diámetro promedio resulta ser 1.5045 in. utilice α = 0.01,
diga si se acepta o no la hipótesis nula H0 : µ = 1.50 contra H1 : µ 6= 1.50.
44. Se sabe que el diámetro de los agujeros para una montura de cable tiene una desviación estándar de 0.01 in.
se obtiene una muestra de 10 monturas donde el diámetro promedio resulta ser 1.5045 in. Utilice α = 0.05.
Diga si se acepta o no la hipótesis nula H0 : µ ≥ 1.50 contra H1 : µ < 1.50.
45. Se sabe que el diámetro de los agujeros para una montura de cable tiene una desviación estándar de 0.01 in.
se obtiene una muestra de 10 monturas donde el diámetro promedio resulta ser 1.5045 in. utilice α = 0.05.
Diga si se acepta o no la hipótesis nula H0 : µ ≤ 1.50 contra H1 : µ > 1.50.
132 4 CONTRASTE DE HIPÓTESIS
46. Se sabe que la duración, en horas, de un foco de 75 watts tiene una distribución aproximadamente normal,
con una desviación estándar de σ = 25 horas. Se toma una muestra aleatoria de 20 focos, lo cual resulta
tener una duración promedio de x = 1014 horas. Utilice α = 0.05. Diga si se acepta o no la hipótesis nula
H0 : µ ≤ 1000 contra H1 : µ > 1000.
47. Se sabe que la duración, en horas, de un foco de 75 watts tiene una distribución aproximadamente normal,
con una desviación estándar de σ = 25 horas. Se toma una muestra aleatoria de 20 focos, lo cual resulta
tener una duración promedio de x = 1014 horas. Utilice α = 0.05. Diga si se acepta o no la hipótesis nula
H0 : µ = 1000 contra H1 : µ 6= 1000.
48. Los sistemas de escape de emergencia para aviones son impulsados por un combustible sólido. Una de las
características importantes de este producto es la rapidez de combustión. Las especificaciones requieren que
la rapidez promedio de combustión sea de 50 cm/s. Se sabe que la desviación estándar de esa rapidez es de
σ = 2 cm/s. El experimentador decide especificar un nivel de significancia, de α = 0.05. Selecciona una
muestra aleatoria de n = 25 y obtiene una rapidez promedio muestral de combustión de x = 51.3 cm/s. ¿A
qué conclusión debe llegar?
49. Se desea determinar, con base a la media X de una muestra aleatoria de tamaño 100, si el gasto diario
promedio en alimentos de familias de tres miembros de cierta escala de ingreso es de US$850. A partir de
información recolectada en otros estudios pertinentes, suponemos que la variabilidad de esos gastos están
dados por una desviación estándar de σ= US$122 y se sabe que la media de la muestra es de US$878. El
experimento se debe realizar con un nivel de significancia de α = 0.05 y 0.01 ¿A qué conclusiones se debe
llegar?
50. La duración media de una muestra de 100 bombillos fluorescentes producidos por la compañía General
Electric resulta ser 1570 horas, con una desviación estándar de 120 horas. Si µ es la duración media de todos
los tubos producidos por la compañía, compruebe la hipótesis H0 : µ = 1600 horas contra H1 : µ 6= 1600
horas con un nivel de significancia de a) 0.01, b) 0.05.
51. En una institución bancaria consideran que los clientes tienen problemas de pago si se han retrasado en sus
pagos por más de 90 días. Se revisaron los datos de los pagos realizados por 150 personas físicas y 110
empresas, seleccionados aleatoriamente. Se encontró que en las cuentas de las 150 personas físicas, ocho
tenían vencimientos por más de 90 días; mientras que en los reportes de las cuentas de las empresas, doce
tenía vencimientos por más de 90 días. Pruebe la hipótesis nula de que las proporciones son iguales. Utilice
α = 0.05.
52. En una empresa se desea saber si hay diferencias en los niveles de productividad entre los dos turnos labora-
les. Con ese objetivo analizó los niveles de producción de 24 meses. La media del turno de la mañana es de
737 unidades con una desviación estándar de 50 unidades. También durante 24 meses, el turno de la tarde
tuvo una media de 768 unidades con una desviación estándar de 64 unidades. ¿Afirmaría que el turno de la
tarde tiene mayor productividad? Utilice un nivel de significancia de 0.05.
53. Supóngase que se conocen los resultados de una prueba de aptitud para la admisión a estudios de grado en
Administración de Empresas, los cuales tienen una distribución normal con media de 500 y una desviación
estándar de 100. Si una muestra aleatoria simple de 12 solicitantes del Stephan College tiene una media
muestral de 537 ¿existe evidencia de que su resultado medio sea diferente de la media esperada de todos los
solicitantes? Use α = 0.01.
54. La compañía Acero Valle Verde fabrica barras de acero. Entrega barras de acero con una longitud promedio
de por lo menos 2.8 pies cuando el proceso funciona correctamente. De la línea de producción se selecciona
una muestra de 25 barras. La muestra señala una longitud promedio de 2.43 pies y una desviación estándar de
4.12 Ejercicios 133
0.20 pies. La compañía desea determinar si se necesita ajustar el equipo de producción. Utilice un α = 0.05
y diga qué error pudo estar cometiendo con la decisión tomada.
55. La división de inspección del departamento de pesas y medias de una Ciudad está interesada en confirmar la
cantidad real de refrescos que se envasa en botellas de 2 litros, se conoce que µ = 2.02. La planta embotella-
dora ha informado a la división de inspección que se desconoce la desviación estándar de la población, y que
al tomar una muestra aleatoria simple de 100 botellas, mostró un promedio de 1.99 litros y una desviación
estándar de 0.05 litros. ¿Es posible concluir que la cantidad promedio en las botellas fuera menos de 2 litros?
Utilice un α = 0.01.
56. Una gran cadena nacional de electrodomésticos tiene una venta especial por fin de temporada de podadoras
de césped. A continuación se presenta el número de podadoras vendidas durante esta venta en una muestra
de 10 tiendas:
8 11 0 4 7 8 10 5 8 3.
A un α = 0.05 ¿se puede llegar a la conclusión que se haya vendido un promedio de más de 5 podadoras por
tienda durante esta venta? ¿Qué suposiciones se requiere para realizar esta prueba? ¿Qué error se pudiera
estar cometiendo con la decisión tomada?
57. Se conoce que en una ciudad, la proporción de hombres es de 0.40. Se supone que después de la construcción
de una gran industria, la proporción de hombres aumentó. Para verificar este supuesto, se extrajo una muestra
aleatoria simple de tamaño 100, resultando que la misma está integrada por 45 hombres y 55 mujeres. Se
pide hacer la prueba para un α = 0.05.
58. Un supermercado de cadena recibe de una firma un embarque de cierta marca de bolígrafos baratos. El
gerente comercial de la cadena desea estimar la proporción de bolígrafos defectuosos; se toma una muestra
aleatoria simple de 300 bolígrafos y se encuentran que 30 están defectuosas. Se puede devolver el embarque
si más del 5 % están defectuosas. ¿Sería probable que la proporción de plumas defectuosas fuera superior a
0.05 y que pudiera devolverse el embarque?. Utilice un α = 0.05.
59. Un fabricante de aparatos de televisión ha afirmado en su garantía que en el pasado solo el 10 % de sus
aparatos necesitaron alguna reparación durante sus dos primeros años de funcionamiento. Para comprobar
la validez de esta afirmación, el departamento de control de la calidad del ministerio seleccionó una muestra
de 100 aparatos y encuentra que 14 de ellos requirieron alguna reparación durante sus primeros dos años de
funcionamiento. Utilizando un α = 0.01, ¿es válida la afirmación del fabricante o es probable que no lo sea?
60. En una agencia de bienes raíces, uno de los ejecutivos afirma que no hay diferencias en el precio promedio
de las viviendas en dos municipios que conforman el área metropolitana. El gerente decidió realizar un
estudio para probar esta afirmación. Se seleccionó una muestra aleatoria de 65 casas en el municipio A y
otra muestra aleatoria de 75 casas en el municipio B. Los resultados obtenidos fueron los siguientes:
Municipio A Municipio B
x1 = $542810 x1 = $584100
s1 = $204560 s1 = $207320
Con base en los datos muestrales y asumiendo que se emplea un nivel de significancia de 0.05, ¿qué concluirá
el gerente de la agencia?
61. Dos fabricantes A y B producen un artículo similar, cuyas vidas útiles tienen desviaciones estándar respecti-
vas de 120 horas y 90 horas. Para comparar el promedio de vida útil de estos artículos se extrae una muestra
134 4 CONTRASTE DE HIPÓTESIS
aleatoria de 60 artículos de cada fabricante encontrándose la duración media de 1230 horas para la marca A
y de 1190 horas para la marca B. ¿Se puede concluir a un nivel de significación del 5 % que los artículos de
marca A tienen mayor duración media que los artículos de marca B?
62. Una muestra aleatoria de 300 hombres y otro de 400 mujeres de una determinada población reveló que 120
hombres y 120 mujeres estaban a favor de cierto candidato. ¿Se puede concluir a un nivel de significación
del 5 % que la proporción de hombres a favor del candidato es mayor que la proporción de mujeres?
63. Un artículo publicado en la revista Materials Engineering describe los resultados de pruebas de resistencia a
la adhesión de 22 especímenes de aleación U −700. La carga para la que cada espécimen falla es la siguiente
en MPa:
19.8 18.5 17.6 16.7 15.8 15.4 14.1 13.6 11.9 11.4 11.4
8.8 7.5 15.4 15.4 19.5 14.9 12.7 11.9 11.4 10.1 7.9
¿Sugieren los datos que la carga promedio de falla es mayor que 10 Mpa? Supóngase que la carga donde se
presenta la falla tiene una distribución normal, y utilicese α = 0.05.
64. Los pesos en libras de una muestra aleatoria de bebés de seis meses son: 14.6, 12.5, 15.3, 16.1, 14.4, 12.9,
13.7 y 14.9. Haga una prueba con nivel de 5 % de significancia para determinar si el peso promedio de todos
los bebés de seis meses es distinto a 14 libras, suponga que sus pesos se distribuyen normalmente.
65. Una gran cadena nacional de electrodomésticos tiene una venta especial por fin de temporada de podadoras
de césped. A continuación se presenta el número de podadoras vendidas durante esta venta en una muestra
de 10 tiendas: 8, 11, 0, 4, 7, 8, 10, 5, 8, 3. A un α = 0.05 ¿Se puede llegar a la conclusión que se haya
vendido un promedio de más de 5 podadoras por tienda durante esta venta?
66. Las siguientes muestras aleatorias son las lecturas de la capacidad de generación de calor (en millones de
calorías por toneladas) de especímenes de carbón de dos minas:
Utilice un nivel de significación del 5 % para probar si existe diferencia entre las dos minas.
67. Las siguientes son las calificaciones en el examen estatal de ciencias sociales para muestras aleatorias inde-
pendientes de adolescentes de dos preparatorias.
Escuela A 78 84 81 78 76 83 79 75 85 81
Escuela B 85 75 83 87 80 79 88 94 87 82
Use el nivel de significación igual a 0.05 para probar la aseveración de que los estudiantes de la escuela A
tienen un mejor promedio que los de la escuela B.
68. En una muestra aleatoria de 250 personas que no tomaron desayuno, 102 reportaron que experimentaron
fatiga a media mañana y en una muestra aleatoria de 250 personas que desayunaron, 73 informaron que
experimentaron fatiga a media mañana. Use un nivel de significación de 0.01 para probar la hipótesis de
que no hay ninguna diferencia entre las proporciones de la población correspondiente contra la hipótesis
alternativa de que la fatiga a media mañana es más común entre personas que no desayunan.
4.12 Ejercicios 135
69. Entre 500 solicitantes de matrimonio, seleccionadas al azar hace doce años, 48 de las mujeres eran por lo
menos un año mayores que los hombres y entre 500 solicitudes de matrimonio seleccionadas después, 85
de las mujeres eran por lo menos un año mayores que los hombres. Use el nivel de significación 0.05 para
probar si hay un incremento real en la proporción de mujeres de las solicitudes de matrimonios que por lo
menos tenían un año más de edad que los hombres.
70. El propietario de un taller de reparaciones automotrices debe decidir cuál de dos máquinas vendedoras de
refrescos debe instalar en su sala de espera para clientes. Se probó cada máquina 200 y la primera falló(no
sirvió el refresco ni devolvió el dinero) 11 veces, mientras que la segunda máquina falló 6 veces. Pruebe
en el nivel de significación 0.05 si la diferencia entre las proporciones de la muestra correspondientes es
significativa.