Muestreo Estadistico Conceptos y Problema
Muestreo Estadistico Conceptos y Problema
Muestreo Estadistico Conceptos y Problema
A mis nias
CONTENIDO
INTRODUCCIN .............................................................................................................................
CAPTULO 1.
CAPTULO 2.
CAPTULO 3.
xi
3
4
6
8
10
47
49
51
51
54
57
62
64
108
109
111
112
114
55
56
viii
CAPTULO 4.
CAPTULO 5.
CAPTULO 6.
118
119
120
121
122
124
145
147
149
150
151
155
156
156
157
159
161
195
197
199
200
203
203
205
206
207
224
225
227
229
233
234
237
238
245
250
271
152
Contenido
CAPTULO 7.
CAPTULO 8.
CAPTULO 9.
ix
273
283
285
286
297
299
275
276
280
281
310
312
313
314
327
329
301
301
304
307
308
331
332
336
337
338
338
341
344
350
351
353
354
362
364
364
368
368
INTRODUCCIN
CAPTULO
MUESTREO ESTADSTICO: CONCEPTOS,
ESTIMADORES Y SU DISTRIBUCIN
OBJETIVOS
1. Presentar el concepto de muestreo estadstico en poblaciones finitas.
2. Distinguir claramente los conceptos de poblacin, marco y muestra.
3. Introducir el concepto de estimador y su distribucin en el muestreo.
4. Analizar las propiedades de los estimadores.
5. Estudiar la precisin de los estimadores.
6. Comparar estimadores.
7. Cuantificar la precisin de los estimadores.
8. Comprender el concepto de estimacin mediante intervalos de confianza.
9. Analizar la influencia del sesgo en la estimacin por intervalos de
confianza.
10. Analizar la influencia de la normalidad en la estimacin por intervalos de
confianza.
11. Realizar la estimacin mediante intervalos de confianza.
NDICE
1. Conceptos iniciales en la teora del muestreo.
2. Muestreo y estimadores. Distribuciones en el muestreo.
3. Propiedades y precisin de los estimadores. Comparacin de estimadores.
4. Estimacin por intervalos de confianza.
5. Problemas resueltos.
6. Ejercicios propuestos.
P(S ) = 1
S
Dada la muestra s = {u1, u2, ..., un}, es habitual especificar el conjunto de valores Xi
i = 1, 2, ..., n que toma la caracterstica X sobre las unidades de la muestra s mediante
s(X)={X1, X2, ..., Xn}. Al considerar todas las muestras s del espacio muestral S asociado al
procedimiento de muestreo, y los valores que toma la caracterstica X sobre dichas muestras,
se obtiene el conjunto S(X) = {s(X) / sDS}. Por tanto, podemos formalizar el concepto de
estimador e$ para el parmetro poblacional e definindolo mediante la aplicacin medible:
e : S ( X ) R n A R
( X 1 L X n ) A e( X 1 L X n ) = t
e1 : S ( X ) R n A R
( X 1 L X n ) A e1 ( X 1 L X n ) = X 1 + L + X n
= X
( X 1 L X n ) A e2 ( X 1 L X n ) =
X1 + L + X n
=X
n
En cuanto a la construccin del estimador, ha de ser tal que la funcin e$ que asocia a cada
muestra s el valor numrico e$ (s(X)) = e$ (X1, ..., Xn) sea calculable y est definida para todas las
muestras s del espacio muestral S generado por el procedimiento de muestreo considerado. La
formacin de estimadores no es una operacin independiente del procedimiento de muestreo que se
adopte. Generalmente, para construir estimadores se utiliza el principio de analoga; es decir, se
estima un parmetro poblacional a partir del estimador muestral anlogo. Por ejemplo, para estimar
la media poblacional, la razn poblacional, etc., se utilizan como estimadores sus anlogos
muestrales, es decir, la media muestral, la razn muestral, etc. No siempre estos estimadores por
analoga tienen las propiedades ms deseables, pero suelen ser siempre consistentes, y a veces
puede corregirse su sesgo multiplicndolos por una constante convenientemente elegida.
( X 1 L X n ) A e( X 1 L X n ) = t
Sea T = {tDR / (X1, ..., Xn)DS(X) que cumple e (X1, ..., Xn) = t}. El conjunto TR
constituye el conjunto de valores del estimador. Ahora vamos a definir las probabilidades de que
el estimador tome estos valores (ley de probabilidad de la variable aleatoria e$ ) como sigue:
P( s )
i
{ S i / e ( S i ( X )) = t }
Al par {T, PT}, formado por el conjunto de todos los posibles valores del estimador y
por las probabilidades de que el estimador tome esos valores, se lo denomina distribucin del
estimador en el muestreo. A partir de la introduccin del concepto de muestreo probabilstico
y del conocimiento de la distribucin de los estimadores en el muestreo, tanto la teora de la
probabilidad como la inferencia estadstica estn disponibles para ser aplicadas al muestreo.
En todo el desarrollo de este libro se supone la existencia de muestreo probabilstico.
() ()
()
2
ECM e = m e + B e
()
()
B e
1
.
<
10
m e
()
() (
2
V e = E e < E (e) = E e < e
= ECM (e)
De esta forma los conceptos de acuracidad y error del estimador son similares para
estimadores insesgados. Por tanto, para comparar varios estimadores insesgados e$i del
parmetro poblacional e en cuanto a precisin bastar considerar sus errores de muestreo
m (ei ) = + V (ei ) , siendo ms preciso el estimador que menor error de muestreo presente.
()
() ()
()
m e m e
=
CV e =
e
E (e)
y al ser e una constante el error relativo est en funcin slo del error de muestreo.
Con lo que resulta que, en el caso de estimadores insesgados, la precisin puede
hacerse depender exclusivamente del error de muestreo m e .
()
( )
( )
B ei
m e
i
siendo ms preciso aquel estimador que presenta una relacin del sesgo al error de muestreo
en valor absoluto ms pequea. Tambin puede utilizarse el coeficiente de variacin
CV ei = m (ei ) / E (ei ) , siendo ms preciso el estimador con menor coeficiente de variacin
(error relativo). Se observa que el denominador del coeficiente de variacin es el valor
esperado del estimador, con lo que el coeficiente de variacin recoge el efecto de un posible
sesgo en el estimador.
()
()
Si los estimadores sesgados tienen todos sesgo despreciable, B(ei ) / m (ei ) < 1 / 10 , se
hara la comparacin global como insesgados de acuerdo con los valores de m (ei ) .
< 1 x100
ECM (e )
2
CV (e1 )
< 1 x100
CV (e )
2
m (e1 )
< 1 x100
m (e )
2
_
= FN<1(0,1) 1 <
2
_
t_ = Ftn<<11 1 <
2
()
()
m e m e
,e +
e <
_
_
() ()
()
()
centrado en e , tenga una longitud superior al intervalo cuando no hay sesgo. Por tanto, la
presencia de sesgo conduce a una estimacin por intervalos menos precisa.
El intervalo de confinaza ya centrado ser el siguiene:
10
PROBLEMAS RESUELTOS
1.1.
Sobre las regiones que componen un determinado pas se mide la variable X=Nmero de
personas activas, obteniendo como resultados 6 millones, 4 millones, 3 millones y 8 millones
con probabilidades iniciales de seleccin 1/6, 1/3, 1/3 y 1/6, respectivamente, para cada
regin. Se trata de estimar en millones de personas la cifra media de actividad, extrayendo
muestras de la variable X con tamao 2 sin reposicin y sin tener en cuenta el orden de
colocacin de sus elementos. Para ello se consideran los estimadores alternativos
MEDIANA y MEDIA ARMNICA. Se pide lo siguiente:
1) Especificar el espacio muestral definido por este procedimiento de muestreo, las
probabilidades asociadas a las muestras y la distribucin en el muestreo de los dos
estimadores. Analizar la precisin de los dos estimadores. Cul de ellos es mejor?
2) Hallar intervalos de confianza para la mediana y la media armnica basados en la
muestra de mayor probabilidad para un nivel de confianza del 2 por mil (_ = 0,002).
Como dato se sabe que F-1(0.999)= 3, siendo F la funcin de distribucin de la normal
(0,1). Comentar los resultados relacionndolos con los del apartado 1.
Tenemos un procedimiento de muestreo sin reposicin en el que no interviene el orden de
colocacin de las unidades en las muestras, con lo que el espacio muestral tendr
4
= 6 muestras.
2
M
5
9/2
7
7/2
XH
24 / 5
4
48 / 7
24 / 7
3 / 20
6
16 / 3
3 / 20 11 / 2 48 / 11
11
2 2 2 2 1
u + u =
6 4 6 4 3
2 1 1 2 3
P (4,8) = P{4,8} + P{8,4} = P (4) P (8 / 4) + P (8) P (4 / 8) = u + u =
6 4 6 5 20
2 1 1 2 3
P (3,8) = P{3,8} + P{8,3} = P (3) P (8 / 3) + P (8) P (3 / 8) = u + u =
6 4 6 5 20
P(4,3) = P{4,3} + P{3,4} = P (4) P (3 / 4) + P (3) P (4 / 3) =
T
P (M
P T ( M
P T ( M
M
P T ( M
P T ( M
T
P ( M
3
20
9
3
= ) = P (6,3) =
2
20
1
= 7) = P (6,8) =
15
7
1
= ) = P (4,3) =
2
3
3
= 6) = P (4,8) =
20
11
3
= ) = P (3,8) =
2
20
T
P ( X H
P T ( X
H
P T ( X
H
XH
P T ( X
H
P T ( X H
T
P ( X H
= 5) = P (6,4) =
24
3
) = P (6,4) =
5
20
3
= 4) = P (6,3) =
20
48
1
= ) = P (6,8) =
7
15
24
1
= ) = P (4,3) =
7
3
16
3
= ) = P (4,8) =
3
20
48
3
= ) = P (3,8) =
11
20
=
XH =
4
= 4,57
1/ 6 + 1/ 4 + 1/ 3 + 1/ 8
E( X H ) =
u
+ 4u
+
u
+
u +
u
+
u
= 4,37 & X H = 4,57
5 20
20 7 15 7 3 3 20 11 20
Vemos que los dos estimadores son sesgados y los valores de sus sesgos son:
3
9
3
1
7
1
3
+ ( < 4,78) 2 u + (7 < 4,78) 2 u + ( < 4,78) 2 u + (6 < 4,78) 2 u
20 2
20
15 2
3
20
11
3
+ ( < 4,78) 2 u
= 1,19
20
2
12
24
3
3
48
1
Ya que los dos estimadores son sesgados se pueden hacer las comparaciones a travs
B ei
para ver si el
del error cuadrtico medio, pero antes se deben calcular las cantidades
m ei
sesgo es o no despreciable. Tenemos:
( )
( )
) 0,22
B(M
=
= 0.2,
m(M )
1,19
0,2
B(X H )
=
= 0,2
0,89
m(XH )
Los dos valores son superiores a 1/10, con lo que el sesgo no resulta despreciable en
ningn caso (los dos estimadores son igualmente precisos segn la razn del sesgo a la
desviacin tpica). Calculamos ahora los errores cuadrticos medios para aquilatar mejor la
diferencia de precisiones y ver realmente qu estimador es mejor.
3
9
3
1
7
1
3 11
3
ECM(M ) = E(M < 5)2 = (5 < 5)2 u + ( < 5)2 u + (7 < 5)2 u + ( < 5)2 u + (6 < 5)2 u + ( < 5)2 u = 1,24
20 2
20
15 2
3
20 2
20
3
48
1
24
1
24
3
ECM( X H ) = E( X H < 4,57)2 = ( < 4,57)2 u + (4 < 4,57)2 u + ( < 4,57)2 u + ( < 4,57)2 u
20
20
7
15
7
3
5
16
3
48
3
+ ( < 4,57)2 u + u ( < 4,57)2 = 0,93
3
20 11 20
El mejor estimador resulta ser la media armnica porque tiene menor error
cuadrtico medio. Para cuantificar las ganancias en precisin calculamos:
1, 24
0 ,93
() ()
() ()
[e < h_ m e < | B e |, e + h_ m e + | B e |]
Tenemos:
M A [7 / 2 < 3 1,19 < | <0,22 |, 7 / 2 + 3 1,19 + | <0,22 |] = [0,004, 6,99]
X H A [24 / 7 < 3 0,89 < | <0,2 |, 24 / 7 + 3 0,89 + | <0,2 |] = [0,39, 6,45]
13
14
1.2.
Dada la poblacin {U1, U2, U3, U4, U5} seleccionamos muestras de tamao 3 por el siguiente
mtodo de muestreo: De un recipiente que contiene tres bolas numeradas del 1 al 3 se
extraen al azar dos bolas mediante muestreo aleatorio sin reposicin con probabilidades
iguales, y a continuacin, de otro recipiente con dos bolas numeradas con el 4 y el 5 se
extrae una bola. Se supone que extraer la bola i-sima equivale a elegir para la muestra la
unidad Ui. Consideramos los estimadores por analoga siguientes:
T1 = Proporcin de subndices pares en la muestra
T2 = Total de subndices impares en la muestra
4, 5
U1
U2
Como en la urna U1 seleccionamos dos bolas sin reposicin, las posibilidades son
(A1 A2), (A1 A3) y (A2 A3). Como para cada par de bolas seleccionadas de la urna U1 se
selecciona una bola en la urna U2, las posibles muestras de tres elementos sern (A1 A2 A4),
(A1 A2 A5), (A1 A3 A4), (A1 A3 A5), (A2 A3 A4) y (A2 A3 A5).
Las probabilidades de las muestras se calculan como se indica a continuacin:
P(A1 A2 A4) = P(A1 A2 /U1)P(A4/U2) + P(A2 A1/U1)P(A4/U2) = P1(A1)P1(A2/A1)P2(A4) +
P1(A2 )P1(A1 / A2)P2(A4) = (1/3)(1/2)(1/2) + (1/3)(1/2)(1/2) = 1/6
P(A1 A2 A5) = P(A1 A2/U1)P(A5/U2) + P(A2 A1/U1)P(A5/U2) = P1(A1 )P1(A2/A1)P2(A5) +
P1(A2)P1(A1/A2)P2(A5) = (1/3)(1/2)(1/2) + (1/3)(1/2)(1/2) = 1/6
El clculo de las probabilidades de las restantes muestras es similar, y el valor es 1/6
para todas ellas; es decir, estamos ante un mtodo de seleccin con probabilidades iguales. Ya
podemos formar la tabla con las muestras del espacio muestral S_X, sus probabilidades Pi y los
valores de los dos estimadores del problema sobre las mismas T1 y T2 , datos que van a
permitirnos el clculo de las distribuciones en el muestreo de los estimadores. En el siguiente
cuadro se especifican las muestras, sus probabilidades y los valores de los estimadores para cada
muestra.
S_ X
A1 A 2 A 4
Pi
1/ 6
T1
2/3
T2
1
A1 A 2 A 5
A1 A 3 A 4
1/ 6
1/ 6
1/ 3
1/ 3
2
2
A1 A 3 A 5
1/ 6
A 2 A3 A 4
1/ 6
2/3
A 2 A3 A5
1/ 6
1/ 3
15
1 1
T
P (T 1= 2 / 3) = 2 u 6 = 3
1 1
T1 P T (T 1= 1 / 3) = 3 u =
6 2
1
T
P (T 1= 0) = 6
1 1
T
P (T 2 = 1) = 2 u 6 = 3
1 1
T1 P T (T 2 = 2) = 3 u =
6 2
1
T
P (T 2 = 3) = 6
e1 = 2/3 e2 = 3
Ahora, para comprobar la insesgadez, hallamos la esperanza matemtica de los
estimadores tal y como se indica a continuacin:
2 1 1 1
1
E(T1 ) = u + u + 0 u = 7 / 18 = 0,388888888& 2 / 5 = e1
3 3 3 2
6
1
1
1
E(T2 ) = 1u + 2 u + 3 u = 11 / 6 = 1,8333333333& 3 = e 2
3
2
6
16
Como |B( T1 )/m( T1 )| = 0,0485 < 1/10, el sesgo del estimador T1 es despreciable, por lo
que este puede considerarse a todos los efectos insesgado. Como |B( T )/m( T )| = 1,69 > 1/10
2
pues su error cuadrtico medio es mucho menor que el de T2 . La ganancia en precisin por
usar T en vez de T es:
1
( )
( )
( )
( )
m T1 m T1
0,229
0,229
, T1 +
, 2/3+
= [0.357, 1.69]
T1 <
= 2 / 3 <
_
_
0,05
0,05
17
() ()
() ()
[T2 < h_m T2 < | B T2 |, T2 + h_m T2 + | B T2 |] = [1 <1.96* 0.687+ 0.16, 1 + 1.96* 0.687+ 0.16] = [<1.513, 3.513]
18
1.3.
En una poblacin de 3 unidades numeradas {U1, U2, U3} se extraen muestras de tamao 2
mediante el siguiente mtodo de muestreo: Se extraen al azar 2 bolas de una urna que
contiene 6 bolas (tres con el nmero 1, dos con el nmero 2 y una con el nmero 3), y se
extraen de la poblacin las dos unidades que tengan los mismos nmeros que las dos bolas
extradas. Se pide:
1) Considerando la extraccin de las bolas en la urna con reposicin y el estimador por analoga
T= Nmero de unidades distintas en las muestras, hallar su distribucin en el muestreo
analizando su precisin. Obtener una estimacin puntual del nmero de unidades distintas en
la poblacin y otra por intervalos al 99,8% de confianza (F-1(0,999) = 3) basndose en la
muestra de mayor probabilidad.
2) Contestar a las preguntas del apartado anterior suponiendo que la extraccin de las bolas en la
urna sin reposicin. Comparar las estimaciones en los dos casos comentando los resultados.
Para hallar el espacio muestral asociado a este procedimiento de muestreo sin reposicin
consideramos la urna U con 6 bolas (tres con el nmero 1, dos con el nmero 2 y una con el
nmero 3).
3
1
1
2
1
2
U
Como en la urna U seleccionamos dos bolas sin reposicin, las posibilidades son
(1,1), (1,2), (1,3), (2,2) y (2,3).
Las probabilidades de las muestras se calculan como se indica a continuacin:
P(1,1) = P1 (1) + P2 (1 / 1) =
3 2 1
u =
6 5 5
3 2 2 3 2
u + u =
6 5 6 5 5
3 1 1 3 1
P(1,3) = P{1,3} + P{3,1} = P1 (1) P2 (3 / 1) + P1 (3) P2 (1 / 3) = u + u =
6 5 6 5 5
2 1 1
P(2,2) = P1 (2) u P2 (2 / 2) = u =
6 5 15
2 1 1 2 2
P(2,3) = P{2,3} + P{3,2} = P1 (2) P2 (3 / 2) + P1 (3) P2 (2 / 3) = u + u =
6 5 6 5 15
P(1,2) = P{1,2} + P{2,1} = P1 (1) P2 (2 / 1) + P1 (2) P2 (1 / 2) =
19
Ya podemos formar la tabla con las muestras del espacio muestral S_X, sus
probabilidades Pi y los valores del estimador T del problema sobre las mismas, datos que nos
van a permitir el clculo de la distribucin en el muestreo del estimador. En el siguiente
cuadro se especifican las muestras, sus probabilidades y los valores del estimador para cada
muestra.
Muestras
( sin reposicn )
1
S_X
Pi
(1,1)
1/ 5
2
3
(1, 2 )
(1,3)
2/5
1/ 5
2
2
4
5
( 2, 2 )
( 2 ,3 )
1 / 15
2 / 15
1
2
1 1
4
T
P (T = 1) = 5 + 15 = 15
T
P T (T = 2) = 2 + 1 + 2 = 11
5 5 15 15
E (T ) = 1 u
4
11
+ 2 u = 26 / 15 = 1,7333333333 & 3 = e
15
15
4
11
+ ( 2 < 1,733 ) 2 u
= 0,1955
15
15
4
11
+ ( 2 < 3) 2 u
= 1,8
15
15
20
[T < h_m (T )< | B(T ) |, T + h_m (T )+ | B(T ) |] = [2 < 3 * 0,442 < 1,26 + 3 * 0,442 + 1,26] = [<0,593, 4,593]
Los clculos pueden automatizarse con Excel como sigue:
21
3 3 1
u =
6 6 4
3 2 1
P(1,2) = 2 P(1) u P(2) = 2 u =
6 5 3
3 1 1
P(1,3) = 2 P(1) u P(3) = 2 u =
6 6 6
2 2 1
P(2,2) = P(2) u P(2) = u =
6 6 9
2 1 1
P(2,3) = 2 P(2) u P(3) = 2 u =
6 6 9
1 1 1
P(3,3) = P(3) u P(3) = u =
6 6 36
P(1,1) = P(1) u P(1) =
Ya podemos formar la tabla con las muestras del espacio muestral S_X, sus
probabilidades Pi y los valores del estimador T del problema sobre las mismas, datos que nos
van a permitir el clculo de la distribucin en el muestreo del estimador. En el siguiente
cuadro se especifican las muestras, sus probabilidades y los valores del estimador para cada
muestra.
Muestras
S_X
Pi
(1,1)
1/ 4
(1, 2 )
1/ 3
(1,3)
1/ 6
( 2, 2 )
1/ 9
( 2,3)
1/ 9
(3,3)
1 / 36
( con reposicin )
1
1 1 1
7
T
P (T = 1) = 4 + 9 + 36 = 18
T
P T (T = 2) = 1 + 1 + 1 = 11
3 6 9 18
22
E (T ) = 1 u
7
11
+ 2 u = 29 / 18 = 1,611111& 3 = e
18
18
7
11
+ ( 2 < 1,6111) 2 u
= 0,237
18
18
7
11
+ ( 2 < 3) 2 u
= 2,1666
18
18
23
Para comparar las estimaciones con y sin reposicin observamos los errores
cuadrticos medios, resultando que el mtodo sin reposicin tiene menor error cuadrtico
medio, lo que indica que es mejor mtodo de estimacin.
La ganancia en precisin por trabajar sin reposicin en vez de con reposicin se
cuantifica como sigue:
GP = (EMCCR(T)/EMCSR(T) - 1)*100 = (2,1666/1,8-1)*100=20,37%
Se ve que la precisin mejora un 20,37% en caso de usa seleccin sin reposicin.
Adems, tambin se observa que el intervalo de confianza del estimador menos preciso (con
reposicin) es ms ancho.
1.4.
24
6
=15
2
Por otra parte, en este problema estamos considerando la clase A de los nmeros
primos, con lo que asociaremos a los Ui los Ai que valen cero cuando Ui no es primo y valen
uno cuando Ui es primo. Luego sobre el conjunto UiA{2, 13, 17, 23, 6, 1} se mide la variable
A y se obtiene el conjunto AiA{0, 1, 1, 1, 0, 1}. Al tratarse de muestreo aleatorio sin
reposicin y probabilidades iguales, las probabilidades iniciales de seleccin de los elementos
de la poblacin para la muestra valdrn P(ui) = 1/6, i = 1, ..., 6 y la probabilidad de cualquier
muestra puede hallarse mediante la expresin:
P_X = P(ui,uj) = P(ui)P(uj/ui) + P(uj)P(ui/uj) = P(ui)P(uj)/(1<P(ui)) + P(uj)P(ui)/(1<P(uj))) =
(1/62)/(1<1/6) + (1/62)/(1<1/6) = 2(1/62)/(1<1/6) = 1/15
Se observa que las probabilidades de las muestras sern todas iguales a 1/15. Luego
estamos ante un mtodo de seleccin con probabilidades iguales y muestras equiprobables.
A continuacin se presenta la tabla que contiene el espacio muestral, las
probabilidades de las muestras y la distribucin de los estimadores.
PROPORCIN ( P )
0,5
0,5
0,5
0
0,5
1
1
0,5
1
1
0,5
1
0,5
= 6 P )
TOTAL ( A
EXPANSIN
3
3
3
0
3
6
6
3
6
6
3
6
3
TOTAL ( T = 2 P )
MUESTRAL
1
1
1
0
1
2
2
1
2
2
1
2
1
1/15
1/15
0,5
S1_X
0
0
0
0
0
1
1
1
1
1
1
1
1
S2_X
1
1
1
0
1
1
1
0
1
1
0
1
0
P_X
1/15
1/15
1/15
1/15
1/15
1/15
1/15
1/15
1/15
1/15
1/15
1/15
1/15
1 2
T
P ( P = 1) = 6 u 15 = 5
1
8
P P T ( P = 1 / 2) = 8 u =
15
15
1
T
P ( P = 0) = 15
1 2
T
P ( A = 6) = 6 u 15 = 5
1
8
A P T ( A = 3) = 8 u =
15
15
1
T
P ( A = 0) = 15
1 2
T
P (T = 2) = 6 u 15 = 5
1
8
T P T (T = 1) = 8 u =
15
15
1
T
P (T = 0) = 15
25
2 1 8
1
E( P ) = 1u + u + 0 u = 2 / 3 = 0,6666 = e1
5 2 15
15
2
8
1
E( A ) = 6 u + 3 u + 0 u = 6E( P ) = 4 = e 2
5
15
15
1
8
2
E(T ) = 2 u + 1u + 0 u = 2E( P ) = 4 / 3 = 1,33333 & 4 = e 2
15
15
5
Se observa que P es insesgado para e1 y A e insesgado para e2. El estimador T es
sesgado para e2 con sesgo B( T ) = E( T ) < e2 = 4/3 < 4 = <8/3 = <2,66. Para calcular las
varianzas de los estimadores se tiene en cuenta que A = 6 P y que T = 2 P .
2 1
8
1
V ( P ) = (1 < 0,666) 2 u + ( < 0,666) 2 u + (0 < 0,66) 2 u = 0,088888
5 2
15
15
V ( A ) = V (6P ) = 36V ( P ) = 3,2
V (T ) = V (2P ) = 4V ( P ) = 0,35555
Como los estimadores P y A son insesgados, su varianza coincide con su error cuadrtico
medio, por lo que su precisin se mide a travs de la varianza. De esta forma, el estimador P para
estimar e1 es ms preciso que el estimador A para estimar e2 por tener menor varianza.
Como |B( T )/m( T )| = 4,46 > 1/10, el sesgo del estimador T no es despreciable y al
compararlo con A tenemos un estimador sesgado y el otro insesgado. La comparacin debe
hacerse a travs de los errores cuadrticos medios. Tenemos:
8
1
2 1
ECM (T ) = (1 < 4 / 3) 2 u + ( < 4 / 3) 2 u + (0 < 4 / 3) 2 u = 0,53333 > ECM ( A ) = V ( A ) = 3,2
5 2
15
15
Se observa que el error cuadrtico medio de T es mayor que la varianza de A , luego
A es ms preciso que T para estimar e2. Por lo tanto, el estimador de expansin del total es
ms preciso que el estimador por analoga.
26
g1 =
g2 =
m4
m4
m3
m3
<3 =
1
2(0 < 2 / 3) 3 + 4(1 < 2 / 3) 3
6
1
1
2(0 < 2 / 3) 4 + 4(1 < 2 / 3) 4
6
1
= 0,968
< 3 = <1,875
0, 298
0, 298
m ( P ) m ( P )
,P+
,0+
= [< 2 .98 , 2 .98 ]
P <
= 0 <
0,01
0,01
_
_
m ( A ) m ( A ) 1,7888
1,7888
, A+
,0+
A <
= 0 <
= [< 17 .8, 17 .8]
0,01
0,01
_
_
27
28
1.5.
Supongamos que los gastos X y los ingresos Y de una empresa a lo largo de los 6 ltimos
meses fueron los siguientes:
X
Y
Se extraen muestras aleatorias simples de dos meses sin reposicin y con probabilidades
iguales y se pide:
1) Distribucin en el muestreo de los estimadores por analoga del gasto total y del
estimador por analoga de la proporcin que significan los gastos en los ingresos (razn
de gastos totales sobre ingresos totales). Qu estimador es mejor? Calcular la ganancia
en precisin y expresar los resultados en trminos de intervalos de confianza al 95%
basados en la muestra de mayor total.
2) Distribucin en el muestreo de los estimadores del gasto total siguientes:
Estimador de expansin del gasto total.
Proporcin de los gastos en los ingresos por el ingreso total poblacional
Qu estimador es mejor?
Como se trata de muestreo aleatorio sin reposicin en el que se supone que el orden de
colocacin de los elementos en las muestras de tamao 2 no interviene, el nmero de muestras
S1_X
GTOTAL
GTOTALEXP TOTAL
(3*GTOTAL) (36,5*RAZN)
S2_X
S1_Y
S2_Y
1/15
7=3+4
1/15
5=3+2
0,5=(3+2)/(6+4)
15=3*5
18,25=36,5*0,5
2,5
1/15 5,5=3+2,5
0,5=(3+2,5)/(6+5)
16,5=3*5,5
18,25=36,5*0,5
3,5
6,5
4,5
1/15
7,5
0,535714286
22,5
1/15
0,545454545
18
19,90909091
2,5
1/15
6,5
0,541666667
19,5
19,77083333
3,5
6,5
1/15
7,5
0,555555556
22,5
20,27777778
4,5
1/15
8,5
0,566666667
25,5
20,68333333
2,5
1/15
4,5
0,5
13,5
18,25
3,5
6,5
1/15
5,5
0,523809524
16,5
19,11904762
P=PX=PY
29
RAZN
0,53=(3+4)/(6+7)
21=3*7 19,65=36,5*0,53
19,5=3*6,5 18,98=36,5*0,52
19,55357143
4,5
1/15
6,5
0,541666667
19,5
19,77083333
2,5
3,5
6,5
1/15
0,52173913
18
19,04347826
2,5
4,5
1/15
0,538461538
21
19,65384615
3,5
4,5
6,5
1/15
0,551724138
24
20,13793103
15
i =1
E ( RAZN ) =
15
i =1
Para calcular los sesgos se observa que B(GTOTAL) = E(GTOTAL)<e1 = 6,5<19,5 = <13
y B(RAZN) = E(RAZN) < e2 = 0,53206 < 0,53424 = <0,00218. A continuacin se calculan las
varianzas de los estimadores.
V (GTOTAL) =
15
(GTOTAL
i =1
V ( RAZN ) =
15
(RAZN
i =1
1
1
+ L + (8 < 6,5) 2 u = 1,1666
15
15
1
1
+ L + (0,55 < 0,532) 2 u = 0,000399
15
15
30
ECM (GTOTAL) =
15
(GTOTAL
i =1
1
1
+ L + (8 < 19,5) 2 u = 170,166
15
15
() ()
() ()
[e < h_ m e < | B e |,e + h_ m e + | B e |] = [8,5 < 1,96 u 1,08 < 13, 8,5 + 1,96 u 1,08 + 13] = [<6.61, 23.61]
()
()
31
32
1.6.
Consideramos una poblacin virtual para simulacin formada por 10 individuos agrupados
en 4 hogares y cuyos ingresos anuales en miles de euros (variable X) se presentan en la tabla
adjunta:
HOGARES A
H1
H2
H3
H4
--
INGRESOS (Xi) A 1, 2, 3
4, 6
9, 11
2, 2, 5
Se considera un procedimiento de muestreo que consiste en elegir cada hogar con
probabilidades proporcionales a sus tamaos. Se considera el estimador T1 = Ingreso medio
de los hogares, para estimar el ingreso medio poblacional, y se considera el estimador T2 =
Ingreso total de los hogares, para estimar el ingreso total poblacional. Se pide:
1) Especificar el espacio muestral relativo a este procedimiento de muestreo y las
probabilidades asociadas a las muestras. Hallar tambin las distribuciones de
probabilidad en el muestreo de los estimadores T1 y T2. Cul de ellos es mejor?
Razonar la respuesta y cuantificar la ganancia en precisin.
2) Hallar un intervalo de confianza para el ingreso medio al nivel _ = 0,002 basado en el
subconjunto de mayor total. Se sabe que F-1 (0,999) = 3, siendo F la funcin de
distribucin de una Normal (0,1). Hallar tambin un intervalo de confianza del 95% para
el ingreso total basado en el subconjunto de mayor media. Se sabe que F-1 (0,975) = 2,
siendo F la funcin de distribucin de una Normal (0,1).
33
4
4
P2 = 2 / 10 = 1 / 5
Pi = kM i
Pi = k M i 1 = k u 10 k = 1 / 10
i =1
i =1
P3 = 2 / 10 = 1 / 5
P4 = 3 / 10
En el siguiente cuadro se especifican las muestras, sus probabilidades y los valores de los
estimadores para cada muestra.
S(X )
P( X ) T1
T2
{1,2,3}
3 / 10
{4,6}
{9,11}
1/ 5
1/ 5
{2,2,5} 3 / 10
5 10
10 20
3
3
T
P (T 1= 2) = P{1,2,3} = 10
P T (T = 5) = P{4,6} = 1
1
5
T1
P T (T = 10) = P{9,11} = 1
1
3
P T (T 1= 3) = P{2,2,5} =
10
3
T
P (T 2= 6) = P{1,2,3} = 10
P T (T = 10) = P{4,6} = 1
2
5
T2
P T (T = 20) = P{9,11} = 1
2
3
P T (T 2= 9) = P{2,2,5} =
10
34
3
1
1
3
+ 5 u + 10 u + 3 u = 4,5 = X
10
5
5
10
3
1
1
3
E (T2 ) = 6 u + 10 u + 20 u + 9 u = 10,5 & X = 45
10
5
5
10
E (T1 ) = 2 u
()
()
()
()
m e m e
2.94
2.94
,e +
,10 +
e <
= 10 <
= [<55.74, 75.7]
_
_
0.002
0.002
() ()
() ()
[e < h_ m e < | B e |, e + h_ e e + | B e |] = [20 < 2 u 4.98 < 34.5, 20 + 2 u 4.98 + 34.5] = [<24.47, 64.47]
1.7.
35
Supongamos que las calificaciones de tres jueces deportivos sobre el ejercicio de un gimnasta han
sido X={1, 2, 3}. Usando probabilidades iguales se extraen muestras aleatorias de dos
calificaciones y se consideran los estimadores por analoga media muestral y varianza muestral.
Hallar la distribucin en el muestreo y sus errores para los dos estimadores en los casos siguientes:
1) Muestreo sin reposicin sin tener en cuenta el orden de colocacin de los elementos.
2) Muestreo sin reposicin teniendo en cuenta el orden de colocacin de los elementos.
3) Muestreo con reposicin sin tener en cuenta el orden de colocacin de los elementos.
4) Muestreo con reposicin teniendo en cuenta el orden de colocacin de los elementos.
Para muestreo sin reposicin sin tener en cuenta el orden de colocacin de los elementos el
nmero de muestras de tamao 2 en el espacio muestral sern las combinaciones sin repeticin
de tres elementos tomados de dos en dos:
3
C3,2 = =3
2
Al tratarse de muestreo aleatorio sin reposicin y probabilidades iguales, las
probabilidades iniciales de seleccin de los elementos de la poblacin para la muestra valdrn
P(ui) = 1/3, i = 1, ..., 3 y la probabilidad de cualquier muestra puede hallarse mediante:
P_X = P(ui,uj) = P(ui)P(uj/ui)+P(uj)P(ui/uj)=P(ui)P(uj)/(1-P(ui))+P(uj)P(ui)/(1-P(uj))) =
(1/32)/(1-1/3) + (1/32)/(1-1/3) = 2(1/32)/(1-1/3) = 1/3 = 0,33333
Se observa que las probabilidades de las muestras sern todas iguales a 1/3. Luego
estamos ante un mtodo de seleccin con probabilidades iguales y muestras equiprobables. El
espacio muestral, las probabilidades asociadas a las muestras y la distribucin en el muestreo
de los estimadores media muestral (MEDIAM) y varianza muestral (VARIANZAM) se
presentan en la siguiente tabla:
S1_X
1
1
2
S2_X
2
3
3
P_X
1/3
1/3
1/3
MEDIAM
1,5
2
2,5
VARIANZAM
0,25
1
0,25
MEDIAM P = 2 = MEDIAP
i i
i =1
E (VARIANZAM ) =
i i
Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP y
B(VARIANZAM) = 0,5<0,6666 = <0,16666. A continuacin se calculan las varianzas de los
estimadores.
36
V ( MEDIAM ) =
(MEDIAM
i =1
V (VARIANZAM ) =
(VARIANZAM
i =1
(VARIANZAM
i =1
< 2 / 3) Pi = 0,152777
2
37
S2_X
2
3
1
3
1
2
P_X
1/6
1/6
1/6
1/6
1/6
1/6
MEDIAM
1,5
2
1,5
2,5
2
2,5
VARIANZAM
0,25
1
0,25
0,25
1
0,25
38
MEDIAM P = 2 = MEDIAP
i i
i =1
E (VARIANZAM ) =
i =1
Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP y
B(VARIANZAM) = 0,5 < 0,6666 = <0,16666. A continuacin se calculan las varianzas de los
estimadores.
V ( MEDIAM ) =
(MEDIAM
i =1
V (VARIANZAM ) =
(VARIANZAM
i =1
(VARIANZAM
i =1
< 2 / 3) Pi = 0,152777
2
39
Para muestreo con reposicin sin tener en cuenta el orden de colocacin de los
elementos el nmero de muestras de tamao dos en el espacio muestral sern las
combinaciones con repeticin de tres elementos tomados de dos en dos:
3 + 2 < 1
= 6
CR3,2 =
2
40
S2_X
1
2
3
2
3
3
P_X
1/9
2/9
2/9
1/9
2/9
1/9
MEDIAM
1
1,5
2
2
2,5
3
VARIANZAM
0
0,25
1
0
0,25
0
MEDIAM P = 2 = MEDIAP
i i
i =1
E (VARIANZAM ) =
i =1
Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP y
B(VARIANZAM) = 1/3-2/3 = -1/3 =-0,3333. A continuacin se calculan las varianzas de los
estimadores.
V ( MEDIAM ) =
(MEDIAM
i =1
V (VARIANZAM ) =
(VARIANZAM
i =1
(VARIANZAM
i =1
< 2 / 3) Pi = 0,25
41
42
S2_X
1
2
3
1
2
3
1
2
3
P_X
1/9
1/9
1/9
1/9
1/9
1/9
1/9
1/9
1/9
MEDIAM
1
1,5
2
1,5
2
2,5
2
2,5
3
VARIANZAM
0
0,25
1
0,25
0
0,25
1
0,25
0
MEDIAM P = 2 = MEDIAP
i i
i =1
E (VARIANZAM ) =
i =1
Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP y
B(VARIANZAM) = 1/3 < 2/3 = <1/3 = <0,3333. A continuacin se calculan las varianzas de los
estimadores.
V ( MEDIAM ) =
(MEDIAM
i =1
V (VARIANZAM ) =
(VARIANZAM
i =1
43
(VARIANZAM
i =1
< 2 / 3) Pi = 0,25
44
1.8.
En una prueba de patinaje artstico los 10 jueces del jurado calificaron a un patinador con tres
cincos, cuatro seises y tres sietes. Usando probabilidades iguales se extraen muestras aleatorias de
dos calificaciones sin reposicin y teniendo en cuenta el orden de colocacin de los elementos.
Se consideran los estimadores por analoga media muestral, varianza muestral y recorrido para
estimar la calificacin media y su dispersin (por dos vas). Hallar la distribucin en el muestreo y
sus errores para los tres estimadores.
Las probabilidades iniciales de seleccin sern las siguientes:
Xi
Pi
5
6
7
3 / 10 4 / 10 3 / 10
45
S1_X S2_X P1
P2 P_X
MEDIAM VARIANZAM RM
5
6
0,3 0,4
0,171=0,3*0,4/(1-0,3)
5,5
0,25
1
5
7
0,3 0,3
0,128=0,3*0,3/(1-0,3)
6
1
2
6
7
0,4 0,3
0,2=0,4*0,3/(1-0,4)
6,5
0,25
1
6
5
0,4 0,3
0,2=0,4*0,3/(1-0,4)
5,5
0,25
1
7
5
0,3 0,3
0,128=0,3*0,3/(1-0,3)
6
1
2
7
6
0,3 0,4
0,171=0,3*0,4/(1-0,3)
6,5
0,25
1
E ( RM ) = RM i Pi = 1,257 & 2 = RP
i =1
Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP,
B(VARIANZAM) = 0,442-0,6 = <0,157, y B(RM) = 1,257 < 2 = <0,743. A continuacin se
calculan las varianzas de los estimadores.
6
i =1
i =1
i =1
46
47
EJERCICIOS PROPUESTOS
1.1.
1.2.
1.3.
48
1.4.
1.5.
1.6.
En una poblacin con N = 3 unidades Ui (i = 1, 2, 3), la variable Ti medida sobre cada unidad
toma los valores (1, 3, 5). Se considera un proceso de muestreo sin reposicin con probabilidades
iniciales de seleccin Pi = (1/5, 2/5, 2/5) y tamao muestral n = 2 sin tener en cuenta el orden de
colocacin de las unidades en las muestras. Se pide:
1) Distribuciones en el muestreo de los estimadores X=Ti+Tj, Y=Min(Ti,Tj), Z= (Ti+Tj)/2.
Si con X estimamos el total poblacional, con Y el menor valor de la poblacin y con Z la media
poblacional, cul de los tres estimadores es mejor? Razonar la respuesta y cuantificar las
ganancias en precisin.
2) Hallar intervalos de confianza para los estimadores X, Y y Z basados en la muestra de mayor
probabilidad para un nivel de confianza del 2 por mil (F-1(0.999)=3 con F N(0,1)). Comentar
los resultados.
1.7.
CAPTULO
MTODOS GENERALES DE SELECCIN
DE MUESTRAS. ESTIMACIN Y ERRORES
OBJETIVOS
1. Distinguir entre muestreo de unidades elementales y muestreo de unidades
compuestas.
2. Distinguir claramente los conceptos de muestreo con probabilidades
iguales y muestreo con probabilidades desiguales.
3. Distinguir entre muestreo con reposicin y muestreo sin reposicin.
4. Comprender cmo se forman los estimadores en el proceso de estimacin puntual.
5. Comprender el concepto de factor de elevacin.
6. Obtener el estimador lineal insesgado general para el caso de seleccin con
reposicin y probabilidades desiguales: Estimador de Hansen y Hurwitz.
7. Obtener la varianza y su estimacin para el estimador de Hansen y Hurwitz.
8. Analizar los mtodos especiales de seleccin con reposicin y probabilidades
desiguales: Mtodo del tamao acumulativo y mtodo de Lahiri.
9. Obtener el estimador lineal insesgado general para el caso de seleccin sin
reposicin y probabilidades desiguales: Estimador de Horvitz y Thompson.
10. Obtener la varianza y la estimacin de la varianza para el estimador de
Horvitz y Thompson.
11. Obtener el estimador alternativo de Yates y Grundy para la varianza.
12. Analizar los mtodos especiales de seleccin con reposicin y probabilidades
desiguales: Modelos de Ikeda, Mitzumo, Brewer, Durbin, Sampford y Murthy.
13. Analizar el muestreo con probabilidades gradualmente variables: Estimador
de Snchez Crespo y Gabeiras, error y estimacin del error.
14. Obtener muestras aleatorias, especialmente mediante el mtodo de Montecarlo.
50
NDICE
1. Seleccin con y sin reposicin. Probabilidades iguales y desiguales.
2. Estimacin puntual y formacin general de estimadores.
3. Muestreo con reposicin y probabilidades desiguales. Estimador de Hansen
Hurwitz.
4. Muestreo con reposicin y probabilidades proporcionales a los tamaos.
Mtodos especiales de seleccin.
5. Muestreo sin reposicin y probabilidades desiguales. Estimador de Horvitz
y Thompson.
6. Muestreo sin reposicin y probabilidades proporcionales a los tamaos.
Mtodos especiales de seleccin.
7. Mtodo de Montecarlo
8. Problemas resueltos
9. Ejercicios propuestos
51
X
s = {u1 L u n } A
s( X ) = (X 1 L X n )
52
La funcin e que asocia a cada muestra s el valor numrico e (s(X)) = e (X1, ..., Xn), se
denomina estimador del parmetro poblacional e. A los valores e (s(X)) para cada s del espacio
muestral se los denomina estimaciones puntuales. Por lo tanto podemos formalizar el concepto
de estimador e$ para el parmetro poblacional e definindolo mediante la aplicacin medible:
e$: S ( X ) R n A R
(X
L X n ) A e$( X 1 L X n ) = t
Ya tenemos definido el estimador como un estadstico funcin de los valores que toma
la caracterstica X sobre los elementos del espacio muestral (muestras). Como ejemplos tenemos
los estimadores total muestral y media muestral que estiman el total y la media poblacionales:
e1 : S ( X ) R n A R
( X 1 L X n ) A e1 ( X 1 L X n ) = X 1 + L + X n = X
e2 : S ( X ) R n A R
( X 1 L X n ) A e2 ( X 1 L X n ) =
X1 + L + X n
= X
n
X
1
=
N N
X =
i =1
i =1
Xi
N
Hasta ahora hemos supuesto que la caracterstica X definida sobre los elementos de la
poblacin es cuantitativa, es decir, cuantificable numricamente. Sin embargo, tambin se pueden
definir caractersticas cualitativas sobre los elementos de la poblacin, como, por ejemplo, su
pertenencia o no a una determinada clase A. Si para cada unidad ui i = 1, 2, ..., N de la poblacin
definimos la caracterstica Ai, que toma valor 1 si la unidad ui pertenece a la clase A, y que toma
valor 0 si la unidad ui no pertenece a la clase A, podemos definir el total de elementos de la
poblacin que pertenecen a la clase A (total de clase) y la proporcin de elementos de la
poblacin que pertenecen a la clase A (proporcin de clase) de la forma siguiente:
A
1
=
N N
Ai
A = N
i =1
i =1
i =1
i =1
53
e = Yi = f ( X i )
Yi =
Yi =
Yi =
f ( Ai ) =
Ai
para la proporcin de clase P
N
denominan pesos o factores de elevacin, ya que so los nmeros por los que hay que multiplicar
los valores muestrales para obtener los valores poblacionales.
Concretamente, para muestreo sin reposicin, el estimador ptimo es el de Horvitz y
Thompson eHT =
Yi
/
i =1
pertenecer a la muestra. Se observa que los pesos o factores de elevacin son en este caso w i = 1 .
/i
Para muestreo con reposicin el estimador ptimo es el de Hansen y Hurwitz
n
eHH =
i =1
Yi
, donde Pi es la probabilidad de seleccionar la unidad ui de la poblacin para
nPi
Y
i =1
puede
i i
54
t
i =1
= n, con lo que:
P (~
x ) = P(u1 , L u1 , u 2 , L , u 2 , L , u N , L , u N ) = P(e1 = t1 , e 2 = t 2 , L , e N = t N )
1
424
3 1424
3
14243
t1 veces t2 veces
t N veces
=
N
n!
P1t P2t L PNt n! = (t1 + t 2 + L + t N )! t i = n
t1 !t 2 !L t N !
i =1
1
i =1
i =1
eHH = tiYi =
n
Y
1
Yi = i
nPi
i =1 nPi
i =1
i =1
e = X = X i Yi = X i X HH =
Total A
e = X =
Media A
i =1
Total de clase A
Xi
n
Xi
Xi
1
Yi =
X HH = N =
N
N
N
i =1 nPi
e = A = Ai Yi = Ai
i =1
A
A
e = P = i Yi = i
N
i =1 N
N
ProporcinA
Xi
nPi
n
Xi
nP
i =1
A
A HH = i
i =1 nPi
n
PHH
Ai
1
= N =
nP
N
i =1
i
n
Ai
nP
i =1
2
1 N N Y
Yj
1 N Y
1 N Y
Pi Pj
V (eHH ) = i < e Pi = i < e 2 = i <
Pi
n i =1 Pi
n i =1 Pi
n
P
i
j
i
=
1
>
j
55
1 n Yi
n(n < 1) i =1 Pi
2
2
n
Yi
1
2
<ne HH =
< e HH
n(n < 1) i =1 Pi
N subintervalos Ii cada uno de ellos con Mi unidades, tal y como se indica en el cuadro siguiente:
Subintervalos
Unidades Tamaos
I 1 = [1, M 1 ]
u1
M1
I 2 = [ M 1 + 1,M 1 + M 2 ]
u2
M2
I 3 = [ M 1 + M 2 + 1,M 1 + M 2 + M 3 ]
u3
M3
M
N
N <1
I N = [ M i + 1, M i ]
i =1
i =1
1
23
uN
MN
56
Este mtodo tambin permite extraer una muestrea con probabilidades desiguales
no necesariamente proporcionales a sus tamaos. Basta formar un rango acumulativo del
los Pi y extraer una muestra de nmeros aleatorios uniformes en (0,1). Es decir, basta montar
un cuadro como el anterior donde los intervalos acumulativos Ii se formaran ahora con los
Pi = Mi/M, en vez de con los Mi. Y en vez de obtener nmeros aleatorios entre 1 y M, se
obtendran entre 0 y 1.
i =1
i =1
/i
e$HT = wY
i i =
Yi =
i =1
Yi
/i
Xi
X
1
Yi = i X HT =
N
N
N
e = X =
i =1
Total de clase A
A
e = A = Ai Yi = Ai A HT = i
i =1 / i
i =1
ProporcinA
e = P = i Yi =
/i
i =1
i =1
Media A
Xi
e = X = X i Yi = X i X HT =
Total A
57
Xi
/
i =1
A
i =1 N
N
1
Ai
PHT =
N
N
Ai
/
i =1
( )= /
N
V e
HT
Yi 2
i =1
(1 < / i ) + 2 Yi
N
i =1 j >i
Yj
/i / j
(/
ij
< / i/ j )
V e HT = 2 (1 < / i ) + 2 i
( )
i =1
/i
i =1 j >i
/i / j
/ ij
( )
V eHT
Y Y j (/ i/ j < / ij )
= i <
/ j
/ ij
i =1 j >i / i
n
Todas las frmulas para estimadores y errores vistas hasta ahora para el caso general
sin reposicin con probabilidades desiguales son vlidas para el caso particular de
probabilidades iguales sin reposicin haciendo las siguientes sustituciones:
/i =
n(n < 1)
n
, / ij =
N
N ( N < 1)
58
M = Mi
i =1
U1
M1 bolas
U2
M2 bolas
Mi
N
N
Mi
Mi
Mi
M
i =1
Pi =
= N
Pi =
=
=
=1
M
M
M
i =1
i =1 M
Mi
i =1
con lo que el modelo est bien definido. Los valores /i y /ij relativos, respectivamente, a la
probabilidad de que una unidad de la poblacin pertenezca a la muestra y de que un par de
unidades de la poblacin pertenezcan a la muestra para muestras de tamao 2 son:
N
1 < 2 Pi
Pi
P
+
=
j =1 1 < Pj
i =1 1 < Pi
1 < Pi
j &i
/ i = Pi 1 +
Pj
1
1
+
1 < Pi 1 < Pj
/ ij = Pi Pj
Al conocer /i y/ij este mtodo de seleccin sin reposicin queda perfectamente definido,
ya que los estimadores y sus errores dependen slo de estos valores.
El mtodo es generalizable para muestras de tamao n.
59
(1 < Pi )
(1 < 2 Pi )
Pi <
/ i = 2Pi
/ ij =
1
2 Pi Pj
1
+
*
N
Pi
1 < 2 Pi 1 < 2 Pj
1+
i =1 1 < 2 Pi
1 < 2 Pi 1 < 2 Pj
/ i = 2Pi
/ ij =
1
2 Pi Pj
1
+
*
N
Pi
1 < 2 Pi 1 < 2 Pj
1+
i =1 1 < 2 Pi
/ i = Pi + (1 < Pi ) *
/ ij = Pi *
n <1
n <1 N < n
* Pi +
=
N <1
N <1 N <1
n <1
n <1
n <1 n < 2
n <1 N < n
(Pi + Pj ) + n < 2
*
+ Pj
+ (1 < (Pi + Pj )) *
=
*
N <1
N <1
N <1 N < 2 N <1 N < 2
N < 2
60
Este mtodo de Ikeda es un caso particular del mtodo ms general de Mitzuno, que
consiste en comenzar efectuando m extracciones sin reposicin y con probabilidades iguales; en
la extraccin m + 1 se asignan probabilidades:
m
Pi +
r =1
Pr
N <m
donde Pr corresponde a la unidad extrada en r-simo lugar (1) r )m), y por ltimo las
n<(m+1) unidades muestrales restantes se seleccionan sin reposicin y probabilidades
iguales. El mtodo de Ikeda es un caso particular del mtodo de Mitzuno para m = 0.
/ i = nPi
/ ij 5 n(n < 1) Pi Pj
k
k
i =1
= n , tenemos:
P (~
x ) = P(U 1 , LU 1 , U 2 , L , U 2 , L , U N , L , U N ) = P(e1 = t1 , e 2 = t 2 , L , e N = t N )
1424
3 14243
14243
t1 veces
t2 veces
t N veces
M 1 M 2 M N
L
t1 t 2 t N
=
=
M1 + M 2 +LM N
t1 + t 2 + L t N
M u P1 M u P2 M u PN
L
t1 t 2 t N
M
n
con
t
i =1
=n
eSCG
n
Y
1
= t i Yi = Yi = i = eHH
i =1
i =1 nPi
i =1 nPi
n
61
que coincide con la expresin del estimador de Hansen y Hurwitz para muestreo con
reposicin y probabilidades desiguales. Se cumple que:
( )
M <n
V eSCG =
V (e HH )
M <1
n Y
M <n
1
i
V (eSCG ) =
M n( n < 1) i =1 Pi
2
M <n
2
<neSCG
=
V (eHH )
M
( )
( )
M <n
M <n
V eSCG =
V (e HH ) ) V (eHH ) y V eSCG =
V (e HH ) ) V (eHH )
M <1
M
Gabeiras sugiri una generalizacin del mtodo anterior consistente en retirar b
bolas en lugar de una cuando la unidad i-sima es seleccionada para formar parte de la
muestra, supuesto un esquema de urnas en el que la unidad U i est representada por M i
bolas (i = 1, ..., N ) , siendo b el mayor valor que permita a todas las unidades estar
Min( M i )
representadas en la urna durante las n extracciones, es decir, b =
.
n <1
Snchez Crespo comprob que con esta restriccin la varianza del estimador
resultante es menor e incluso en ciertos casos inferior a la varianza de los estimadores
obtenidos bajo un muestreo sin reposicin y probabilidades desiguales. La varianza del
estimador para el total con el esquema mixto (generalizacin del muestreo gradual) viene
dada por la expresin:
M < bn
V ( X HH )
V ( X SC ) =
M <b
Se denomina esquema mixto a este procedimiento de muestreo ya que puede
considerarse con reposicin, en el sentido de que cada unidad puede pertenecer a la muestra
ms de una vez, y sin reposicin, pues no se reponen en la urna las b unidades retiradas en
cada extraccin.
Mtodo de Murthy
Murthy mejor un mtodo anterior de Des Raj extrayendo unidades sucesivas para la muestra
con probabilidades Pi, Pj(1<Pi), Pk(1<Pi<Pj) y as sucesivamente. Propuso el estimador del total:
n
X M =
P( S / i) X
i =1
P( S )
( )
, V X M
1
=
P( S ) 2
X
[P( S ) P( S / i, j ) < P( S / i) P( S / j )]Pi Pj X i < j
Pj
i =1 j > i
Pi
n
Pj
(1< Pi )(1< Pj )(1< Pi < Pj ) Xi X j
Xj
1
Xi
<
/ i = Pi 1+
(1< Pj ) + (1< Pi ) , V(X M ) =
X M =
P P
(2 < Pi < Pj )2
2 < Pi < Pj
Pi
Pj
j
j &i 1< Pj
i
62
MTODO DE MONTECARLO
Es un procedimiento general para seleccionar muestras aleatorias simples de cualquier poblacin
(finita o infinita, real o terica) de la que se conoce su distribucin de probabilidad.
P(x)
F(x)
0
1
2
3
4
0,41
0,26
0,18
0,10
0,05
0,41
0,67
0,85
0,95
1
_______________________________________
F(x)
00-40
41-66
67-84
85-94
95-99
0
1
2
3
4
0,41
0,67
0,85
0,95
1
_______________________________________
0,41
El valor x ms pequeo que verifica F(x) > 0,69 es x = 2, luego el primer valor para
la muestra es x = 2.
63
x=F-1(NA)
Dado el nmero aleatoria NA, se toma para la muestra el valor x tal que x=F-1(NA).
64
PROBLEMAS RESUELTOS
2.1.
Un investigador desea muestrear tres hospitales de entre los seis que existen en una ciudad,
con el propsito de estimar la proporcin de pacientes que han estado (o estarn) en el
hospital por ms de dos das consecutivos. Puesto que los hospitales varan en tamao, stos
sern muestreados con probabilidades proporcionales al nmero de sus pacientes. Con la
informacin sobre los hospitales dada en la tabla adjunta se selecciona una muestra de tres
hospitales con probabilidades proporcionales al tamao (nmero de pacientes) con reposicin
utilizando el modelo del tamao acumulativo (o modelo polinomial).
Hospital
1
4
Pacientes
328
220
Hospital
2
5
Pacientes
109
280
Hospital
3
6
Pacientes
432
190
Puesto que sern seleccionados tres hospitales, deben ser elegidos tres nmeros aleatorios entre el
0001 y el 1559 = Pacientes. Nuestros nmeros elegidos son 1505, 1256 y 0827. Qu
hospitales sern elegidos para la muestra? Supngase que los hospitales muestreados registraron
los siguientes datos sobre el nmero de pacientes con permanencia de ms de dos das:
Hospital
a
b
c
1) Estimar la proporcin de pacientes con permanencia superior a dos das para los seis
hospitales.
2) Establecer un lmite para el error de estimacin con una confianza del 95%.
Para seleccionar la muestra comenzamos construyendo la tabla relativa al mtodo del
tamao acumulativo.
I 1 = [1, M 1 ] = [1,328]
Unidades Tamaos
I 2 = [ M 1 + 1,M 1 + M 2 ] = [329,437]
u1
M1
I 3 = [438,869] A 827
I 4 = [870,1089]
u2
u3
M2
M3
I 5 = [1090,1369] A 1256
I 6 = [1370,1559] A 1505
uN
MN
Para seleccionar tres hospitales para la muestra se eligen tres nmeros aleatorios
entre 0001 y 1559 que resultan ser el 1505, el 1256 y el 0827. Localizados estos nmeros en
la columna de los intervalos acumulados, seleccionamos para la muestra los hospitales 3, 5 y
6. A continuacin se presenta un esquema ilustrativo de la seleccin de las unidades
muestrales.
65
M3 = 432
M5=280
M4=220
M2=109
PPT
A2 = 150
P 2=150/280
A3 = 250 A1=80
M3=432
M5=280
P3=250/432 P1= 80
190
M6=190
M1=328
M6=190
N = 6, M=1559
n=3
Xi
nP
1
M
Mi Xi 1 n
1 n
1 80 150 250
= X i P = Pi =
+
+
= 0,51
M
n i
n i
3 190 280 432
n i
M
Por lo tanto, se estima que un 51% de los pacientes permanece ms de dos das en el
hospital. A continuacin hallamos el error de esta estimacin.
2
V (eHH ) =
Y
1
i <eHH
n(n <1) i =1 Pi
Xi
2
n M
1
1 n
V ( X HH ) =
< X HH =
X i < X HH
n(n <1) i =1
n(n <1) i =1 M i
(P
n
()
V P =
< P
n (n < 1)
2
2
2
1 80
150
250
0
,
51
0
,
51
<
+
<
+
<
0
,
51
= 0,0022
3 u 2 190
280
432
()
V P
0,0022
C v P =
=
= 0,0091 A 1%
0,51
P
()
66
2.2.
Una multinacional tiene un total de 40.000 trabajadores distribuidos en 400 fbricas de 100
obreros cada una. Una muestra aleatoria con probabilidades iguales sin reposicin de 25
fbricas presenta la siguiente distribucin de obreros mayores de 50 aos:
Total de obreros
12 17 23 33 36
mayores de 50 aos
N de fbricas
2 3 9 5 6
de la muestra
67
9
M2=100
A3 = 23
PI
3
A4 = 33
5
A2 = 17
SR
M400=100
M1=100
A5 = 36
6
N = 400
A1 = 12
2
n = 20
2
25
25 / /
Ai A j
i
j < / ij
A
10608
PHT = HT =
= 0,2642 = 26,42%
M
40000
El estimador insesgado de su varianza ser :
V ( A HT ) 386906,5
=
= 0,000242
V ( PHT ) =
M2
40000 2
El error absoluto de muestreo ser m ( PHT ) = 0,000242 = 0,0155 , con lo que el error
m ( PHT )
0,0155
relativo valdr
u 100 =
u 100 = 0,05863 A 5,8% .
0,2642
PHT
68
2.3.
10 11 12 13
14 15
44 33 26 22 76 63 20 44 54 34 46 24 46 100 15
Extraemos una muestra de cinco grupos con probabilidades proporcionales a los tamaos de
los grupos con reemplazo y anotamos el total de horas durante una semana que todos los
estudiantes de cada grupo han empleado para estudiar la materia de Introduccin a la
Estadstica. Los datos se recogen en la siguiente tabla:
Grupos ( Muestra)
Horas
a b c
d
e
120 203 100 90 40
69
La muestra estar formada por los grupos {6, 14, 11, 9, 7} cuyos tamaos son los
siguientes:
Grupos ( Muestra)
6 14 11 9 7
Tamaos ( M i )
63 100 54 46 20
y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introduccin a la Estadstica es el siguiente:
Grupos ( Muestra)
Horas ( X i )
14
11
Por lo tanto, se estima que el promedio de horas semanales que dedican los
estudiantes a la materia de Introduccin a la Estadstica es algo inferior a dos horas. A
continuacin hallamos el error de esta estimacin.
n
n
X
X
1
1
1
1
1
i
i
=
<
<
M
X
X
V ( X HH ) = 2 V ( X HH ) = 2
HH
HH
M 2 n(n < 1) i =1 M i
M
M n(n < 1) i =1 Pi
2
n
n
Xi
Xi
1
1
1
= M
= 1 n X < X
= 2
<
<
X
M
M
X
i
HH
HH
HH
n(n < 1) i =1
M 2 n(n < 1) i =1 M i
M n(n < 1) i =1 M i
40
90
100
203
V X HH =
< 1,94 + < 1,94 + <1,94 = 0,0034
< 1,94 +
< 1,94 +
5 u 4 63
20
46
54
100
V X HH
0,0034
C v P =
=
= 0,03 A 3%
1,94
X
()
HH
70
2.4.
71
72
La muestra estar formada por los grupos {5, 9, 14, 13, 12} cuyos tamaos son los
siguientes:
Grupos ( Muestra)
5 9 14 13 12
Tamaos ( M i )
76 54 100 46 24
y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introduccin a la Estadstica es el siguiente:
Grupos ( Muestra)
Horas ( X i )
14 13
12
n
n
X
X
1
1
1
1
1
i
i
< X HH = 2
< MX HH
V ( X HH ) = 2 V ( X HH )V (e HH ) = 2
M
<
n
n
(
1
)
M
M n(n <1) i =1 Pi
M
1
i
=
i
2
n
n
Xi
Xi
1
1
1
1 n
= M
<
<
=
M
M
X
X
X i < X HH
HH
HH
2
2
M n(n <1) i =1 M i
M n(n <1) i =1 M i
n(n <1) i =1
40
90
100
203
V X HH =
< 1,99 + < 1,99 + < 1,96 = 0,73
< 1,99 +
< 1,99 +
5 u 4 76
24
46
100
54
C v X HH =
V X HH
0,73
=
= 0,429 A 43%
1,99
X
HH
73
74
2.5.
/i =
n <1
N <n
* Pi +
N <1
N <1
/ ij =
n <1 N < n
(Pi + Pj ) + n < 2
*
N <1 N < 2
N < 2
75
La muestra estar formada por los grupos {5, 9, 14, 13, 12} cuyos tamaos son los
siguientes:
Grupos ( Muestra)
5 11 4 2 12
Tamaos ( M i )
76 46 22 33 24
y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introduccin a la Estadstica es el siguiente:
Grupos ( Muestra)
Horas ( X i )
11
12
MUESTRA Mi
5
11
4
2
12
76
46
22
33
24
/i = Pi (N-n)/(N-1) + (n-1)/(N-1)
0,1174652
0,0710974
0,0340031
0,0510046
0,0370943
0,369618017 120
0,336498123 203
0,310002208 100
0,322146169
90
0,312210201
40
SUMA=
1
1
X HT =
X HT =
M
M
25
Xi
i =1
Xi
Xi//i
324,659
603,272
322,578
279,376
128,119
1658,01
1 120
203
100
90
40 1658
+
+
+
+
= 2,56
Por lo tanto, se estima que el promedio de horas semanales que dedican los estudiantes a
la materia de Introduccin a la Estadstica es prcticamente dos horas y media. A continuacin
hallamos el error de esta estimacin a travs de la estimacin de la varianza. En la siguiente tabla
se presentan todos los clculos necesarios para realizar la estimacin (N=15, n=5).
(Xi//i)2(1-/i)
66444,64999
241473,2008
71798,95557
52907,24303
11289,67748
SUMA=443913,7
/ij
0,107
0,099
0,103
0,1
0,089
0,093
0,09
0,085
0,082
0,085
Xi
120
120
120
120
203
203
203
100
100
90
Xj
203
100
90
40
100
90
40
90
40
40
/i
0,3696
0,3696
0,3696
0,3696
0,3365
0,3365
0,3365
0,31
0,31
0,3221
/j
0,3365
0,31
0,3221
0,3122
0,31
0,3221
0,3122
0,3221
0,3122
0,3122
Pi
0,117
0,117
0,117
0,117
0,071
0,071
0,071
0,034
0,034
0,051
Pj
0,0711
0,034
0,051
0,0371
0,034
0,051
0,0371
0,051
0,0371
0,0371
(Xi//i)(Xj//j)(/ij-/i/j)//ij
-31007,41923
-16210,59516
-14192,52368
-6451,525615
-33402,58498
-28399,38423
-13220,87321
-16240,761
-7715,377148
-6412,377049
2*SUMA= -346506,8426
76
=
V X HT = 2 V X HT = 2 2i (1 < / i ) + 2 i
M
/
M i =1 / i
i =1 j > i / i / j
ij
2
2
X X / </ /
X
X X / </ /
1 X1
(1 < / 1 ) + L + 5 (1 < / 5 ) + 2 1 2 12 1 2 + L + 4 5 45 4 5
2
/ 12
/4 /5
/ 45
/5
M / 1
/1 / 2
443913,7269 < 346506,8426
=
= 0,232692
647 2
( )
=
= 0,188 A 19%
C v X HT =
2,56
X
HT
2.6.
77
/ i = nPi
78
/ ij 5 n(n < 1) Pi Pj
k
k
Mi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
SUMA
44
33
26
22
76
63
20
44
54
34
46
24
46
100
15
647
Pi=Mi/M
Mi=Pi/(1-5Pi)
0,0680062
0,103044
0,0510046
0,068465
0,0401855
0,05029
0,0340031
0,040968
0,1174652
0,284644
0,0973725
0,189759
0,0309119
0,036563
0,0680062
0,103044
0,0834621
0,143236
0,0525502
0,071279
0,0710974
0,110312
0,0370943
0,045541
0,0710974
0,110312
0,1545595
0,680272
0,0231839
0,026224
1
2,063954
/i
0,34
0,255
0,2009
0,17
0,5873
0,4869
0,1546
0,34
0,4173
0,2628
0,3555
0,1855
0,3555
0,7728
0,1159
5
Pi'
i
j
0,0499
0,0332
4 0,613
0,0244
14 0,037 <M'3=0,04
0,0198
14 0,665
0,1379
4 0,365
0,0919
13 0,514
0,0177
2 0,585
0,0499
4 0,096 <M'8=0,10
0,0694
14 0,231
0,0345
11 0,081
0,0534
15 0,674
0,0221
3 0,295
0,0534
13 0,054 <M'13=0,11
0,3296
1 0,319 <M'14=0,68
0,0127
1
Ui
5
3
13
14
Pi2
Pi3
0,0046
0,0026
0,0016
0,0012
0,0138
0,0095
0,001
0,0046
0,007
0,0028
0,0051
0,0014
0,0051
0,0239
0,0005
0,0845
0,00031
0,00013
6,5E-05
3,9E-05
0,00162
0,00092
3E-05
0,00031
0,00058
0,00015
0,00036
5,1E-05
0,00036
0,00369
1,2E-05
0,00864
79
La muestra estar formada por los grupos {5, 3, 8, 13, 14} cuyos tamaos son los
siguientes:
Grupos ( Muestra)
5 3 8 13 14
Tamaos ( M i )
76 26 44 46 100
y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introduccin a la Estadstica es el siguiente:
Grupos ( Muestra)
Horas ( X i )
13
14
1
1
X HT =
X HT =
M
M
Mi
76
26
44
46
100
Pi=Mi/M
0,1174652
0,0401855
0,0680062
0,0710974
0,1545595
25
Xi
i =1
/i = 5Pi
0,5873
0,2009
0,34
0,3555
0,7728
Xi
120
203
100
90
40
Xi//i
204,32
1010,3
294,09
253,17
51,76
1813,7
(Xi//i)2(1-/i)
17227,0471
815643,153
57080,3719
41311,3781
608,6976
931870,648
1 120
203
100
90
40 1813,7
+
+
+
+
= 2,8
=
647 0,587 0,201 0,340 0,355 0,772
647
Por lo tanto, se estima que el promedio de horas semanales que dedican los
estudiantes a la materia de Introduccin a la Estadstica es 2,8 horas. A continuacin
hallamos el error de esta estimacin a travs de la estimacin de la varianza. Ahora se
presenta la tabla con todos los clculos necesarios para realizar la estimacin (N = 15, n = 5).
(Xi//i)(Xj//j)(/ij-/i/j)//ij
(Xi//i)2(1-/i)
/ij
/i
/j
Xi
Xj
Pi
Pj
17227,0471
0,1024232 120 203 0,58733 0,201 0,117
0,04
-31413,39362
815643,153
0,177923 120 100 0,58733
0,34 0,117 0,068
-7357,500123
57080,3719
0,1865756 120
90 0,58733 0,355 0,117 0,071
-6157,939465
41311,3781
0,4440242 120
40 0,58733 0,773 0,117 0,155
-234,8366464
608,6976
0,0554606 203 100 0,20093
0,34
0,04 0,068
-68900,81915
931870,648
0,0582159 203
90 0,20093 0,355
0,04 0,071
-58046,26694
0,1421053 203
40 0,20093 0,773
0,04 0,155
-4846,785171
0,1016725 100
90 0,34003 0,355 0,068 0,071
-14063,38541
0,2458765 100
40 0,34003 0,773 0,068 0,155
-1046,18541
0,2577209 90
40 0,35549 0,773 0,071 0,155
-864,3197294
-385862,8633
80
M
/ ij
M i =1 / i
i =1 j > i / i / j
( )
X 12
X 52
(
)
(1 < / 5 ) + 2 X 1 X 2 / 12 < / 1/ 2
1
<
+
+
L
/
1
/5
/ 12
/ 1
/1 / 2
931870,648 < 385862,8633
=
= 1,3043
647 2
1
M2
X X
+ L + 4 5
/4 /5
/ 45 < / 4 / 5
/ 45
=
= 0,4074 A 41%
C v X HT =
2,8
X
HT
2.7.
81
Resolver el problema anterior suponiendo que se selecciona una muestra de tamao 2 sin
reposicin mediante el mtodo de Brewer.
Brewer propuso un mtodo de seleccin para muestras de tamao n tal que la primera unidad
se extrae sin reposicin con probabilidad proporcional al valor:
k i = Pi
(1 < Pi )
(1 < 2 Pi )
Pi <
/ i = 2Pi
/ ij =
1
2 Pi Pj
1
*
+
N
Pi
1 < 2 Pi 1 < 2 Pj
1+
i =1 1 < 2 Pi
82
La muestra estar formada por los grupos {12, 4} cuyos tamaos son los siguientes:
Grupos ( Muestra)
Tamaos ( M i )
12 4
24 22
y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introduccin a la Estadstica es el siguiente:
Grupos ( Muestra)
Horas ( X i )
12 4
120 203
Pi=Mi/M /i
Xi
0,03709 0,074
0,034 0,068
1
1
X HT =
X HT =
M
M
25
Xi
i =1
(Xi//i)2(1-/i)
Xi//i
120
1617,5 2422206,3
203 2985,0227 8304401,1
4602,5227
10726607
1 120
203 4602,5227
+
= 4,614
=
647 0,074 0,068
647
Por lo tanto, se estima que el promedio de horas semanales que dedican los
estudiantes a la materia de Introduccin a la Estadstica es 4,6 horas. A continuacin
hallamos el error de esta estimacin a travs de la estimacin de la varianza. Ahora se
presenta la tabla con todos los clculos necesarios para realizar la estimacin (N = 15, n = 2).
(Xi//i)(Xj//j)(/ij-/i/j)//ij
(Xi//i)2(1-/i) /ij
/i
/j
Xi
Xj
Pi
Pj
2422206,3 0,00297
120 203
0,07419 0,068 0,037 0,034
-3383694,955
8304401,1
-6767389,909
10726607
HT
2
2
2
M
M i =1 / i
/ ij
i =1 j > i / i / j
X 22
1 X 12
(
)
(1 < / 2 ) + 2 X 1 X 2 / 12 < / 1/ 2 = 9,458
<
+
1
/
1
2
2
2
M / 1
/2
/ 12
/1 / 2
V X HT
( )
83
C v X HT =
V X HT
9,458
=
= 0,66 A 66%
4,614
X
HT
84
2.8.
Resolver el problema anterior suponiendo que se selecciona una muestra de tamao 2 sin
reposicin utilizando el estimador de Murthy.
Murthy mejor un mtodo anterior de Des Raj extrayendo unidades sucesivas para la muestra
con probabilidades Pi, Pj(1<Pi), Pk(1<Pi<Pj) y as sucesivamente. Propuso el estimador del total:
n
X M =
P( S / i) X
i =1
P( S )
( )
, V X M =
1
P( S ) 2
X
[P( S ) P( S / i, j ) < P( S / i) P( S / j )]Pi Pj X i < j
Pj
i =1 j > i
Pi
n
Pj
(1< Pi )(1< Pj )(1< Pi < Pj ) Xi X j
Xj
Xi
1
<
/ i = Pi 1+
(1< Pj ) + (1< Pi ) , V(X M ) =
X M =
P P
(2 < Pi < Pj )2
Pj
Pi
2 < Pi < Pj
j &i 1< Pj
j
i
85
La muestra estar formada por los grupos {10, 2} cuyos tamaos son los siguientes:
Grupos ( Muestra)
Tamaos ( M i )
10 2
34 33
y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introduccin a la Estadstica es el siguiente:
Grupos ( Muestra)
Horas ( X i )
10 2
120 203
/i
Pi=Mi/M
Xi
34
0,05255 0,055375
33
0,051005 0,053834
1
1
1
X HT =
X HT =
M
M 2 < Pi < Pj
ESTIMADOR
Xi/Pi
DEL TOTAL
120 2283,5294
3131,088537
203 3980,0303
Xj
Xi
1
+ (1 < Pi )
3131,088 = 4,839
(1 < Pj )
=
Pi
Pj 647
Por lo tanto, se estima que el promedio de horas semanales que dedican los
estudiantes a la materia de Introduccin a la Estadstica es 4,8 horas. A continuacin
hallamos el error de esta estimacin a travs de la estimacin de la varianza.
( )
1
1
V X HT = 2 V X HT = 2
M
M
2
(1 < P )(1 < P )(1 < P < P ) X
X
i
j
i
j
i < j = 1 1223240,6 = 2,92
P
(2 < Pi < Pj ) 2
Pj 6472
86
=
= 0,3532 A 35%
C v X HT =
4,839
X
HT
2.9.
87
M2
PPT
CR
M100
N = 100
M1
M = 25000
X1/M1
0,05
X4/M4
0,30
X2/M2
0,25
X5/M5
0,15
X8/M8
0,25
X9/M9
0,10
X3/M3
0,10
X6/M6 X7/M7
0,25
0,35
X10/M10
0,20
n = 20
88
Xi
M
i =1
25000
(0,05 + 0,25 + L + 0,20) = 5000
10
n
n
Xi
Xi
X
M i < X HH
X
X
<
<
HH
HH
Mi
i =1 Pi
i =1 M i M
i =1
V ( X HH ) =
=
=
=
n(n < 1)
n(n < 1)
n(n < 1)
n
(25000u 0,05 < 5000) 2 + (25000u 0,25 < 5000) 2 + L + (25000u 0,20 < 5000) 2
= 590278
10(10 < 1)
V ( X )
590278
=
= 0,15 (15%)
C v( X ) =
5000
X
Para resolver el segundo apartado del problema consideramos la muestra con slo tres
zonas de igual superficie (M1 = M2 = M3 = 250) para las que las proporciones de superficie total
dedicadas a la plantacin de pinos en cada una de ellas son de 0,25, 0,35 y 0,40, respectivamente.
Como los Pi son proporcionales a las superficies de las zonas se tiene:
M
250
Xi
i =1
/i
Sin reposicin X HT =
1
(62,5 + 87,5 + 100) = 8928,6
0,028
n
X
V ( X HT ) = i
i =1 / i
C v( X ) =
2.10.
X X / < / i/ j
(1 </ i ) + 2 i j ij
/ ij
i< j / i / j
49429600
= 0,78
8928,6
89
= 49429600
NA D
12 4
9 5
NA D
40 7
35 8
NA D NA D NA
18 10 22 13 16
10 11 22 14 33
27
15
31 12
19
15
a) Suponiendo que los tres departamentos seleccionados (que sern los de mayor
probabilidad) tienen cada uno 2 artculos impropiamente identificados, estimar el nmero
total de artculos impropiamente identificados en la empresa y su error relativo de muestreo.
b) Estimar por intervalos al 95% la media de artculos propiamente identificados, sabiendo
que los tres departamentos seleccionados tienen respectivamente 4, 5 y 6 artculos
impropiamente identificados. Qu estimador es mejor?
El esquema del problema es el siguiente:
M1=12
M2 = 9
M3 =10
M4=40
M4=40
M5 = 35
M6 =15 PPT
M7=18
M8 = 10 M9 =31
M5=35
A1 = 2
P 1=2/40
A 2 = 2 A3=2
P 2=2/35 P3= 2
CR
33
M14=33
n=3
40
35
33
, P2 =
y P3 =
315
315
315
90
Como el muestreo es con reposicin, el estimador insesgado del total de la clase de los
artculos impropiamene clasificados vendr dado por la frmula de Hansen y Hurwitz.
n
n
A
M i Pi
1 n M i Pi
M
A HH = i =
=
=
n i Mi M
n
i nPi
i n Mi M
P =
i
315 2
2
2
+ 18
+
3 40 35 33
i Pi < A
i
=
V A =
n (n < 1)
n
()
315 2
3u2
n
M P
i Pi i < M P M 2 Pi < P
i
=
i
n (n < 1)
n (n < 1)
n
2
2
2
2
18
18
18
2
2
<
<
<
+
+
= 1,04209
35 315
33 315
40 315
A
1 M
i nPi = M n
i
n
(P < P )
n
()
()
1
V P = 2 V A =
M
1 36 30 27
1 n
P
i i = n i Pi = 3 40 + 35 + 33 = 0,858
n
n(n < 1)
2
2
2
1 36
30
27
=
< 0,858 + < 0,858 + < 0,858 = 0,000558
3 u 2 40
35
33
2.11.
Un gran banco que tiene 1000 sucursales con cuarenta microordenadores en cada una,
emprende un proceso de auditora informtica. Para ello se extrae una muestra sin reposicin
y probabilidades iguales de 20 sucursales, resultando que en nueve de ellas no hay
microordenadores con defectos, en ocho hay un ordenador defectuoso y en tres hay dos
ordenadores defectuosos. Se pide:
1) Estimar el nmero total de microordenadores defectuosos en el banco y sus errores absoluto
y relativo de muestreo. Realizar la estimacin por intervalos al 99% (F-1(0,995) = 2,57).
2) Resolver el problema con reposicin y comparar los resultados con los del apartado
primero.
91
Tenemos como datos N = 1000, M = 40000 y n = 20. Como el muestreo es sin reposicin, el
total de microordenadores defectuosos puede estimarse mediante el estimador de Horvitz y
Thompson. Adems, al ser el muestreo con probabilidades iguales tenemos que /i = n/N =
20/1000 = 0,02 y /ij = 20(20-1)/[1000(1000-1)] = 0,00038. Se tiene:
25
A 9 u 0 + 8 u1 + 3 u 2
A HT = i =
= 700
0,02
i =1 / i
( )
8
3
2450(9 u 02 + 8 u 12 + 3 u 22 ) < 263,15 (0 u 0) + 9 u 8(0 u 1) + 9 u 3(0 u 2) + (1u 1) + 8 u 3(1u 2) + (2 u 2)
2
2
2
= 25842,1
m ( A )
A
= 700
_
25842,1
= [< 907.55, 2307.55]
0,01
Para muestreo sin reposicin, para estimar la varianza podramos haber tomado el
estimador de Yates y Grundy:
2
2
20 / /
20
Ai A j
i
j < / ij
92
A
i
1000
(9 u 0 + 8 u 1 + 3 u 2) = 700
20
i Pi < A
i
=
V A =
n (n < 1)
n
()
Ai
< 700
=
n (n < 1)
1/ N
20
(1000 A
i =1
< 700 )
20 (20 < 1)
20
380
1000
2
2
2
9 (10 u 0 < 7 ) + 8 (10 u 1 < 7 ) + 3(10 u 2 < 7 ) = 26842 ,1
38
V ( A )
26842,1
C v( A ) =
=
= 0,234 (23,4%)
A
700
m ( A )
= 700
A
_
26842,1
= [< 921.9, 2321.9]
0,01
26842,1
m ( A )
= 700
= [< 938.35, 2338.35]
A
0,01
_
Se observa que los errores de muestreo estimados son ligeramente superiores en muestreo
con reposicin. Adems, como es natural, los intervalos de confianza son ms anchos (o sea,
peores) en muestreo con reposicin. La ganancia en precisin es (26842,1/25842,1-1)100=3,8%,
que es una cantidad pequea. Tambin se observa que el estimador de Yates y Grundy para
muestreo sin reposicin sobreestima la varianza hasta hacerla incluso mayor que en el caso de
con reposicin (debido a la baja ganancia en precisin del muestreo sin reposicin).
2.12.
93
Figura 2-1
Figura 2-2
94
Normal: Caracterizada por una media y una desviacin estndar. Una aplicacin normal
utilizar una media de 0 y una desviacin estndar de 1 para la distribucin estndar normal.
Bernoulli: Caracterizada por la probabilidad de xito (valor p) en un ensayo dado. La
variables aleatorias de Bernoulli tienen el valor 0 o 1; por ejemplo, puede trazarse una
variable aleatoria uniforme en el rango 0...1. Si la variable es menor o igual que la
probabilidad de xito, se asignar el valor 1 a la variable aleatoria de Bernoulli; en caso
contrario, se le asignar el valor 0.
Binomial: Caracterizada por una probabilidad de xito (valor p) durante un nmero de
pruebas; por ejemplo, se pueden generar variables aleatorias Bernoulli de nmero de
pruebas, cuya suma ser una variable aleatoria binomial.
Poisson: Caracterizada por un valor lambda, igual a 1/media. La distribucin de Poisson se
utiliza con frecuencia para caracterizar el nmero de incidencias por unidad de tiempo; por
ejemplo, el ritmo promedio al que llegan los vehculos a una garita de peaje.
Frecuencia relativa: Caracterizada por un lmite inferior y superior, un incremento, un
porcentaje de repeticin para valores y un ritmo de repeticin de la secuencia.
Discreta: Caracterizada por un valor y el rango de probabilidades asociado. El rango debe
contener dos columnas. La columna izquierda deber contener valores y la derecha
probabilidades asociadas con el valor de esa fila. La suma de las probabilidades deber ser 1.
En el campo Parmetros introduzca un valor o valores para caracterizar la
distribucin seleccionada. En el campo Iniciar con escriba un valor opcional a partir del cual
se generarn nmeros aleatorios. Podr volver a utilizar este valor para generar los mismos
nmeros aleatorios ms adelante. En el cuadro Rango de salida introduzca la referencia
correspondiente a la celda superior izquierda de la tabla de resultados. Microsoft Excel
determinar el tamao del rea de resultados y mostrar un mensaje si la tabla de resultados
reemplaza datos ya existentes. Haga clic en la opcin En una hoja nueva para insertar una
hoja nueva en el libro actual y pegar los resultados comenzando por la celda A1 de la nueva
hoja de clculo. Para asignar un nombre a la nueva hoja de clculo, escrbalo en el cuadro.
Haga clic en la opcin En un libro nuevo para crear un nuevo libro y pegar los resultados en
una hoja nueva del libro creado. En la Figura 2-3 se muestra la salida correspondiente a las
opciones de Generacin de nmeros aleatorios de la Figura 2-2 (10 nmeros aleatorios
normales de media cero y varianza 1 con semilla 50).
Figura 2-3
Adicionalmente, Excel permite obtener una muestra aleatoria simple con reposicin de
una poblacin numrica dada como rango de entrada. Si en el cuadro de dilogo Anlisis de datos
de la Figura 2-4 elegimos Muestra, se obtiene el cuadro de dilogo Muestra de la Figura 2-5. A
continuacin se explica la funcionalidad de todos los campos del cuadro de dilogo Muestra.
95
Figura 2-4
Figura 2-5
Figura 2-6
96
En una hoja nueva: Haga clic en esta opcin para insertar una hoja nueva en el libro actual y
pegar los resultados comenzando por la celda A1 de la nueva hoja de clculo. Para darle un
nombre a la nueva hoja de clculo, escrbalo en el cuadro.
En un libro nuevo: Haga clic en esta opcin para crear un nuevo libro y pegar los resultados
en una hoja nueva del libro creado.
Al pulsar Aceptar en la Figura 2-5, se obtiene la muestra aleatoria simple de tamao
10 con reposicin de la columna C de la Figura 2-6, que ha sido extrada de la poblacin de
22 elementos de la columna B. Si la muestra se quiere sin reposicin, se utiliza este mismo
procedimiento hasta obtener tantos elementos distintos como tamao muestral se requiera.
Centrndonos ya en nuestro problema particular, seleccionaremos nuestra primera
muestra de tamao 50 aleatoria uniforme de valores entre 10 y 20. Para ello, situamos la funcin
ALEATORIO( )*(20-10)+10 en una casilla de Excel y arrastramos esta frmula 50 casillas hacia
abajo. Para seleccionar la muestra de Poisson, en Herramientas A Anlisis de datos elegimos
Generacin de nmeros aleatorios y rellenamos la pantalla de entrada como se indica en la Figura
2-7. Al pulsar Aceptar se obtiene la columna de 50 nmeros aleatorios de Poisson con h = 2. Con
las funciones PROMEDIO(A2:A51) y PROMEDIO(B2:B51) calculamos las medias de ambas
columnas de nmeros aleatorios obteniendo como resultado nmeros cercanos a 15 y 2, que son el
centro del intervalo en la distribucin uniforme y el parmetro de la distribucin de Poisson,
respectivamente.
Figura 2-7
Para representar los histograma de frecuencias de cada muestra, en Herramientas A
Anlisis de datos (Figura 2-8) elegimos Histograma y rellenamos la pantalla de entrada como se
indica en las Figuras 2-9 y 2-10. Al pulsar Aceptar se obtienen los histogramas de frecuencias. La
Figura 2-11 presenta las dos series de nmeros aleatorios con sus distribuciones de frecuencias y
sus histogramas. Se observa que el histograma de la distribucin de Poisson se acerca mucho a una
normal.
Figura 2-8
Figura 2-9
Figura 2-10
Figura 2-11
97
98
2.13.
Sea la poblacin {U1, U2, U3} en la que se conocen los valores de una determinada variable X:
X(U1)=2 X(U2)=3 y X(U3)=6. Se seleccionan dos unidades sin reemplazamiento con probabilidades
proporcionales a los valores de la variable X en cada extraccin, resultando elegidas las unidades U1
y U3. Se pide:
1) Calcular la estimacin puntual lineal insesgada para el total de la variable X.
2) Calcular la estimacin por intervalos al 95% para el total de la variable X (poblacin normal).
Como el muestreo es con probabilidades proporcionales a los nmeros 2, 3 y 6,
tenemos que las probabilidades iniciales de seleccin de cada unidad poblacional para la
muestra son Pi = Mi/Mi, es decir: 2/11, 3/11 y 6/11. Como el mtodo es sin reposicin
tomamos como estimador del total el estimador de Horwitz y Thompson y tenemos:
3
1 < 2 Pi
P
+ i
i =1 1 < Pi
1 < Pi
/ i = Pi
2 / 11
3 / 11
6 / 11
1 < 2( 2 / 11)
+
+
+
= 0,468
1 < 2 / 11 1 < 3 / 11 1 < 6 / 11
1 < 2 / 11
/ 1 = (2 / 11)
2 / 11
3 / 11
6 / 11
1 < 2(3 / 11)
+
+
+
= 0,660
1 < 2 / 11 1 < 3 / 11 1 < 6 / 11
1 < 3 / 11
/ 2 = (3 / 11)
2 / 11
3 / 11
6 / 11
1 < 2(6 / 11)
+
+
+
= 0,871
1 < 2 / 11 1 < 3 / 11 1 < 6 / 11
1 < 6 / 11
/ 3 = (6 / 11)
2
X
X HT = i =
i =1
/i
2
6
+
= 11,16
0,468 0,871
/12 = P(U1U3)=P(U1)P(U3/U1)+P(U3)P(U1/U3)=(2/11)(6/9)+(6/11)(2/5)=0,34
El valor anterior puede calculase tambin mediante:
1
1
+
1 < P 1 < P
i
j
/ ij = Pi Pj
2 6
1
1
=
+
=0,34
11 11 1 < 2 / 11 1 < 6 / 11
2
2
2
X2
X X j / ij < / i / j 4(1 < 0,468) 36(1 < 0,871)
=
+
+
V X HT = 2i (1 < / i ) + 2 i
/ ij
0,468 2
0,8712
i =1 / i
i =1 j > i / i / j
( )
m ( X HT )
X HT
u 100 =
4,126
u 100 A 18,2%
22
2.14.
99
Consideremos una regin con N = 3 municipios con una poblacin de 3, 5 y 7 miles de habitantes
cada uno. Sabemos que la variable X = Nmero de mujeres en cada municipio toma los valores 1,
3, y 4 (en miles). Para estudiar el nmero medio de mujeres en la regin se toman muestras de dos
municipios con probabilidades proporcionales a sus tamaos sin reposicin y sin tener en cuenta el
orden de colocacin de sus elementos utilizando el mtodo de Brewer. A partir de las distribuciones
en el muestreo de X HT y V ( X HT ) , hallar V ( X HT ) , E ( X HT ) y E (V ( X HT )) . Comentar los
resultados.
Como estamos ante un mtodo de seleccin de unidades primarias compuestas con
probabilidades iniciales proporcionales a los tamaos 3, 5 y 7, dichas probabilidades sern
{3/15, 5/15, 7/15}. Como no hay reposicin y las probabilidades son desiguales, utilizamos el
estimador de Horwitz y Thompson.
Dado que el mtodo de seleccin es el de Brewer tenemos:
/i = nPi = 2Pi , / ij =
1
2 Pi Pj
1
*
+
N
Pi
1 < 2 Pi 1 < 2 Pj
1+
i =1 1 < 2 Pi
X2
/i
/ ij
6
15
10
15
14
15
1
15
5
15
9
15
X
X2
X HT = 1 +
2 P1 2 P2
7
95
14
123
14
/ / < / 12 X 1 X 2
+
VYG ( X HT ) = 1 2
/ 12
/2
/1
12
0 ,38265
0 , 00170
E( V ( X HT ) ) = 12(1/15)+0,38265(5/15)+0,0017(9/15) = 0,9285
V( V ( X ) ) = (12-0,9285)2(1/15)+(0,38265-0,9285)2 (5/15)+(0,0017-0,9285)2 (9/15) = 8,768
HT
insesgado.
2.15.
P (u i , u j ) =
1 1
u
6 5
1 3
u
6 5
2 1
u
6 5
2 3
u
6 5
3 2
u
6 5
P (u i ) P (u j / u i ) + P (u j ) P (u i / u j )
2 1
2
+ u =
= 0 ,13333333
6 5 15
3 1
3
+ u =
= 0,2
6 5 15
1
=
= 0 , 06666666
15
3 2
6
+ u =
= 0,4
6 5 15
3
=
= 0,2
15
6 < 2 1 X 12 X 22 X 32
M < n 1 n X i2
+
+
< 82
Su varianza es V X HT =
< X 2 =
M < 1 n i =1 Pi
6 < 1 2 P1
P2
P3
( )
M < n 1 n Xi
2
2
<nX SCG
=
1 + 2 < 2 X SCG
V ( X SCG) =
M n(n <1) i =1 Pi
6 2(2 <1) P1 P2
X2
/ ij
X
X
X SCG = 1 + 2
2 P1 2 P2
1
1
3
3
4
3
4
3
4
4
0 ,1333
0,2
0 , 0666
0,4
0,2
7 ,5
7
9
8 ,5
8
2
2
X
1 X
2
1,5
0 , 6666
0
0 ,1666
0
101
< X 2 =
+
=
+
<
8
V X SCG =
+
+
<
8
5 2 P P P
5 2 1/ 6 1/ 3 1/ 2
6 <1 2 i =1 Pi
2
3
1
( )
Para el caso de muestreo con reposicin sin importar el orden de colocacin de los
elementos en las muestras la probabilidad de cualquier muestra ser:
P(ui,uj) = P(ui)P(uj)+ P(uj)P(ui) = 2 P(ui)P(uj) y P(ui,ui) = [P(ui)]2
Las muestras posibles son (u1,u1), (u1,u2), (u1,u3), (u2,u2) (u2,u3) y (u3,u3) con P1 =
p(u1) = 1/6, P2 = p(u2) = 1/3 y P3 = p(u3) = 1/2,. Como estamos en muestreo con reposicin el
estimador lineal insesgado para el total es el estimador de Hansen y Hurwitz ( X HH = X1/2P1 +
X2/2P2). Como estimador insesgado para la varianza se puede utilizar:
V ( X HH ) =
n X 2
X 2 X
1
1
2
i <nX HH
=
1 + 2
n ( n < 1) i =1 Pi
2( 2 < 1) P1 P2
2
< 2 X HH
2
2
X
1 X
2
V ( X HH ) = 1 + 2 < 2 X HH
P
2 P1
2
X1
X2
Pij = P ( u i , u j )
0 ,1666
1
1
3
4
0 ,1666
0 ,1666
7 ,5
7
2 , 25
1
0 ,3333
3
4
4
4
0 ,3333
0 ,5
8 ,5
8
0 , 25
0
El clculo de la varianza del estimador del total de Hansen y Hurwitz tambin puede
realizarse a travs de su frmula correspondiente como sigue:
1 12 32 42
1 X2 X2 X2
1 3 X2
V X HT = i < X 2 = 1 + 2 + 3 < 82 =
+
+
< 82 = 0,5
2 i =1 Pi
2 1/ 6 1/ 3 1/ 2
2 P1 P2 P3
( )
M <n
u V ( X HH ) , ya que
M <1
0,4=[(6-2)/(6-1)]0,5.
M <n
u V ( X HH ) , ya que V ( X SCG ) = [(6-2)/6] V ( X HH ) para
M
todos los elementos correspondientes de las columnas consideradas en las tablas anteriores.
Adems, V ( X SCG ) =
( )
2.16.
Supongamos que tenemos una poblacin de N = 5 nios para los que sus edades correspondientes en
aos son {3, 3, 4, 6, 8} y sus pesos en kilos son {10, 16, 16, 25, 33}. Se toman muestras sin reposicin de tamao 2 de la poblacin de nios con probabilidades proporcionales a sus pesos. Se pide:
1) Obtener un etimador lineal insesgado para la edad media de los nios basado en la muestra de
mayor probabilidad, as como su error de muestreo.
2) Si consideramos la seleccin de la primera unidad muestral proporcional al peso y la segunda
con probabilidades iguales, obtener un estimador lineal insesgado para la edad media de los
nios basado en la muestra (4,8) as como su error de muestreo.
Como no se especifica nada respecto al orden de colocacin de los elementos en las muestras y
el muestreo es sin reposicin, supondremos que el orden no interviene. Habr entonces
5
=10 muestras posibles, que son: (3,3), (3,4), (3,6), (3,8), (3,4), (3,6), (3,8), (4,6), (4,8) y (6,8).
2
Las probabilidades iniciales de seleccin Pi proporcionales a M1=10, M2=16, M3=16,
M4=25 y M5=33 originan los siguientes valores: Pi = {M1/M=1/10, M2/M=4/25, M3/M=4/25,
M4/M=1/4, M5/M=33/100}. Las probabilidades /ij se calcularn de la siguiente forma:
M M < Mi
M M <Mj
1 < Pi
1 < Pj
1 < Pi 1 < Pj
Y como ya conocemos las Pi, para calcular las probabilidades /ij basta sustituir en la
frmula anterior. Tambin es posible el clculo como sigue:
103
/1 = /12+/13+/14+/15=0,0368+0,0368+0,0611+0,0859=0,22069
/2 = /12+/23+/24+/25=0,0368+0,0609+0,1009+0,1416=0,34039
/3 = /13+/23+/34+/35=0,0368+0,0609+0,1009+0,1416=0,34039
/4 = /14+/24+/34+/45=0,0611+0,1009+0,1009+0,2331=0,49614
/5 = /15+/25+/35+/45=0,0859+0,1416+0,1416+0,2331=0,60237
Tambin pueden calcularse los / i mediante una expresin que los haga depender
solamente de los Pi, tal y como se indica a continuacin.
Pj
P
Mi
P
= Pi 1 < 2Pi + Pi + j
Pj = Pi + i Pj = Pi 1 +
j &i 1 < P
1< P
j &i 1 < Pj
j &i M < M j
j &i 1 < Pj
j
i
N
N
P
Pj
1 < 2Pi
Pi
j
= P 1 < 2Pi +
= Pi 1 < 2Pi + Pi
= Pi
+
+
1< P
144
42444
3
= Pi +
Y como ya conocemos las Pi, para calcular las probabilidades /ij basta sustituir en
la frmula anterior, con lo que se obtienen los mismos resultados. El diseo muestral ser el
siguiente:
X HT =
Xi
1 2 X
X HT = i
N i =1 / i
4, 482
5,068
5,138
S(X )
P ( X ) = / ij
(3,3)
(3, 4)
(3,6)
0,0368
0,0368
0,0611
3 / 0, 22069 + 3 / 0,34039 = 22 , 41
3 / 0, 22069 + 4 / 0,34039 = 25,34
3 / 0, 22069 + 6 / 0, 49614 = 25,69
(3,8)
(3, 4)
(3,6)
(3,8)
0,0859
0,0609
0,1009
0,1416
3 / 0, 22069
3 / 0,34039
3 / 0,34039
3 / 0,34039
= 26 ,87
= 20 ,56
= 20 ,91
= 22 ,09
5,374
4,112
4,182
4, 418
( 4,6 )
( 4,8)
(6,8)
0,1009
0,1416
0,2331
4,768
5,006
5,074
i =1
+ 8 / 0,60237
+ 4 / 0,34039
+ 6 / 0, 49614
+ 8 / 0,60237
( )
X
X
V X HT = i (1 < / i ) + 2 i
5
i =1
/i
i =1 j >i
Xj
/i / j
(/
ij
< / i/ j ) =
X 12
/1
(1 < / 1 ) + L +
X 52
/5
(1 < / 5 ) +
32
82
X X
X X
(1 < 0,22069) + L +
(1 < 0,60237)
+ 2 1 2 (/ 12 < / 1/ 2 ) + L + 4 5 (/ 45 < / 4/ 5 ) =
0,60237
/4 /5
/1 / 2
0,22069
3
8
3
(0,03683< 0,22069* 0,34039) + L + 6
(0,23313< 0,49614* 0,60237)
+ 2
0
,
22069
0
,
34039
0
,
49614
0
,
60237
=4,25.
( )
( )
/ ij = P((u i u j ) D ( ~x )) = P(u i D 1 E u j D 2 ) + P (u j D 1 E u i D 2 )
= P(u i D 1 ) P(u j D 2 / u i D 1 ) + P(u j D 1 ) P(u i D 2 / u j D 1 ) =
Mi 1 M j 1
1
1 Pi + Pj
u +
u = Pi u + Pj u =
M 4 M 4
4
4
4
Calculamos ahora los / i mediante una expresin que los haga depender solamente de
los Pi, tal y como se indica a continuacin.
1
1
1
3
1
= Pi + Pj = Pi + Pj = Pi + (1 < Pi ) = Pi +
4 j &i
4
4
4
j &i 4
105
Se observa que estamos ante el mtodo de seleccin sin reposicin de Ikeda para el
caso de tamao de muestra n=2, con lo que las / i y / ij tambin podran haberse calculado
mediante las expresiones siguientes (se obtendran los mismos resultados):
/ i = Pi + (1 < Pi ) *
/ ij =
n <1
n <1 N < n
* Pi +
=
N <1
N <1 N <1
n <1 N < n
(Pi + Pj ) + n < 2
*
N <1 N < 2
N < 2
Ya tenemos todos los datos para calcular los valores de / i y / ij , pues slo dependen de Pi
y Pj que son datos. Tambin podemos calcular ya el estimador X HT . El diseo muestral ser:
S ( X ) P( X ) = / ij =
(3,3)
(3,4)
(3,6)
Pi + Pj
0,065
0,065
(3,8)
(4,6)
0,1025
0,1225
0,1025
(4,8)
(6,8)
0,1225
0,145
(3,6)
i =1
/i
/i =
0,0875
0,1075
0,08
(3,8)
(3,4)
2
X
X HT = i
3
1
Pi +
4
4
0,325
0,37
0,37
0,4375
0,4975
Vemos que para la muestra (4,8) el estimador insesgado de Horvitz y Thompson para
el total poblacional vale 26,90 y para la media 26,90/5 = 5,38. Sigue obtenindose que la edad
media estimada de los nios es 5 aos aproximadamente.
Para hallar la varianza del estimador del total se puede utilizar su distribucin en el
muestreo o bien se puede aplicar directamente la frmula apropiada tal y como se indica a
continuacin:
( )
2
2
5
5 5
X2
X Xj
(/ ij < / i/ j ) = X1 (1 < /1 ) + L + X 5 (1 < / 5 ) +
V X HT = i (1 < / i ) + 2 i
i =1
/i
i =1 j > i
/i / j
/1
/5
32
82
X X
X X
(1 < 0,325) + L +
(1 < 0,4975)
+ 2 1 2 (/12 < /1/ 2 ) + L + 4 5 (/ 45 < / 4/ 5 ) =
/ 4 /5
0,4975
0,325
/1 / 2
8
3
3
(0,065 < 0,325* 0,37) + L + 6
(0,145 < 0,4375* 0,4975) = 12,66
+ 2
0,4375 0,4975
0,325 0,37
2
2
4
8
8 (0,1225< 0,37 * 0,4975])
(1 < 0,37) +
(1 < 0,4975) + 2 4
=
= 43,3
2
2
0,1225
0,37
0,4975
0,37 0,4975
( )
( )
1
Para la media se tiene que V X HT = V X HT = 1,73 .
25
Para hallar el estimador insesgado para la varianza basado en la muestra (4,8) tambin
se puede usar el estimador insesgado de Yates y Grundy de la forma siguiente:
2
2 2
X X j (/ i/ j < / ij ) X1 X 2 (/1/ 2 < /12 ) 4
8 (0,37* 0,4975< 0,1225])
V X HT = i <
= <
=
<
=13,958
0,1225
/ j
/ ij
/12
i =1 j >i / i
0,37 0,4975
/1 / 2
( )
Para la media, V X HT
( )
= 1 V X
HT = 0,55
25
Se observa que para la muestra (4,8) el estimador de Yates y Grundy para la varianza
del total resulta ms preciso que el estimador de la varianza de Horwitz y Thompson.
107
EJERCICIOS PROPUESTOS
2.1.
2.2.
Una poblacin consta de 40000 unidades distribuidas en 400 conglomerados de 100 unidades
cada uno. Una muestra aleatoria con probabilidades iguales sin reposicin de tamao 25
conglomerados presenta los siguientes datos:
Total de unidades
12 17 23 33 36
de la clase C
N de conglomerados
2 3 9 5 6
de la muestra
2.3.
Supongamos que tenemos una poblacin de N = 5 unidades primarias para las que una variable X
medida sobre ellas proporciona los valores 3, 3, 4, 6 y 8. Se toma una muestra de tamao n = 2
sin reposicin asignando en la primera extraccin probabilidades proporcionales a los nmeros
10, 16, 16, 25 y 33, y tambin en la segunda (prescindiendo de la unidad seleccionada en primer
lugar). Se pide:
Calcular las probabilidades /ij (i&j) y comprobar que /i =2 para i = 1, 2, ..., 5
N
/ i = n < / j y
i =1
i& j
/
i =1
i& j
ij
= (n < 1)/ j .
Obtener estimadores lineales insesgados para el total y la media (para la muestra de mayor
probabilidad), as como sus errores de muestreo.
2.4.
Supongamos que tenemos una poblacin de N = 3 unidades primarias para las que una variable X
medida sobre ellas proporciona los valores {1, 3, 4} con probabilidades de seleccin
proporcionales a los tamaos 3, 5 y 7. Se toman muestras de tamao n=2 sin reposicin y sin
tener en cuenta el orden de colocacin de los elementos mediante el mtodo de seleccin de
y V ( X ) , hallar V ( X ) ,
Durbin. A partir de las distribuciones en el muestreo de X
E ( X HT ) y E (V ( X HT )) . Comentar los resultados.
HT
HT
HT
CAPTULO
MUESTREO ALEATORIO SIMPLE SIN Y
CON REPOSICIN. SUBPOBLACIONES
OBJETIVOS
1. Introducir el concepto de muestreo aleatorio simple.
2. Comprender las especificaciones del muestreo aleatorio simple sin
reposicin o muestreo irrestricto aleatorio.
3. Analizar el muestreo aleatorio simple sin reposicin.
4. Estudiar las estimaciones, errores y estimacin de los errores en muestreo
aleatorio simple sin reposicin.
5. Especificar los factores de elevacin en muestreo aleatorio simple sin
reposicin.
6. Evaluar el tamao de la muestra en muestreo aleatorio simple sin
reposicin.
7. Comprender las especificaciones del muestreo aleatorio simple con
reposicin.
8. Analizar el muestreo aleatorio simple con reposicin.
9. Estudiar las estimaciones, errores y estimacin de los errores en muestreo
aleatorio simple con reposicin.
10. Especificar los factores de elevacin en muestreo aleatorio simple con
reposicin.
11. Evaluar el tamao de la muestra en muestreo aleatorio simple con
reposicin.
12. Comparar el muestreo aleatorio simple con y sin reposicin.
13. Obtener estimadores en subpoblaciones con y sin reposicin.
14. Calcular errores y estimacin de los errores en subpoblaciones con y sin
reposicin.
NDICE
1. Muestreo aleatorio simple sin reposicin. Especificaciones
2. Estimadores, varianzas y estimacin de varianzas.
3. Tamao de la muestra.
4. Muestreo aleatorio simple con reposicin. Estimadores
5. Varianzas y su estimacin con reposicin.
6. Tamao de la muestra con reposicin.
7. Comparacin entre muestreo aleatorio sin y con reposicin.
8. Subpoblaciones.
9. Problemas resueltos.
10. Ejercicios propuestos.
111
N
C N ,n =
n
ya que el orden de colocacin de los elementos en las muestras no interviene. Como el
procedimiento es con probabilidades iguales, la probabilidad de una muestra cualquiera ser:
p( u1 ,L, un ) =
Casos favorables
1
1
=
=
Casos posibles
C N ,n N
n
Por otra parte, el nmero de muestras posibles que se pueden formar con los
elementos de la poblacin y que contengan al elemento dado ui ser:
N <1
CN<1,n<1 =
n<1
ya que en este caso se fija el elemento ui y las muestras posibles resultan de las formas
posibles de seleccionar de entre los N-1 elementos de la poblacin restantes n-1 de ellos para
la muestra (el elemento ui ya est fijo en la muestra).
Tenemos entonces:
/ i = P (u i D ( ~x ) ) =
Casos favorables
=
Casos posibles
N de muestras que contienen la unidad u i
=
N total de muestras
N < 1
( N < 1)!
( N < 1)!
<
n
1
= ( n < 1)! ( N < n )! = ( n < 1)! ( N < n )! = 1 = n
=
N .( N < 1)!
N
N!
N
N
<
<
n
n
N
n
n
n
N
n
<
(
1
)!
(
)!
!
(
)!
n
()
Y
Se tiene que eHT = i estima e = Yi , con E e = e , es decir, insesgadamente,
N
i =1
/i
i =1
Xi
1 n
= N X i = Nx
n4i2
i =1
i =1 / i
i =1 n
=1
1
4
3
N
x
Xi
Xi
N
n
n
Xi
Xi
1 n
e = X =
Yi =
e = X = N = N = X i = x
N
n i =1
i =1 N
i =1 / i
i =1 n
N
Ai
N
n
A
A
1 n
e = P = i Yi = i e = P = N = Ai
N
n i =1
i =1 N
i =1 n
N
N
n
A
1 n
e = A = Ai Yi = Ai e = A = i = N Ai = NP
n i =1
i =1
i =1 n
N
N
e = X = X i Yi = X i e = X =
Xi
113
Yi Yj
i< j
/ i/ j
Y
V e$HT = i (1 < / i ) + 2
( )
i =1
/i
(/
ij
< / i/ j
Para el caso particular del muestreo aleatorio simple sin reposicin se sabe que /i = n/N
y /ij = n(n <1) / [N(N <1)]. Considerando el estimador del total y sustituyendo estos valores de /i
y /ij en la expresin de la varianza tenemos:
N
N
N X X
X2
n
n n
i
j n (n < 1)
V X = i 1 < + 2
<
n
N
N N
i =1
i =1 j > i n n N ( N < 1)
N N
N
2
1 N
(
)
X
X
<
i
n N <1
S2
i =1
= N 2 (1 < f )
= N 2 1 <
N
n
n
( )
S
V X = (1 < f )
n
N
PQ
S
N 1
1
N
<
(1< f )PQ
= (1< f )
=
V P = (1< f )
n
n
N <1 n
()
N
PQ
2
S
N3 1
2
2
<
N
1
(1 < f )PQ
V A = N (1 < f )
= N (1 < f )
=
n
n
N <1 n
()
Estimacin de varianzas
Sabemos que la varianza del estimador de Horvitz y Thompson est dada por la expresin:
2
Y
V$ ( e$ HT ) = i 2 ( 1 < / i ) +
n
i =1
/i
i< j
Yi Yj / ij < / i /
/ i/
/ ij
<
X i X j N (N < 1) N N
X
n
=
V X =
1 < + 2
n(n < 1)
N
i =1 n
i =1 j > i n n
N (N < 1)
N N
N2
2
N (N < n ) 1 n
S 2
2
2 (N < n ) S
2
(
)
(
)
<
=
=
<
1
X
x
N
N
f
i
n
n < 1 i =1
n
N
N
144
424443
( )
2
i
2
S 2
n
PQ
2
S
1
V P = (1 < f )
PQ
= (1 < f ) n < 1
= (1 < f )
n
n
n <1
()
n $$
PQ
2
$
S
1 $$
n <1
V$( A$ ) = N 2 ( 1< f ) = N 2 ( 1< f )
= N 2 (1< f )
PQ
n
n
n <1
1 n
( X i < x )2
S 2 =
n < 1 i =1
es un estimador insesgado de la cuasivarianza poblacional S 2 =
1 N
Xi < X
N <1 i =1
TAMAO DE LA MUESTRA
Estudiaremos el tamao de muestra necesario para cometer un error de muestreo e = m( e )
dependiendo de si e estima la media, el total, la proporcin o el total de clase.
Media:
n S2 S2 S2
e 2 = 1 <
=
<
n
N n
n
N
2
2
2
2
S
S
S
NS
= e2 +
n=
=
2
n
N
S
Ne 2 + S 2
e2 +
N
Se observa que cuando N A ' (fraccin de muestreo n/N tendiendo a cero) el tamao
muestral n A S2/e2 = n0 (n inversamente proporcional al cuadrado del error de muestreo).
e = m ( X ) =
(1 < f ) S
115
n0
n N
S2
S 2 e2
=
=
= 0
= f (N )
2
2
2
n0 n0 + N
S
S e
2
1+
1+
e +
N
N
N
f '(N ) =
n 02
( n0 + N ) 2
es siempre positiva, que no tiene mximos ni mnimos dado que la ecuacin definida por
f(N) = 0 no tiene solucin en N, que es siempre convexa ya que la segunda derivada:
f ''(N ) = <
2 n 02
( n0 + N ) 3
es siempre negativa y que no tiene puntos de inflexin ya que que la ecuacin definida por
f(N)=0 no tiene solucin en N. Por tanto, la representacin grfica de n = f(N) es la
siguiente:
n
n = n0
n0
n0 < n
n-
n0 N
n02
S2 S2
2
n0 < n = n0 <
=
< 1 n0 < n0 + N N > n0 (n0 < 1) = 2 2 < 1
n0 + N n0 + N
e e
S2 S2
N > n 0 ( n 0 < 1) = 2 2 < 1
e e
Total:
S2
n S 2 N 2S 2 N 2S 2
e 2 = N 2 1 <
=
<
e = m ( X ) = N 2 (1 < f )
n
n
N
N n
N 2S 2
N 2S 2
N 2S 2
N 3S 2
N 2S 2
= e2 +
n=
=
=
2
2 2
N 2S 2 1
+ N43
n
N
Ne42
S
e 2 + NS 2
e2 +
N
N e 2 + NS 2
S
N
2
e = N n1 = f ( N )
n=
2
1 + Nn1
S
1+ N
e
2
f (N )
<N
1
= 1 y lim ( f ( N ) < N ) = lim
=<
N
A
'
N
A
'
1 + n1 N
n1
N
2n1 N + n12 N 2
f '(N ) =
(1 + n1 N ) 2
es siempre positiva, que no tiene mximos ni mnimos ya que la ecuacin definida por
f(N)=0 no tiene solucin en N, que es siempre cncava puesto que:
f ''(N ) =
2 n12 N
(1 + n1 N ) 3
1/n1
117
Proporcin:
Si sustituimos el valor de S2 para variables Ai (que slo toman los valores 0 y 1) en la frmula
del tamao muestral para la media tendremos para la estimacin de la proporcin el tamao:
2
NS
=
n=
Ne 2 + S 2
N
PQ
N <1
N 2 PQ
NPQ
=
2 = 2
N
NPQ + ( N < 1) Ne
e ( N < 1) + PQ
3
PQ + Ne 2 14442444
N <1
N e 2 ( N < 1) + PQ
PQ
PQ PQ
PQ
N < 12
N > n0 (n0 < 1) = N < 12
< 1
2 < 1
2
e
e
e e
N 2S 2
=
n= 2
e + NS 2
N
PQ
N 3 PQ
N <1
= 2
N
e (N < 1) + N 2 PQ
PQN
e2 +
N <1
N2
Absoluto
e
Relativo
er
NS 2
Ne 2 + S 2
NC 1,2 x
Total
Proporcin
Total de clase
N S
e 2 + NS 2
NPQ
e 2 ( N < 1) + PQ
N 3 PQ
e 2 ( N < 1) + N 2 PQ
Relativo y
confianza
Absoluto y coeficiente
de confianza adicional
e_
h_2 NS 2
Ne 2 + h_2 S 2
h_2 N 2 S 2
e 2 + h_2 NS 2
h_2 NPQ
e 2 ( N < 1) + h_2 PQ
h_2 N 3 PQ
e 2 ( N < 1) + h_2 N 2 PQ
Ne r2 + C 1,2 x
NC 1,2 x
Ne r2 + C 1,2 x
NQ
P ( N < 1)e r2 + Q
NQ
P ( N < 1)e r2 + Q
e r_
h_2 NC 1,2 x
Ne r2_ + h_2 C 1,2 x
h_2 NC 1,2 x
Ne r2_ + h_2 C 1,2 x
NQh_2
e r2_ ( N < 1) P + h_2 Q
NQh_2
e r2_ ( N < 1) P + h_2 Q
HH
=
i =1
Yi
nPi
(Pi = probabilidad de seleccionar la unidad ui de la poblacin para la muestra =1/N), que estima
insesgadamente la caracterstica poblacional e =
119
n
Xi
X
1 n
= i = N X i = Nx
n4i2
=1
i =1
i =1 nPi
i =1 n
1
4
3
N
x
Xi
Xi
n
n
N
Xi
Xi
1 n
e = X =
Yi =
e = X = N = N = X i = x
n
n i =1
N
i =1 nPi
i =1
i =1 N
N
Ai
N
n
A
A
1 n
e = P = i Yi = i e = P = N = Ai
N
n i =1
i =1 N
i =1 n
N
N
n
A
1 n
e = A = Ai Yi = Ai e = A = i = N Ai = NP
n i =1
i =1
i =1 n
N
N
e = X = X i Yi = X i e = X =
1 N Yi
$
V ( e HH ) = < Y Pi
n i =1 Pi
y considerando que para el caso particular del muestreo aleatorio simple con reposicin se
sabe que Pi = 1/N, tenemos:
2
N
N
X
X
1
1
1 N2 1
i
i
< X Pi =
V (X ) =
<X
=
N
n i =1 Pi
n i =1 1
n N
(X
i =1
< X) = N2
m2
n
X 1
1
m2 m2
V X = Var = 2 Var X = 2 N 2
=
n
n
N
N N
N <1 2
S
2
PQ
m
m2
PQ
N
V P =
=
=
= N2
V A = N 2
n
n
n
n
n
( )
()
()
Para estimar las varianzas partimos del estimador de la varianza de Hansen y Hurwitz:
V$ (e$HH ) =
Yi
1
< Y$HH
n(n < 1) i =1 Pi
y considerando que para el caso particular del muestreo aleatorio simple con reposicin se
sabe que Pi = 1/N, tenemos:
2
n
2
X
1
N2 1 n
2 S
i
(
)
=
<
=
X
X
x
N
<
V X =
n n < 1 i =1
n
n(n < 1) i =1 1
( )
X
1
1
S 2 S 2
=
V X = V = 2 V X = 2 N 2
N
n
n
N N
n
n
PQ
PQ
2
2
S
1
S
1
2
2
n
n
1
<
<
1
V A =N
V P =
PQ
PQ
=
=
=N
= N2
n
n
n <1
n
n <1
n
( )
()
()
Absoluto y coeficiente
Absoluto Relativo
de confianza adicional
er
e
e_
2
2
2
h_ m 2
Cx
m
2
2
e
er
e2
h_2 N 2m 2
C x2
N 2m 2
2
2
e
er
e2
h_2 PQ
PQ
Q
2
2
e
Per
e2
h_2 N 2 PQ
N 2 PQ
Q
2
2
e
Per
e2
Relativo y
confianza
e r_
h_2 C x2
er2_
h_2 C x2
er2_
h_2 Q
Per2_
h_2 Q
Per2_
121
N
V SR X
N <n
m2
2
S
n N <1
N <nm
=
<1
V SR X = (1 < f )
= (1 < )
=
N <1
V
X
n
N
n
N < 1 n CR
2
2
m
m
VCR X =
n= 2
V X < V X
SR
CR
n
e
2
Para el resto de los estimadores todo sera equivalente, luego la varianza siempre es
menor en el caso del muestreo sin reposicin, lo que nos indica que el muestreo sin
reposicin es en general ms preciso que el muestreo con reposicin.
Desde el punto de vista del tamao muestral, ser mejor aquel mtodo de seleccin
en el que se necesite menor tamao muestral para cometer un error de muestreo dado. En
este captulo hemos visto que para muestreo sin reposicin el valor de n era:
n SR =
n0
1 + n0 N
nSR =
n0
nCR
=
< nCR n SR < nCR
1 + n0 N 1 + nCR N
n SR =
nCR
N 2 n1
En los mismos casos para muestreo con reposicin se observa que el tamao
muestral resulta ser nCR = N2n1.
Por lo tanto, en todas las situaciones, en el caso de muestreo sin reposicin se
necesita menos tamao de muestra para cometer el mismo error que en el caso del
muestreo con reposicin, con lo que el muestreo sin reposicin es ms eficiente que el
muestreo con reposicin.
SUBPOBLACIONES
La escasa disponibilidad de marcos que listen especficamente los elementos de la poblacin
que interesa estudiar, sobre todo cuando utilizamos unidades poblacionales muy elementales
(marco muy fino), nos lleva a considerar la teora de subpoblaciones o dominios.
Normalmente se dispone de marcos menos finos cuyas unidades contienen a las unidades
elementales en estudio. Por ejemplo, podemos desear estudiar una muestra de los hogares
que tienen nios, pero el mejor marco disponible puede ser una lista de todos los hogares en
la ciudad (sin poder desagregar hasta los hogares que tienen nios). Utilizaremos entonces el
marco amplio de todos los hogares y consideraremos la subpoblacin de los hogares que
tienen nios para intentar estimar los parmetros de dicha subpoblacin a travs de los
mtodos para subpoblaciones. Supongamos que dividimos una poblacin de tamao N en
subpoblaciones o dominios. Consideremos que el j-simo dominio contiene Nj unidades, y
que nj es el nmero de unidades, en una muestra aleatoria simple de tamao n, que
pertenecen al dominio j.
n3 N 3
y3
n2
N2
y2
n1
N1
y1
N = Tamao de la poblacin
n = tamao de la muestra
Sea Yjk (k = 1, 2, ..., nj y nj = n) son los valores de la variable en estudio medida
sobre los elementos de la muestra que pertenecen al dominio j-simo. Un estimador
insesgado de la media en la subpoblacin o dominio j ser el siguiente:
Y jk
Y j = y j =
k =1 n j
nj
N j nj
N j < 1 k =1
k =1 N j
V ( y j ) = (1 <
nj
nj
n j S 2j
1
2
2
(Y jk < y j ) dnde y j = Y jk
siendo S j =
)
N j nj
n j < 1 k =1
k =1 n j
123
n Sj
V ( y j ) = (1 < )
N nj
V(yj ) =
m 2j
nj
1
siendo m =
Nj
2
j
Nj
(Y
k =1
< Yj )
jk
y V ( y j ) =
S 2j
nj
Y jk
k =1
nj
Y j = N j y j = N j
V (Y j ) = N 2j V ( y j ) = N 2j (1 <
n j S 2j
)
N j nj
y V (Y j ) = N 2j (1 <
n j S 2j
)
N j nj
V (Y j ) = N 2j V ( y j ) = N 2j
m 2j
nj
V (Y j ) = N 2j
S 2j
nj
Y jk
k =1
nj
Y j = N j
nj
Nj
k =1
nj
Y jk =
{
?
Se aplica
Nj N
A
nj
n
N
n
nj
Y
k =1
jk
N
n
y
{j
Total
muestral
en dominio
j < simo
n S'
V (Y j ) = N 2 (1 < )
N n
2
n S '
2
y V (Y j ) = N (1 < )
N n
n
nj
Y j2
y 2j
1
1 j
2
2
2
siendo S ' =
Y jk <
e y j = Y jk
Y jk < N , S ' = n < 1
n
N < 1 Dominio j
k
1
=
k =1
V (Y j ) = N 2
m '2
n
y V (Y j ) = N 2
S ' 2
n
con m ' 2 =
1
N
Y jk <
Dominio j
Y j2
PROBLEMAS RESUELTOS
3.1.
Cantidad Concordancia
278
192
310
94
86
335
310
290
221
168
1
1
1
0
1
1
0
1
1
1
Cuenta
11
12
13
14
15
16
17
18
19
20
Cantidad Concordancia
188
212
92
56
142
37
186
221
229
305
0
0
1
1
1
1
0
1
0
1
Figura 3-1
125
Figura 3-2
Figura 3-3
Hemos obtenido que el importe medio adeudado se estima en:
X=
1 12
X i = 209,583
12 i =1
m
= 655,745
V X =
n
2
()
3.2.
()
0,0175
Cv P =
100 = 17,638%
0,75
El gerente de un taller de maquinaria desea estimar el tiempo promedio que necesita un operador
para terminar una tarea sencilla. El taller tiene 98 operadores y se selecciona una muestra de 8 sin
reposicin a los que se les toma el tiempo, Se obtienen los siguientes resultados:
4,2 5,1 7,9 3,8 5,3 4,6 5,1 4,1
Estimar el tiempo promedio y el tiempo total para terminar la tarea entre todos los
operadores estableciendo lmites al 95% para los errores de estimacin.
Comenzamos introduciendo los datos como la variable T en una hoja de clculo de Excel. A
continuacin, para calcular los estadsticos necesarios, en el men Herramientas de Excel
elegimos Anlisis de datos, seleccionamos Estadstica descriptiva y rellenamos la pantalla
de entrada como se indica en la Figura 3-4. Al pulsar Aceptar se obtienen los estadsticos
maestrales de la Figura 3-5. Por ltimo, se calculan los estimadores y sus errores segn las
frmulas de la Figura 3-6 que nos llevan a los resultados de la Figura 3-7.
1 12
Se observa que el tiempo medio por operario para terminar la tarea es T = Ti =
12 i =1
2
S
= 0,189 y un error relativo
5,0125 minutos con un error de muestreo de V (T ) = (1 < f )
n
0,189
m (T )
dado por Cv(T ) =
100 =
100 = 9,69%. El tiempo total para terminar la tarea se
5,0125
T
estima en T = NT = 89 u 5,0125 = 491,225 minutos con un error de muestreo estimado por
V (T ) = N 2V (T ) = 89 2 u 0,189 = 1822,07, siendo el error relativo el mismo que el del estimador
del tiempo medio, es decir, 9,69%. El coeficiente de curtosis = 4,24 no est en el intervalo
[<2,2] luego no podemos suponer normalidad, con lo que intervalo de confianza al 95% para
la media de anchura 1,07475886 no es vlido.
Figura 3-4
Figura 3-5
127
Figura 3-6
Figura 3-7
Al no existir normalidad utilizamos como intervalos de confianza:
()
()
m e m e
,e +
e <
_
_
cuya anchura es 2
()
m e
. Esta anchura (3,895 para el estimador de la media y 381,79 para el
_
estimador del total) suele considerarse como un lmite para el error de estimacin. Se
observa que estas anchuras son mayores que con normalidad, ya que en este caso las
estimaciones son menos precisas (errores mayores).
3.3.
En una regin con N = 1000 viviendas determinar el tamao de muestra necesario para que,
con un grado de confianza del 95%, la estimacin de la proporcin de viviendas sin agua
corriente no difiera en ms del 0,1 del valor verdadero. Comentar los resultados para
muestreo sin reposicin y con reposicin.
< 0,10
0,10
= 0,95
) N (0,1) )
P
m ( P )
m ( P )
NP (1 < P )
1000 u 0,5 u 0,5
=
= 91 viviendas
2
0,5 u 0,5 + 999.0,0512
P (1 < P ) + ( N < 1)e
3.4.
3660 activos
40 parados
NPA=6000
n=10000
129
m ( P ) = 1 <
= 1 <
= 0,00489
N n <1
33000000 10000 < 1
m ( P ) 0,00489
C v( P ) =
=
= 0,012225 (1,2225%)
0,4
P
Para hallar el intervalo de confianza para la proporcin con _ = 0,003, utilizamos h_ =
F-1N(0,1) (1<_/2) = F-1 N(0,1) (1<0,003/2) = F-1 N(0,1) (0,9985)=2,997. El intervalo ser:
[ P < h_ m ( P ), P + h_ m ( P )] = [0,4 < 2,997 u 0,00489, 0,4 + 2,997 u 0,00489] = (0.3853, 0.4146)
m ( A ) = N 2 1 <
n P (1 < P )
10000 0,004(1 < 0,004)
= 33000000 1 <
= 20827
N n <1
33000000 10000 < 1
m ( A ) 20827
=
= 0,157
C v( A ) =
132000
A
(15,7%)
Para hallar el intervalo de confianza para el total con _ = 0,003, utilizamos el valor
h_=F-1N(0,1) (1<_/2) = F-1 N(0,1) (1<0,003/2)= F-1 N(0,1) (0,9985)=2,997. El intervalo ser:
h_2 NPQ
1,96 2 u 33000000 u 0,39 u (1 < 0,39)
=
= 2379
( N < 1)e_2 + h_2 PQ (33000000 < 1) u 0,02 2 + 1,96 2 u 0,39 u (1 < 0,39)
3.5.
h 2r_ NQ
( N < 1) Pe r2_ + h 2r_ Q
NPQ
6000 u 0,6666 u (1 < 0,6666)
=
= 22,14
2
( N < 1)e + PQ (6000 < 1) u 0,12 + 0,6666 u (1 < 0,6666)
NQ
6000 u (1 < 0,6666)
=
= 12,47
2
( N < 1) Pe r + Q (6000 < 1) u 0,6666 u 0,2 2 + (1 < 0,6666)
h_2 PQN 2
e_2
h_2 Q
e_2 P
3.6.
131
X = x = 29,75
e = m ( x ) = (1 < f )
= 1 <
= 1,536
8
n
100
m ( x ) 1,536
e r = Cv( x ) =
=
= 0,051 (5,1%)
29,75
x
m ( X ) 153,6
e r = Cv( X ) =
=
= 0,051
2975
X
(5,1%)
100 u13,3571
NS 2
=
= 3,23
2
2
13,3571 + 100.2 2
S + Ne
n=
100 2 u13,3571
N 2S 2
=
= 34,82
NS 2 + e 2 100 u13,3571 + 50 2
TotalA n =
h2 S 2 1,962 u13,3571
n0
12,82
= 12,82
=
= 11,36 con n0 = _ 2 =
2
n0
12,82
2
e
_
1+
1+
N
100
h2 S2 1,962 u13,3571
N 2n1
1002u12,82
=
= 99,92 con n0 = _ 2 =
= 12,82
1 + Nn1 1 + 100u12,82
22
e_
C12, x
e r2 +
C12, x
S 2 13,3571
0,015
= 0,015
= 4 con C12, x = 2 =
0,015
29,75 2
X
2
0,06 +
100
Para el caso de un error relativo de muestreo igual a er_ = 0,06 con un coeficiente de
confianza del 95%, el tamao de muestra necesario es el mismo para la estimacin del total y
de la media, y lgicamente ser mayor que cuando no existe el coeficiente de confianza.
Tendremos:
h_2 C12, x
n=
e r2_ + h_2
C12, x
N
1,96 2 u 0,015
= 61,54
2
2 0,015
0,06 + 1,96 u
100
6
6
= 0,75 (75%)
A = N u P = 100 = 75
8
n
8
P Q
8 0,75 u 0,25
e = m ( P ) = (1 < f )
= 1 <
= 0,0246
n <1
100 8 < 1
e = m ( A ) = N u m ( P ) = 100 u 0,0246 = 2,46
P =
i =1
133
h 2r_ NQ
( N < 1) Pe r2_
Vamos a realizar a continuacin para muestreo con reposicin el clculo del tamao
de muestra necesario para que el error relativo de muestreo sea 0,06 al estimar la proporcin
de edades pares de la poblacin con un coeficiente de confianza del 95%. Utilizamos:
h_ C
2
n=
h_2
2
X
e r2_
luego el tamao de muestra necesario ser n = 355, que supera al tamao poblacional. Eso se
debe a lo bajo que es el error especificado a cometer. En este caso habr que aumentar el
error a cometer. No obstante, se ha comprobado que el tamao de muestra necesario para
estimar el mismo parmetro cometiendo el mismo error siempre es mayor en el muestreo
con reposicin, lo que indica que este tipo de muestreo es menos preciso que el muestreo sin
reposicin. Esto concuerda tambin con el hecho de que los errores de muestreo siempre son
menores en el caso de sin reposicin.
3.7.
Una muestra irrestricta aleatoria de 600 habitantes procedente de una poblacin de N = 15.000
presenta los siguientes datos para la variable X = nmero de visitas anuales a doctores
especialistas:
600
X
i =1
= 2946 y
600
X
i =1
2
i
= 18694
Hallar intervalos de confianza al 95% para el total y la media por habitante anuales de visitas
a doctores especialistas en la poblacin admitiendo normalidad para la distribucin de los
estimadores. Tomando la muestra anterior como muestra piloto, qu tamao de muestra
ser necesario para cometer un error absoluto de muestreo de 1.000 unidades al estimar el
total de visitas a doctores especialistas en la poblacin? Y para cometer un error relativo de
muestreo del 15%?
El total de visitas a doctores especialistas en la poblacin, su error y el intervalo de
confianza al 95% se estiman como sigue:
2
2946
1 20 2 20
<
X = N u x = 15000 u
= 73650 S 2 =
X
X
i i n = 7,06
n < 1 i =1
600
i =1
m ( X ) = N 2 (1 < f )
600 7,06
S 2
= 15000 2 1 <
= 1594,239
n
15000 600
2946
= 4,91
600
m ( x ) = (1 < f )
600 7,06
S 2
= 1 <
= 0,106282
n
15000 600
El tamao de muestra necesario para cometer un error relativo de muestreo del 15%
al estimar el total poblacional de X puede hallarse como sigue:
n=
NC
2
1, x
Ne r2 + C12, x
7,06
S2
15000
2
4,912
X
=
=
= 13
7,06
S2
2
2
15000
0
,
15
u
+
Ne r + 2
4,912
X
N
Hemos utilizado un valor de S2 = 7,06 porque la muestra de tamao 600 con los
datos dados en el enunciado del problema se utiliza como muestra piloto.
3.8.
Un sector industrial de Estados Unidos tiene un censo de 1000 fbricas. Hallar el tamao de
muestra necesario (nmero de fbricas) para que, con un grado de confianza del 95%, la
estimacin de la produccin total del sector quede dentro del 10% de su valor verdadero. Se
utiliza muestreo irrestricto aleatorio y se sabe por una muestra piloto que el coeficiente de
variacin poblacional es 0,6.
X
X
X
(
)
(
)
(
)
(
)
m
m
m
m
X
0,10 X
m ( X )
m ( X )
= h_ 0,10 = h_
= h_
= h_ Cv( X ) = er_ con h_ =1,96
X
m ( X )
E ( X )
Por lo tanto, el problema se traduce en calcular el tamao de muestra necesario para
cometer un error relativo de muestreo de 0,051 al estimar la produccin total.
2
n=
h_2 NC12,x
Ner2_ + h_2 C12, x
h_ N m
1,962 u1000
h_2 N
S2
2
(
u 0,62
CV )
h_ N 2
N <1 X
999
1
N
<
X
=
= 122
=
=
=
2
2
2
1,962
h_2
2
h
m
N
2
2 S
2
2
2
2
_
(CV ) 0,1 +
.0,6
Ner_ + h_ 2 Ner_ +
er_ +
999
N <1
X
N <1 X
2
3.9.
135
Los partidos de izquierdas desean obtener informacin rpida sobre el nmero total de concejales
que obtuvieron en las ltimas elecciones en los 300 municipios ms pequeos de una regin
espaola. Para ello se eligieron 50 municipios, y se obtuvieron los siguientes resultados:
Nmero de concejales por municipio
Xi
Nmero de municipios
ni
0
1
2
3
4
5
6
7
8
9
2
7
5
7
8
10
5
3
2
1
Se pide:
1) Estimar el nmero total de concejales que obtuvieron los partidos de izquierdas en las
ltimas elecciones en la regin en los municipios ms pequeos.
2) Si se hubiera querido un error de muestreo inferior a 150 concejales, cuntos municipios
habra sido necesario seleccionar?
Tenemos N = 300 y n = 50. Para estimar el total de concejales que obtuvieron los partidos de
izquierdas se procede como sigue:
x=
1 k
196
x i ni =
= 3,92 X = Nx = 300 3,92 = 1176 concejales
n i =1
50
2
(
xi ) 1
196 2
1 k 2
x i ni <
=
<
= 4,8098
S =
1004
50
n < 1 i =1
n 49
Por tanto, la estimacin del nmero de concejales obtenidos en los 300 municipios
ms pequeos de esa regin durante las pasadas elecciones es de 1178 concejales. El error de
muestreo con un 99% de confianza ha resultado ser 218,7, que en trminos relativos (de
coeficiente de variacin) es:
218,7189
C v ( X ) =
u 100 = 18,59%
1176
3.10.
N 2 h_2 S 2
300 2 2,575 2 4,8098
= 89,51 5 90 municipios
=
eT2 + Nh_2 S 2 150 2 + 300 2,575 2 4,8098
m ( X ) = N 2 (1 <
n S
36 3000 2
)
= 1000 2 1 <
= 2764,8
N n
1000 36
2
Para estimar la deuda pendiente con un error inferior a 2500000 euros, se debe elegir
una muestra de tamao superior al valor siguiente:
n=
3.11.
N 2 h_2 S 2
10000 2 1,96 2 3000 2
= 524,19 5 525
=
2
eT2 + Nh_2 S 2 (2500000) + 10000 1,96 2 3000 2
En un recinto ferial se desea estimar la cantidad X gastada por visitante en sus instalaciones.
Para ello, de entre los 500 visitantes de un da determinado, se seleccion una muestra
aleatoria simple de 100 y a la salida del recinto ferial se les pregunt la cantidad en euros
que haban gastado. Se obtuvieron los siguientes datos:
100
X i = 250
i =1
100
X
i =1
2
i
= 649,75
Hallar un intervalo de confianza al 95% para la cantidad media gastada por persona en el
recinto ferial. A cuntas personas se debera haber preguntado para que, con la misma
confianza, el error de la estimacin anterior no superarse los 75 euros? Cuntas personas
deberan haber sido preguntadas si se hubiera deseado estimar la proporcin de personas
insatisfechas con los servicios prestados en el recinto ferial con un error del 10% y una
confianza del 95%?
137
n S
n S
I = x < h_ (1 < )
; x < h_ (1 < )
N n
N n
1 n
250
x = xi =
= 2,50 euros
n i!
100
2
2
1 n 2 1 n
1
1
2
(250)2 = 0,25
S =
649,75 <
X i < X i =
n < 1 i =1
n i =1
100
99
El intervalo de confianza para el gasto medio en euros por persona en la feria ser:
100 0,25
I = 2,5 < 1,96 (1 <
)
;
500 100
100 0,25
)
= [2,4123; 2,5876]
500 100
h_2 NS 2
e +2 N + h_2 S 2
h_2 NPQ
1,96 2 500 0,5 0,5
= 80,7005 5 81 personas
=
e_2 (N < 1) + h_2 PQ 0,10 2 499 + 1,96 2 0,5 0,5
3.12.
Para tomar la decisin de mantener un determinado libro como texto oficial de una
asignatura, se pretende tomar una muestra aleatoria simple entre los 1250 profesores de una
universidad y enviarles un cuestionario a travs del cual manifiesten si son favorables a la
renovacin del libro como texto oficial.
1) Cul deber ser el nmero apropiado de profesores encuestados de entre los 1250 para
obtener una estimacin sobre la proporcin de profesores favorables a la renovacin del
libro de texto con un error de muestreo inferior al 12% y una confianza del 90%?
2) Si de la encuesta realizada el ao anterior se sabe que la proporcin de profesores
favorables al mantenimiento del libro de texto estar entre el 75% y el 85%, cul debera
ser en este caso el nmero apropiado de profesores encuestados del apartado anterior?
3) Si finalmente se decidi enviar cuestionarios a 100 profesores, de los cuales tan slo 35
no se manifestaron favorables a la renovacin del libro de texto, estimar la proporcin del
nmero apropiado de profesores encuestados de entre los 1250 para obtener una estimacin.
El nmero apropiado de profesores a encuestar de entre los 1250 para obtener una
estimacin sobre la proporcin de profesores favorables a la renovacin del libro de texto
con un error de muestreo inferior al 12% y una confianza del 90% ser el siguiente:
n=
h_2 NPQ
1,645 2 1250 0,5 0,5
= 45,2968 5 46 profesores
=
e_2 (N < 1) + h_2 PQ 0,12 2 1249 + 1,645 2 0,5 0,5
Como slo 35 profesores de los 100 deciden la no renovacin del libro de texto,
tenemos:
65
P =
= 0,65
100
El error de muestreo ser:
e p = h_
3.13.
N < n pq
1250 < 100 0,65 0,35
= 1,645
*
= 0,0753
N <1 n
1249
100
Una empresa industrial est interesada en el tiempo por semana que los cientficos emplean
para ciertas tareas triviales. Las hojas de control del tiempo de una muestra irrestricta
aleatoria de n = 50 empleados muestran que la cantidad promedio de tiempo empleado en
esas tareas es de 10,31 horas, con una varianza muestral de S2 = 2,25. La compaa emplea N
= 750 cientficos. Estimar el nmero total de horas-hombre que se pierden por semana en las
tareas insignificantes y establecer un lmite para el error de estimacin al 95% (h_ = 2).
Sea X el total de horas-hombre que se pierden por semana. Tenemos:
X = Nx = 750(10,31) = 7732,5 horas
Un lmite para el error de estimacin ser el radio del intervalo de confianza al 95%:
n S
50 2,25
h_ m ( X ) = 2 N 2 (1 < )
= 2 700 2 1 <
= 307,4 horas
N n
750 50
2
3.14.
139
Una muestra irrestricta aleatoria de n = 100 estudiantes del ltimo ao de un colegio fue
seleccionada para estimar: (1) la fraccin de entre los N = 300 estudiantes del ltimo ao que
asistirn a una universidad, y (2) la fraccin de estudiantes que han tenido trabajos de tiempo
parcial durante su estancia en el colegio. Sean Yi y Xi (i = 1, 2, , 100) las respuestas del isimo estudiante seleccionado. Estableceremos que Yi = 0 si el i-simo estudiante no
planifica asistir a una institucin superior, e Yi = 1 si lo planifica. Asimismo, sea Xi = 0 si el
estudiante i-simo no ha tenido trabajo durante su estancia en el colegio y sea Xi = 1 si lo ha
tenido. Usando los datos de la muestra presentados en la tabla adjunta, estime P1, la
proporcin de estudiantes del ltimo ao que planea asistir a una universidad y P2, la
proporcin de estudiantes del ltimo ao que ha tenido un trabajo de tiempo parcial durante
sus cursos en el colegio (incluyendo los veranos).
Estudiante
1
2
3
4
5
6
7
.
.
96
97
98
99
100
100
Y
i =1
Y
1
0
0
1
0
0
0
.
.
0
1
0
0
1
X
0
1
1
1
0
0
1
.
.
1
0
1
1
1
= 15
100
i =1
= 65
Las estimaciones de las respectivas proporciones estarn dadas por las proporciones
muestrales:
1 100
15
1 100
65
P1 =
Yi =
= 0,15
P2 =
Xi =
= 0,65
100 i =1
100
100 i =1
100
Los lmites para los respectivos errores de estimacin al 95% estarn dados por los
radios de los dos intervalos de confianza, que se calculan como sigue:
h_ m ( P1 ) = 2 (1 <
n P1Q 1
100 0,15 u 0,85
)
= 2 1 <
= 0,059
N n <1
99
300
h_ m ( P2 ) = 2 (1 <
n P2 Q 2
100 0,65 u 0,35
)
= 2 1 <
= 0,078
N n <1
99
300
3.15.
X
i =1
= 454
50
X
i =1
2
i
= 4306
X
i =1
= 172
20
X
i =1
2
i
= 1536
1 Estimar el salario medio mensual por trabajador y el total mensual de pagos en salarios de
la multinacional para todos sus empleados y para los empleados del sector financiero, as
como sus errores absolutos y relativos de muestreo.
2 Responder a las preguntas del apartado anterior para muestreo aleatorio simple con
reposicin comentando resultados y comparndolos con los del apartado 1.
Consideramos como poblacin todos los empleados de la multinacional y como
subpoblacin todos los empleados del sector financiero de la multinacional.
Para estimar la media y el total de la poblacin con n = 50 y N = 750 se tiene:
50
x=
Xi
i =1
50
454
=
= 9,08 y X = Nx = 750
50
X
i =1
1 50 2 50
X i < X i
49 1
i =1
i =1
23 1
23
4306
454
50
)
V ( x ) = (1 <
750
50
50
m ( X ) 198,43
m ( x ) 0,27
=
= 0,029 (2,9%)
C v( x ) =
=
= 0,029 (2,9%) y C v( X ) =
6810
x
9,08
X
Evidentemente, los errores relativos de muestreo coinciden al estimar la media y el
total para la poblacin.
141
x1 =
X
i =1
n1
20
x
172
=
= 8,6 y X 1 = N u 1 = 750. i =1
20
n
50
= 750 u
172
= 2580
50
1 20 2 20
1
X i < X i n1
1536 < 172 2 20
n1 < 1 i =1
i =1
50
n
19
)
V ( x1 ) = (1 < )
= (1 <
= 0,14
750
20
n1
N
1 20 2 20
1
X i < X i n
1536 < 172 2 50
n < 1 i =1
i =1
n
50
2
2
49
V ( X 1 ) = N (1 < )
= 750 (1 <
)
n
50
N
750
= 202354,28
m CR ( x ) = VCR ( x ) =
m CR ( X ) = VCR ( X ) =
m CR ( x1 ) = VCR ( x1 ) =
m CR ( X 1 ) = VCR ( X 1 ) =
0,07
V ( x )
=
= 0,289
1 < f 1 < 50 / 750
V ( X )
39375
=
= 212,28
1 < f 1 < 50 / 750
0,14
V ( x1 )
=
= 0,4
1 < f 1 < 50 / 750
202354,28
V ( X 1 )
=
= 482,14
1< f
1 < 50 / 750
6810
m ( x ) 0,4
m ( X ) 482,1
C v( x1 ) = CR 1 =
= 0,046 ( 4,6%) y C v( X 1 ) = CR 1 =
= 0,186 (18,6%)
x1
8,6
2580
X 1
Los errores relativos de muestreo al estimar la media y el total tambin son mayores
en el caso de muestreo con reposicin, tanto para la poblacin como para la subpoblacin.
3.16.
La tabla adjunta muestra la distribucin de frecuencias del nmero de residentes en cada una
de las 197 ciudades de Estados Unidos que tenan ms de 50000 habitantes en 1940.
N de residentes en miles
Frecuencias
N de residentes en miles
Frecuencias
de habitantes (clases)
absolutas
de habitantes (clases)
absolutas
50 - 100
105
650 -700
2
100 - 150
36
700 - 750
0
150 - 200
13
750 - 800
1
200 - 250
6
800 - 850
1
250 - 300
7
850 - 900
2
300 - 350
8
900 - 950
0
350 - 400
4
950 - 1000
0
400 - 450
1
1000 - 1050
0
450 - 500
3
1500 - 1550
1
500 - 550
0
1600 - 1650
1
550 - 600
2
1900 - 1950
1
600 - 650
1
3350 - 3400
1
7450 - 7500
1
Calcular los errores absoluto y relativo de muestreo del nmero total de habitantes estimado en
las 197 ciudades utilizando los siguientes mtodos de muestreo:
1) Muestro irrestricto aleatorio con tamao de muestra n = 50.
2) Muestreo que consiste en seleccionar las cinco ciudades ms grandes y posteriormente una
muestra irrestricta aleatoria de tamao 45 para las 192 ciudades restantes.
143
1 197
1
197
2
2
S =
85363125 < (46275) 197 = 380067,33
ni X i < n i X i N =
N < 1 i =1
i =1
197 < 1
El error de muestreo para una muestra aleatoria simple sin reposicin de tamao 50 es:
m ( X ) = V ( X ) = N 2 (1 <
n S2
50 380067,33
)
= 197 2 (1 <
)
= 14836,79 miles de personas
N n
197
50
14836,79
Como X = ni X i = 46275 Cv( X ) =
* 100 = 32% (error relativo).
46275
i =1
197
1 192
1
192
2
2
9425000 < (30350 ) 192 = 24227,68
=
n i X i < n i X i N 1 =
N 1 < 1 i =1
i =1
192 < 1
m ( X ) = V ( X ) = N 2 (1 <
n1 S12
45 24227,268
)
= 192 2 (1 <
)
= 3898,09 miles de personas
N 1 n1
192
45
3898,09
Como X 1 = ni X i = 30350 Cv( X ) =
* 100 = 12,84% (error relativo).
30350
i =1
192
3.17.
Dos dentistas A y B hicieron una encuesta para investigar el estado de los dientes de 200 nios. El
doctor A seleccion una muestra irrestricta aleatoria de 20 nios y cont el nmero de dientes con
caries de cada nio, con los siguientes resultados:
0 1 2 3 4 5 6 7 8 9 10
8 4 2 2 1 1 0 0 0 1
El doctor B, utilizando las mismas tcnicas dentales, examin a los 200 nios y slo registr
aquellos que no tenan caries, encontrando que 60 nios no tenan dientes daados.
1) Estudiar qu doctor obtiene estimaciones ms precisas del nmero total de dientes con caries en
los nios cuantificando la ganancia en precisin.
2) Realizar las estimaciones anteriores mediante intervalos de confianza al 95%. Comentar los
resultados comparndolos con los del apartado anterior.
0 u 8 + 1 u 4 + L + 10 u 1
X = Nx = 200
= 200 u 2,1 = 420 dientes con caries.
20
El error de muestreo de esta estimacin es:
m ( X ) = V ( X ) = N 2 (1 <
S 2 =
n S 2
20 8,62
)
= 200 2 (1 <
)
= 123,04
N n
200 20
2
1
1 10
10
2
2
252 < (42 ) 20 = 8,62
n i X i < ni X i n =
20 < 1 i = 0
19
i =1
1 2 3 4 5 6 7 8 9 10
N de nios
4 2 2 1 1 0 0 0 1
m ( X 1 ) = V ( X 1 ) = N 12 (1 <
S12 =
n1 S1
12 9,545
)
= 140 2 (1 <
)
= 419,370
140 12
N 1 n1
2
2
1
1 10
10
2
2
252 < (42) 12 = 9,545
ni X i < ni X i n1 =
12 < 1 i =1
i =1
11
145
EJERCICIOS PROPUESTOS
3.1.
Consideramos una poblacin finita de seis elementos sobre los que medimos una variable X,
obteniendo como resultados Xi = {8, 3, 1, 11, 4, 7}, i = 1, ..., 6. Mediante muestreo irrestricto
aleatorio se extraen muestras de tamao 2. Se pide:
1) Cuntos elementos tiene el espacio muestral? Especificar dicho espacio muestral y las
probabilidades asociadas a las muestras. Hallar las distribuciones en el muestreo de los
estimadores de la media y del total de X, as como de los estimadores de sus varianzas.
S2
Comprobar la insesgadez de los estimadores y que se cumple V ( x ) = (1 < f ) ,
n
2
S
V ( X ) = N 2 (1 < f )
y E ( S 2 ) = S 2 , as como que el estimador T = Total muestral no es
n
insesgado del total poblacional X.
2) Hallar el tamao de muestra necesario para que el error de muestreo sea 2 al estimar la
media de la poblacin. Y al estimar el total poblacional? Hallar tambin el tamao de
muestra necesario para que el error relativo de muestreo sea 0.48 en las mismas
estimaciones. Calcular todos los tamaos de muestra anteriores en presencia de un
coeficiente de confianza adicional del 95%. Comentar los resultados.
3) Contestar a todas las preguntas del apartado anterior para muestreo con reposicin.
Comparar los resultados con los de muestreo sin reposicin. Comentar los resultados.
4) A partir de qu tamao poblacional N el aumento del tamao muestral n no interviene en
el error absoluto de muestreo para la estimacin de la media? Cunto valdr N con un
coeficiente de confianza del 95%? Hallar intervalos de confianza al 95% para la media y el
total basados en las muestras de elementos pares. Si al medir una variable X sobre los
elementos de la poblacin se obtienen los valores {1, 3, 4}, cul de todos los mtodos de
muestreo es ms preciso al estimar el total poblacional mediante un estimador lineal
insesgado apropiado?
3.2.
3.3.
3.4.
3.5.
Una muestra irrestricta aleatoria de n = 100 medidores de agua es controlada dentro de una
comunidad para estimar el promedio de consumo de agua diario por casa durante un periodo
estacional seco. La media y la varianza muestrales fueron y = 12,5 y s 2 = 1252 . Si
suponemos que hay N = 10000 casas dentro de la comunidad, estimar , el promedio de
consumo diario verdadero, y establezca un lmite para el error de estimacin.
CAPTULO
MUESTREO ESTRATIFICADO
SIN Y CON REPOSICIN
OBJETIVOS
1. Presentar el concepto de muestreo estratificado.
2. Comprender las especificaciones del muestreo estratificado.
3. Analizar los estimadores y sus errores en muestreo aleatorio estratificado
sin reposicin.
4. Estimar los errores en muestreo aleatorio estratificado sin reposicin.
5. Analizar los estimadores y sus errores en muestreo estratificado con
reposicin.
6. Estimar los errores en muestreo aleatorio estratificado sin reposicin.
7. Comprender el concepto de afijacin de la muestra.
8. Estudiar los distintos tipos de afijacin.
9. Especificar los errores de los estimadores en funcin de los distintos tipos
de afijacin.
10. Analizar el tamao de la muestra en general.
11. Estudiar el tamao de la muestra en funcin de los distintos tipos de
afijacin.
12. Comparar la eficiencia de los distintos tipos de afijacin.
13. Presentar el concepto de postestratificacin.
14. Analizar estimadores y errores en postestratifiaccin.
NDICE
1. Concepto de muestreo estratificado.
2. Muestreo estratificado sin reposicin. Estimadores y errores.
3. Muestreo estratificado con reposicin. Estimadores y errores.
4. Afijacin de la muestra. Tipos de afijacin y errores de los estimadores para
muestreo sin reposicin.
5. Afijacin de la muestra. Tipos de afijacin y errores de los estimadores para
muestreo con reposicin.
6. Tamao de la muestra para muestreo sin reposicin.
7. Tamao de la muestra para muestreo con reposicin.
8. Comparacin de eficiencias en muestreo estratificado.
9. Postestratificacin.
10. Problemas resueltos
11. Ejercicios propuestos
149
Nh
nh
N1
n1
N4
n4
N2
n2
N3
n3
POBLACIN
A continuacin se expresa de modo esquemtico la formacin de estratos en la
poblacin y la formacin de la muestra estratificada de la forma siguiente:
POBLACIN
u11 u12 Lu 1 N1
u 21 u 22 Lu 2 N 2 L
Se divide en L estratos
{u1 u 2 Lu N }
A
Nh = N
LLLLLL h =1
u u Lu
LN L
L1 L 2
MUESTRA
u11 u12 Lu 1n
u 21 u 22 Lu 2 n L
Se extrae en cada estrato
{u1 u 2 Lu n } A
nh = n
LLLLLL h =1
u u Lu
Ln
L1 L 2
1
Nh
hi
El parmetro e puede ser estimado mediante la suma extendida a todos los estratos de los
estimadores lineales insesgados de Horvitz y Thompson en cada estrato, es decir, mediante:
e =
nh
Y hi
hi
nh
e = X Yhi = X hi X st =
h=1 i =1
X hi
/ hi
151
L
L
L
X hi
1 nh
= N h X hi = N h xh = X h
n =1
h=1 i =1 nh N h
h=1
h=1
1h4i2
4
3 h=1
L
nh
X h = xh
e = X Yhi =
L
L
L
L
X hi
N 1 nh
1 nh X
1 nh X
X st = xst = hi = hi = h X hi = Wh xh
N
N nh i=1
h=1 N i =1 / hi
h=1 N i =1 nh N h
h=1 {
h=1
Wh
nh
e = A Yhi = Ahi A st =
h=1 i =1
Ahi
/ hi
nh
=
h =1 i =1
L
L
L
Ahi
1 nh
= N h Ahi = N h Ph = A h
nh N h h=1 nh i =1
h =1
1424
3 h=1
Ph
e = P Yhi =
L
L
L
L
Ahi
N 1 nh
1 nh A
1 nh Ahi
Pst = hi =
= h
A
=
Wh Ph
hi
/
N
N
N
n
N
N
n
h =1
i =1
h =1
i =1 h
h =1 { h i =1
hi
h
1424
3 h=1
W
h
Ph
( )
L
S2
S2
L
L
V X st = N h2 (1 < f h ) h , V (x st ) = V W h x h = W h2 (1 < f h ) h
nh
nh
h =1
h =1
h =1
L
L
N h Ph Q h
N h Ph Q h
V A st = N h2 (1 < f h )
, V Pst = Wh2 (1 < f h )
N h < 1 nh
N h < 1 nh
h =1
h =1
( )
( )
L
L
S h2
S h2
2
2
V X st = N h (1 < f h )
, V (X st ) = W h (1 < f h )
nh
nh
h =1
h =1
L
L
P Q
P Q
V A st = N h2 (1 < f h ) h h , V Pst = W h2 (1 < f h ) h h
nh < 1
nh < 1
h =1
h =1
( )
( )
( )
( )
L
L
L
L
m2
m2
PQ
PQ
V X st = N h2 h , V ( x st ) = Wh2 h , V A st = N h2 h h , V Pst = Wh2 h h
nh
nh
nh
nh
h =1
h =1
h =1
h =1
( )
( )
, V (X st ) = Wh
V X st = N h
, V A st = N h2 h h , V Pst = Wh2 h h
nh
nh
nh < 1
nh < 1
h =1
h =1
h =1
h =1
( )
( )
( )
Afijacin uniforme
Consiste en asignar el mismo nmero de unidades muestrales a cada estrato, con lo que se
tomarn todos los nh iguales a n/L, aumentando o disminuyendo este tamao en una unidad
si n no fuese mltiplo de L, esto es, nh = E(n/L) + 1, donde E denota la parte entera.
L
h =1
h =1
n h = k h = 1LL n h = k n = Lk f h =
nh
k
=
Nh Nh
Para este tipo de afijacin, las varianzas de los estimadores y sus estimaciones se
hallan sustituyendo en las frmulas generales fh por k/Nh. Este tipo de afijacin da la misma
importancia a todos los estratos, en cuanto a tamao de la muestra, con lo cual favorecer a los
estratos de menor tamao y perjudicar a los grandes en cuanto a precisin. Slo es conveniente
en poblaciones con estratos de tamao similar.
Afijacin proporcional
Consiste en asignar a cada estrato un nmero de unidades muestrales proporcional a su tamao.
Las n unidades de la muestra se distribuyen proporcionalmente a los tamaos de los estratos
expresados en nmero de unidades. Tenemos:
L
L
L
n
n h = N h k n h = N h k = k N h n = kN k = = f
N
h =1
h =1
1
23 h =1
1
23
n
fh =
nh
N k
= h =k = f
N
Nh
{h
Wh =
N h nh k nh
=
=
N
nk
n
/ hi
153
(1 < k ) L N u S 2 , V (x ) = (1 < k ) L W u S 2
V X st =
h h
h h
st
k h=1
n h=1
(
(
1 < k ) L Nh2
1 < k ) L Nh2 N
V Ast =
u PhQh , V Pst =
u PhQh
k h=1 Nh <1
k h=1 Nh <1
( )
( )
( )
L
L
n
1
X st = N h x h = h x h =
K
h =1
h =1 k
nh x h =
{
h =1
x
h =1
x h nh
Total muestral
x
=
f Fraccion demuestreo
n
1
X st = x st = Wh x h = h x h = nh x h =
n h =1 x{n
h =1
h =1 n
L
x
h =1
Total muestral
Tamao de muestra
Las fracciones de muestreo en los estratos son iguales y coinciden con la fraccin global
de muestreo, siendo su valor la constante de proporcionalidad.
El estimador insesgado para el total poblacional puede expresarse como el cociente entre
el total muestral y la fraccin de muestreo, o lo que es lo mismo, como el producto del
total muestral por la inversa de la fraccin de muestreo. Similar propiedad tiene el
estimador insesgado para el total de clase (producto del total de clase muestral por la
inversa de la fraccin de muestreo).
El estimador insesgado para la media poblacional puede expresarse como el cociente entre
el total muestral y el tamao de la muestra. Similar propiedad tiene el estimador insesgado
para la proporcin poblacional (cociente entre el total de clase muestral y el tamao de la
muestra).
Como / hi =
nh
= k = f, todas las unidades de la poblacin tienen la misma probabilidad
Nh
Nh
Sh
W S
La expresin para nh es n h = n u L
=nu L N
=nu L h h .
Nh
NhSh
Sh
Wh S h
h =1
h =1 N
h =1
NhSh
S h = S nh = n u
NhS
L
N
h =1
=
S
nN h
n
= kN h con k =
N
N
1 L
1
V ( x st ) = Wh S h <
n h =1
N
( )
Wh S , V X st
2
h
h =1
1 L
1
= Nh Sh <
n h =1
N
N
h =1
S h2
Afijacin ptima
La afijacin ptima consiste en determinar los valores de nh (nmero de unidades que se
extraen del estrato h-simo para la muestra) de forma que para un coste fijo C la varianza de
los estimadores sea mnima. El coste fijo C ser la suma de los costes derivados de la
seleccin de las unidades muestrales de los estratos; es decir, si ch es el coste por unidad de
muestreo en el estrato h, el coste total de seleccin de las nh unidades muestrales en ese
estrato ser chnh. Sumando los costes chnh para los L estratos tenemos el coste total de
seleccin de la muestra estratificada.
Podemos escribir que n h = n u
Nh Sh
L
N
h =1
Sh
ch
ch
= nu
Wh S h
L
W
h =1
Sh
ch
ch
c h y en el
1 L
Wh S h
n h =1
L
1
c h Wh S h c h <
h =1
N
W S
1 L
V X st = N h S h
n h =1
L
1
c h N h S h c h <
h =1
N
V ( x st ) =
( )
h =1
h =1
155
2
h
S h2
( )
( )
( )
m
m
PQ
PQ
V X st = Nh2 h , V (xst ) = Wh2 h , V Ast = Nh2 h h , V Pst = Wh2 h h
k
k
k
k
h=1
h=1
h=1
h=1
2
Afijacin proporcional
Para este tipo de afijacin las varianzas de los estimadores sern:
( )
( )
( )
PQ
1 L
1 L
1 L
1 L
V X st = N h m h2 , V A st = N h Ph Qh , V (xst ) = Whm h2 , V Pst = Wh h h
k h=1
k h=1
n h=1
n h=1
k
Afijacin de mnima varianza (o afijacin de Neyman)
Tenemos:
nh = n u
Whm h
= nu
W m
h =1
N hm h
N m
h =1
V ( x st ) =
1 L
1 L
,
(
)
W
m
V
x
=
h h
N hm h
st
n h =1
n h =1
Afijacin ptima
Tenemos:
Wh m h
nh = n u
N hm h
ch
L
=nu
Wh m h
ch
h =1
ch
L
N hm h
h =1
V ( x st ) =
1 L
Wh m h
n h =1
c h Wh m h c h ,
h =1
ch
( )
1 L
V X st = N h m h
n h =1
c h N h m h c h
h =1
Absoluto
Absoluto
proporcional
varianza mnima
e2 +
1
N
W S
N h Sh
h =1
N h Sh2
h =1
L
Total
N S
e2 +
2
h h
e2 +
h =1
Wh
Proporcin
h =1
1
e +
N
2
Nh
PhQh
Nh < 1
Nh
Wh
PhQh
Nh < 1
h =1
Total de clase
Nh
N Nh
PhQh
N
h <1
h =1
e2 +
N
h =1
Nh
PhQh
Nh < 1
varianza mnima
2
h h
2
Nh
Wh
PhQh
h =1
<
1
N
h
L
Nh
1
2
e +
Wh
PhQh
N h =1
Nh < 1
L
Nh
Nh
PhQh
h =1
<
1
N
h
L
Nh
PhQh
e2 +
Nh
Nh < 1
h =1
h_2
h =1
2
h h
h =1
Nh
PhQh
Nh < 1
Nh
PhQh
N Nh
N
h <1
h =1
h_2
N S
Nh
PhQh
Nh < 1
N
h =1
Nh
PhQh
Nh < 1
N h Sh
h =1
L
2
e
+
N h Sh2
2
L
N h Sh2
1
N
2
h h
h =1
h_
h =1
Wh
h =1
h_2
W S
N
2
1
N
h_2
N S
h =1
Wh Sh2
h =1
Wh Sh
h =1
L
2
e
1
+
Wh Sh2
h_2 N h =1
2
h h
h =1
proporcional
Wh Sh
h =1
L
1
2
e +
Wh Sh2
N h =1
Wh Sh2
h =1
Absoluto y coeficiente
de confianza adicional
Media
Absoluto y coeficiente
de confianza adicional
h =1
Nh
Wh
PhQh
h =1
<
1
N
h
L
2
Nh
1
e
+
Wh
PhQh
h_2 N h =1 N h < 1
L
Nh
Nh
PhQh
h =1
<
1
N
h
L
2
Nh
e
+
P
Q
N
h
h h
Nh < 1
h_2 h =1
Absoluto
proporcional
varianza mnima
W m
h =1
Media
h =1
Total
Whm h
h =1
e2
2
h
e2
L
N hm h
h =1
e2
N hm h2
h =1
Proporcin
N PQ
h =1
h h
W m
h =1
2
e2
varianza mnima
L
Whm h
h =1
e 2 / h_2
2
h
e / h_2
h =1
2
N h Ph Qh
h =1
e2
proporcional
L
L
Wh Ph Qh
h =1
e2
L
Absoluto y coeficiente
Wh Ph Qh
e
Total de clase
Absoluto y coeficiente
Absoluto
157
L
N hm h
h =1
e 2 / h_2
N hm h2
2
e / h_
L
h =1
h =1
2
L
Wh Ph Qh
h =1
e 2 / h_2
L
N h Ph Qh
h =1
e 2 / h_2
N PQ
h h
Wh Ph Qh
e 2 / h_2
e / h_2
W h S h2 + W h (X h < X )
L
h =1
h =1
2
S2
1 L
1 L
= W h S h2 + W h (X h < X )
n
n h =1
n h =1
2
S 2 1< f L
1< f L
2
W
S
(1 < f )
=
+
W h (X h < X ) V MAS ( x )
*
V MEP ( x )
h h
?
n
h =1
h =1
14243
La igualdad se da
1n442
44
3 1n4 4
4 24 4 4 3
si X = X h =1,L, L
V MAS ( x )
*0
V MEP ( x )
h
Hemos visto que el muestreo estratificado con afijacin proporcional es ms preciso que el
muestreo aleatorio simple, producindose la igualdad de precisiones cuando las medias de los
estratos son todas iguales. Por tanto, la ganancia en precisin del muestreo estratificado respecto del
aleatorio simple ser mayor cuanto ms distintas entre s sean las medias de los estratos; es decir,
para que el muestreo estratificado sea preciso es conveniente que los estratos sean heterogneos
entre s en media, afirmacin que ya conocamos desde el comienzo del tema y que constituye una
de las especificaciones clsicas en el muestreo estratificado.
2
1 L
1< f L
1
n3 h =1
N
12
n h =1
1 1
<
n N
1 L
L
2
W
S
<
Wh S h
h h
n h =1
h =1
1 L
= Wh S h < S
n h =1
?
La igualdad se da
si S h = S h =1,L, L
W S
h
h =1
2
h
0 con S = Wh S h
h =1
S 2 1< f L
1< f
W h S h2 +
=
(1 < f )
n
n
h =1
142 43
1n442
44
3
V MAS ( x )
V MEP ( x )
V MEMV ( x ) +
1
n
Wh Sh < S
h =1
W (X
h
h =1
1< f
n
<X
W (X
h =1
<X
m 2 = Whm h2 + Wh (X h < X )
L
h =1
h =1
VMAS ( x )
?
La igualdad se da
si X h = X h =1,L, L
m2
2
1 L
1 L
Whm h2 + Wh (X h < X )
n
n4
n h4
h =1
=1
{
1
243 1
4
42444
3
VMAS ( x )
*0
VMEP ( x )
VMEP ( x )
1 L
2
Wh (m h < m )
n h =1
159
2
2
1 L
1 L
1 L
L
2
2
W
W
W
W
m
<
m
=
m
<
m
h h n
h h
h h
h h
n h =1
n h =1
h =1
h =1
?
La igualdad se da
si S h = S h =1,L, L
m2
n
{
V MAS ( x )
1 L
1 L
2
2
m
+
Wh (X h < X ) =
W
h h
n4
h =1
1
243 n h =1
VMEP ( x )
VMEMV ( x ) +
1 L
Wh m h < m
n h =1
) + 1n W (X
2
h =1
<X)
POSTESTRATIFICACIN
Cuando se manejan determinadas variables de estratificacin puede ocurrir que no se
conozca el estrato a que pertenece una unidad sino hasta despus de recoger los datos.
Ejemplos tpicos son las caractersticas personales como la edad, el sexo, la estatura,
etc., y el nivel de educacin.
Los tamaos de los estratos Nh se pueden obtener de manera bastante exacta a partir
de las estadsticas oficiales, pero las unidades se pueden clasificar en estratos solamente
despus de conocer los datos de la muestra. Por lo tanto, puede suponerse que los Wh y los
Nh son conocidos.
Este mtodo se utiliza cuando se desconocen a priori las unidades que pertenecen a
cada estrato. Obtenida la muestra, las unidades se asignan al estrato correspondiente. Si los
pesos de stos son conocidos, se puede utilizar el estimador insesgado.
L
x ' = Wh x h
h =1
cuya precisin es similar a la obtenida con la afijacin proporcional, siempre que todos los
nh sean grandes; por ejemplo, superiores a 20 unidades. Si de los Wh se conocen slo las
aproximaciones Wh, el estimador:
L
h =1
h =1
h =1
S2
E.M .C.( x ' ' ] = W ' u h u (1 < f h ) + (W ' h <Wh )X h
nh
h =1
2
h
n2
n h =1
h =1
V (x' ' ) =
N <n L
N <n L 2
V ( x ' ' ) = 2 N ' h uS ' h2 +
S ' h (1 < f ' h )
N n h =1
N n 2 h =1
N ( N < n) L 2
N <n L
S ' h (1 < f ' h )
V ( X ' ' ) =
N ' h uS ' h2 +
n2
n h =1
h =1
n' h
P' h (1 < P ' h ) y S ' 2h por
n' h <1
N 'h
P ' h (1 < P' h ) . El apstrofe indica siempre valor de postestratificacin.
N ' h <1
161
PROBLEMAS RESUELTOS
4.1.
Figura 13-1
Figura 13-2
Para hallar la estimacin del tiempo promedio que se ve la televisin en todo el
municipio en horas por semana y su error para muestreo sin reposicin, se tendrn en cuenta
las siguientes expresiones:
L
N 1
X st = x st = h
N nh
h =1 {
nh
i =1
h =1
X hi = Wh xh
Wh
L
S 2
V ( X st ) = Wh2 u (1 < f h ) u h
nh
h =1
La Figura 13-3 presenta las frmulas para el clculo del estimador de la media
estratificada para todo el municipio, su error de muestreo y el radio del intervalo de
confianza al 95%. La Figura 13-4 presenta los resultados.
Figura 13-3
Figura 13-4
La estimacin del tiempo promedio que se ve la televisin en todo el municipio en
horas por semana en muestreo con reposicin es la misma que sin reposicin y su error de
muestreo se calcula mediante la siguiente expresin:
L
2
2 Sh
(
)
V X st = Wh u
nh
h =1
La Figura 13-5 presenta las frmulas y la Figura 13-6 presenta los resultados.
Figura 13-5
4.2.
163
Figura 13-6
Consideramos los salarios anuales (variable X) en miles de euros de 500 trabajadores de una
empresa se obtiene la siguiente distribucin de frecuencias:
Xi
2
3
ni
100
80
5
10
200
30
20
30
50
100
200
30
20
10
II
III
Sh
S h2
mh
m h2
Nh
1,32
1,75
1,32
1,74
380
17,1
292,13 16,99 288,88 90
47,95 2298,85 47,14 2222,22 30
N 1 S1
15
n1 = 100 u
N 1 S1 + N 2 S 2 + N 3 S 3
N S
N2S2
44
n h = n u L h h n 2 = 100 u
N 1 S1 + N 2 S 2 + N 3 S 3
Nh Sh
h =1
N3 S3
41
n 3 = 100 u
N 1 S1 + N 2 S 2 + N 3 S 3
Ante esta circunstancia seleccionamos para la muestra las 30 unidades del tercer
estrato; es decir, todas las unidades del tercer estrato van a ser autorrepresentadas. Pero
ahora las 70 unidades restantes de la muestra han de repartirse mediante afijacin de mnima
varianza entre los dos primeros estratos. Tendremos:
N 1 S1
n1 = 70 u N S + N S 17
N S
1 1
2 2
nh = n u L h h
N2S2
n = 70 u
Nh Sh
53
h =1
N 1 S1 + N 2 S 2
Por tanto, la nueva afijacin es n1 = 17, n2 = 53 y n3 = 30. Para hallar la varianza del
estimador de la media para esta afijacin sin reposicin hemos de tener en cuenta que los
estratos con sus unidades autorrepresentadas no intervienen en el clculo de las varianzas.
Como el tercer estrato no interviene en el valor de la varianza, calculamos
N 380
N
90
W '1 = 1 =
= 0,8085 y W '2 = 2 =
= 0,1915 . La varianza ser:
N'
N'
470
470
1 2
1 2
N 1m 1
15
n1 = 100 u
N 1m 1 + N 2m 2 + N 3m 3
N m
N 2m 2
44
n h = n u L h h n 2 = 100 u
N 1m 1 + N 2m 2 + N 3m 3
N hm h
h =1
N 3m 3
41
n 3 = 100 u
N 1m 1 + N 2m 2 + N 3m 3
Se observa que la afijacin coincide exactamente con la obtenida para muestreo sin
reposicin. Ahora el nmero de unidades a seleccionar para la muestra en el tercer estrato
vuelve a ser superior al nmero de unidades de dicho estrato, pero como el muestreo es con
reposicin, es posible seguir haciendo extracciones porque las unidades se reponen a la
poblacin cuando se extrae y nunca se acabarn. El valor de la varianza mnima ser ahora:
2
1 3
1 380
90
30
V X = Whm h =
(
u 1,32 +
u 16,99 +
47,14) 2 = 0,47469344
n h =1
100
500
500
500
165
N 1m 1
n1 = 70 u N m + N m 17
N m
1 1
2 2
nh = n u L h h
N 2m 2
n = 70 u
N hm h
53
h =1
N 1m 1 + N 2 m 2
Por tanto, la nueva afijacin es n1 = 17, n2 = 53 y n3=30. Para hallar la varianza del
estimador de la media para esta afijacin con reposicin hemos de tener en cuenta que los
estratos con sus unidades autorrepresentadas no intervienen en el clculo de las varianzas.
Como el tercer estrato no interviene en el valor de la varianza calculamos W '1 = N 1 = 380 = 0,8085
N'
N
90
W '2 = 2 =
= 0,1915 .
N ' 470
470
La varianza ser:
2
1 2
1
V X = W ' h m h =
(0,8085 u 1,32 + 0,1915 u 16,99) 2 = 0,266705.
n' h =1
70
Las afijaciones coinciden para muestreo con y sin reposicin, pero el muestreo sin
reposicin resulta ms preciso, ya que tiene menor varianza (tanto si se exigen unidades
distintas, como en caso contrario).
Se observa que, aunque haya estratos con todas sus unidades autorrepresentadas, el
muestreo sin reposicin sigue siendo ms preciso que el muestreo con reposicin.
4.3.
Las mil unidades de una poblacin se clasifican en tres estratos para los que se conocen los
datos de la tabla adjunta:
Estratos
?
I
II
III
mi
Wi
0,6
12 0,3
80 0,1
Se pide:
1) Determinar el tamao de muestra que con afijacin proporcional proporciona una
varianza del estimador de la media igual a 5, considerando muestreo con y sin
reposicin. Realizar las respectivas afijaciones proporcionales. Qu resultados se
obtendran con afijacin de mnima varianza? Realizar las respectivas afijaciones de
mnima varianza. Comentar todos los resultados y compararlos.
2) Determinar el tamao de muestra para afijacin ptima con costes C1=1000, C2=1200 y
C3=2000, considerando el muestreo con y sin reposicin. Realizar las respectivas
afijaciones ptimas. Comprobar que los resultados coinciden para costes unitarios con
los de afijacin de mnima varianza.
Como es habitual en los problemas de muestreo estratificado, comenzamos
recopilando los datos necesarios para el problema.
m12=16=(N1-1)S12/N1S12=6,02S1=4,003
m22=144=(N2-1)S22/N2S22=144,5S2=12,02
m32=6400=(N3-1)S32/N3S32=6464,6S3=80,4
W1=0,6=N1/NN1=600
W2=0,3=N2/NN2=300
W3=0,1=N3/NN3=100
Tenemos entonces:
Estratos
Sh
S h2
mh
m h2
Nh
II
4,003
12,02
6,02
144,5
4
12
16
144
600 0,6
300 0,3
III
80,4
6464,6 80
?
I
Wh
6400 100
0,1
W S
1 1
h =1
e 2 = V X = < Wh S h2 n =
1
n N h =1
2
e +
N
L
2
h
W S
h =1
122
2
h
n h = kN h con k = =
= 0,122 n 2 = kN 2 = 0,122 u 300 37
N 1000
n = kN = 0,122 u100 12
3
3
Afijacin proporcional con reposicin
L
1 L
e = V X = Wh m h2 n =
n h =1
2
W m
h =1
e2
2
h
139
Se observa que el tamao muestral necesario para cometer el mismo error que sin
reposicin es ahora superior. Ello es debido a que el muestreo con reposicin es menos
preciso que el muestreo sin reposicin. Una vez hallado el tamao de muestra realizamos la
afijacin proporcional como sigue:
n1 = kN 1 = 0,139 u 600 83
n
139
nh = kN h con k = =
= 0,139 n 2 = kN 2 = 0,139 u 300 42
N 1000
n = kN = 0,139 u100 14
3
3
Wh S h
2
L
L
1
1
h =1
e 2 = V X = Wh S h < Wh S h2 n =
= 35
L
1
n h =1
N h =1
2
2
e + Wh S h
N h =1
167
N 1 S1
6
n1 = 35 u
N 1 S1 + N 2 S 2 + N 3 S 3
N S
N2S2
9
n h = n u L h h n 2 = 35 u
N 1 S1 + N 2 S 2 + N 3 S 3
Nh Sh
h =1
N3S3
20
n 3 = 35 u
N 1 S1 + N 2 S 2 + N 3 S 3
Whm h
2
L
1
h =1
e 2 = V X = Wh m h n =
40
2
n h =1
e
Se observa que el tamao muestral necesario para cometer el mismo error que sin
reposicin es ahora superior. Una vez hallado el tamao de muestra realizamos la afijacin
de mnima varianza como sigue:
N 1m 1
7
n1 = 35 u
m
m
m
+
+
N
N
N
1
1
2
2
3
3
N hm h
N 2m 2
10
n 2 = 35 u
nh = n u L
N 1m 1 + N 2m 2 + N 3m 3
m
N
h
h
h =1
N 3m 3
23
n 3 = 35 u
N 1m 1 + N 2m 2 + N 3m 3
1 L
V (xst ) = e 2 = Wh Sh
n h=1
L
1 L
ch Wh Sh ch < Wh Sh2 n =
h=1
N h=1
L
Wh Sh
h=1
ch Wh Sh ch
h=1
35
L
1
2
2
e + Wh Sh
N h=1
Una vez hallado el tamao de muestra, realizamos la afijacin ptima como sigue:
N 1 S 1 / C1
n1 = 35 u
7
N 1 S 1 / C1 + N 2 S 2 / C 2 + N 3 S 3 / C 3
N h S h / Ch
N2S2
nh = n u L
n 2 = 35 u
10
N
S
C
N
S
C
N
S
C
/
/
/
+
+
1
1
1
2
2
2
3
3
3
N h S h / Ch
h =1
N3S3
n 3 = 35 u
18
N 1 S 1 / C1 + N 2 S 2 / C 2 + N 3 S 3 / C 3
1 L
Wh m h
n h =1
L
c h Wh m h c h n =
h =1
L
Wh m h
h =1
c h Wh m h c h
h =1
= 40
2
e
Se observa que el tamao muestral necesario para cometer el mismo error que sin
reposicin es ahora superior. Una vez hallado el tamao de muestra realizamos la afijacin
ptima como sigue:
N 1m 1 / C1
n1 = 40 u
8
N 1m 1 / C1 + N 2m 2 / C 2 + N 3m 3 / C 3
N hm h / C h
N 2m 2
nh = n u L
n 2 = 40 u
12
N
C
N
C
N
C
m
m
m
+
+
/
/
/
1 1
1
2 2
2
3 3
3
N hm h / C h
h =1
N
m
3 3
n 3 = 40 u
20
/
/
/
+
+
N
m
C
N
m
C
N
m
C
1 1
1
2 2
2
3 3
3
Si utilizamos costes unitarios los clculos son exactamente los mismos que para la afijacin
de mnima varianza, luego los resultados tambin lo son. Se observa que tanto en muestreo con
reposicin como sin reposicin la afijacin que menos tamao muestral necesita para cometer un
determinado error de muestreo es la afijacin de mnima varianza, y en este caso tambin la ptima.
4.4.
n2 = 8
N de hogares donde
se ve el pro gra ma
16
2
0,80
0,25
n 3 = 12
0,50
Estratos
Tamaos muestrales
1
2
n 1 = 20
Ph
20
N 1 = k = 0,129 155
n
n
8
40
nh = kN h con k = =
= 0,129 N 2 = 2 =
62
k
N 310
0,129
n3
12
=
93
N1 =
k 0,129
169
3
3
N
155
62
93
Pst = W h Ph = h Ph =
0,80 +
0,25 +
0,50 = 0,60 (60%)
310
310
310
h =1
h =1 N
V ( Pst )
0,0045
El error relativo sera C v( Pst ) =
u100 =
u100 = 11,18% .
0,60
Pst
4.5.
Una empresa publicitaria est interesada en determinar lo que debe enfatizar la publicidad
televisiva en un determinado municipio, y decide realizar una encuesta por muestreo para
estimar el nmero promedio de horas por semana que se ve la televisin en los hogares del
municipio. ste comprende dos pueblos, pueblo A y pueblo B, y un rea rural. El pueblo A
circunda una fbrica, y la mayora de los hogares son de trabajadores fabriles con nios en
edad escolar. El pueblo B es un suburbio exclusivo de una ciudad vecina y consta de
habitantes ms viejos con pocos nios en casa. Existen 155 hogares en el pueblo A, 62 en el
pueblo B y 93 en el rea rural. Se pide:
1. Analizar los mritos de usar muestreo aleatorio estratificado en esa situacin.
2. Supngase que se lleva a cabo la encuesta planificada. La empresa publicitaria tiene
tiempo y dinero suficientes para entrevistar n = 40 hogares, y decide seleccionar muestras
aleatorias de tamao n1 = 20 del pueblo A, n2 = 8 del pueblo B, y n3 = 12 del rea rural. Se
seleccionan las muestras irrestrictas aleatorias y se realizan las entrevistas. Los resultados,
con mediciones del tiempo que se ve la televisin en horas por semana, son los siguientes:
Estrato 1(pueblo A)
Estrato 2 (pueblo B)
Estrato 3 (pueblo C)
35 43 36 39 28
27 15 4 41 49
8 14 12 15 30
28
25
32
29
10
21
25
30
20
38 27
26 32
34
11 24
29 40 35 41 37 31
45
Estimar el tiempo promedio que se ve televisin, en horas por semana, para (a) todos los
hogares del municipio y (b) todos los hogares en el pueblo B. En ambos casos fijar un lmite
para el error de estimacin.
3. Estimar el nmero total de horas por semana que las familias del municipio dedican a ver
la televisin fijando un lmite para el error de estimacin.
Comenzamos recopilando la informacin necesaria para el problema en la tabla siguiente:
Estratos
?
1
2
3
nh
S h2
Sh
xh
Nh
20 35,358 5,946
33,9 155
8 232,411 15,245 25,125 62
12 87,636 9,361
19
93
x st = Wh x h =
h =1
155
62
93
33,9 +
25,125 +
19 = 27,7
310
310
310
1<
nh 310 155 20 310 62 8
h=1
310 93 12
S 2 8 232,4
V (x2 ) = (1< f 2 ) 2 = 1<
= 25,5
n2 62 8
x 2 h_ V (x 2 ) = 25,12510,1
171
El nmero total de horas estimado que las familias del municipio dedican a ver la
televisin ser:
X st = Nx st = 300(27,7) = 8587 horas
( )
( )
Por lo tanto, estimamos que el nmero total de horas que se ve la televisin en los
hogares del municipio es de 8587 horas, con un error de muestreo de 189278,56 = 435
horas y un lmite para el error de estimacin de 870 horas.
Cuando se estiman totales es conveniente relativizar los errores, para que sean ms
comprensibles. En nuestro caso, el error relativo ser:
( )
V X st
189278,56
100 =
100 = 5%
C v X st =
8587
X st
( )
4.6.
La empresa publicitaria del ejercicio anterior comprob que cuesta ms obtener una
observacin del rea rural que una del pueblo A o del B. El incremento es debido a los
costos de traslado de un hogar rural a otro. El costo por observacin en cada pueblo se ha
estimado en 9 euros (esto es, c1 = c2 = 9), y los costos por observacin en el rea rural se han
estimado en 16 euros (esto es, c3 = 16). Las desviaciones estndar por estrato (aproximadas
por las varianzas muestrales de una encuesta previa) son m 1 5 5 , m 2 5 15 y m 3 5 10 . Halle
el tamao de muestra total n y los tamaos de muestra para los estratos n1, n2 y n3, que
permiten a la empresa estimar, al mnimo costo, el tiempo promedio que se ve televisin,
con un lmite para el error de estimacin igual a 2 horas.
Supongamos que la firma publicitaria decide utilizar entrevistas por telfono en lugar de
entrevistas personales, porque todos los hogares en el municipio tienen telfono y este
mtodo reduce los costos. El costo de obtener una observacin es entonces el mismo en los
tres estratos y la empresa desea estimar en este caso la media poblacional con un lmite
para el error de estimacin igual a 2 horas. Encuentre el tamao aproximado de la muestra n
y los tamaos de muestra para los estratos n1, n2 y n3.
Supongamos ahora que la empresa publicitaria considera que las varianzas aproximadas que se
usaron en los ejemplos previos son errneas y que las varianzas de los estratos son iguales. El
valor comn de i fue aproximado por 10 en un estudio preliminar. Se van a efectuar entrevistas
por telfono, por lo que los costos sern iguales en todos los estratos. La empresa desea estimar el
nmero promedio de horas por semana que se ve la televisin en los hogares del municipio, con
un lmite para el error de estimacin igual a 2 horas. Determine el tamao de muestra y los
tamaos de estratos necesarios para lograr esta exactitud.
En primer lugar observamos que, como el lmite del error de estimacin es 2, tenemos:
2 V (x st ) = 2 V (x st ) = 1
1 L
V (xst ) = Wh S h
n h=1
L
1 L
ch Wh S h ch < Wh S h2
h=1
N h=1
L
Wh S h
h =1
n=
ch Wh S h ch
h=1
1 L
2
V (x st ) + Wh S h
N h=1
Aproximando las cuasivarianzas por las desviaciones estndar por estrato tenemos
(los Wh son los del problema anterior):
n=
L
Whm h
h =1
c h Whm h c h
h =1
= 57,42 5 58
1 L
2
V (x st ) + Whm h
N h =1
N 1m 1 / C1
18
n1 = 58 u
N 1m 1 / C1 + N 2m 2 / C 2 + N 3m 3 / C 3
N hm h / C h
N 2m 2
n 2 = 58 u
23
nh = n u L
+
+
N
m
C
N
m
C
N
m
C
/
/
/
1
1
1
2
2
2
3
3
3
N hm h / C h
h =1
N 3m 3
n3 = 58 u
17
N 1m 1 / C1 + N 2m 2 / C 2 + N 3m 3 / C 3
En caso de utilizar entrevista telefnica, los costes unitarios por estrato son iguales,
con lo que la afijacin ptima coincide con la afijacin de mnima varianza. En este caso, el
tamao de muestra para cometer un error de muestreo unitario ser:
2
Wh S h
2
L
L
1
1
h =1
e 2 = V (x st ) = Wh S h < Wh S h2 n =
L
1
n h =1
N
h =1
V (x st ) + Wh S h2
N h =1
Aproximando las cuasivarianzas por las desviaciones estndar por estrato tenemos
(los Wh son los del problema anterior):
173
Whm h
h =1
= 56,34 5 57
n=
1 L
2
V (x st ) + Whm h
N h =1
N 1m 1
17
n1 = 57 u
N 1m 1 + N 2m 2 + N 3m 3
N m
N 2m 2
n h = n u L h h n 2 = 57 u
20
N 1m 1 + N 2m 2 + N 3m 3
N hm h
h =1
N 3 S3
20
n3 = 57 u
N 1m 1 + N 2m 2 + N 3m 3
Aunque el tamao de muestra sigue siendo muy parecido al del apartado anterior, la
afijacin cambia, tomndose ms observaciones del rea rural ya que ahora no tienen un
coste ms alto.
Si, adems de utilizar costes unitarios, suponemos que la variabilidad en los estratos
es unitaria, podemos aproximar la afijacin ptima y la de mnima varianza por la
proporcional, ya que en este caso coinciden las tres. Entonces, el tamao de muestra para
cometer un error de muestreo unitario ser:
L
1 1
e 2 = V (x st ) = < Wh S h2 n =
n N h =1
V (x
L
W S
h =1
st ) +
1
N
2
h
W S
h =1
2
h
Aproximando las cuasivarianzas por las desviaciones estndar por estrato, que son
todas iguales a 10 en este caso, tenemos (los Wh son los del problema anterior):
L
n=
W m
h =1
1
V (x st ) +
N
2
h
W m
h =1
= 75,6 5 76
2
h
nh = kN h con k = =
= 0,245 n 2 = kN 2 = 0,245 u 62 15
N 310
n = kN = 0,245 u 93 23
3
3
4.7.
Tamaos
N 1 = 155
ci
9
Ph
0.80
N 2 = 62
0.25
N 3 = 93
16
0,50
1 L
V (xst ) = Wh S h
n h=1
L
1 L
ch Wh S h ch < Wh S h2
h=1
N h=1
L
Wh S h
h =1
n=
ch Wh S h ch
h=1
L
1
V (x st ) + Wh S h2
N h=1
n=
L Nh
h =1 N
L N
c h h Ph Q h c h
N
h =1
= 62,3 5 64
1 L Nh
V (x st ) +
Ph Qh
N h =1 N
Ph Q h
N1
n1 = 63 u
N1 P1Q1 / C1 + N 2
N h Ph Qh / Ch
n2 = 63 u
nh = n u L
N1 P1Q1 / C1 + N 2
N h Ph Qh / Ch
h =1
n3 = 63 u
N1 P1Q1 / C1 + N 2
P1Q1 / C1
P2 Q2 / C2 + N 3 P3Q3 / C3
N 2m 2
P2 Q2 / C2 + N 3 P3Q3 / C3
N 3m 3
P2 Q2 / C2 + N 3 P3 Q3 / C3
175
31
14
18
En caso de utilizar entrevista telefnica, los costes unitarios por estrato son iguales,
con lo que la afijacin ptima coincide con la afijacin de mnima varianza. En este caso, el
tamao de muestra para cometer un error de muestreo unitario ser:
2
Wh S h
2
L
L
1
1
h =1
e 2 = V ( x st ) = Wh S h < Wh S h2 n =
L
1
n h =1
N h =1
V (x st ) + Wh S h2
N h =1
L Nh
Ph Qh
h =1 N
= 61,08 5 62
n=
1 L Nh
V (x st ) +
Ph Qh
N h =1 N
N1 P1Q1
n1 = 62u
29
N1 P1Q1 + N 2 P2 Q2 + N 3 P3 Q3
N h Ph Qh
N 2m 2
nh = n u L
n2 = 62u
12
+
+
N
P
Q
N
P
Q
N
P
Q
1
1
1
2
2
2
3
3
3
N h Ph Qh
h =1
N 3m 3
n3 = 62u
21
N1 P1Q1 + N 2 P2 Q2 + N 3 P3 Q3
Aunque el tamao de muestra sigue siendo muy parecido al del apartado anterior, la
afijacin cambia, tomndose ms observaciones del rea rural ya que ahora no tienen un
coste ms alto.
Si, adems de utilizar costes unitarios, suponemos que la variabilidad en los estratos
es constante (Ph 5 0,4 mh2 = PhQh = Ph(1<Ph) = 0,24), podemos aproximar la afijacin
ptima y la de mnima varianza por la proporcional, ya que en este caso coinciden las tres.
Entonces, el tamao de muestra para cometer un error de muestreo unitario ser:
1 1
e 2 = V (x st ) = < Wh S h2 n =
n N h =1
V (x
W S
h =1
st
)+
1
N
2
h
W S
h =1
2
h
nh = kN h con k = =
= 0,238 n 2 = kN 2 = 0,238 u 62 15
N 310
n = kN = 0,238 u 93 22
3
3
4.8.
Wh S h
2
L
L
1
1
h =1
e 2 = V (x st ) = Wh S h < Wh S h2 n =
L
1
n h =1
N
h =1
V (x st ) + Wh S h2
N h =1
Aproximando las cuasivarianzas por las desviaciones estndar por estrato tenemos:
2
L Nh
mh
h =1 N
n=
= 16,83 5 17
1 L Nh 2
V (x st ) +
mh
N h =1 N
177
n1 = 17 u N m + N m + N m 10
N m
1 1
2 2
3 3
nh = n u L h h
N
m
2 2
n = 17 u
N hm h
7
2
h =1
N 1m 1 + N 2m 2 + N 3m 3
4.9.
Un mayorista del sector de la distribucin de comestibles en una gran ciudad desea saber si
la demanda es lo suficientemente grande para justificar la inclusin de un nuevo producto en
sus existencias. Para tomar la decisin, planifica aadir este producto a una muestra de los
almacenes a los que abastece para estimar el promedio de las ventas mensuales (variable X).
El distribuidor suministra nicamente a cuatro grandes cadenas en la ciudad y, por
conveniencia administrativa, decide utilizar muestreo aleatorio estratificado tomando cada
cadena como un estrato. Hay 24 almacenes en el estrato 1, 36 en el estrato 2, 30 en el estrato
3 y 30 en el estrato 4 (N1 = 24, N2 = 36, N3 = 30, N4 = 30 y N = 120). El distribuidor tiene
suficiente tiempo y dinero para obtener datos sobre ventas mensuales en una muestra de
tamao n = 20 almacenes. Dado que no tiene informacin previa respecto a las varianzas de
los estratos y porque el coste del muestreo es el mismo en cada estrato, decide aplicar la
afijacin proporcional, con lo que el nuevo producto es introducido en cuatro almacenes
elegidos al azar de la cadena 1, seis almacenes de la cadena 2, y 5 almacenes de cada una de
las cadenas 3 y 4. Despus de un mes, las ventas X presentan los resultados indicados en la
tabla siguiente:
Estrato 1
94
90
102
110
Estrato 2
91
99
93
105
111
101
Estrato 3
108
96
100
93
93
Estrato 4
92
110
94
91
113
Estimar las ventas promedio para el mes y fijar un lmite para el error de estimacin.
Realizar la misma estimacin y calcular el error suponiendo que se realiza muestreo
aleatorio simple. Comentar los resultados.
Evidentemente, la afijacin proporcional nos lleva a seleccionar cuatro almacenes elegidos
al azar de la cadena 1, seis almacenes de la cadena 2, y 5 almacenes de cada una de las
cadenas 3 y 4, ya que:
30
36
30
N
24
n1 = n 1 = 20
=5
= 6 , n3 = 20
= 5 , n 4 = 20
= 4 , n2 = 20
N
120
120
130
130
Estratos A
Medias ( x h )
I
99
II
100
III
98
IV
100
h =1
h =1
x st = Wh x h =
Nh
24
36
30
30
xh =
99 +
100 +
98 +
100 = 99,3
N
120
120
120
120
1 L
1
V (x st ) = Wh S h <
n h =1
N
Wh S h2 =
h =1
1 L Nh
1
Sh <
n h =1 N
N
h =1
Nh 2
S h = 2,93
N
1 L
1
Xi =
(94 + 90 + L + 91 + 113) = 99,3
n h =1
20
Se observa que el error es menor en muestreo aleatorio simple con una ganancia en
precisin dada por:
2,93
GP =
< 1100 = 17,67%
2,49
4.10.
179
La consejera de medio ambiente de una comunidad est realizando un estudio del nmero
de personas X que utiliza las instalaciones de campings pblicos. La comunidad tiene dos
reas para acampar, una localizada en las montaas y otra localizada a lo largo de la costa.
La consejera desea estimar el nmero promedio de personas por camping y la proporcin de
campings que albergan personas de fuera de la comunidad durante un particular fin de semana,
cuando se espera que todos los sitios estn ocupados. El nmero promedio de personas se va a
estimar con un lmite de 1 para el error de estimacin, y la proporcin de personas de fuera
de la comunidad con un lmite de 0,1. Las dos reas para acampar forman convenientemente
dos estratos, la localidad de la montaa como el estrato 1 y la localidad de la costa como el
estrato 2. Se sabe que N1 = 120 campings para acampar y N2 = 80. Encuentre el tamao de
muestra y la asignacin necesarios para lograr estos dos lmites. Se supone que la consejera
de medio ambiente conoce por experiencia que la mayora de los campings contienen de 1 a
9 personas y que los costes de muestreo son los mismos en cada estrato.
Como los costes de muestreo son constantes en los estratos, utlizaremos afijacin de mnima
varianza (equivalente a la ptima en este caso). Adems, como la desviacin tpica es
alrededor de 1/4 de la amplitud de variacin en una distribucin normal, podemos suponer
que su valor para el nmero de personas que ocupan los campings es constante en todos los
campings y con valor mi = (9 < 1)/4 = 2.
En primer lugar observamos que, como el lmite del error de estimacin es 1
tenemos:
2 V (x st ) = 1 V (x st ) = 0,25
En afijacin proporcional, el tamao de muestra necesario para cometer un error de
muestreo de 0,25 al estimar la media (promedio de personas por camping) podra estimarse
como sigue:
L
1 1 L
e = V (x st ) = < Wh S h2 n =
n N h =1
V (x
2
W S
h =1
st ) +
1
N
2
h
W S
h =1
2
h
Aproximando las cuasivarianzas por las desviaciones estndar por estrato, que son
todas iguales a 2 en este caso, tenemos:
Nh 2
mh
h =1 N
= 14,8 5 15
n=
1 L Nh 2
V (x st ) +
mh
N h =1 N
L
n = kN 1 = 0,075 u 120 = 9
n
15
=
= 0,075 1
N 200
n 2 = kN 2 = 0,075 u 80 6
n = kN 1 = 0,335 u 120 40
n
67
=
= 0,335 1
N 200
n 2 = kN 2 = 0,238 u 62 27
4.11.
I
0,2
0,5
II
0,3
0,6
III
0,5
0,4
Resolver el mismo problema para afijacin proporcional y comparar resultados realizando los
comentarios pertinentes.
Se trata de igualar la varianza del estimador de la proporcin en muestreo
estratificado con afijacin de mnima varianza a la varianza del estimador de la proporcin
en el muestreo aleatorio simple en ambos casos con reposicin. Se tiene:
3
Wh Ph (1 < Ph )
P (1 < P)
h =1
y VSTMV ( P ) =
V AS ( P ) =
n
n'
Estratos W h Ph 1 < Ph
I
0,2 0,5 0,5
II
III
0,3 0,6
0,5 0,4
0,4
0,6
W h Ph
0,10
0,18
0,20
W
h =1
Ph (1 < Ph )
0,5
181
Wh Ph (1 < Ph )
0,1
0,49
0,49
0,147
0,245
h Ph = 48
h =1
Ph (1 < Ph ) = 0,492
Wh Ph (1 < Ph )
P
(
1
<
P
)
h =1
V AS (P ) = VSTMV (P )
=
n
n'
2
n' Wh Ph (1 < Ph )
2
1000 (0,492 )
h =1
=
= 970
n=
0,48(1 < 0,48)
P (1 < P )
P (1 < P)
y VSTP ( P ) =
V AS ( P ) =
n'
W P (1 < P )
h
h =1
P(1 < P)
V AS (P ) = VSTP (P )
=
n'
W P (1 < P )
h =1
n' Wh Ph (1 < Ph )
h =1
= 1000 (0,242) = 970
n=
0,48(1 < 0,48)
P (1 < P )
4.12.
Tamaos
poblacionales
48000
38000
24000
Tamaos
muestrales
1460
1160
1730
Media muestral
del consumo
102,7
71,4
73,2
Varianza
muestral
15876
48841
23409
Estimar la cantidad total de leche consumida al ao entre los menores de 25 aos, indicando
el error de muestreo cometido, y calcular el tamao muestral necesario para estimar el
consumo medio de leche al ao entre los mayores de 50 aos, con un error de muestreo de 5
litros al 95% de confianza. Realizar una estimacin por intervalos al 95% del consumo
medio anual de leche por habitante.
Supongamos ahora que se multiplica por tres el tamao de la muestra. Realizar la nueva
afijacin por los diferentes mtodos para elegir el mejor.
Si se quiere estimar la proporcin de personas entre 25 y 50 aos que estaran dispuestas a
comprar un producto lcteo de reciente aparicin, cul sera el tamao muestral necesario
para estimar la proporcin de personas entre 25 y 50 aos que estaran dispuestas a comprar
un producto lcteo de reciente aparicin con un error de muestreo inferior al 5%? Comparar
el resultado anterior con el obtenido cuando existe un estudio piloto que sugiere que dicha
proporcin ser al menos del 60%.
Consideramos como variable X la cantidad de leche consumida anualmente por una persona.
La primera pregunta del problema pide estimar un total poblacional dentro del primer
estrato; por tanto, su estimador es el correspondiente a un muestreo aleatorio simple:
X 1 = N 1 x1 = 48000(102,7) = 4929600 litros
h_2 N 3 S 32
1,96 2 (24000)(23409)
=
= 3128,25 5 3129
e_2 N 3 + h_2 S 32 5 2 (24000) + 1,96 2 (23409)
Para realizar la estimacin por intervalos al 95% del consumo medio anual de leche
por habitante en la ciudad, utilizaremos el estimador de la media global en el muestreo
estratificado y, por tanto, el intervalo de confianza ser:
183
x st h_ m ( x st )
L
x st = Wh x h =
h =1
1
N
N
h =1
xh =
1
(48000 102,7 + 38000 71,4 + 24000 73,2) = 85,451
110000
Wh2 (1 < f h )
m ( x st ) =
h =1
S h2 48000
1460 15876
=
+
1 <
n h 110000
48000 1460
1730 23409
1160 48841 24000
38000
+
= 2,73
1 <
1 <
24000 1730
110000 38000 1160 110000
Entonces:
x st h_ m ( x st ) = 85,451 1,96 * 2,73 = [80,101; 90,801]
Nh
, h = 1, 2, 3
N
n1 =
N1
48000
n=
13050 = 5694,5455 5 5695
N
110000
n2 =
N2
38000
n=
13050 = 4508,1818 5 4508
N
110000
n3 =
N3
24000
n=
13050 = 2847,2727 5 2847
N
110000
Nh Sh
L
N i Si
i =1
n , h = 1, 2, 3
N
h =1
n1 =
48000 15876
13050 = 4356,2424 5 4356
18118000
n2 =
38000 48841
13050 = 6048,8961 5 6049
18118000
n3 =
24000 23409
13050 = 2644,8615 5 2645
18118000
Como la afijacin de mnima varianza siempre supera a las dems, esta ltima es la
afijacin ms eficiente entre los estratos.
Para resolver el ltimo apartado utilizaremos muestreo aleatorio simple en el
segundo estrato.
El tamao muestral necesario para conseguir un error inferior a 0,05 al estimar la
proporcin con un coeficiente de confianza del 95% ser una cantidad superior o igual a la
siguiente:
n=
h_2 N 2 p 2 q 2
1,96 2 (38000)(0,5)(0,5)
=
= 380,3251 5 381
e 2p (N 2 < 1) + h_2 p 2 q 2 0,05 2 (37999) + 1,96 2 (0,5)(0,5)
3
1,96 2 (38000)(0,5)(0,5)
= 380,3251 5 381
0,05 2 (37999) + 1,96 2 (0,5)(0,5)
1,96 2 (38000)(0,6)(0,4)
= 365,2583 5 366
0,05 2 (37999) + 1,96 2 (0,6)(0,4)
Cuando no hay informacin sobe las proporciones poblaciones siempre nos situamos
en la peor de las situaciones para nosotros en trminos de coste, es decir, el caso en que ms
tamao muestral se va a necesitar; sin embargo sta es la situacin de ms precisin, es
decir, que lo que se pierde en trminos de coste se gana en trminos de precisin.
Cualquier otro tamao muestral obtenido para valores dados de la proporcin
poblacional distintos de 1/2 para cometer el mismo error de muestreo, ser siempre menor.
14.13.
185
Los 10000 trabajadores de una empresa fueron clasificados en tres grupos de edad,
seleccionndose una muestra aleatoria simple en cada uno de ellos. Se obtuvieron las
caractersticas siguientes para los tres grupos:
Gruposde Nmero total de
edad
trabajadores
18-35
36-50
51-65
2900
4700
2400
Realizar una estimacin por intervalos al 99% de confianza para el salario total percibido por
los empleados ms jvenes. Hallar tambin la estimacin del salario mensual medio de los
diez mil trabajadores, as como su error de muestreo. Hallar el reparto muestral ms eficiente
en los distintos grupos de edad para estimar el salario mensual medio.
Realizar una estimacin puntual de la proporcin de trabajadores de la empresa cuyo
contrato tiene una duracin inferior a los dos aos, indicando el error de muestreo cometido.
Calcular el nmero de trabajadores que sera necesario seleccionar para que el error de
muestreo no superase el 6% si se deseara estimar la proporcin de trabajadores con ms de
50 aos que padecieron enfermedades por no cumplirse las normas de seguridad e higiene en
sus puestos de trabajo.
Sea X el salario mensual de un trabajador. Para estimar el salario total repartido entre los
trabajadores ms jvenes mediante un intervalo de confianza, utilizaremos la expresin
correspondiente al muestreo aleatorio simple aplicada al primer estrato:
n S2
n S2
I X = N 1 X 1 < h_ N 12 (1 < 1 ) 1 ; N 1 X 1 + h_ N 12 (1 < 1 ) 1
N 1 n1
N 1 n1
2900 66
Para estimar el salario medio de todos los trabajadores utilizamos el estimador del
muestreo aleatorio estratificado:
L
W1 =
N
N1
N
2900
4700
2400
=
= 0,29 , W2 = 2 =
= 0,47 , W3 = 3 =
= 0,24
N 10000
N 10000
N 10000
Wh2 (1 < f h )
m ( x st ) =
h =1
S h2
nh
666 380002
754 350002
580 400002
0,29 2 1 <
+ 0,47 2 1 <
+ 0,24 2 1 <
= 749,85
2900 666
4700 754
2400 580
La afijacin ms eficiente a realizar ser la de mnima varianza, que siempre supera
en precisin a las dems. Tenemos:
nh =
Nh Sh
L
Nh Sh
h =1
N
h =1
n1 =
2900 38000
2000 = 594,5508 5 595
370700000
n2 =
4700 35000
2000 = 887,5101 5 887
370700000
n3 =
2400 40000
2000 = 517,9390 5 518
370700000
375
150
90
P1 =
= 0,5631 , P2 =
= 0,1989 , P3 =
= 0,1552
666
754
580
m ( Pst ) =
W
h =1
2
h
N h < n h Ph Q h
N h < 1 nh
187
0,292
2900< 6660,56310,4369
4700< 7540,19890,8011
2400< 5800,15520,8448
+ 0,472
+ 0,242
= 0,008
2899
666
4699
754
2399
580
h_2 N 3 p 3 q 3
2,575 2 2400 0,5 0,5
= 386,4730 5 387
=
e 2p (N 3 < 1) + h_2 p 3 q 3 0,06 2 (2399) + 2,575 2 0,5 0,5
3
Hemos supuesto que p3 = 0,5 puesto que no se tiene informacin anterior sobre la proporcin
de trabajadores de ms de 50 aos que padecieron enfermedades por motivos laborales.
Hemos llegado a que, para estimar esta proporcin con un error de muestreo no superior al 6%
habr que seleccionar al menos 387 trabajadores entre el grupo de los mayores de 50 aos.
4.14.
Para estudiar el terreno agrcola de una comarca se consideraron tres zonas segn su
localizacin geogrfica y en cada una de ellas, de forma independiente, se seleccion,
mediante un muestreo aleatorio simple, cierto nmero de fincas. Se tiene la siguiente
informacin:
Zonas Nmero total Nmero de fincas Superficie media Desviacin tpica Nmero de fincas
de fincas
seleccionadas
muestral (Ha)
muestral (Ha)
barbecho
A
3200
380
28
3,5
124
B
5600
800
15
6,7
250
C
1200
200
45
8
17
Estimar puntualmente la superficie total del terreno agrcola en cada una de las zonas, as
como su error de muestreo. Hallar los tamaos muestrales necesarios para realizar las
estimaciones anteriores con unos errores de muestreo estimados inferiores a 1000 Ha y un
coeficiente de confianza del 99%.
Realizar una estimacin por intervalos al 99% de confianza de la superficie media de las
fincas de la comarca y realizar la afijacin ms eficiente de la muestra anterior en las tres
zonas para realizar la estimacin de la superficie media.
Hallar tambin el tamao muestral y la afijacin que se debera haber realizado para estimar
del modo ms eficiente posible la superficie total del terreno agrcola de la comarca con un
error de muestreo no superior a 1000 Ha y una confianza del 99%.
Estimar puntualmente el porcentaje global de fincas en barbecho y su error de muestreo.
Sea X la variable superficie de una finca de la comarca. Los estimadores dentro de cada zona
podrn obtenerse a travs de las frmulas del muestreo aleatorio simple y los globales a
partir de las del muestreo estratificado ya que las fincas de la comarca han sido divididas en
tres zonas o estratos, y en cada una de ellas se ha realizado un muestreo aleatorio simple de
forma independiente entre ellas.
Los estimadores puntuales de la superficie total del terreno agrcola en cada una de
las zonas se calculan mediante X h = N h x h y su error de muestreo se calcula mediante:
n S
m ( X h ) = N h2 1 < h h , h = 1, 2, 3
N h nh
m ( X 1 ) = 3200 2 1 <
380 3,5
= 539,35 Ha
3200 380
X 2 = N 2 x 2 = 5600 15 = 84000 Ha
m ( X 1 ) = 5600 2 1 <
800 6,7
= 1228,13 Ha
5600 800
X 3 = N 3 x 3 = 1200 45 = 54000 Ha
m ( X 1 ) = 1200 2 1 <
200
1200
8
200
= 619,67 Ha
Los tamaos muestrales necesarios para realizar las estimaciones anteriores con unos
errores de muestreo estimados inferiores a 1000 Ha y una confianza del 99% se calculan en
cada estrato mediante:
nh =
h_2 N h2 S h2
, h = 1, 2, 3
eT2 + N h h_2 S h2
h
n2 =
n3 =
1200 2 2,575 2 8 2
= 404,8936 5 405
1000 2 + 1200 2,575 2 8 2
189
Para realizar la estimacin por intervalos al 99% de la superficie media de las fincas
de la comarca, utilizaremos el estimador de la media global en el muestreo estratificado y,
por tanto, el intervalo de confianza ser:
x st h_ m ( x st )
L
m (xst ) =
W1 =
N1
n
3200
380
=
= 0,32 ; f 1 = 1 =
= 0,1188
N 10000
N 1 3200
W2 =
N2
n
800
5600
=
= 0,56 ; f 2 = 2 =
= 0,1429
N 2 5600
N 10000
W3 =
N3
n
200
1200
=
= 0,12 ; f 3 = 3 =
= 0,1667
N 3 1200
N 10000
Wh2 (1< f h )
h=1
Sh2
3,52
6,72
82
= 0,322 (1 < 0,1188)
+ 0,562 (1 < 0,1429)
+ 0,122 (1 <1667)
= 0,147
380
800
200
nh
Entonces:
x st h_ m ( x st ) = 22,76 2,575 * 0,147 = [22,76 + 0,3805; 22,76 + 0,3805] = [22,3795; 23,1405]
nh =
Nh Sh
L
N
h =1
n , h = 1, ,L
Sh
Tenemos:
L
N
h =1
n1 =
3200 3,5
1380 = 265,0205 5 265
58320
n2 =
5600 6,7
1380 = 887,8189 5 888
58320
n3 =
1200 8
1380 = 227,1605 5 227
58320
wh
h =1
L
n=
e_
h_2
+ NhS
h =1
wh =
2
h
Nh Sh
L
N
i =1
Sh
w1 =
3200 3,5
= 0,1920
58320
w2 =
5600 6,7
= 0,6433
58320
w3 =
, h = 1, .,L
1200 8
= 0,1646
58320
3
,
5
+
5600
6
,
7
+
1200
8
2,575 2
191
1
P1 =
n1
1
P2 =
n2
1
P3 =
n3
Nh
ih
i =1
n1
i1
i =1
n2
i2
i =1
n3
A
i =1
i3
= 0,32
124
250
17
+ 0,56
+ 0,12
= 0,2896
380
800
200
124
= 0,3263
380
250
= 0,3125
800
17
= 0,085
200
m ( Pst ) =
m (Pst ) = 0,322
Wh2
h =1
N h < n h Ph Q h
N h < 1 nh
4.15.
En una ciudad turstica de temporada con 10000 viviendas se desea conocer la proporcin de
viviendas en alquiler al menos una vez al ao. Para realizar el estudio, se selecciona en cada
uno de los tres barrios existentes una muestra aleatoria de viviendas de tamao proporcional
al nmero total de viviendas en cada uno. En el barrio A se seleccionaron 1050 viviendas, de
las cuales haba 800 en alquiler al menos un mes al ao. En el barrio B se eligieron 900
viviendas, de las cuales haba 600 en alquiler al menos un mes al ao. En el barrio C se
seleccionaron 1700 viviendas, de las cuales 1300 estaban en alquiler al menos un mes al ao.
Estimar la proporcin de apartamentos que estaran dispuestos a ser alquilados al menos una
vez al ao y cuantificar el error de muestreo cometido.
Para estimar la proporcin de viviendas en alquiler al menos una vez al ao, definimos:
1 si la vivienda i del barrioo h se alquila al menos una vez al ao
h = 1, 2, 3
Ahi =
0 en caso contrario
1
P1 =
n1
n1
Ai1 =
i =1
=
{
h =1
?
Afijacin
proporcional
n h 1050 800
900 600 1700 1300
Ph =
+
+
= 0,7397
n
3650 1050 3650 900 3650 1700
800
1
= 0,7619, P2 =
1050
n2
n2
Ai 2 =
i =1
600
1
= 0,6667 , P3 =
n3
900
n3
A
i =1
i3
1300
= 0,7647
1700
m ( Pst ) =
m (Pst ) = 0,322
W
h =1
2
h
N h < n h Ph Q h
N h < 1 nh
4.16.
Una gran empresa sabe que el 40% de las cuentas que recibe es al por mayor y el 60% es al por
menor. Sin embargo, identificar las cuentas individuales sin consultar un archivo es complicado.
Un auditor desea muestrear n = 100 de sus cuentas para estimar la cantidad promedio de las
cuentas por cobrar de la empresa. Una muestra irrestricta aleatoria presenta 70% de cuentas al por
mayor y un 30% de cuentas al por menor. Los datos son separados en cuentas al por mayor y
cuentas al por menor despus del muestreo, con los siguientes resultados en unidades monetarias:
Por mayor
Por menor
n1 = 70
n2 = 30
S1 = 210
S 2 = 90
y1 = 520
y 2 = 280
Estimar la cantidad promedio de las cuentas que recibe la empresa y fijar un lmite para el error
de estimacin.
193
Como la proporcin observada de cuentas al por mayor (0,7) est muy alejada de la proporcin
verdadera (0,4), la estratificacin despus de seleccionar la muestra irrestricta aleatoria
(estratificacin a posteriori) puede ser adecuada, lo cual puede tambin ser justificado porque n1
y n2 exceden de 20.
La cantidad promedio de cuentas que recibe la empresa se estima mediante:
L
h =1
h =1
x st = Wh x h =
Nh
x h = 0,4 520 + 0,6 280 = 376
N
m ( x st ) =
Wh2 (1 < f h )
h =1
S h2
nh
0,4 2
2102
90 2
+ 0,6 2
= 14,07
70
30
El lmite para el error de estimacin al 95% ser 2m ( x st ) 5 28, con lo que un intervalo
de confianza al 95% para la estimacin de la cantidad promedio de cuentas que recibe la
empresa ser 376 28.
4.17.
Un farmacutico investiga el ingreso en caja obtenido por ventas a jubilados y al resto de sus
clientes. Observa que el ltimo mes ha vendido productos a 750 jubilados y 346 al resto de
sus clientes. Como los jubilados suelen tener tratamientos particulares propios de
enfermedades habituales en ellos, puede considerarse como un estrato homogneo respecto
de los productos que consumen. Lo mismo ocurre con el resto de los clientes. Como llevara
tiempo analizar cliente a cliente, se toma una muestra de 24 clientes y se estratifica a
posteriori en funcin de si se trata de jubilados o no. El ingreso neto en euros por cada
cliente de la muestra se presenta a continuacin:
Cliente Ingreso Cliente Ingreso Cliente Ingreso
Normal 173,69 Jubilado 277,67
Jubilado 271,3
Jubilado 301,29 Normal 133,24 Normal 171,89
Normal 165,22
Normal 163,17 Jubilado 275,8
Normal
Jubilado
141,72
367,94
Normal
Normal
246,48
176,7
Jubilado
Normal
235
181,2
Jubilado
328,63
Jubilado
292,09
Normal
177,37
Normal
Jubilado
179,7
337,77
Normal
Jubilado
187,52
349,79
Normal
Normal
161,37
215,76
Realizar una estimacin del ingreso neto del farmacutico y de su error de muestreo.
n2
n h =1
h =1
71689746,68
C v( X ' ' ) =
= 0,03 A 3%
288968,8
195
EJERCICIOS PROPUESTOS
4.1.
8
4
Frecuencias (ni) 20 30 60 100 150 200 120 80 50 20 18 10
Con el objeto de establecer pautas para futuras encuestas de salarios se estratifica la poblacin
utilizando dos mtodos diferentes de estratificacin. El mtodo I consiste en realizar tres
estratos segn los criterios dados por 2 ) X ) 7, 10 ) X ) 25, 30 ) X ) 100. El mtodo II
consiste en realizar tres estratos segn los criterios dados por 2 ) X ) 10, 12 ) X ) 35,
50 ) X ) 100. Se pide lo siguiente:
1) Suponiendo muestreo con reposicin y para un tamao de muestra n = 100, realizar las
afijaciones uniforme, proporcional y de mnima varianza para los dos mtodos de
estratificacin. Comentar los resultados. Elegir el mejor mtodo de estratificacin y su tipo
de afijacin justificando la respuesta. Cuantificar la ganancia en precisin para el mtodo y
afijacin elegidos respecto del muestreo aleatorio simple con reposicin.
2) Responder a las mismas cuestiones del apartado anterior suponiendo muestreo sin
reposicin. Comentar los resultados comparndolos con los del apartado anterior.
3) Para la misma muestra de tamao 100 realizar la afijacin ptima para los dos mtodos de
estratificacin, siendo los costes por unidad en cada estrato los siguientes: C11 = 1, C21 = 16, C31 =
25, C12 = 4, C22 = 9 y C32 = 36, donde Cij = Coste por unidad en el estrato i segn el mtodo de
estratificacin j. Considerar muestreo sin reposicin y con reposicin y comparar los resultados.
Para este tipo de afijacin cul es el mejor mtodo de estratificacin? Razona la respuesta.
4) En una encuesta de salarios posterior, qu tamao de muestra sera necesario para
conseguir un error de muestreo de 0,5 al estimar la media salarial sin reposicin y afijacin
de mnima varianza? y si el muestreo es con reposicin? Comentar los resultados.
5) En una encuesta de salarios posterior qu tamao de muestra sera necesario para
conseguir un error relativo de muestreo del 15% al 95% de coeficiente de confianza ( hr_
=1,96) al estimar el total salarial con reposicin y afijacin proporcional. Y si el muestreo
es sin reposicin? Comentar los resultados.
4.2.
Se van a muestrear las familias de un pueblo para estimar la cantidad promedio de bienes por
familia que se pueden convertir en dinero efectivo rpidamente. Las familias se estratifican
en un estrato de renta alta y otro de renta baja. Se piensa que una casa en el estrato de renta
alta tiene cerca de nueve veces ms bienes que una casa en el estrato de renta baja, y se
espera que Sh sea proporcional a la raz cuadrada de la media del estrato. Se sabe que existen
4000 familias en el estrato de renta alta y 20000 familias en el estrato de renta baja. Se pide:
a) Cmo se distribuira de forma ptima entre los dos estratos una muestra de 1000 familias
extrada de la poblacin?
b) Si el objetivo es estimar la diferencia entre bienes por familia en ambos estratos cmo
debe distribuirse la muestra?
4.3.
C = c0 + c h n h
h =1
donde c0 representa un coste fijo dado y los ch son tambin conocidos y representan el coste
unitario en el estrato h (h = 1, 2, ..., L). Se pide:
1 Realizar la afijacin de mnima varianza para un coste total C fijo al estimar la media
poblacional y hallar la expresin general que nos da la varianza mnima.
2 Responder a las preguntas del apartado anterior considerando la extraccin de una
muestra estratificada de tamao 1000 de una poblacin de tamao 10000 con los datos que
se dan a continuacin. Comparar los resultados con los que se obtendran para afijacin
ptima con funcin de coste lineal y cuantificar la ganancia en precisin. Comentar los
resultados.
Sh
ch
Estrato
Wh
1
0,4
4
1
2
0,3
5
2
3
0,3
6
3
4.4.
Supongamos conocidos los siguientes datos de una poblacin dividida en tres estratos: S12 = 9,
S22 = 225, S32 = 1600, N1 = 1000, N2 = 600, N3 = 200, C1 = 1000, C2 = 1200 y C3 = 2000. Se pide
lo siguiente:
a) Determinar el coste de una muestra estratificada que proporciona un error relativo de
muestreo de 5% para estimar la media considerando afijaciones proporcional, de mnima
varianza y ptima, respectivamente. Se sabe que X = 22 y que la funcin de coste es lineal.
Comentar los resultados obtenidos para cada tipo de afijacin y justificarlos.
b) Contestar a las mismas cuestiones del apartado anterior, pero con reposicin, y comparar
los resultados con los obtenidos en el apartado a). Justificar los resultados y comprobar que
la afijacin ptima y la de mnima varianza coinciden para costes unitarios.
CAPTULO
MUESTREO SISTEMTICO
OBJETIVOS
1. Presentar el concepto de muestreo sistemtico.
2. Comprender las especificaciones del muestreo sistemtico.
3. Analizar estimadores y errores en el muestreo sistemtico.
4. Comprender el concepto de coeficiente de correlacin intramuestral.
5. Analizar errores en funcin del coeficiente de correlacin intramuestral.
6. Relacionar el muestreo sistemtico con el muestreo aleatorio simple.
7. Relacionar el muestreo sistemtico con el muestreo estratificado.
8. Comprender el concepto de coeficiente de correlacin intraestratal.
9. Analizar errores en funcin del coeficiente de correlacin intraestratal.
10. Realizar la estimacin de varianzas.
11. Relacionar el muestreo sistemtico con el muestreo por conglomerados.
NDICE
1. Muestreo sistemtico. Especificaciones.
2. Estimadores y varianzas.
3. Relacin entre el muestreo sistemtico y el muestreo aleatorio simple.
4. Relacin entre el muestreo sistemtico y el muestreo estratificado.
5. Estimacin de varianzas.
6. Relacin entre el muestreo sistemtico y el muestreo por conglomerados.
7. Problemas resueltos.
8. Ejercicios propuestos
Muestreo sistemtico
199
i \ j
1
2
1
u 11
2
u 12
3
u 13
u 21
u 22
u 23
M
i
M
u i1
M
ui2
M
u i3
M
u n1
M
u n2
M
u n3
L
L
L
L
j
u1 j
u1 j
M
u1 j
L
L
L
u nj
u 2k
M
u ik
M
u nk
M
L
k
u 1k
i\j
j
u
L j
L uk + j
u1
u2
u3
uk +1
uk +2
uk +3
u2 k +1
u2 k +2
u2 k +3
L u2 k + j
M
i
M
M
u(i<1) k +1 u(i<1) k +2
M
u(i<1) k +3
M
L u(i<1) k + j
L uk
L uk +k
u2 k +k
M
L u(i<1) k +k
M
Para extraer una muestra de tamao n se elige al azar una unidad en la primera zona, y
para seleccionar las n < 1 unidades restantes para la muestra se toma en cada zona la unidad que
ocupa el mismo lugar dentro de su zona que el que ocupaba la primera unidad seleccionada dentro
de la primera zona. Por ejemplo, si la unidad seleccionada para la muestra al azar en la primera
zona es la tercera, se elegirn las n < 1 unidades restantes para la muestra tomando la tercera unidad
de cada zona. Las muestras sistemticas as obtenidas (columnas de la tabla anterior) suelen
denominarse muestras 1 en k.
La probabilidad de seleccionar cualquier muestra ser la probabilidad de elegir la unidad
que la origina en la primera fila por muestreo aleatorio simple, es decir, 1/k. Por tanto, el muestreo
sistemtico proporciona muestras equiprobables. Por otro lado, la probabilidad que tiene cualquier
unidad de la poblacin (de N unidades) de pertenecer a la muestra (de tamao k) es k/N = k/nk =
1/n; por lo tanto, el muestreo sistemtico es un tipo de muestreo con probabilidades iguales. Las
muestras del espacio muestral pueden representarse como sigue:
( u~ ) = {u
1
, u 1+ k , L u 1+ ( n < 1 ) k
LLLLLLLLLLL
( u~ ) = {u
j
, u j + k , L u j + ( n < 1) k
LLLLLLLLLLL
( u~ ) = {u
k
, u k + k , L u k + ( n < 1) k
ESTIMADORES Y VARIANZAS
Se utilizar el estimador lineal insesgado de Horwitz y Thompson porque el muestreo
sistemtico es sin reposicin. En general sabemos que:
n
e$
HT
=
i
Yi
/i
e$ =
Yij
estima insesgadamente el parmetro poblacional e =
1
k
Y .
ij
Muestreo sistemtico
201
X ij n
1 n
= k X ij = N. X ij = Nx j
?
n i=1
i j =1 1
i =1 n
N
k
X ij
n
1
X ij
1 n
MediaA e = X Yij =
X = nk = X ij = x j
N
n i=1
i j =1 1
{
nk
k
Aij
n
1
Aij
1 n
ProporcinA e = P Yij =
P = nk = Aij = P j
nk
n i=1
i j =1 1
k
n 1 A
n
1 n
ij
Totaldeclase A e = X Yij = Aij A = = k Aij = N. Aij = NP j
?
n i=1
i j =1 1
i =1 n
N
k
n
Total A e = X Yij = X ij X =
Total A X = Nx j
Media A X = x j
Proporcin A P = P
Total de clase A A = NP j
1 n k
S =
(x j < X )
k <1 i j
2
bs
2
Sws
=
1 n k
(Xij < x j )
N <k i j
(X
2
2
2
( N < 1)S 2 = ( N < k )Sws
+ (k < 1)Sbs2
ij < X ) = ( X ij < x j ) + (x j < X )
i =1 j =1
i =1 j =1
i =1 j =1
1
442443
1
442443 1
442443
( N <1) S 2
2
( N < k ) S ws
2
( k <1) Sbs
Grados de
libertad
Sumas de cuadrados
Entre muestas
k <1
Dentro de muestras
N <k
(x
i
i
n
j
k
(X
(X
Total
2
bs
S
,
V ( X ) = V (x j ) = (1 < f )
n
( )
S bs2
ij
<xj
ij
<Xj
2
S ws
S2
2
1
Pj < P =
nk
( )
<X
S
V ( X ) = V (Nx j ) = N 2V ( x j ) = N 2 (1 < f ) bs
n
( ) (
1
V ( P ) = V P j =
k
Cuadrados
medios
1
V ( A ) = V NPj = N 2V Pj = N 2
k
(
n
1
P j < P =
N
2
(
n
1
P j < P = PQ <
k
2
P Q
j
1
(P < P) = N (P < P) = N PQ < k P Q
k
n
i
lw =
i< z
, m2 =
1 k n
(X ij < X ) = varianza poblacional
nk j i
( )
( )
()
Muestreo sistemtico
203
1
x1
x1+ k
j
xj
x j+k
k
xk
xk + k
1
2
M
M
M
M
i x1+ (i <1)kL x j + (i <1)k L xk + (i <1)k
M
M
M
M
n x1+ (n <1)k
x j + (n <1)k xk + (n <1)k
Obtener una muestra sistemtica sera entonces equivalente a obtener una muestra
estratificada con una unidad por estrato. Debe tenerse en cuenta, sin embargo, que en el
muestreo estratificado aleatorio la seleccin se efecta independientemente en cada estrato,
mientras que en el muestreo sistemtico todos los elementos seleccionados ocupan el mismo
lugar o nmero de orden dentro de cada zona de k elementos, con la que no hay aleatoriedad
de seleccin. Adems, sera conveniente que las n zonas sistemticas de k elementos cada
una (estratos) sean lo ms homogneas posible dentro de ellas y heterogneas entre ellas.
Esta clasificacin de los elementos de la poblacin en n filas de k unidades cada una origina
la siguiente tabla del anlisis de la varianza poblacional:
Fuente de variacin
Entre estratos
Grados de
libertad
n <1
Sumas de cuadrados
(X
n
Dentro de estratos
N <n
(X
Total
(X
n
i
<X)
j
k
ij
< Xi)
<X
medios
2
S bst
ij
Cuadrados
2
S wst
S2
1 n k
X i < X
n <1 i j
2
Sbss
=
1 n k
Xij < Xi2
N <n i j
tenemos:
n
(X
2
2
2
ij < X ) = (X ij < X i ) + ( X i < X ) ( N <1)S = ( N < n)Swst + (n <1)Sbst
i=1 j =1
i=1 j =1
i=1 j =1
1
442443 1
442443 1
442443
( N <1) S 2
2
( N <n) Swst
2
( n<1) Sbst
()
L
n
n
S2 1 1 n
1
V X = V (xst ) = Wh2V (xh ) = Wi 2V ( xi ) = 2 (1 < f i ) u i = 2 1 < Si2 =
ni n k i
h
i
i n
2
2
S wst
N <n 2
1 1 n 1 k
1 n k
(
)
(
)
X
X
X
X
S
f
<
<
=
<
=
=
(
1
<
)
1
ij i n2k
ij
i
wst
Nn
n
n 2 k i k <1 j
i
1
4j 42443
2
( N <n)Swst
ltst =
cov(X ij ; X zj )
1 k n
(X ij < X i )2
N j i=1
1 k n
(X ij < X i )(X zj < X z ) k n
n j i< z
k
2(X ij < X i )(X zj < X z )
2
j i< z
=
=
k n
2
1
2
n(n <1)(k <1)S wst
(
)
<
X
X
ij i
N j i=1
1442443
2
( N <n)Swst
Se demuestra que la varianza del estimador de la media en funcin de ltst y Stst tiene la
forma siguiente:
2
S
V ( X ) = V (x j ) = (1 < f ) wst (1 + (n < 1) ltst )
n
y lo mismo se calcularan las varianzas del resto de los estimadores en funcin del
coeficiente de correlacin intraestratal ltst.
Muestreo sistemtico
205
1
n <1
ltst = 0 V( x j ) = (1 < f )
2
S wst
n
con lo que el muestreo sistemtico coincide en precisin con el muestreo aleatorio estratificado
considerando seleccin aleatoria independiente en cada estrato. De esta forma, ltst es en cierta
forma una medida de la falta de aleatoriedad en la seleccin de unidades para la muestra en
las distintas zonas sistemticas (filas o estratos).
ESTIMACIN DE VARIANZAS
No podemos decir que en muestreo sistemtico haya un mtodo directo para la estimacin de
varianzas a partir de una muestra sistemtica. Tenemos las siguientes situaciones:
a) lt prximo a cero o S2ws = S2
Si el coeficiente de correlacin intramuestral se aproxima a cero puede suponerse la
poblacin aleatoria y si S2ws = S2 la precisin del aleatorio simple y el estratificado coinciden,
con lo que la estimacin de la varianza puede realizarse con la misma expresin que en
muestreo aleatorio simple, es decir:
S$ 2
$
V ( x ) = (1 < f ) u
n
V$ ( x st )
n
2
2
2
( x h1 < x h 2 )
S$h2
2
2
(
= Wh ( 1 < f h ) u
=
1< f ) u
nh
2
h
h n
1< f
n2
n
2
( x
h
h1
< xh2 )
xc =
1 t
x
t 1 t
V$ ( x c ) =
t
t
t
1
1 t 2
1
xi < x c2 =
xi2 < tx c2 =
xi2 < x c2 )
(
t ( t < 1) i
t ( t < 1) i
t ( t < 1) i
i
1
x1
x1+ k
j
xj
x j +k
k
xk
xk +k
1
2
M
M
M
M
i x1+(i <1)k L x j +(i <1)k L x k +(i <1)k
M
M
M
M
n x1+(n <1)k
x j +(n <1)k
x k +(n <1) k
Muestreo sistemtico
207
PROBLEMAS RESUELTOS
5.1.
1/ 5
1
1
0
0
0
0
0
0
0
1
1/ 5
2/5
1/ 5
0
1
1
0
0
0
0
0
0
0
1/ 5
1/ 5
2/5
1/ 5
0
1
0
0
0
1/ 5
1
0
0
1
0
2/5
6 / 10 3 / 10 1 / 10 1 / 10 2 / 10 13 / 50
Figura 5-1
Figura 5-2
Figura 5-3
Con la notacin que utilizamos habitualmente, la tabla ANOVA ser:
Fuente
Grados de
libertad
Entre
k <1= 5 <1= 4
(x
N < k = 50 < 5 = 45
(X
Dentro
Total
N < 1 = 50 < 1 = 49
Sumas de cuadrados
n
i
n
(X
< X ) = 1,72
2
Cuadrados
medios
S bs2 = 1,72 / 4 = 0,43
ij
< x j ) = 7,9
2
S ws
= 7,9 / 45 = 0,1755
ij
<X
) = 9,62
S 2 = 9,62 / 49 = 0,1963
Muestreo sistemtico
209
Conocida esta tabla, pueden realizarse ya todos los clculos. La varianza del
estimador de la proporcin puede calcularse como:
( )
S2
n S2
1 0,43
( )
S
V ( A ) = V NP j = N 2V ( P j ) = N 2 (1 < f ) bs = 50 2 0,0344 = 86
n
Del valor de la varianza puede deducirse el valor del coeficiente de correlacin
intramuestral a travs de la frmula V ( x j ) =
m2
n
(1 + (n < 1) l t ) . Tendremos:
49
0 ,1963
50
0 , 0344 =
(1 + (10 < 1) l t ) l t = 0 , 0875
10
Se observa un valor de lt muy cercano a cero, lo que indica que el muestreo sistemtico
va a tener una precisin muy cercana a la del aleatorio simple en la estimacin de la proporcin de
piezas defectuosas. Esto concuerda con el hecho de que S2 y S2ws tambin tienen valores muy
cercanos. Concretamente S2 = 0,1963 > S2ws = 0,1755, lo que indica que es ms preciso el muestreo
aleatorio simple. La varianza del estimador de la proporcin en el muestreo aleatorio simple es
(1<1/5)0,1963/10 = 0,0157, lo que indica que la ganancia en precisin del aleatorio simple ser
(0,0344 < 0,0157)/0,0344 = 54,3%.
Dado el valor del coeficiente de correlacin intramuestral, muy cercano a cero, podemos
estimar varianzas mediante la frmula del muestreo aleatorio simple. Se tiene:
6 6
1 <
2
P1Q1 1 10 1 10
S1
= 0,0213
= (1 < f )
= 1 <
V P1 = (1 < f )
n < 1 5 10 < 1
n
( )
3 3
1 <
2
Q
P
S
1
10
1 10
2
2 2
= 0,0186
= (1 < f )
= 1 <
V P2 = (1 < f )
n < 1 5 10 < 1
n
( )
1 1
1 <
2
P3 Q3 1 10 1 10
S3
= 0,008
= (1 < f )
= 1 <
V P3 = (1 < f )
n < 1 5 10 < 1
n
( )
( ) ( )
V P4 = V P3 = 0,008
2
2
1 <
2
Q
S
P
1
10
10
( )
( )
1< f
V P1 = 2
n
n
2
(x
h
< xh 2 ) =
2
h1
1 < 0,2
(1 < 1) 2 + (1 < 0) 2 + (0 < 1) 2 + (1 < 0) 2 + (0 < 1) 2 = 0,032
2
10
( )
( )
1< f 2
1 < 0,2
2
V P2 = 2 (xh1 < xh 2 ) =
(0 < 0) 2 + (0 < 1) 2 + (1 < 0) 2 + (0 < 0) 2 + (1 < 0) 2 = 0,024
2
n
10
h
( )
( )
Las mejores muestras segn el mtodo del muestreo estratificado tambin resultan ser
la tercera y la cuarta, y adems coinciden en varianza con el mtodo anterior. Para las restantes
muestras se observa ganancia en precisin del mtodo de estimacin utilizando la frmula del
muestreo aleatorio simple. La proporcin estimada de piezas defectuosas producidas ser la
derivada de la 3 o 4 muestra, esto es: P = P3 = P4 = 1 / 10 ; es decir que se estima un 10%
de produccin defectuosa.
5.2.
m1
1
m2
3
m3
5
m4
2
m5
4
m6
6
m7
2
m8
7
5
4
2
6
3,5
5
2
3
7
4 ,5
4 ,5
3,75
i =1 j =1
3
i =1 j =1
i =1 j =1
ij
ij
< X ) 2 =(1 < 3,75 ) + (5 < 3,75 ) + ... + (7 < 3,75) 2 = 31,5
(X
(X
3
(x
Hemos creado un cuadro con las muestras sistemticas como columnas, colocando
una fila adicional inferior con las medias de las columnas y una columna adicional a la derecha
con las medias de las filas.
Muestreo sistemtico
211
Figura 5-4
Figura 5-5
Mediante Excel se ha hallado la siguiente tabla del anlisis de la varianza:
Fuente de variacin
Grados de
libertad
Entre muestras
k <1 = 2 <1 = 1
Sumas de cuadrados
(x
n
Dentro de muestras
N <k = 8<2 = 6
(X
Total
N <1 = 8 <1 = 7
(X
n
i
= 4,5
< x j ) = 27
S ws2 = 27 / 6 = 4,5
S 2 = 31,5 / 7 = 4,5
<X
ij
ij
Cuadrados
medios
< X j = 31,5
1 k
1
2
V ( X ) = V ( x j ) = ( x j < X ) 2 = (3 < 3,75) + (3,5 < 3,75) 2 = 0,5625
k j
2
= 0,5625
V ( X ) = V (x j ) = 1 < bs = (1 < f ) bs = (1 < )
n
2 4
N n
S bs2
= 8 2 u 0,5625 = 36
n
El clculo de la varianza tambin puede realizarse a travs del valor del coeficiente de
correlacin intramuestral como V ( x j ) =
k
lw =
m2
n
)(
2 X ij < X X zj < X
j i<z
N (n < 1)m 2
(1 + (n < 1) l t ) . Tenemos:
) 2(X
=
i<z
ij
)(
< X X zj < X
= <0,14285
Tendremos entonces:
7
4,5
m
V (x j ) =
(1 + ( n < 1) l t ) = 8
(1 + 3(<0,14285)) = 0,5625
n
4
2
Ahora surge el problema de estimar las varianzas. Para ello observamos en primer
lugar que S2ws = 4,5 = S2, por lo que la precisin en muestreo aleatorio simple coincide con la
precisin del muestreo sistemtico, y podremos utilizar la frmula del muestreo aleatorio
simple para estimar varianzas. Por otra parte, el valor del coeficiente de correlacin
intramuestral lt indica que la precisin del muestreo sistemtico es buena, ya que ste es
muy bajo y adems es negativo. Al ser negativo vemos que no existe interrelacin dentro de
las muestras, esto es, que las muestras tienden a ser heterogneas dentro de s, lo cual es muy
conveniente en muestreo sistemtico a la vista de que la muestra ha de representar fielmente
a toda una poblacin que se supone heterognea.
Para estimar la varianza de la media podemos utilizar la frmula del muestreo
aleatorio simple, ya que en este problema coincide en precisin con el sistemtico.
Tendremos los siguientes resultados para cada una de las dos muestras:
2
S
1 1
2
2
2
V (x1 ) = (1 < f ) u 1 = 1 < (1 < 3) + (5 < 3) + (4 < 3) + (2 < 3) 2
n 2 3
2
S
1 1
2
2
2
V (x2 ) = (1 < f ) u 2 = 1 < (3 < 4,5) + (2 < 4,5) + (6 < 4,5) + (7 < 4,5) 2
n 2 3
] 4 = 0,41
] 4 = 0,71
La mejor muestra sistemtica resulta ser la primera, pues es la que presenta menor
varianza.
Tambin podemos tratar este problema desde el enfoque de la equivalencia entre
muestreo estratificado y muestreo sistemtico.
Muestreo sistemtico
213
Consideramos ahora cada una de las 4 zonas (filas) como un estrato de 2 unidades.
Tenemos entonces dividida la poblacin en 4 estratos de 2 unidades cada uno, de modo que
la muestra sistemtica consta de una unidad por estrato, que de forma general no es elegida
aleatoriamente dentro del mismo. Esta clasificacin de los elementos de la poblacin en 4
filas de 2 unidades cada una origina una tabla del anlisis de la varianza para la poblacin
que puede calcularse a travs de Excel. Como estamos clasificando los datos en 4 filas (estratos),
utilizaremos las variables M2 a M5, que recogen los valores de las cuatro filas. A continuacin
elegimos Anlisis de la varianza de un factor en la opcin Anlisis de datos del men
Herramientas, rellenando su pantalla de entrada como se indica en la Figura 5-6. La Figura 5-7
presenta los resultados.
Figura 5-6
Figura 5-7
Grados de
libertad
Entre estratos
n <1= 4 <1= 3
Sumas de cuadrados
(X
n
Dentro de estratos
N <n=8<4=4
(X
Total
N <1= 8 <1= 7
(X
i
n
i
(X < X )
n
i
k
j
k
j
ij
< X i ) = 21
2
S wst
= 21 / 4 = 5,25
ij
< X j ) = 31,5
S 2 = 31,5 / 7 = 4,5
= k Xi < X = 2 (2 < 3,75)2 + (3,5 < 3,75)2 + (5 < 3,75)2 + (4,5 < 3,75)2 = 10,5
(X
n
2
= 10,5 / 3 = 3,5
< X ) = 10,5 S bst
2
j
k
Cuadrados
medios
ij
< Xi = (1< 2)2 + (3 < 2)2 + (5 < 3,5)2 + (2 < 3,5)2 + (4 < 5)2 + (6 < 5)2 + (2 < 4,5)2 + (7 < 4,5)2 = 21
ltst =
)(
2
wst
2
((1< 2)(5 < 3,5) + (1< 2)(4 < 5) + ...+ (6 < 5)(7 < 4,5)) = <0,047
4.3.1.5,25
El valor de ltst es negativo y muy pequeo, lo que indica que la falta de aleatoriedad
en la seleccin de una unidad por estrato no es muy elevada. Para calcular el valor correcto
de la varianza del estimador de la media considerando la falta de aleatoriedad se utiliza la
siguiente expresin en funcin de ltst:
2
S
5,25
V ( X st ) = V ( x jst ) = (1< f ) wst (1+ (n <1)ltst ) = (1< 0,5)
(1< (4 <1)0,047) = 0,56
n
4
Muestreo sistemtico
215
3
Estrato 1
5 2
4 6
Estrato 2
2 7
1< f
V ( x1 ) = 2
n
1< f
V ( x 2 ) = 2
n
n
2
(x
h
n
2
(x
h
< xh2 ) =
1 < 0,5
(1 < 5) 2 + (4 < 2) 2 = 0,625
42
< xh2 ) =
1 < 0,5
(3 < 2) 2 + (6 < 7) 2 = 0,0625
42
h1
h1
5.3.
Una manzana de casas de una ciudad contiene 36 hogares numerados del 1 al 36. Los
hogares con ingresos mensuales superiores a 1500 euros son los que tienen los nmeros 3,
5-7, 11-13, 15-16, 20- 22, 25-26, 28 y 30-34.
1) Se trata de estimar la proporcin de hogares con sueldo mensual superior a 1500 euros
utilizando muestreo sistemtico. Comparar la precisin de una muestra sistemtica 1 en 4
con una muestra aleatoria simple del mismo tamao para estimar la proporcin de hogares
con sueldo mensual superior a 1500 euros. Justificar la respuesta en funcin del valor del
coeficiente de correlacin intramuestral y en funcin de la cuasivarianza intramuestral.
2) Hallar el tamao de muestra necesario para estimar la proporcin de viviendas en las que los
ingresos mensuales son superiores a 1500 euros para un error de muestreo de 16 centsimas.
Hallar ese mismo tamao para muestreo aleatorio simple y comentar el resultado.
Si definimos una variable dicotmica A a la que asignamos el valor 1 para los hogares en
que los ingresos mensuales superan los 1500 euros y el valor 0 para el resto de los hogares, y
clasificamos los 36 hogares en 9 filas de 4 viviendas cada una (muestreo sistemtico 1 en 4)
siguiendo el orden del enunciado del problema, tendremos la siguiente tabla:
0
1/ 4
3/ 4
0
1
0
0
1
1
1
1
1/ 2
3/ 4
1/ 4
1/ 2
3/ 4
3/ 4
0 1/ 2
0
1
1
5/9 5/9 5/9 5/9 5/9
V ( P ) =
2
2
2
2
1 5 5 5 5 5 5 5 5
< + < + < + < = 0
4 9 9 9 9 9 9 9 9
Figura 5-9
Figura 5-10
Muestreo sistemtico
217
Fuente
Grados de
libertad
Entre
k <1 = 4 <1 = 3
Sumas de cuadrados
(x
n
Dentro
N < k = 36 < 4 = 32
(X
Total
N < 1 = 36 < 1 = 35
(X
<X
j
k
=0
S bs2 = 0 / 3 = 0
ij
< x j ) = 8,88
ij
<X
) = 8,88
S 2 = 8,88 / 35 = 0,254
i
n
Cuadrados
medios
Conocida esta tabla pueden realizarse ya todos los clculos. Por ejemplo, la varianza
del estimador de la proporcin tambin podra calcularse como:
( )
2
S2
nS
1 0
m2
n
(1 + (n < 1) l t ) . Tendremos:
35
0 , 254
1
1
0 = 36
(1 + ( 9 < 1) l t ) l t = < = <
= < 0 ,125
8
9
n <1
Estamos ante el caso de mxima precisin del muestreo sistemtico, ya que la varianza
1
es nula, o lo que es lo mismo, l t = <
.
n <1
Este hecho concuerda con los valores que toman S2 y S2ws. Concretamente S2 = 0,254 <
S2ws = 0,277, lo que indica que es ms preciso el muestreo sistemtico que el aleatorio simple.
La varianza del estimador de la proporcin en el muestreo aleatorio simple es (1<1/4)*0,254/9
= 0,021.
Para resolver el segundo apartado del problema consideramos ahora cada una de las
9 zonas (filas) como un estrato de 4 unidades. Tenemos entonces dividida la poblacin en 9
estratos de 4 unidades cada uno, de modo que la muestra sistemtica consta de una unidad por
estrato que de forma general no es elegida aleatoriamente dentro del mismo. Esta clasificacin
de los elementos de la poblacin en 9 filas de 4 unidades cada una origina una tabla del
anlisis de la varianza que se puede calcular con Excel.
Como estamos clasificando los datos en 9 filas (estratos), utilizaremos las variables G5 a
G13, que recogen los valores de las nueve filas. A continuacin elegimos Anlisis de la varianza de
un factor en la opcin Anlisis de datos del men Herramientas, rellenando su pantalla de entrada
como se indica en la Figura 5-11. La Figura 5-12 presenta los resultados.
Figura 5-11
Figura 5-12
El cuadro del anlisis de la varianza por estrato es entonces el siguiente:
Grados de
Fuente de variacin
libertad
n <1 = 9 <1 = 8
Entre estratos
Cuadrados
Sumas de cuadrados
(X
n
Dentro de estratos
N < n = 36 < 9 = 27
(X
Total
N < 1 = 36 < 1 = 35
(X
j
k
= 1,388
medios
2
bst
= 1,388 / 8 = 0,1735
<X
ij
< Xi
ij
i
n
= 7,5
2
S wst
= 7,5 / 27 = 0,277
ltst =
)(
2
wst
2
1
3
1
1
3
1
(0 < )(1 < ) + (0 < )(0 < ) + ... + (1 < )(0 < ) = <0,125
4
2
4
2
9.8.3.0,277
4
4
Muestreo sistemtico
219
S2
n 0,277
V (Pst ) = (1 < f ) wst (1 + (n <1)ltst ) 0,162 = (1 < )
(1 + (n <1)(<0,125) n = 5
n
36 n
Para calcular el tamao de muestra anterior en muestreo aleatorio simple despejamos
n en la expresin que define la varianza de la proporcin en ese tipo de muestreo. Tenemos:
V (Pst ) = (1< f )
S2
n
0,162 = (1<
n 0,254
)
n =8
36 n
5.4.
Un investigador desea determinar la calidad del azcar contenida en la sabia de los rboles
de una finca, que se encuentran situados a lo largo de la misma de forma natural en 7 hileras.
El nmero total de rboles es desconocido, por lo que no puede realizarse una muestra
irrestricta aleatoria. Como procedimiento alternativo el investigador decide usar una muestra
sistemtica de 1 en 7. En la tabla adjunta se encuentran los datos del contenido de azcar en
la sabia de los rboles muestreados:
rbol
Contenido de azcar
muestreado
1
en la savia X
82
6724
76
5776
83
M
210
6889
M
84
7056
211
80
6400
212
79
212
X
i =1
X2
212
= 17066
i =1
6241
2
i
= 1486800
X = xj =
X
i =1
212
= 80,5
212
S 2 = x j =
i =1
212
X < X i
i =1
212 < 1
2
i
212
= 535,48
V ( X ) = V ( x j ) = 1 <
= 2,16 m ( X ) = 1,47
7 212
C v( X ) =
=
=
= 0,0182 (1,82%)
E(x j )
80,5
X
El error relativo es bajo, por lo que la estimacin puede ser buena. Por otra parte, un
intervalo de confianza para la media suponiendo normalidad en la poblacin ser:
X h_ m ( X ) = 80,5 1,96 u 1.47 = [77,6 83,4]
5.5.
Un hortelano tiene un huerto experimental con N = 1300 manzanos de una nueva variedad
en estudio. El investigador desea estimar la produccin total (en quintales) de la huerta, con
base en los manzanos de una muestra sistemtica de 1 en 10. La media y la varianza
muestrales para los rboles muestreados fueron x j = 3,52 quintales y S 2 = 0,48 quintales.
Utilizar estos datos para estimar la produccin total, y establecer un lmite para el error de
estimacin.
La estimacin de la produccin total estar dada por:
X = Nx j = 1300(3,52) = 4576 quintales
Muestreo sistemtico
221
130 0,48
V ( X ) = N 2V ( x j ) = 1300 2 1 <
= 5625 m ( X ) = 75
1300 130
4576 80,5
X
El error relativo es bajo, por lo que la estimacin puede ser buena. Por otra parte, un
intervalo de confianza al 95% para la produccin total suponiendo normalidad en la
poblacin ser:
X h_ m ( X ) = 4576 2 u 75 = [4426 4726]
5.6.
.
.
.
Respuesta
4
10
16
5760
5766
5772
1
0
1
.
.
.
0
0
1
962
y
i =1
= 652
P = P j =
X
i =1
962
652
= 0,678
962
= 0,000196 m ( X ) = 0,014
= 1 <
V ( P ) = V ( P j ) = 1 <
1
5775
962
<
1
<
N
n
El lmite para el error de estimacin ser el radio del intervalo de confianza, o sea,
0,028 (2,8%).
5.7.
Un parque estatal cobra la admisin por automvil en lugar de por persona, y un funcionario
del parque quiere estimar el nmero promedio de personas por automvil para un da
concreto en particular durante el verano. El funcionario sabe por experiencia que entrarn al
parque alrededor de 400 automviles y quiere muestrear 80 de ellos. Para obtener una
estimacin de la varianza, utiliza el muestreo sistemtico replicado con 10 muestras de 8
automviles cada una. En la tabla siguiente se presentan los datos del nmero de personas
por automvil (entre parntesis):
Punto de inicio
aleatorio
2 (3)
5 (5)
7 (2)
13 (6)
26 (4)
31 (7)
35 (3)
40 (2)
45 (2)
46(6)
Segundo
elemento
52 (4)
55 (3)
57 (4)
63 (4)
76 (5)
81 (6)
85 (3)
90 (6)
95 (6)
96 (5)
Tercer
elemento
102 (5)
105 (4)
107 (6)
113 (6)
126 (7)
131 (4)
135 (2)
140 (2)
145 (3)
146 (4)
Cuarto
elemento
152 (3)
155 (2)
157 (2)
163 (7)
176 (4)
181 (4)
185 (3)
190 (5)
195 (6)
196 (6)
Quinto
elemento
202 (69
205 (4)
207 (3)
213 (2)
226 (2)
231 (3)
235 (6)
240 (5)
245 (4)
246 (3)
Sexto
elemento
252 (1)
255 (2)
257 (2)
263 (3)
276 (6)
281 (6)
285 (5)
290 (4)
295 (4)
296 (3)
Sptimo
elemento
302 (4)
305 (3)
307 (1)
313 (2)
326 (2)
331 (7)
335 (6)
340 (4)
345 (5)
346 (5)
yi
Octavo
elemento
352 (4)
3,75
355 (4)
3,38
357 (3)
2,88
363 (7)
4,62
376 (6)
4,5
381 (5)
5,25
385 (8)
4,5
390 (5)
4,12
395 (4)
4,25
396 (3)
4,38
Estimar el nmero promedio de personas por automvil y establezcer un lmite para el error
de estimacin.
Como tenemos varios arranques aleatorios, utilizaremos el mtodo de las muestras
interpenetrantes.
Muestreo sistemtico
223
1 t
1
x t = (3,75 + 3,38 + L + 4,38) = 4,16
t 1
10
V (xc ) = (1 < n / N )
1 t 2
1 t 2 t 2
1 t 2
2
<
=
<
<
(
1
/
)
(
1
/
)
x
t
x
n
N
x
x
=
<
n
N
i c
i i c
(xi < xc2 )
t(t < 1) i
t(t < 1) i
t(t < 1) i
1
177410<10* 4,162 = 0,0365
10(9 <1)
5.8.
Una empresa publicitaria est iniciando una campaa de promocin para un nuevo producto.
La empresa quiere muestrear clientes potenciales en una pequea comunidad para
determinar la aceptacin del producto. Para eliminar algo de los costos asociados con las
entrevistas personales, el investigador decide seleccionar una muestra sistemtica de entre N
= 5000 nombres listados en un registro de la comunidad y recolectar los datos mediante
entrevistas por telfono. Determinar el tamao de muestra requerido para estimar la
proporcin de personas que consideran <<aceptable>> el producto, con un lmite para el
error de estimacin de magnitud 0,03 (esto es, 3%).
Como el lmite para el error de la estimacin es 0,003, tenemos:
()
()
2 V P = 0,03 V P = 0,000225
5000(0,5)(0.5)
NP Q
=
= 909,240 5 910
( N < 1)V ( P ) + P Q 4999(0,000225) + (0,5)(0,5)
EJERCICIOS PROPUESTOS
5.1.
ui
Xi
u1
1
u2
3
u3
5
u4
2
u5
4
u6
6
u7
2
u8
7
u9
3
5.2.
En un directorio de 13 casas de una calle las personas estn distribuidas hogar a hogar como
sigue:
1
M
F
f
f
m
M
F
m
f
M
F
m
10
11
12
13
M
F
f
M
F
M M
F F
f
f
m m
f
f
M
F
m
f
M
F
M
F
m
m
f
M
F
f
m
M
F
m
f
M
F
f
m
M=varn adulto,
F=mujer adulta,
m=hijo varn,
f=hija
Se realiza muestreo sistemtico de una de cada 5 personas (muestreo 1 en 5), numerando los
elementos de la poblacin por columnas hacia abajo y luego yendo a la parte superior de la
siguiente columna (se empieza por la primera columna de la izquierda). Se pide lo siguiente:
1) Calcular el valor del coeficiente de correlacin ltst y hallar la varianza del estimador de la
proporcin de varones adultos en la poblacin utilizando la relacin entre muestreo sistemtico
y muestreo estratificado.
2) Qu muestra sistemtica es la mejor? Cul es la proporcin estimada de varones
adultos en la poblacin?
5.3.
CAPTULO
MUESTREO POR MTODOS INDIRECTOS.
RAZN, REGRESIN Y DIFERENCIA
OBJETIVOS
1. Presentar el concepto de estimacin no lineal.
2. Presentar el concepto de estimacin por mtodos indirectos.
3. Analizar el estimador de razn, su sesgo y su varianza.
4. Estimar el sesgo y la varianza del estimador por razn.
5. Analizar los estimadores y sus errores en muestreo estratificado con
reposicin.
6. Comprender la formacin de estimadores de magnitudes poblacionales
basados en la razn.
7. Estudiar los errores y su estimacin para estimadores indirectos basados en
la razn.
8. Analizar el estimador de razn, su sesgo y su varianza.
9. Obtener la varianza mnima para el estimador de regresin y su estimacin.
10. Comparar la estimacin indirecta por regresin con otros tipos de muestreo.
11. Analizar el estimador por diferencia, sesgo, varianza y sus estimaciones.
12. Comprender los mtodos indirectos en muestreo estratificado.
13. Analizar la estimacin por razn en muestreo estratificado.
14. Analizar la estimacin por regresin en muestreo estratificado.
15. Diferenciar entre estimadores separados y estimadores combinados.
16. Comparar las precisiones de los mtodos de estimacin indirecta con
estratificacin.
NDICE
1. Estimadores no lineales.
2. Muestreo por mtodos indirectos. El estimador de razn.
3. Estimaciones de los parmetros poblacionales basadas en la razn y errores.
4. Estimaciones por regresin y errores.
5. Estimaciones por diferencia y errores.
6. Estimadores de razn en el muestreo estratificado.
7. Estimadores de regresin en el muestreo estratificado.
8. Problemas resueltos.
9. Ejercicios propuestos.
227
ESTIMADORES NO LINEALES
Al estimar un parmetro poblacional la dificultad principal suele estar en el clculo del error
de muestreo (raz cuadrada de la varianza del estimador). Por esta razn, son muchos los
procedimientos analizados para la estimacin de varianzas. Segn Wotter (1985), podemos
clasificar las situaciones que se pueden presentar atendiendo a la naturaleza del parmetro a
estimar (parmetros lineales o no lineales) y al diseo muestral utilizado (diseos simples o
complejos). Se pueden estimar parmetros lineales en diseos simples, parmetros no
lineales en diseos simples, parmetros lineales en diseos complejos o parmetros no
lineales en diseos complejos. Aunque la mayor parte de la teora bsica de muestreo se basa
en el clculo de estimadores de parmetros lineales en diseos simples, tambin se han
desarrollado procedimientos para aproximacin lineal de estimadores que estn basados en
un desarrollo en serie de Taylor para obtener una aproximacin lineal del estimador y as
poder aplicar posteriormente toda la teora desarrollada para estimadores lineales.
Otras tcnicas, como los mtodos de replicacin de muestras, se basan en la
generacin de diversas muestras, todas bajo el mismo diseo muestral, con el fin de obtener
informacin acerca de la distribucin del estimador.
Adems existen otras tcnicas, como los mtodos de exploracin intensiva de una
muestra, que consisten en la generacin de muestras a partir de la muestra inicial, obtenida
mediante un determinado diseo, usando tcnicas muy variadas.
Estimadores no lineales. Mtodo general de linealizacin para la estimacin de varianzas
Supongamos un parmetro poblacional e del cual hemos obtenido un estimador no lineal
)(
e1 ,...,e k )
+ Tn
e < e 5 d e1 ,...,ek
)(
e1 ,...,e k )
k
, e1 ,...,ek
=
,er
r =1
(e1 ,...,e k )
(e
<er
() (
V e = E e < e
k , e ,...,e
1
k
5 E
r =1
,e r
<e
e
r
r
(e1 ,...,e k )
) (
k k , e ,...,e
1
k
< e , e 1 ,...,e k
= E
e
el < e l
r
r
r =1 l =1
,er
,
e
l
(e1 ,...,e k )
(e1 ,...,e k )
k
k
, e1 ,...,ek
, e1 ,...,ek
=
Cov er ,el
,er
,
e
r =1 l =1
l
(e1 ,...,e k )
(e1 ,...,e k )
_
_
un parmetro poblacional y R =
un estimador del mismo.
`
`
( )
, _ , `
R < R 5
,_
(_ , ` )
(_ < _ ) + , (_, ` )
,`
(_ , ` )
(` < ` )
() (
V R = E R < R
( )
, _ , `
5 E
,_
2
( ) (` < ` )
, _ , `
<_)+
(
_
,`
(_ , ` )
(_ , ` )
,R
,R
,R
+ 2 ,R
)+
(
=
V
_
V
`
Cov _ , `
,_
,`
,`
,
_
(_ , ` )
(_ , ` )
(_ , ` )
(_ , ` )
2
()
()
( )
( )
_
1 _
= 2 V (_ ) + < 2 V ` + 2 < 2 Cov _ , `
` `
`
`
1
= 2 V (_ ) + R 2V ` < 2 RCov _ , `
1
( )]
()
()
( )
V (_ ) V `
Cov _ , `
V R 5 R 2 2 + 2 < 2
_`
`
_
()
229
Y
i =1
, donde
( ) ( ) (
( ))
f X G = f X + b0 f (Y ) < f Y
X
= R , se obtiene el estimador de razn.
Y
X
X
X G = X +
Y < Y = Y = R Y = X R
Y
Y
X G = X + b Y < Y = X rg
X
y su estimador
Y
R =
x
i =1
n
y
i =1
X x
=
y
Y
X R = R Y
X R = R Y
Estos estimadores no son insesgados pero tienen varianza muy pequea y otras
propiedades que los hacen deseables. Sin embargo, es preciso conocer Y o Y para poder
calcularlos.
B ( R )
m R
lm R m y
Cov( R , y )
=<
B ( R ) = <
Y
Y
es una medida del sesgo por unidad de desviacin tpica, es decir, una medida
B ( R )
m R
B( R$ ) = < l( R$ , y )m R$ Cv ( y )
B( R$ )
m R$
= l( R$ , y ) u Cv ( y ) ) Cv ( y )
con lo que el sesgo relativo (mdulo del cociente entre el sesgo del estimador de la razn y
su desviacin tpica) est acotado por el coeficiente de variacin de y .
231
Entonces, para que el sesgo del estimador de la razn sea despreciable bastar con
que el coeficiente de variacin de la media muestral de la variable auxiliar sea menor que
1/10, ya que en este caso:
B( R$ )
m R$
) Cv ( y ) <
1
10
Se observa que el sesgo relativo es tanto menor cuanto menor sea Cv( y ). Adems,
para intentar eliminar la influencia del sesgo se tomarn tamaos de muestra tales que el
sesgo sea despreciable, es decir, tamaos de muestra tales que Cv( y ) < 1/10. Para hallar este
tamao de muestra en el muestreo sin reposicin operamos como se indica a continuacin:
n S2
SY2
1 < Y
100
N
N n
V ( y)
100 NSY2
1
m( y)
y2
Cv ( y ) =
=
=
<
n>
=
10
E( y)
Y
Y
Ny 2 + 100SY2
SY2
N + 100 2
y
Para hallar el tamao de muestra para el que el sesgo es despreciable en el muestreo
con reposicin operamos como se indica a continuacin:
mY2
V ( y)
mY2
100mY2
1
n
Cv ( y ) =
=
=
<
n>
= 100 2
E( y)
Y
Y
10
Y2
Y
m( y)
(1 < f ) $ $ 2 $
B$ ( R$ ) =
( RSY < S XY )
nY 2
Muestreo con reposicin
Como en muestreo con reposicin las varianzas poblacionales se estiman insesgadamente
por cuasivarianzas muestrales, tenemos:
1 2
B ( R ) =
RS Y < S XY
nY 2
()
N
N
1< f
1< f
N
V R = 2 u (S x2 + R 2 S y2 < 2 RS xy ) = 2
u X i2 + R 2 Yi 2 < 2 R X i Yi
Y n
Y n(N < 1) i
i
i
()
1
1
V R = 2 u (m x2 + R 2m y2 < 2 Rm xy ) = 2
Y n
Y nN
N
N
N
u X i2 + R 2 Yi 2 < 2 R X i Yi
i
i
i
()
n
n
1< f
1< f
n
V R = 2 u S x2 + R 2 S y2 < 2 R S xy = 2
u X i2 + R 2 Yi 2 < 2 R X i Yi
Y n(n < 1) i
Y n
i
i
la razn R. Tenemos:
()
n
n
1
1
n
V R = 2 u S x2 + R 2 S y2 < 2 R S xy = 2
u X i2 + R 2 Yi 2 < 2 R X i Yi
Y n
Y n(n < 1) i
i
i
233
2 1< f
S x2 + R 2 S y2 < 2RS xy
V ( X R ) = V ( R Y ) = Y 2V ( R ) = N
1< f 2
S x + R 2 S y2 < 2 RS xy
V ( X R ) = V ( R Y ) = Y 2V ( R ) =
n
N2
V(X R ) =V(RY) =Y 2V(R) = (m x2 + R2m y2 < 2Rm xy )
n
n
n
1< f 2 2 2
1< f n
2
2
2
S x + R S y < 2RS xy = N 2
+
<
X
R
Y
2
R
X i Yi
i
i
n
n ( n < 1) i
i
i
n
n
1< f 2 2 2
1< f n
2
2 Y 2 < 2 R X Y
S x + R S y < 2R S xy =
+
V ( X R ) =
X
R
i
i i
i i i
n
n(n < 1) i
N
V$ ( X$ R ) =
( S$
2
x
$$ =
+ R$ 2 S$ y2 < 2 RS
xy
1
$$ =
V$ ( X$ R ) = S$ x2 + R$ 2 S$ y2 < 2 RS
xy
(
n
N2
n ( n < 1)
n(n < 1)
X i2 + R 2
X i2 + R 2
n
i
Y i 2 < 2 R
Yi 2 < 2 R
X Y
i
X Y
i
Si y = Y , entonces X = x y V ( x ) = 0
X rg = x + b(Y < y )
2.
3.
expansin X rg = x
(
Si b = 1 se obtiene el estimador de la diferencia (X
x
Si b = R = , se obtiene el estimador de razn X rg = R Y = X R
y
rg
)
)
= x + (Y < y )
Tenemos:
bo = 0 x rg = x (estimador simple)
X rg = X + b Y < Y
235
1< f 2
(S x + bo2 S y2 < 2bo S xy ) , V (x rg ) = 1 < f S x2 + bo2 S y2 < 2bo S xy
n
n
( )
( )
2
N 2 (1 < f ) 2 2 2
(Sx + bo S y < 2bo Sxy ) , V X rg = N (1 < f ) S x2 + bo2 S y2 < 2bo S xy
V X rg =
n
n
1< f 2
N 2 (1 < f ) 2
Vmin (x rg ) =
S x (1 < l 2 ) , Vmin X rg =
S x (1 < l 2 )
n
n
( )
1 2
(m x + bo2m y2 < 2bom xy ), V (x rg ) = 1 S x2 + bo2 S y2 < 2bo S xy , Vmin (x rg ) = 1 S x2 (1 < l 2 )
n
n
n
( )
( )
2
2
N2 2
(m x + bo2m y2 < 2bom xy ) , V X rg = N S x2 + bo2 S y2 < 2bo S xy , Vmin X rg = N Sx2 (1 < l 2 )
V X rg =
n
n
n
( )
Hasta aqu hemos considerado el caso en que b0 es constante. Sin embargo, cuando
se desconoce b0 o es variable, suelen utilizarse los resultados anteriores, estimando b0
mediante la expresin:
n
S
b0 = ` = XY2 =
SY
(X
i
(Y
i
< y)
( )
( )
( )
1< f 2
V X$ = V ( x ) =
Sx
n
1< f 2
V X$ R =
S x + R 2 S y2 < 2 RS x S y u l xy
n
1< f 2
Vmin X$ rg = Vmin xrg =
S x 1 < l xy2
n
( )
( )
igual al caso l xy = 0 , es decir, al caso de correlacin nula entre X e Y. Por lo tanto, cuando la
variable auxiliar y la variable en estudio estn incorreladas no se gana en precisin por
considerar el mtodo indirecto de estimacin por regresin respecto de considerar el muestreo
aleatorio simple. En el resto de los casos la estimacin indirecta por regresin supera en
precisin a la estimacin aleatoria simple.
Por otra parte:
( )
( )
1< f 2
1< f 2
S x (1 < l 2 xy ) * 0
( S x + R 2 S y2 < 2 RS x S y l xy ) <
n
n
1< f
1< f
RS y < l xy S x
R 2 S y2 < 2 RS x S y l xy + S x2 l xy2 * 0
n
n
*0
RS y < l xy S x = 0 R = l
Sx
=`
Sy
( )
( ) (
( ) ( )
1
V X$ = V ( x ) = m x2
n
1
V X$ R = m x2 + R 2m y2 < 2 Rm xm y u l xy
n
1
Vmin X$ rg = Vmin xrg = m x2 1 < l xy2
n
237
( )
igual al caso l xy = 0 , es decir, al caso de correlacin nula entre X e Y. Por lo tanto, cuando
la variable auxiliar y la variable en estudio estn incorreladas no se gana en precisin por
considerar el mtodo indirecto de estimacin por regresin respecto de considerar el
muestreo aleatorio simple. En el resto de los casos la estimacin indirecta por regresin
supera en precisin a la estimacin aleatoria simple.
Por otra parte:
( )
( )
1 2
1
(m x + R 2m y2 < 2 Rm xm y l xy ) < m x2 (1 < l 2 xy ) * 0
n
n
1 2 2
1
R m y < 2 Rm xm y l xy + m x2 l xy2 * 0 Rm y < l xym x
n
n
*0
Rm y < l xym x = 0 R = l
S
mx
=l x =`
Sy
my
X = N ( x < y ) + Y = D T + Y = ND + Y
Las varianzas y sus estimaciones para los estimadores de la media y el total basados
en la diferencia, coinciden con las varianzas y sus estimaciones de los propios estimadores
diferencia. Para muestreo sin reposicin tenemos:
1< f 2
V ( X ) = V ( D + Y ) = V ( D ) =
S x + S y2 < 2S xy
n
( Y es una constante)
1< f 2
S x + S y2 < 2 S xy (Y es una constante)
V ( X ) = V ( D T + Y ) = V ( D T ) = N 2
n
()
1< f 2 2
1< f 2 2
V ( X ) = V D =
S x + S y < 2 S xy , V ( X ) = V ( D T ) = N 2
S x + S y < 2 S xy
n
n
1
V ( X ) = m x2 + m y2 < 2m xy
n
1
V ( X ) = V D = S x2 + S y2 < 2 S xy
n
( ) (
1
V ( X ) = N 2 m x2 + m y2 < 2m xy
n
1
V ( X ) = V ( D T ) = N 2 S x2 + S y2 < 2 S xy
n
X st
, y se multiplica este cociente por el total de la
Y
st
x
X RS = X Rh = R hYh = h Yh
h =1 y h
h =1
h =1
L
Se observa que es la suma de los estimadores de razn para el total en los diferentes
estratos. En general este estimador es sesgado, por serlo R h h = 1, ..., L .
Sesgo del estimador de razn simple o separado y su estimacin
Muestreo sin reposicin
L
L
L
L
X
B ( X RS ) = E ( X RS ) < X = E ( R hYh ) < X h = E ( R h )Yh < h Yh =
h
h
h
h Yh
L
239
Se observa que el sesgo total es la suma de los sesgos en cada estrato ponderados
por los Yh. Para muestreo sin reposicin la expresin del sesgo ser:
L
L
L
(1 < f h )
N h2 (1 < f h )
2
<
=
B( X RS ) = Yh B ( R h ) = Yh
R
S
S
Rh S Yh2 < S XYh
h Yh
XYh
2
n h Yh
n hYh
h
h
h
{
Yh2 N h2
N h2 (1 < f h ) 2
n Y Rh SYh < S XYh
h h
h
L
h Yh
XYh
2
n
Y
n
Y
h {
h
h
h
h h h
Yh2 N h2
L
N2
que puede estimarse como: B ( X RS ) = h R h SYh2 < S XYh
h nh Yh
N
N
L
N h2 (1 < f h ) N
N (1 < f h ) 2
2 2
2
2
2
(
)
+
<
=
+
<
2
X
R
Y
R
2
S
R
S
R
S
n
n ( N < 1) i hi h i hi
xh
h
yh
h xyh
h X hi Yhi
h
h h h
h
L
2
h
L
N 2 (1 < f h ) 2
V ( X RS ) = h
S xh + R h2 S yh2 < 2 R h S xyh =
n
h
h
2
n
n
n
L
N (1 < f h )
h n h (nh < 1) i
h
1
V ( X RS ) = V ( R h u Yh ) = Y h2uV ( R h ) = Y h2 u 2 (m xh2 + Rh2m yh2 < 2 Rhm xyh ) =
h
h
h ? Yh n h
L
N h2Yh2
2
h
N
n (m
2
xh
2
h
N
N
L
N
N
X hi2 + Rh2 Yhi2 < 2 Rh X hi Yhi
+ Rh2m yh2 < 2 Rhm xyh ) =
i
i
h n h ( N h < 1) i
h
nh 2
N h2
N h2 $ 2
2 $2
$
$
$
$
$
S xh + Rh S yh < 2 Rh S xyh =
V ( X RS ) =
X hi + R$ h2 Yhi2 < 2 R$ h X hi Yhi
i
i
h nh (nh < 1) i
h nh
x
X$ Rh = h u Yh = R$ h u Yh . Como en muestreo estratificado la estimacin del total se forma
yh
sumando las estimaciones de las medias en cada estrato ponderadas por los W h =Nh/N
( Xst =
W X$
h =1
X$ RS = Wh X$ Rh = Wh R$ h u Yh
h
h
Este estimador para la media puede expresarse como:
L
L
L
N
Y
X$
1 L
X$ RS = Wh X$ Rh = Wh R$ h u Yh = h R$ h u h = R$ h Yh = RS
Nh N h
N
h
h
h N
Luego todas las frmulas para el estimador de la media pueden obtenerse a partir de
las frmulas correspondientes ya vistas para el estimador del total.
Muestreo sin reposicin
El valor de la varianza de este estimador para muestreo sin reposicin ser:
L
N h2 (1 < f h ) 2
1
2
< 2 R h S xyh =
V ( X$ RS ) = 2 V ( X$ RS ) = 2
S xh + R h2 S yh
n
N
N
h
h 123
Wh2
Nh
Nh
Wh2 (1 < f h ) N h 2
2
2
+
<
2
X
R
Y
R
n ( N < 1) hi h hi
h X hi Yhi
i
i
i
h h h
L
L
W 2 (1 < f h ) 2
V ( X RS ) = h
S xh + R h2 S yh2 < 2 R h S xyh =
nh
h
2
n
n
L
W (1 < f h ) n
X hi2 + R h2 Y hi2 < 2 R h X hi Y hi
= h
i
i
h n h ( n h < 1) i
h
241
Se observa que el sesgo total es la suma de los sesgos en cada estrato ponderados
por los Yh/N. Para muestreo sin reposicin la expresin del sesgo ser:
L
L
N 2 (1 < f h )
1
(Rh S Yh2 < S XYh ) = Wh (1 < f h ) (Rh SYh2 < S XYh )
B( X RS ) = B( X RS ) = h
N
n h Yh
h Nn h Yh
h
Wh (1 < f h ) 2
Rh S Yh < S XYh
nhYh
h
L
Wh2
n N
h h h
L
Nh
Nh
Nh 2
n
n
L
L
W2
Wh2
n
h nh
h nh (nh < 1) i
h
2
2
< m XYh = h R hm Yh
< m XYh
R h m Yh
B ( X RS ) = B ( X RS ) =
N
h Nn h Yh
h n h Yh
Wh
n Y
h
h h
(R S
h
2
Yh
< S XYh
xst X st
Se considera inicialmente la razn de los estimadores estratificados R$C =
= $ , y se
y
Yst
st
forma el estimador del total X RC = RC u Y (ya que el estimador del total basado en la razn
es X$ = R$ u Y ).
Muestreo sin reposicin
El valor de la varianza de este estimador para muestreo sin reposicin ser:
1
V ( X RC ) = V ( R C u Y ) =Y 2uV ( R C ) = Y 2 u 2 ( V ( x st ) + R 2 V ( y st ) < 2RCov( x st , y st ))
123
123
142
4 43
4
{ Y
S
S
S
N Y
W (1< f ) n
W (1< f ) n
W (1< f ) n
2
N2
h
2
h
2
h
2
Xh
2
h
2
h
2
Yh
2
h
XYh
h
N
L
W (1 < f h ) 2
(S xh + R 2 S yh2 < 2R S xyh ) = N 2 W (1 < f h ) X hi2 + R 2 Yhi2 < 2R X hiYhi
nh
i
i
h nh ( N h < 1) i
Nh
Nh
Wh2 (1< fh ) nh 2 2 nh 2
Wh2 (1< fh ) $2 $ 2 $2
2
2
$
$
$
$
V( XRC ) = N
Sxh + R Syh < 2R Sxyh = N
Xhi + R Yhi < 2RXhiYhi
nh
i
i
h
h nh (nh < 1) i
X
B ( X$ RC ) = E ( X$ RC ) < X = E ( R$ C Y ) < Y = E ( R$ C )Y < RY = ( E ( R$ C ) < R ) Y = B ( R$ C )Y
Y
Se observa que para el sesgo total no se acumulan los sesgos en cada estrato. Para
muestreo sin reposicin la expresin del sesgo ser:
L
S2
B ( X RC ) = B ( RC )Y =
u
=
( RS Yh
<S XYh )
Y
N
h
nh Y
Y{2
Y2 / N2
L
Wh2 (1 < f h ) $ $ 2
2
$
$
que puede estimarse como: B ( X RC ) = N
( RSYh < S$ XYh )
n
Y
h
h
243
1
V ( X RC ) = V ( R C u Y ) =Y 2uV ( R C ) = Y 2 u 2 (V ( x st ) + R 2 V ( y st ) < 2 R Cov ( x st , y st ) )
123
142
4 43
4
{ Y 123
m
m
m
N Y
W n
W n
W n
2
2
h
2
h
2
Xh
2
h
2
h
2
Yh
2
h
XYh
h
N
N
N
L
L
W
(m xh2 + R 2m yh2 < 2 R m xyh ) = N 2 W X hi2 + R 2 Yhi2 < 2 R X hi Yhi
N2
i
i
h nh
h nh N h i
h
Wh2 $ 2 $ 2 $ 2
Wh2 nh 2 $ 2 nh 2
2
2
$
$
$
$
V ( X RC ) = N
Sxh + R S yh < 2 RS xyh = N
X hi + R Yhi < 2 R$ X hiYhi
i
i
h nh
h nh (nh < 1) i
2
2 m Yh
h
h
2 m XYh
h
h
W n
W n
h
h
6
78 647
48
2
L W
<
(
)
(
R
V
y
Cov
x
2
st
st , y st )
h
u
=
( Rm Yh2 <m XYh )
Y
N
B( X RC ) = B( R C )Y =
h n Y
Y{2
h
Y2 / N2
Wh $ $ 2 $
que puede estimarse como: B$ ( X$ RC ) = N 2
( RSYh < S XYh )
h nhY
L
xst X$ st
$
Se considera inicialmente la razn de los estimadores estratificados RC =
, y se
=
yst Y$st
forma el estimador de la media X RC = R C u Y (ya que el estimador del total basado en la
$
razn es X = R$ u Y ).
Muestreo sin reposicin
El valor de la varianza de este estimador para muestreo sin reposicin ser:
1
V ( X RC ) = V ( R C u Y ) =Y 2uV ( R C ) = Y 2 u 2 ( V ( x st ) + R 2 V ( y st ) < 2 RCov( x st , y st ))
123
123
142
4 43
4
Y
S
S
S
W
f
W
f
(
1
)
(
1
)
<
<
W
f
(
1
)
<
n
n
n
L
2
h
2
h
2
h
2
Xh
2
h
2
Yh
2
h
XYh
h
W (1 < f h ) 2
(S xh + R 2 S yh2 < 2R S xyh ) = W (1 < f h ) X hi2 + R 2 Yhi2 < 2R X hi Yhi
nh
i
i
h
h n h ( N h < 1) i
L
Nh
Nh
Nh
n
n
L
L
W 2 (1 < fh ) 2 2 2
W 2 (1 < fh ) n 2
X hi + R2 Yhi2 < 2R X hiYhi
V ( X RC ) = h
Sxh + R S yh < 2R Sxyh = h
nh
i
i
h
h nh (nh < 1) i
h
X
B( X$ RC ) = E ( X$ RC ) < X = E ( R$ C Y ) < Y = E ( R$ C )Y < RY = ( E ( R$ C ) < R) Y = B( R$ C )Y
Y
Se observa que para el sesgo total no se acumulan los sesgos en cada estrato. Para
muestreo sin reposicin la expresin del sesgo ser:
L
2
SYh
S XYh
W (1< f ) n
W (1< f ) n
h
678
6h 47
4 48
4
2
L W (1 < f )
R
V
(
y
)
Cov
(
x
,
y
<
st
st
st )
h
h
B ( X RC ) = B ( R C )Y =
Y
( RS Yh2 <S XYh )
u
=
2
h
nhY
Y
2
h
2
h
L
Wh2 (1 < f h ) $ $ 2
$
$
que puede estimarse como: B ( X RC ) =
( RSYh < S$ XYh )
n
Y
h
h
2
h
2
h
2
h
W
(m xh2 + R 2m yh2 < 2 R m xyh ) = W
h nh
h nh N h
L
2
Xh
2
h
2
Yh
2
h
XYh
h
Nh
Nh
Nh
n
n
L
L
W2
Wh2
n
h nh
h n h (n h < 1) i
h
2
m Yh
m XYh
W n
W n
h
h
6
78 647
4
48
4
2
L W
R
V
(
y
)
Cov
(
x
,
y
<
st
st
st )
h
B( X RC ) = B( R C )Y =
u
Y
=
( Rm Yh2 <m XYh )
h n Y
Y2
h
2
h
2
h
Wh $ $ 2 $
$
que puede estimarse como: B$ ( X RC ) =
( RSYh < S XYh )
h nhY
L
245
x rgst = Wh x rgh , y el
h
estimador combinado, obtenido directamente a partir de las medias estratificadas, que vale
x rgc = x st + b Y < y st .
E ( xrgst ) = Wh E ( xrgh ) = Wh X h = X
( )
( )
1< fh 2
2
( S Xh + bo S Xh
< 2bo S XYh )
nh
( )
S XYh
2
SYh
( )
( )
L
1< f h 2
1< f h 2
2
( S Xh + ` h S Xh
< 2 ` h S XYh ) = Wh2
Sxh (1 < l 2 xyh )
nh
n
h
h
( )
N
h
x rgh se tiene:
L
L
L
1< f h 2
1< f h 2
2
V X$ rgst = N h2V xrgh = N h2
S (1 < l 2 xyh )
( S Xh + ` h S Xh
< 2 ` h S XYh ) = N h2
nh
nh xh
h
h
h
( )
( )
( )
1 2
(m + b m 2 < 2bom XYh )
nh Xh o Xh
( )
S XYh m XYh
= 2
mYh
SYh2
( )
( )
L
1 2
1
2
(m Xh + ` hm Xh
< 2 ` hm XYh ) = Wh2 m xh2 (1 < l 2 xyh )
nh
nh
h
( )
( )
L
L
1 2
1
2
V$min X$ rgst = N h2 ( S$ Xh
+ `$h S$ Xh
< 2 `$h S$ XYh ) = N h2 S$xh2 (1 < l$ 2 xyh )
nh
nh
h
h
Estimador combinado
Muestreo sin reposicin
El estimador combinado para la media se forma como:
x st = Wh xh
h
y st = Wh yh
h
( )
V xrgc = V ( xst ) + bo2V ( Y < yst ) < 2bo cov( xst , Y < yst ) =
L
Wh2 ( 1 < f h )
2
u S xh2 + bo2 S yh
< 2bo S xyh
nh
247
Para hallar el valor de bo que minimiza esta expresin, igualamos a cero su derivada
respecto de bo y tenemos:
Wh2 ( 1 < f h )
n u S xyh
h
h
L
L
Wh2 ( 1 < f h ) 2
Wh2 ( 1 < f h )
2b0
u S yh < 2
u S xyh = 0 bo =
nh
nh
h
h
L
Wh2 ( 1 < f h ) 2
n u S yh
h
h
L
Wh2 ( 1 < f h ) 2
n u S yh ` h
h
h
L
S xyh
Pero como ` h =
2
, se tiene bo =
S xyh = ` h S yh
2
S yh
Wh2 ( 1 < f h ) 2
n u S yh
h
h
L
El valor bo que minimiza la varianza del estimador combinado es entonces una medida
ponderada de los coeficientes de regresin `h, siendo las ponderaciones dadas por
L
th =
W (1 < f h ) 2
u S yh , de tal forma que se puede escribir bo =
nh
2
h
t `
h
t
h
= ` c , pudiendo
( )
1< fh
2
u S xh2 + ` c2 S yh
< 2 ` c S xyh
nh
1< fh $2
2
V$min xrgc = Wh2
u S xh + `$c2 S$yh
< 2 `$c S$xyh
n
h
h
l
( )
donde:
L
t$ `$
`$c =
t$
h
, t$h =
S$xyh
Wh2 ( 1 < f h ) 2
u S$ yh y `$h = $ 2 .
nh
S yh
) (
( )
Wh2 ( 1 < f h )
nh
2
u S xh2 + bo2 S yh
< 2bo S xyh
1< fh
2
Vmin X$ rgc = N 2 Wh2
u S xh2 + ` c2 S yh
< 2 ` c S xyh
nh
h
W2
th = h u m yh2 , de tal forma que se puede escribir bo =
nh
t `
h
t
h
( )
= ` c , pudiendo expresarse la
1
u m xh2 + ` c2m yh2 < 2 ` cm xyh
nh
( )
donde:
L
`$c =
t$ `$
h
t$
h
, t$h =
S$xyh
Wh2 $ 2
u S yh y `$h = $ 2 .
nh
S yh
Wh
V X$ rgc = V Nx rgc = N 2V x rgc = N 2
u m xh2 + bo2m yh2 < 2bom xyh
h nh
) (
( )
249
[ (
= u h (` c < ` h ) * 0
2
h =1
PROBLEMAS RESUELTOS
6.1.
En un estudio para estimar el contenido total de azcar de una carga de naranjas, se pes una
muestra de 10 naranjas, y se extrajo su jugo para pesar el contenido de azcar. Se obtuvieron los
siguientes resultados:
Naranja
Contenido de azcar
1
2
3
4
5
6
7
8
9
10
0,021
0,030
0,025
0,022
0,033
0,027
0,019
0,021
0,023
0,025
Peso de la naranja
0,40
0,48
0,43
0,42
0,50
0,46
0,39
0,41
0,42
0,44
1) Sabiendo que el peso de todas las naranjas es 1800, estimar el contenido total de azcar de las
naranjas y su error de muestreo.
2) Estimar dichas varianzas y comparar la precisin de este tipo de muestreo con la del muestreo
aleatorio simple. Seleccionar la muestra ms precisa.
Como disponemos de informacin de una variable adicional muy correlacionada con
la variable en estudio (l = 0,99), podemos realizar la estimacin del contenido total de
azcar de las naranjas utilizando el estimador del total basado en la razn. Mediante el
procedimiento Estadstica descriptiva de la opcin Anlisis de datos del men Herramientas
(Figura 6-1), podemos calcular los estadsticos ms relevantes relativos a la variable en
estudio y a la variable adicional. La Figura 6-2 muestra los resultados.
Las frmulas para los clculos del estimador del total y de su error en la estimacin
1< f 2 2 2
por razn, V$( X$ R ) = N 2
Sx + R Sy < 2RSxy , se muestran en la Figura 6-3, y los resultados
n
en la Figura 6-4.
Figura 6-1
Figura 6-2
251
Figura 6-3
Figura 6-4
6.2.
X i = 420
i =1
80
Yi = 190
i =1
80
X i2 = 2284
i =1
80
Yi 2 = 512
i =1
80
X Y
i =1
i i
= 1045
S x2 =
X
<
X
=
1
,
S
=
Y
<
Y
= 0,768
i n
i n
i
y
i
n < 1 i =1
n < 1 i =1
i =1
i =1
1 80
1 80
80
X i Yi < X i Yi = 0,6012
S xy =
n < 1 i =1
n i =1 i =1
x=
1 80
X i = 5,25
n i =1
y=
1 80
Yi = 2,375
n i =1
y y
La razn Y/X se estima mediante R = = = 0,452 .
x
(1 < f ) 2
(1 < 80 / 500)
(0,452 u 1 < 0,6012) = <0,0000568
B ( R ) =
RS x < S XY =
2
nx
80 u 5,25 2
El error de muestreo del estimador de la razn se estima mediante:
m (R ) =
(1 < f ) 2 2 2
(1 < 80/ 500)
(0,768+ 0,4522 u1 < 2 u 0,452u 0,6012) = 0,0128
S y + R Sx < 2R SXY =
2
2
nx
80 u 5,25
Para ver si el sesgo del estimador de la razn es influyente hallamos el valor del sesgo
relativo
B ( R ) 0,0000568
=
= 0,004 < 0,1 , por lo que el sesgo es despreciable.
0,0128
m ( R )
y<y =
S xy
( x < x ) y = 0,6012 x < 0,78
S 2
x
S xy
0,7 es alto.
S S
x
253
y
10000
y
Y = R X = X = 0,452 u
= 9,04 Y = R X = X = 0,452 u 10000 = 4520
x
500
x
(1 < f ) 2 2 2
V (Y ) =
S y + R S x < 2R S XY =
n
80
)
500 0,768 + 0,4522 u1 < 2 u 0,452 u 0,6012 = 0,0073
80
(1 <
(1 < f ) 2 2 2
V (Y ) = N 2
S y + R S x < 2 R S XY = 500 2 u 0,0073 = 1825
n
S xy
0,6012 1000
1 500
Sx
rg
80
500 0,768(1 < 0,7 2 ) = 0,004
80
1<
(1 < f ) 2
Vmin (Yrg ) =
S y 1 < l 2 =
n
2
V (Y ) = N V (Y ) = 500 2 u 0,004 = 1000
min
rg
min
rg
10000
Y = D + X = y < x + X = 2,375 < 5,25 +
= 17,125
500
Y = D + X = N ( y < x ) + NX = NY = 500 u 17,125 = 8562,5
T
(1 < f ) 2 2
V (Y ) = V ( D + X ) = V ( D ) =
S y + S x < S XY = 0,009
n
V (Y ) = V ( D T + X ) = V ( D T ) = N 2V ( D ) = 500 2 u 0,009 = 2250
Ahora calculamos estimadores y varianzas para muestreo aleatorio simple.
Yas = y = 2,375
80
500 0,768 = 0,008
80
1<
(1 < f ) 2
V (Yas ) =
Sy =
n
V (Y ) = N 2V (Y ) = 500 2 u 0,008 = 2000
as
as
0,7 = l >
1 C x
2 C y
1 C x S x
1
=
R=
0,452 = 0,5157
2 C y S y
0,678
Por lo tanto, el muestreo basado en la razn es ms preciso que el aleatorio simple. Ello
implica que el muestreo basado en la regresin tambin es ms preciso que el aleatorio simple.
Sin embargo, ya hemos visto que el muestreo por diferencia es ligeramente menos preciso que el
aleatorio simple.
La ganancia en precisin del estimador de regresin sobre el aleatorio simple es G =
(0,008/0,004 < 1)100 = 100%.
La ganancia en precisin del estimador de razn sobre el aleatorio simple es G =
(0,008/0,0073< 1)100 = 9,5%.
La ganancia en precisin del estimador aleatorio simple sobre el de diferencia es G =
(0,009/0,008< 1)100 = 12,5%.
Muestreo con reposicin
Las estimaciones de la media y total valen lo mismo que en muestreo sin reposicin.
Calculamos las estimaciones de las varianzas de los estimadores para estimacin indirecta
por razn.
1
V (Y ) = S y2 + R 2 Sx2 < 2 R S XY = 0,00869
n
1
V (Y ) = N 2 S y2 + R 2 S x2 < 2 R S XY = 2172,5
n
1
1
Vmin (Yrg ) = S y2 1 < l 2 = 0,768(1 < 0,7 2 ) = 0,00476
n
80
2
V (Y ) = N V (Y ) = 500 2 u 0,00476 = 11900
min
rg
min
rg
1
V (Y ) = V ( D + X ) = V ( D ) = S y2 + S x2 < S XY = 0,0107
n
V (Y ) = V ( D T + X ) = V ( D T ) = N 2V ( D ) = 500 2 u 0,0107 = 2675
Ahora estimamos varianzas para muestreo aleatorio simple.
1
1
V (Yas ) = S y2 = 0,768 = 0,0096
n
80
2
V (Y ) = N V (Y ) = 500 2 u 0,0096 = 2400
as
as
255
6.3.
De los N = 750 trabajadores de una fbrica se conoce que el nmero medio de das anuales de
ausencia del trabajo sin justificar para las mujeres (variable X) es 10 y para los hombres
(variable Y) es 8. Se sabe que el error cometido al cuantificar la media de la variable X es 2500
y que la razn de la covarianza de X e Y a la varianza de X es 0,6. Determinar a partir de qu
tamao muestral el sesgo del estimador de la razn Y/X es despreciable utilizando muestreo sin
y con reposicin. Qu mtodo de estimacin indirecta sera el ms adecuado a utilizar sobre
muestras de esta poblacin?
Determinar a partir de qu tamao muestral el sesgo del estimador de la razn Y/X es
despreciable utilizando muestreo sin y con reposicin. Qu mtodo de estimacin indirecta
sera el ms adecuado a utilizar sobre muestras de esta poblacin?
El enunciado del problema nos da como datos:
X = 10 ,
Y = 8 , m x2 = 2500 y
N u 100 u S x2
obtiene que n *
=
NX 2 + 100S x2
m xy
= 0,6
m x2
B( R )
sea menor que un dcimo se
m ( R )
750
2500
749
= 577 .
750
2
750 u 10 + 100
2500
749
750 u 100 u
En caso de muestreo con reposicin la misma condicin de sesgo relativo menor que un
m2
2500
dcimo nos lleva a n * 100 x2 = 100
= 2500 , que sobrepasa el tamao poblacional (con
100
X
los datos del problema nunca podra ser el sesgo despreciable).
La recta de regresin de Y sobre X tiene de ecuacin y < y =
S xy
(x < x)
S 2
x
y < 8 = 0,6( x < 10) y = 0,6 x + 2 , lo que indica que la estimacin por razn podra
ser adecuada al no ser demasiado grande la ordenada en el origen. La estimacin por
regresin siempre es el mtodo ms adecuado. La pendiente de la recta no es unitaria, con lo
que no es muy apropiada la estimacin por diferencia.
6.4.
Para estudiar el grado medio de implantacin de un determinado cultivo en una regin se obtuvo
una muestra de 100 fincas para las que se midi la superficie dedicada al cultivo en estudio
(variable X) y su superficie total (variable Y), obtenindose los datos que se presentan en la tabla
adjunta. Se pide:
1) A la vista de la informacin, justificar si ser adecuado el uso de los mtodos indirectos de
muestreo respecto del muestreo aleatorio simple y estudiar qu mtodos sern los ms adecuados
expresndolos por orden de preferencia. Hallar los errores relativos de muestreo para los
diferentes mtodos cuantificando sesgos y ganancias en precisin y razonando adecuadamente
los resultados. Contrastar tambin los resultados obtenidos considerando muestreo con reposicin
y sin reposicin.
2) Dada la estructura de las fincas se consider conveniente realizar una estratificacin segn la
variable superficie total de la fincas. Se consideraron dos estratos relativos a fincas de superficie
total superior a una hectrea y a fincas de superficie total menor o igual que una hectrea. Los
datos obtenidos tambin se presentan en la tabla adjunta. A la vista de esta informacin, justificar
si sern adecuados los mtodos de estimacin indirecta con estratificacin y cul de entre ellos
puede resultar mejor. Hallar los errores relativos de muestreo para los diferentes mtodos de
estimacin con muestreo estratificado cuantificando sesgos y ganancias en precisin y razonando
adecuadamente los resultados. Contrastar tambin los resultados obtenidos considerando
muestreo con reposicin y sin reposicin.
Superficie
2
Nh
S yh
de las fincas
1
0< 1Ht
1580 2055
> 1Ht
2
430 7357
Poblacin
7619
Estratos
2
S xh
l xyh
yh
xh
nh
257
S xy
= 0,67 , por lo que la utilizacin de mtodos
S S
x
S xy
1453
( y < y ) x < 26,3 =
( y < 117,28) x = 0,19 y + 4
2
7619
Sy
2
x = Wh x h =
h =1
2
y = Wh y h =
h =1
N1
N
1580
430
x1 + 2 x 2 =
19,4 +
51,63 = 26,3
N
N
2010
2010
N1
N
1580
430
y1 + 2 y 2 =
82,56 +
244,85 = 117,28
N
N
2010
2010
x
26,30
R = =
= 0,224
y 117,28
Observamos que la recta de regresin de X sobre Y tiene una ordenada en el origen que
no se anula, pero es pequea (comparada con los valores medios de X e Y), lo que indica que
puede ser razonable la estimacin indirecta de los parmetros poblacionales utilizando estimacin
basada en la razn. Adems el sesgo del estimador de la razn ser pequeo porque la recta de
regresin est prxima a pasar por el origen. Evidentemente, la estimacin indirecta basada en
regresin ser la ms apropiada, como ocurre siempre. La estimacin indirecta basada en la
diferencia ser la menos apropiada, ya que la pendiente de la recta de regresin no se aproxima a
la unidad.
1 C y
El estimador basado en la razn mejora al aleatorio simple si se cumple l >
2 C
1 C y S y 1 7619 26,30
0,67 = l >
=
R=
= 0,393
2 C x S x
2 620 117,28
Por lo tanto, el muestreo basado en la razn es ms preciso que el aleatorio simple. Ello
implica que el muestreo basado en la regresin tambin es ms preciso que el aleatorio simple. Sin
embargo, ya hemos razonado que el muestreo por diferencia probablemente ser menos preciso
que el aleatorio simple, y, por tanto, tambin ser menos preciso que la estimacin por razn y
regresin. Vamos a realizar los clculos de varianzas.
Muestreo sin reposicin
Comenzamos hallando el error para la estimacin de la media (grado medio de implantacin
del cultivo medido a travs de la superficie dedicada al cultivo) de la variable en estudio X
basada en la razn de X a la variable auxiliar Y.
(1 < f ) 2 2 2
V ( X ) =
S x + R S y < 2R S XY =
n
100
)
2010 620 + 0,2242 u 7619 < 2 u 0,224 u1453 = 3,335
100
(1 <
100
2010 620(1 < 0,67 2 ) = 3,24
100
1<
(1 < f ) 2 2
S x + S y < S XY =
V ( X ) = V ( D + Y ) = V ( D ) =
n
100
2010 (620 + 7619 < 1453) = 64,4
100
1<
1<
(1 < f ) 2
V ( X as ) =
Sx =
n
(1 < f ) 2
B ( R ) =
RS y < S XY
ny 2
100
2010 (0,224 u 7619 < 1453) = 0,02
=
100 u 117,28
1<
1
1
V ( X ) = Sx2 + R 2 S y2 < 2 R S XY =
620 + 0,2242 u 7619 < 2 u 0,224 u 1453 = 3,51
n
100
259
1
1
Vmin ( X rg ) = S x2 1 < l 2 =
620(1 < 0,67 2 ) = 3,41
n
100
1
1
V ( X ) = V ( D + Y ) = V ( D ) = S x2 + S y2 < S XY =
(620 + 7619 < 1453) = 67,78
n
100
S 2 620
V ( X as ) = x =
= 6,2
n 100
Se observa que la menor varianza la presenta el estimador basado en la regresin,
seguido del estimador basado en la razn, el estimador aleatorio simple y el estimador
basado en la diferencia. Estos resultados son superiores a los correspondientes a muestreo
sin reposicin debido a que el muestreo con reposicin es menos preciso.
El sesgo del estimador de la razn se estima mediante:
1
(1 < 600 / 1500)
(2 u 7 < 3,75) = 0,0005
B ( R ) = 2 R S y2 < S XY =
ny
600 u 5,58 2
Consideramos ahora la estratificacin en dos estratos segn la superficie total de las
fincas, y vamos a considerar las estimaciones separada y combinada para la media en razn
y regresin para calcular sus errores de muestreo y sus sesgos.
Comenzaremos determinando valores necesarios en todos los clculos posteriores, como
son: W1 = 1580/2010 = 0,786, W2 = 430/2010 = 0,214, f1 = 70/100 = 0,7, f2 = 30/100 = 0,3, R1 =
19,40/82,56 = 0,235, R 2 = 51,63/244,85 = 0,21, Sxy1 = l xy1Sx Sy = 496,4 y Sxy2 = l xy2Sx Sy = 781,3.
nh
L
W 2 (1 < f h ) 2
B ( X RC ) = h
RS Yh < S XYh =0,83/ Y . Las operaciones a realizar son:
nhY
h
W
V ( X RC ) = h S xh2 + R 2 S yh2 < 2 R S xyh = 3,1375 .
h nh
L
W
B ( X RC ) = h R SYh2 < S XYh =1.00456/ Y
h nhY
L
L
W 2 (1 < f h ) 2
2
V ( X RS ) = h
S xh + R h2 S yh
< 2 R h S xyh = 1,49.
n
h
h
El valor del sesgo del estimador simple o separado sin reposicin puede estimarse
L
W (1 < f h ) 2
Rh S Yh < S XYh = 0,0029. Y 1 e Y 2 se estimarn mediante y 1
como: B ( X RS ) = h
nh Yh
h
e y 2 respectivamente. Los clculos a realizar seran:
La varianza del estimador separado de la media para muestreo con reposicin puede
2
L
estimarse como V ( X RS ) = Wh Sxh2 + Rh2 S yh2 < 2Rh Sxyh = 3,09792.
h nh
Para muestreo con reposicin la expresin del sesgo puede estimarse como:
L
W
B ( X RS ) = h R h SYh2 < S XYh = 0,0033.
h n hYh
1< fh $2
2
V$min xrgc = Wh2
u S xh + `$c2 S$yh
< 2 `$c S$xyh
nh
h
( )
donde:
L
` c =
t
h
` h
t
h
S$xyh
Wh2 ( 1 < f h ) 2
0,16155 con t$h =
u S$ yh y `$h = $ 2 .
nh
S yh
1< fh $2
2
u S xh + `$c2 S$ yh
< 2 `$c S$xyh =1,46407.
V$min xrgc = Wh2
n
h
h
( )
l
1 $2
2
$
Vmin x rgc = Wh2
u S xh + `$c2 S$ yh
< 2 `$c S$ xyh
nh
h
( )
261
donde:
L
` c =
t
h
` h
t
h
S$xyh
Wh2 $ 2
u S yh y `$h = $ 2 .
nh
S yh
l
1 $2
2
V$min x rgc = Wh2
u S xh + `$c2 S$ yh
< 2 `$c S$ xyh =3,10321.
n
h
h
( )
1< fh 2
1< fh 2
2
( S Xh + ` h S Xh
< 2` h S XYh ) = Wh2
S xh (1 < l 2 xyh ) = 1,40509
Vmin (x rgst ) = Wh2
n
n
h
h
h
h
L
SEPARADA
RAZN
SIN REPOSICIN A 1,51593
COMBINADA
CON REPOSICIN A 3,1375
ESTRATIFICADO
SEPARADA
REGRESIN
COMBINADA
RAZN
REGRESIN
6.5.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Total
yi
xi
yi2
xi2
xiyi
6,7
8,2
7,9
6,4
8,3
7,2
6
7,4
8,1
9,3
8,2
6,8
7,4
7,5
8,3
9,1
8,6
7,9
6,3
8,9
154,5
7,1
8,4
8,2
6,9
8,4
7,9
6,5
7,6
8,9
9,9
9,1
7,3
7,8
8,3
8,9
9,6
8,7
8,8
7
9,4
164,7
44,89
67,24
62,41
40,96
68,89
51,84
36
54,76
65,61
86,49
67,24
46,24
54,76
56,25
68,89
82,81
73,96
62,41
39,69
79,21
1210,55
50,41
70,56
67,24
47,61
70,56
62,41
42,24
57,76
79,21
98,01
82,81
53,29
60,84
68,89
79,21
92,16
75,69
77,44
49
88,36
1373,71
47,57
68,88
74,78
44,16
69,72
56,88
39
56,24
72,09
92,07
74,62
49,64
57,72
62,25
73,87
87,36
74,82
69,52
44,1
83,66
1288,95
La estimacin del cambio relativo R en el valor catastral desde hace dos aos se
obtiene mediante el estimador de razn siguiente:
n
X x
R = = =
Y y
x
i =1
n
y
i =1
()
164,7
= 1,07
154,5
n
n
1< f
1< f
n
u X i2 + R 2 Yi 2 < 2 R X i Yi
V R = 2 u S x2 + R 2 S y2 < 2 R S xy = 2
Y n(n < 1) i
Y n
i
i
()
V R =
1 < 20 / 100
u 1373,71 + 1,07 2 (1210,55) < 2(1,07)1288,95 = 0,0001 .
(154,5 / 20) 2 ( 20)(19)
()
263
()
() ()
m R 0,01
C v R =
=
= 0,0093 5 1%
1,07
R
Como el cambio relativo del valor catastral de los inmuebles se ha estimado en 1,07,
la subida en los dos ltimos aos se estima que es del 7%, con un error del 1%.
6.6.
Una compaa desea estimar la cantidad promedio de dinero +x pagado a los empleados por
gastos mdicos durante los tres primeros meses del ao en curso. Los resultados del
promedio por trimestres +y estn disponibles en los informes fiscales del ao anterior. Una
muestra aleatoria de 100 registros de empleados se seleccion de una poblacin de 1000
empleados. Los resultados de la muestra se resumen a continuacin:
n = 100, N = 1000
100
x
i =1
= 1750
100
y
i =1
= 1200
1000
y
i =1
100
xi2 = 31650
i =1
100
yi2 = 15620
i =1
100
y x
i =1
= 12500
= 22059,35 .
Usar los datos para estimar +y y establecer un lmite para el error de estimacin.
Como tenemos informacin de una variable auxiliar Y, la utilizaremos para realizar una
estimacin indirecta de X basada en la razn de X a Y. Tenemos:
100
x
X R = x R = Y = R Y =
y
x
i =1
100
y
i =1
n
n
1< f 2 2 2
n
100
1000 31650 + 1750 15620 < 2 1750 22059,35 = 0,0441
V ( x R )=
100(100 < 1)
1200
1200
1<
6.7.
Se trata de realizar un estudio sobre las granjas de cerdos en una determinada comarca
analizando una muestra obtenida en 10 municipios. Para ello se estratifica la comarca en dos
zonas, una de secano y otra de regado. En cada zona se mide el nmero de granjas existente
(variable X) y el nmero de cerdos (variable Y) por municipios muestrales. Se obtienen los
siguientes datos:
Zona
Secano
Regado
Fraccin de muestreo
Nmero de granjas
10%
71
20%
182
Municipio muestral
1 2 3 4
1 2 3 4 5 6
1 3 2 1
5 8 6 7 6 5
10 25 22 11 55 90 61 77 66 51
Se pide:
1) Estimar de la forma ms eficiente posible el nmero total de cerdos y el promedio de
cerdos por granja en el supuesto de que la seleccin de los municipios de la muestra haya
sido con reposicin. Razonar la eleccin de los estimadores.
2) Hallar el tamao muestral necesario para cometer un error del 10% al estimar el nmero
total de cerdos mediante muestreo estratificado con afijacin proporcional al nmero de
granjas existentes en cada municipio y realizar la afijacin.
Sean:
Xih= Nmero de granjas de cerdos existentes en el municipio muestral i-simo del estrato hsimo.
Yih= Nmero de cerdos existentes en el conjunto de explotaciones ganaderas del municipio
muestral i-simo del estrato h-simo.
Tenemos:
f1 =
n1
4
0,1 =
N 1 = 40
N1
N1
f2 =
n2
6
0,2 =
N 2 = 30
N2
N2
265
Vamos a estimar el nmero total de cerdos en las granjas y sus errores absoluto y
relativo de muestreo mediante muestreo estratificado como sigue:
10 + 25 + 22 + 11
55 + 90 + 61 + 77 + 66 + 51
Y = N h yh =N 1y1 + N 2y2 = 40
+ 30
= 2780
4
6
h =1
2
2
S yh
h =1
nh
V (Y ) = N h2
2
=
S yh
= 40
1 nh
Yhi < yh
nh < 1 i =1
S y21
4
+ 30
S y22
6
= 40 2
7.61
30,15
+ 30 2
= 7566,5
4
6
S y21 = 7,61
m (Y ) = V (Y ) = 7566,5 = 87
S y 2 = 30,15
m (Y )
87
C v(Y ) =
=
=
2780
Y
6357,67
= 0,0312 (3,12%)
2780
Y
=
R =
X
N
h =1
2
N
h =1
yh
xh
2780
2780
=
= 10,9
1+ 2 + 3 +1
5+8+6+7+6+5
255
+ 30
40
4
6
1
1
V (R ) = 2 (S y2 + R 2 S x2 < 2R S xy ) =
795,51+ 112 u 6,26 < 2 u11u 70,2 = 0,004426
2
nx
10(4,4)
m ( R )
=
C v( R ) =
R
0,004426
= 0,006 (0,6%)
11
El muestral para afijacin proporcional con reposicin para un error relativo del 5%
al estimar el total de cabezas de ganado se halla despejando n en la expresin:
2
N h2 S yh
N 2
253
2
h=1 n
N h S yh
(71u 7,61 + 182 u 30,15)
N
n h=1
m (Y )
n
N
=
=
=
n 20
0,1 = Cv(Y ) =
2780
2780
2780
Y
2
6.8.
Se trata de estudiar el ganado ovino en una determinada comarca en la que existen seis
majadas. Para ello se estratifica la comarca en dos zonas, una de secano a la que corresponden
tres majadas y otra de regado a la que corresponden las otras tres majadas. En cada majada se
mide el nmero de ovejas (variable X) y su superficie en unidades cuadradas (variable Y), y se
obtienen los siguientes datos:
Estrato 1 Estrato 2
X 1i Y1i X 2i Y2i
2
12
Estrato
1
2
2
N h Wh S xh2 S yh
X h Yh
3 1 / 2 7 / 3 1 11 / 3 2
3 1 / 2 13
1 8
5
S xyh
f h nh
3/ 2 2/3 2
7/2 2/3 2
A continuacin se calculan las varianzas del estimador de la media para los distintos
mtodos de estimacin directos e indirectos y estratificados y sin estratificar.
S x2
= 0,98
n
2
S2
Estratific ado A V2 ( x ) = Wh2 (1 < f h ) xh = 0,63
nh
h =1
Aleatorio simple A V1 ( x ) = (1 < f )
(1 < f ) 2
(S x + R 2 S y2 < 2 RS xy ) = 0,151296
n
2
(1 < f h ) 2
(S xh + Rh2 S yh2 < 2 Rh S xyh ) = 0,189
Razn separada A V4 ( x ) = Wh2
n
h =1
2
(1 < f h ) 2
(S xh + R 2 S yh2 < 2 RS xyh ) = 0,1759
Razn combinada A V5 ( x ) = Wh2
n
h =1
2
S
Regresin A V6 ( x ) = (1 < f ) x (1 < l 2 ) = 0,15119
n
Razn A V3 ( x ) =
267
(1 < f h ) 2
(S xh + ` h2 S yh2 < 2` h S xyh ) = 0,0347
n
h =1
2
(1 < f h ) 2
Regresin combinada A V8 ( x ) = Wh2
S xh + ` c2 S yh2 < 2 ` c S xyh = 0,118
n
h =1
(1 < f ) 2
(S x + S y2 < 2S xy ) = 0,28833
Diferencia A V9 ( x ) =
n
2
lo que indica que el muestreo aleatorio simple va a ser bastante menos preciso que el mtodo
de estimacin por razn.
Al introducir la estratificacin se obtiene buena mejora en la estimacin indirecta
por regresin separada y no tanto en la combinada (que ya sabemos que siempre es peor que
la separada).
En cuanto a la estratificacin por razn, se obtienen peores precisiones que cuando
se usa razn sin estratificar. Por lo tanto, la estimacin estratificada basada en la razn no es
conveniente. De todas formas, la estimacin por razn combinada resulta aqu ms precisa que
la estimacin por razn separada.
6.9.
39
43
21
64
57
47
28
75
34
52
65
78
52
82
92
89
73
98
56
75
Se sabe que la calificacin media de la prueba de conocimientos para los 486 estudiantes que
presentaron el examen es 52. Estimar la calificacin final media en clculo para esta
poblacin, y establecer un lmite para el error de estimacin.
A fin de aprovechar la informacin adicional de la variable Y, para estimar la media de X
utilizaremos el mtodo de estimacin indirecta ms preciso, que es el estimador por
regresin. Podemos resumir las estimaciones por regresin como sigue:
x rg = x + bo (Y < y )
Del enunciado del problema sabemos que Y = 52, y de los datos de la tabla se
deduce que x = 76 e y = 46. Para calcular el estimador por regresin slo nos faltara
estimar bo . Tenemos:
n
S
b0 = ` = XY2 =
SY
(Y
i
< y)
Y
i
< ny 2
6.10.
269
1
2
3
4
5
6
7
8
9
10
9
14
7
29
45
109
40
238
60
170
10
12
8
26
47
112
36
240
59
167
di
-1
2
-1
3
-2
-3
4
-2
1
3
1< f 2 2
V ( X ) =
S x + S y < 2 S xy = 0,59
n
La estimacin por regresin se realiza de la siguiente forma:
b0 =
(X
i
(Y
i
< y)
X Y
i i
Y
i
< nx y
< ny 2
1< f 2 2 2
1< f
S x + R S y < 2R S xy =
V ( X R ) =
n
n
n 2 2 n 2
X Y = 0,66
X
+
R
Y
<
2
R
i
i
i i
n(n < 1) i
i
i
271
EJERCICIOS PROPUESTOS
6.1.
Sobre una poblacin de 500 unidades est definida un caracterstica bidimensional (Xi,Yi).
Una muestra aleatoria simple de tamao 80 proporciona los siguientes datos:
80
X i = 420
i =1
80
Yi = 190
i =1
80
X i2 = 2284
i =1
80
Yi 2 = 512
i =1
80
X Y
i =1
i i
= 1045
6.2.
Una empresa est interesada en estimar el total de ganancias por las ventas de televisiones de
color al final de un perodo de tres meses (variable Y). Se tienen cifras del total de ganancias
de todas las sucursales de la empresa para el perodo de tres meses correspondiente del ao
anterior (variable X). Se selecciona una muestra irrestricta aleatoria de 13 sucursales de entre
las 123 de la empresa. Usando un estimador de razn, estimar el total de ganancias por las
ventas de televisiones de color al final de un perodo de tres meses y establecer un lmite
para el error de estimacin. Usar los datos de la tabla adjunta, y considerar que la media
poblacional de la variable X vale 128,200.
Oficina
1
2
3
4
5
6
7
8
9
10
11
12
13
Estimar tambin las ganancias medias para las oficinas de la empresa y establecer un lmite
para el error de estimacin.
6.3.
6.4.
Yi
210
160
75
280
300
190
Marca II
Xi
137
189
119
63
103
107
159
63
87
Yi
150
200
125
60
110
100
180
75
90
Se estima el ingreso nacional para 1981 mediante una muestra de n = 10 industrias que
declaran sus ingresos de 1981 antes que las 35 restantes. Se dispone de los datos del ingreso
de 1980 para las 45 industrias y los totales son 2174,2 (en miles de millones). Los datos se
presentan en la tabla adjunta.
Industria
Productos de fbricas textiles
Productos qumicos y relacionados
Madera aserrada y lea
Equipo elctrico y electrnico
Vehculos automotores y equipo
Transporte y almacenaje
Banca
Bienes races
Servicios de salud
Servicios de educacin
1980
13,6
37,7
15,2
48,4
19,6
33,5
44,4
198,3
99,2
15,4
1981
14,5
42,7
15,1
53,6
25,4
35,9
48,5
221,2
114
17
a) Hallar un estimador de razn del ingreso total de 1981, y establecer un lmite para el
error de estimacin.
b) Hallar un estimador de regresin del ingreso total de 1981, y establecer un lmite para el
error de estimacin.
c) hallar un estimador de diferencia del ingreso total de 1981, y establecer un lmite para el
error de estimacin.
d) Cul de los tres mtodos es el ms apropiado en este caso? Por qu?
CAPTULO
MUESTREO UNIETPICO
DE CONGLOMERADOS
OBJETIVOS
1. Presentar el concepto de muestreo unietpico de conglomerados.
2. Analizar los estimadores y sus errores en muestreo unietpico de
conglomerados del mismo tamao y con probabilidades iguales.
3. Analizar los errores y su estimacin en funcin del coeficiente de
correlacin intraconglomerados.
4. Analizar los estimadores y sus errores cuando se considera muestreo
unietpico de conglomerados con reposicin.
5. Estudiar el muestreo unietpico de conglomerados de distinto tamao y
probabilidades iguales con y sin reposicin.
6. Estudiar el muestreo unietpico de conglomerados de distinto tamao y
probabilidades desiguales con y sin reposicin.
7. Estudiar el muestreo unietpico de conglomerados de distinto tamao y
probabilidades proporcionales al tamao con y sin reposicin.
8. Estudiar el problema del tamao de la muestra.
NDICE
1. Muestreo unietpico de conglomerados. Estimadores para conglomerados
del mismo tamao y probabilidades iguales.
2. Varianza de los estimadores. Coeficiente de correlacin intraconglomerados.
Estimacin de varianzas.
3. Muestreo de conglomerados del mismo tamao con reposicin. Varianzas
de los estimadores y estimacin de las varianzas.
4. Muestreo unietpico de conglomerados de distinto tamao.
5. Muestreo unietpico de conglomerados de distinto tamao con probabilidades
desiguales.
6. Tamao de la muestra.
7. Problemas resueltos.
8. Ejercicios propuestos.
275
que,
suponiendo muestreo sin reposicin y probabilidades iguales, puede ser estimada mediante
M
n/ N
Y
el estimador lineal insesgado de Horwitz y Thompson eHT = i =
n
/i
ij
N
n
ij
N n M
NM n 1 M
1 n
X
X
=
N
M
=
ij n i M j ij
X i =NMx
n i j
n i
i
j
X ij
N n M X ij 1 n 1 M
1 N M
1 n
e=X =
= X ij = X i =x
X ij Yij = NM X = n
n i M j
n i
NM i j
i
j NM
Aij
N n M Aij 1 n 1 M
1 N M
1 n
A
Y
P
e =P=
=
=
A
=
ij ij NM
ij n i Pi
n i j NM n i M j
NM i j
N
e = X = X ij Yij = X ij X =
N n M
NM
Aij =
n
n i j
1
i M
n
Aij = NM
j
1 n
Pi =NMP
n i
V (x ) = (1 < f ) u
2
b
S
nM
con S b2 =
(X
i
< X)
N <1
( )
S2
V X = V (NM u x ) = N 2 M 2 u V (x ) = N 2 M 2 u (1 < f ) u b
nM
N
M N
2
2
Pi < P )
Pi < P)
(
(
N <1 i
V ( P$ ) = ( 1 < f ) u
= (1 < f ) i
nM
n( N < 1)
N
V ( A$ ) = V ( NM u P$ ) = N 2 M 2V ( P$ ) = N 2 M 2 u (1 < f )
( P < P)
i
n( N < 1)
277
Pero las varianzas anteriores pueden expresarse en funcin del coeficiente de correlacin
intraconglomerados, que se define como el coeficiente de correlacin lineal entre todos los pares
de valores de la variable en estudio medidos sobre las unidades de los conglomerados y
extendido a todos los conglomerados, de tal forma que dicho coeficiente ser una <<medida de la
homogeneidad>> en el interior de los conglomerados. Evidentemente interesar que el
coeficiente de homogeneidad intraconglomerados sea lo ms pequeo posible, ya que en
muestreo por conglomerados lo ideal es la heterogeneidad dentro de los conglomerados. La
expresin del coeficiente de correlacin intraconglomerados ser:
b=
Cov( X ij , X iz )
m ( X ij )m ( X iz )
]=
m2
2
N M
1
( X ij < X )( X iz < X )
M i =1 j < z
N
2
m2
N M
1
(X ij < X ) y m 2 = 1
de donde al ser S =
NM
NM < 1 i j & l
2
j &l
(X
ij
N u M <1 2
S , expresin que puede sustituirse en el denominador del
N uM
coeficiente de correlacin intraconglomerados:
la varianza como m 2 =
N M
1
( X ij < X )( X iz < X ) N M
M i =1 j < z
N
2 ( X ij < X )( X iz < X )
2
i =1 j < z
=
b=
(M < 1)(NM < 1)S 2
N u M <1 2
S
N uM
S$b2 < S$ 2
( M < 1) S$
S$ 2 =
n M
n M
2
1
1
1 n M
2
2
$
X ij < x , S$w2 =
,
=
X
X
S
Xi < x )
<
(
ij
i
b
nM < 1 i j & l
nM < n i j
n <1 i j
N < 1 2 N (M < 1) 2
2
S 0 =
u Sw
u Sb +
NM < 1
NM < 1
S
S
V (x ) = (1 < f ) b V (x ) = (1 < f ) b
nM
nM
2
2
V ( X ) = V ( NMx ) = N M V ( x ) V ( X ) = N 2 M 2V ( x )
V (x ) = (1 < f )
El clculo de los trminos de las frmulas anteriores los facilitan los cuadros del
anlisis de la varianza para la poblacin y para la muestra siguientes:
Descomposicin de la varianza para la poblacin
Fuente de variacin
Grados de libertad
Sumas de cuadrados
(X
N
N<1
Entre conglomerados
Dentro de conglomerados
n M <1
(X
NM < 1
(X
Total
Sb2
ij
< Xi
ij
<X
<X
Cuadrados medios
S w2
n<1
(X
i
Dentro de conglom.
(X
n M <1
(X
nM < 1
<x
Total
ij
< Xi
ij
<x
Sb2
Sb2
S w2
S w2
S 2
Para el caso de proporciones y totales de clase las frmulas son las mismas, pero las
magnitudes se obtienen del cuadro del anlisis de la varianza siguiente:
Fuentede Gradosde
Variacin
Libertad
Sumade
Cuadrados
Estimadores
Cuadrados
Medios
Insesgados
1 n
M ( Pi < Pi ) 2
n i =1
S b2 = i =1
n <1
N
Entre
N <1
A = M ( Pi < P) 2
i =1
Dentro
N ( M < 1)
B = MPi (1 < Pi )
i =1
Total
NM < 1
C = NMP (1 < P)
S b2 =
A
N <1
B
S =
N ( M < 1)
C
2
S =
NM < 1
2
w
S w2 =
MP (1 < P )
i
i =1
n( M < 1)
S 2
0
De la expresin V ( x ) = ( 1 < f )
279
1
, en que la varianza sera igual a cero. Para b = 0 ambos
M <1
1
, se acenta la ganancia en precisin del muestreo
M <1
()
1
m =
N
2
b
M( X
i
< X)
1
=
N
( X
i
mb2
nM
mb2
nM
mb2
V ( X$ ) = V ( NM u x ) = N 2 M 2 u V ( x ) = N 2 M 2
nM
m
V ( P$ ) =
=
nM
2
b
M
N
( P < P)
i
nM
( P < P)
nN
N
V ( A$ ) = V ( NM u P$ ) = N 2 M 2V ( P$ ) = N 2 M 2
( P < P)
i
nN
S b2
m b2
m ' 2
V (x ) =
1 + (M < 1)b V (x ) =
1 + (M < 1)b , V (x ) =
V (x ) =
nM
nM
nM
nM
2
2
2
2
V ( X ) = V ( NM x ) = N M V ( x ) V ( X ) = N M V ( x )
m2
b=
m ' 2 = S12,w +
m b2 < m 2
(M < 1)m 2
2 S$b2
2
$
Sb < S$1w +
2
Sb2 2
1 N M
1 n M
2
2
1 n M
2
2
$
(
)
, S1,w =
,
,
X
<
X
S
Xi < x )
=
<
=
m
X
X
(
ij
i
w
ij
i
b
n <1 i j
NM i j
M
nM i j
281
m2 =
m w2 =
1
NM
m b2 =
1
N
(X
N
(X
N
m b2 = S b2 =
< X) =
2
1
NM
< Xi ) =
2
ij
M
N
(X
M (P < P )
i
N
i
1
N
(P < P )
i
< X) .
2
M n
(Pi < P )2
n <1 i
m w2 = S12,w =
1
nM
m$ '2 = S$12,w +
S$b2 1 n
2
M n
(
Pi < P )
= Pi (1 < Pi ) +
M n i =1
n <1 i
(X
n
1
nM
< Xi ) =
2
ij
MP (1 < P ) = n P (1 < P )
i =1
i =1
Mi
M
i =1
utilizamos todas las frmulas estudiadas hasta ahora, tanto para muestreo con reposicin
como para muestreo sin reposicin. No obstante, suelen considerarse las siguientes
expresiones alternativas para los estimadores:
Muestreo sin reposicin
Para la media se tiene
(X
N
x=
X
1
1
1
Xi = i =
n i =1
n i =1 M nM
n
X
i =1
, V (x ) =
1< f
u
nM 2
i =1
< X)
N <1
1
Para el total se tiene el estimador X$ = NMx = NM
nM
depende de M .
(X
n
1< f
, V ( x ) =
nM 2
N
Xi = n
i =1
n
i =1
< x)
n <1
X
i =1
, que no
1< f
u
n
1< f
, V ( X ) = N 2
n
i =1
(X
n
(X < X )
N
N <1
i =1
< x)
n <1
(X
N
V (x ) =
1
u
nM 2
i =1
<X)
(X
n
, V ( x ) =
1
nM 2
i =1
< x)
n <1
(X
N
N
u
V ( X ) =
n
i =1
i < X
(X
n
N
, V ( X ) =
u
n
i =1
< x)
n <1
Mi
, tanto para
M
M
i =1
X = x = R =
X
i
n
M
i
M (X
N
V ( x ) = (1 < f ) u
N
nM 2
2
i
< X)
N <1
M (X
n
()
N
V ( x ) = V R = (1 < f ) u
nM 2
2
i
< x)
n <1
M i2 (X i < X )
N
N (1 < f )
V X =
n
( )
N <1
M (X
(1 < f )
n
( )
N
V X =
2
i
< x)
n <1
M (P < P )
N2
V ( P ) = (1 < f ) u
nM 2
N <1
()
N
V A =
M (P < P )
(1 < f )
2
i
N2
, V ( P ) = (1 < f ) u
nM 2
2
i
()
N
V A =
N <1
n <1
M (P < P )
(1 < f )
n
283
2
i
n <1
M (X
N
N
V (x ) =
nM 2
2
i
< X)
M (X
n
N
, V ( x )
nM 2
2
i
<x
n <1
M i2 (X i < X )
N
( )
N
V X =
n
M (X
n
( )
N
, V X =
n
2
i
< x)
n <1
M (P < P )
M i2 (Pi < P)
N2
V ( P ) =
nM 2
N
N
()
N
V A =
n
M (P
i
2
i
< P)
N2
V ( P ) =
nM 2
()
N
, V A =
n
n <1
M (P < P )
n
2
i
2
i
n <1
M
i =1
/i
i =1
/i
i =1
/i
i& j
/i / j
n
n
X2
X X j / ij < / i / j
V ( X HT ) = 2i (1 < / i ) + i
/ ij
i =1 / i
i& j / i / j
M
i =1
n
n
n
Xi
X
MX
1
1 N X
X HH = i = i i , V ( X HH ) = i < X Pi , V ( X HH ) =
< X HH
nPi
n i =1 Pi
n(n < 1) i =1 Pi
i =1 nPi
i =1
X
X
1
1
X HH = HH V ( X HH ) = V ( HH ) = 2 V ( X HH ) V ( X HH ) = 2 V ( X HH )
M
M
M
M
X
Mx
=x
X = HT =
M
M
Se observa que las expresiones de los estimadores lineales insesgados para la media
y el total en el caso de probabilidades desiguales proporcionales a los tamaos de los
conglomerados coinciden con sus expresiones para probabilidades iguales.
Muestreo con reposicin
Como siempre, los estimadores son los mismos que para el caso sin reposicin. Las
varianzas y su estimacin en el caso de probabilidades proporcionales a los tamaos con
reposicin valdrn:
2
n
2
M N
( X ) = M
V
Xi < x
(
)
M
X
<
X
,
V ( X HH ) =
HH
i
i
n(n <1) i =1
n i =1
V ( X HH ) =
nM
(
i =1
2
M i X i < X , V(X HH ) =
2
1 n
Xi < x
n(n <1) i=1
285
TAMAO DE LA MUESTRA
La peculiaridad en muestreo por conglomerados monoetpico es la forma de la funcin de
coste. Si consideramos la funcin de coste C = c o n + c1 n + c 2 u n u M , podemos
determinar los pares ( n, M ) que, para C prefijado, minimizan la varianza del estimador de la
S2
(1 < ( M < 1)b )
MinV ( x ) = Min (1 < f )
nM
C = co n + c1 n + c 2 u n u M
El problema alternativo es la determinacin de n y M ptimos mediante el
planteamiento del problema de Lagrange con una restriccin:
S2
V
x
f
(
)
=
(
1
<
)
(1 < ( M < 1)b )
nM
S b2
Tambin se utiliza para la varianza la expresin V ( x ) = (1 < f )
.
nM
PROBLEMAS RESUELTOS
7.1.
Se trata de estudiar una poblacin de 1000 cajas de tornillos todas ellas con 40 unidades cada
una. Para ello se extrae una muestra sin reposicin de 20 cajas, dentro de la cual nueve cajas
no tienen tornillos defectuosos, ocho cajas tienen un tornillo defectuoso, y tres cajas tienen
dos tornillos defectuosos. Se pide:
1) Estimar el nmero total de tornillos defectuosos en la poblacin y sus errores absoluto y
relativo de muestreo. Realizar la estimacin por intervalos al 99% (F-1(0,995)=2,57).
2) Resolver el problema con reposicin y comparar los resultados con los del punto (a).
Tenemos como datos N = 1000, M = 40 y n = 20. El total de piezas defectuosas
puede estimarse como sigue:
1 0
1
2
1 n
A = NMP = NM Pi = 40 000 9 + 8 + 3 = 700
20 40
40
40
n i =1
14
44
424444
3
P = 0 , 0175
Figura 7-1
Figura 7-2
El error relativo de muestreo para el estimador del total ser:
V ( A )
=
C v( A ) =
A
26305,26
= 0,2317 (23,17%)
700
m ( A )
26305,26
= 700
= [< 921,9, 2321,9]
A
0,01
_
Si consideramos muestreo con reposicin, tenemos:
2
26305,26 26305,26
2
2 Sb
V ( A) = (NM ) V ( P) = (NM )
=
=
= 26842,1
20
1< f
nM
1<
1000
V ( A )
C v( A ) =
=
A
26842,1
= 0,234 (23,4%)
700
287
m ( A )
26842,1
= 700
= [< 938,35, 2338,35]
A
0,01
_
Se observa que los errores de muestreo estimados son ligeramente superiores en
muestreo con reposicin. Adems, como es natural, los intervalos de confianza son ms
anchos (o sea, peores) en muestreo con reposicin. La ganancia en precisin es (26842,1 /
26305,26 < 1)100 = 2%, que es una cantidad pequea.
7.2.
En una regin hay 300 granjas de 50 animales diversos cada una. Se obtiene una muestra de n=5
granjas sin reposicin y probabilidades iguales. Las proporciones de animales enfermos en cada
una de las granjas son 0,14, 0,20, 0,18, 0,12, 0,16. Se pide:
Estimar la proporcin y el total de animales enfermos en la regin y sus errores absoluto y
relativo de muestreo. Realizar las mismas estimaciones para muestreo con reposicin.
Comentar los resultados.
Podemos realizar el esquema siguiente para el problema.
M =50
P5=0,16
SR
N=300
P2=0,2
P3=0,18
PI
M =50
P4=0,12
M =50
P1=0,14
n=5
n(n < 1) i =1
nM
5 (0,14 < 0,16) 2 + (0,20 < 0,16) 2 + (0,18 < 0,16) 2 + (0,12 < 0,16) 2 + (0,16 < 0,16) 2
= 45000
300
5(5 < 1)
V ( P ) =
1
45000
V ( A ) =
= 0,0002
2
300 2 50 2
N M
2
V ( A )
45000
C v( P ) = C v( A ) =
=
= 0,088 (8,8%)
A
2400
289
n(n < 1) i =1
nM
V ( P ) =
1
45762,7
V ( A ) =
= 0,000203389
2
300 2 50 2
N M
2
V ( A )
45762,7
=
= 0,089 (8,9%)
C v( P ) = C v( A ) =
2400
A
7.3.
En un proceso electoral se toma una muestra aleatoria de 10 urnas, el nmero de votantes y sus
papeletas favorables a un determinado partido son:
4 2 6 1 5 3 3 8 1 4
2 1 4 1 2 1 2 5 0 3
Nmero de votantes
Papeletas favorables
Suponiendo muestreo con reposicin, estimar la proporcin de votos favorables a ese partido
en toda la poblacin y su error de muestreo.
Vamos a considerar las urnas como conglomerados, siendo las unidades elementales las
papeletas introducidos en ellas. Por tanto, los nmeros de papeletas en las distintas urnas
sern los tamaos de los conglomerados Mi. Se considera la clase A de los votantes que
votan a favor del partido en cuestin. Por tanto, las papeletas favorables al partido en cada
urna sern los valores Ai.
Ya que los conglomerados son de distinto tamao, para estimar la proporcin del
total de votantes de la poblacin que votan al partido utilizaremos el estimador de la razn
de A a M siguiente:
10
P =
A
i =1
10
M
i =1
=
i
21
= 0,57
37
7.4.
Xi
< X HH
i =1 Pi
=
V ( X HH ) =
n(n < 1)
n
Xi
M
i =1
2500
(0,05 + 0,25 + L + 0,20) = 5000
10
Xi
< X HH
i =1 M i M
=
n(n < 1)
n
Xi
M
M < X HH
i =1
i
=
n(n < 1)
n
(25000u 0,05 < 5000)2 + (25000u 0,25 < 5000)2 + L + (25000u 0,20 < 5000)2
= 590278
10(10 < 1)
V ( X )
590278
C v( X ) =
=
= 0,15 (15%)
5000
X
m ( X )
590278
X
= 5000
= [1564, 8346]
0,05
_
7.5.
291
Una gran empresa tiene sus inventarios de equipo listados separadamente en 15 departamentos.
Se selecciona una muestra de tres departamentos con reposicin y probabilidades
proporcionales al nmero de artculos de equipo en cada departamento. La tabla siguiente
presenta el nmero de artculos de equipo NA en cada departamento D.
D
NA D
NA D
NA
NA
NA
12
40
18
10
22 13
16
35
10
11
22 14
33
27
15
31 12
19
15
1) Suponiendo que los tres departamentos seleccionados (que sern los de mayor probabilidad)
tienen cada uno 2 artculos impropiamente identificados, estimar el nmero total de artculos
impropiamente identificados en la empresa y su error relativo de muestreo.
2) Estimar por intervalos al 95% la media de artculos propiamente identificados, sabiendo que
los tres departamentos seleccionados tienen respectivamente 4, 5 y 6 artculos impropiamente
identificados.
Como se selecciona la muestra de tres departamentos con probabilidades proporcionales al
nmero de artculos de equipo en cada departamento, los tres departamentos seleccionados
para la muestra sern el 4, el 5 y el 14, ya que son los que van a tener mayor probabilidad de
seleccin (por tener el mayor nmero de artculos).
Al ser la seleccin con probabilidades proporcionales a los tamaos se tiene que:
Pi =
40
35
33
Mi
P1 =
, P2 =
y P3 =
M
315
315
315
Como el muestreo es con reposicin, el estimador insesgado del total de la clase de los
artculos impropiamene clasificados vendr dado por la frmula de Hansen y Hurwitz.
1 n M P 1 n M P
M
A HH = MPHH = i i = i i =
n i Pi
n i Mi M
n
P =
i
315 2
2
2
+ + 18
3 40 35 33
i Pi < A
i
=
V A =
n (n < 1)
n
()
315 2
3u2
n
M P
i Pi i < M P M 2 Pi < P
i
=
i
n (n < 1)
n (n < 1)
n
2
2
2
2
18
18
18
2
2
<
<
<
= 1,04209
+
+
33 315
35 315
40 315
Mi
Mi
Pi
Pi
n
1
1 n
1 36 30 27
M
= M
= Pi =
+
+
= 0,858
3 40 35 33
Pi
n i Mi M n i
(P < P )
n
2
2
2
1
1 36
30
27
V P = 2V A =
=
< 0,858 + < 0,858 + < 0,858 = 0,000558
M
n(n < 1)
3 u 2 40
35
33
()
()
7.6.
Un fabricante de sierras quiere estimar el costo de reparacin promedio mensual para las
sierras que ha vendido a ciertas industrias. El fabricante no puede obtener un costo de
reparacin por sierra, pero puede obtener la cantidad total gastada en reparacin y el nmero
de sierras que tiene cada industria. El fabricante decide seleccionar una muestra aleatoria
simple sin reposicin de 20 industrias de entre las 96 a las que ofrece servicio. Los datos de gasto
total mensual en reparaciones por industria y el nmero de sierras por industria se presentan en
la tabla siguiente:
Indus.
N de
Costo total de
N de
Costo total de
reparaciones
Indus.
mensual
50
11
mensual
140
110
12
130
11
230
13
70
140
14
50
5
6
2
12
60
280
15
16
1
4
10
60
14
240
17
12
280
45
18
150
60
19
110
10
230
20
120
sierras
sierras
reparaciones
293
x=
X
i =1
n
M
i =1
10
10
10
1< f 2 2 2
S ) = 1 < f ( X 2 + R 2 M 2 < 2R X M ) =
V ( x ) =
(
S
+
R
S
<
2
R
x
M
xm
i
i
i
i
nM 2
nM 2 (n < 1) i =1
i =1
i =1
20
1<
96
(460225+ 19,732 u1188< 2 u19,73u 22285) = 0,7905 m ( x ) = 0,89
2
130
20 u
u (20 < 1)
20
Para estimar el coste total en reparacin de sierras en las industrias tomamos:
N
X =
n
n
(X
X
i =1
< x)
96
2565 = 12312
20
2
X i
i =1
<
)=
n
N 2 (1 < f ) n
1 < f i =1 i
2
=
V ( X ) = N 2
( X i
n(n < 1) i =1
n
n <1
20
96 2 (1 < )
2
96 (460225 < (2565) ) = 25200516 m ( X ) = 1587,467
20
20(20 < 1)
X =
X
i =1
n
M
i =1
uM =
2565
u 710 = 14008,846
130
10
N 2 (1 < f ) 10 2 2 10 2
1< f 2 2 2
V ( X ) = N 2
( Xi + R Mi < 2R Xi Mi )
(Sx + R SM < 2RSxm ) =
n(n <1) i =1
n
i =1
i =1
20
962 1 <
96 (460225+ 19,732 u1188< 2 u19,73u 22285) = 308467,24 m ( X ) = 555,4
=
20u (20 <1)
El nmero n de conglomerados a seleccionar en la muestra si se quiere un error de
muestreo inferior a una unidad al estimar el coste de reparacin promedio por sierra para el
mes siguiente se obtiene despejando n en la expresin:
n
96 16066,002 < 1 n > 14
V (x ) =
2
19
710
nu
96
1<
7.7.
Un socilogo quiere estimar el ingreso promedio por persona en una ciudad pequea en la que
no est disponible una lista de residentes. Par ello, se divide la ciudad en 415 bloques
rectangulares de residentes sobre un mapa y se realizan entrevistas en 25 bloques. Se pregunta
a los residentes de cada bloque por su ingreso total. Se obtienen los siguientes resultados:
Conglomerado
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
SUMAA
Nmero de
Ingreso total por
residentes (Mi ) conglomerado (Xi )
8
96000
12
121000
4
42000
5
65000
6
52000
6
40000
7
75000
5
65000
8
45000
3
50000
2
85000
6
43000
5
54000
10
49000
9
53000
3
50000
6
32000
5
22000
5
45000
4
37000
6
51000
8
30000
7
39000
3
47000
8
41000
151
1329000
1) Estimar el ingreso promedio por persona en la ciudad y establecer un lmite para el error de
estimacin.
2) Estimar el ingreso total de todos los residentes de la ciudad y establecer un lmite para el
error de estimacin sabiendo que hay 2500 residentes en la ciudad.
3) Estimar el ingreso total de todos los residentes de la ciudad y establecer un lmite para el
error de estimacin si se desconoce el nmero de residentes en la ciudad.
Consideramos los bloques rectangulares de residentes como conglomerados (N = 415). Se
extrae una muestra de 25 conglomerados (n = 25), siendo las unidades elementales el
nmero de residentes Mi de cada bloque.
295
x=
X
i =1
n
M
i =1
1329000
= 8801
151
10
10
10
1< f 2 2 2
1< f
V ( x ) =
( S x + R S M < 2 R S xm ) =
( X i2 + R 2 M i2 < 2 R X i M i ) = 653785
2
2
nM
nM (n < 1) i =1
i =1
i =1
Para estimar el ingreso total de todos los residentes de la ciudad hacemos lo siguiente:
X = Mx = 2500(8801) = 22002500
X
i =1
415
1329000 = 22061400
25
2
X i
i =1
)=
<
n
(X i < x ) N 2 (1 < f ) n
1< f
2
i =1
V ( X ) = N 2
=
( X i
n
n <1
n( n < 1) i =1
25
)
415 2 (1 <
2
415 (82039000000 < (1329000) ) m ( X ) = 1752960
25
25(25 < 1)
2
7.8.
Un auditor desea muestrear los registros de ausencias por enfermedad de una gran empresa,
para estimar el nmero promedio de das de ausencia por enfermedad por empleado en el
cuatrimestre pasado. La empresa tiene ocho divisiones, con diferentes nmeros de empleados
por divisin. Ya que el nmero de das de ausencia por enfermedad dentro de cada divisin
debe estar altamente correlacionado con el nmero de empleados, el auditor decide muestrear
n = 3 divisiones con probabilidad proporcional al nmero de empleados. Mostrar cmo
seleccionar la muestra si los respectivos nmeros de empleados son 1200, 450, 2100, 860,
2840, 1910, 390, 3200.
Supngase que el nmero total de das de ausencia por enfermedad registrados en las tres
divisiones muestreadas durante el cuatrimestre pasado son, respectivamente, X1 = 4320, X2 =
4160, X3 = 5790. Estimar el nmero promedio de das de ausencia por enfermedad requeridos
por persona, de toda la empresa, y establecer un lmite para el error de estimacin.
Comenzamos listando el nmero de empleados y el intervalo acumulado para cada divisin.
Divisin
1
2
3
4
5
6
7
8
Nmero de
empleados
1200
450
2100
860
2840
1910
390
3200
12950
Intervalo acumulado
1-1200
1201-1650
1651-3750
3751-4610
4611-7450
7451-9360
9361-9750
9751-12950
1
=
M
Xi
n
n
Xi
X i 1 4220 4160 5790
M =1
=
=
+
+
= 2,02
2
n
Xi
X i < X HH
<
X
HH
M
i =1 MPi
1 i =1 Pi
=
V ( X HH ) = 2
n(n < 1)
n(n < 1)
M
n
n
X
i
<
X
HH
Mi
i =1
M
M
=
=
n(n < 1)
2
2
2
Xi
4220
4160
5790
<
X
<
+
<
+
<
2
,
02
2
,
02
2
,
02
HH
i =1 M i
3100
1910
3200
=
= 0,0119
n(n < 1)
3(3 < 1)
n
297
EJERCICIOS PROPUESTOS
7.1.
7.2.
De una poblacin formada por N conglomerados se selecciona una muestra de tamao n con
un procedimiento mediante el cual se elige la primera unidad para la muestra con
probabilidades desiguales Pi, y los n < 1 conglomerados restantes de la muestra se eligen con
probabilidades iguales, realizndose todas las extracciones sin reposicin. Se pide una
estimacin insesgada del total poblacional X y sus errores absoluto y relativo de muestreo
siendo N = 50, n = 4, Xi el total del conglomerado i-simo y conociendo los siguientes datos
de los conglomerados de la muestra:
Pi
Xi
100
80
120
60
En una poblacin compuesta por 10 conglomerados de 100 elementos se toma una muestra
monoetpica de n conglomerados. Por experiencias anteriores se sabe que el modelo de
Smith S2b = S2 M t se ajusta bien en la proximidad de M =100 y se conoce el valor de S2b
=1173. Se pide:
Calcular el valor de t y S2w en el supuesto de que S2b/ S2 =13,8.
Formar la tabla poblacional del anlisis de la varianza y hallar el coeficiente de correlacin
intraconglomerados.
7.3.
Nmero de
empleados
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
51
62
49
73
101
48
65
49
73
61
58
52
65
49
55
Nmero de empleados
que apoyan la nueva
poltica
42
53
40
45
63
31
38
30
57
45
51
29
46
37
42
7.4.
7.5.
1
1
2
1
Nmero de peridicos
2
1
3
3
2
2
1
1
1
1
3
2
3
3
1
1
2
1
3
5
1
4
2
1
4
1
1
2
1
1
3
3
1
2
1
1
Total
19
20
16
20
Se disea una encuesta econmica para estimar la cantidad promedio gastada en servicios
para el hogar en una ciudad. Ya que no se encuentra disponible una lista de hogares, se usa
muestreo por conglomerados, con divisiones (barrios) formando los conglomerados. Se
selecciona una muestra aleatoria de 20 barrios de la ciudad de un total de 60. Los
entrevistadores obtienen el costo de los servicios de cada hogar dentro de los barrios
seleccionados; los costos totales se muestran en la tala anexa. Estimar la cantidad promedio
de gastos en servicios por hogar en la ciudad y establecer un lmite para el error de
estimacin.
Barrio
muestreado
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Nmero de
hogares
55
60
63
58
71
78
69
58
52
71
73
64
69
58
63
75
78
51
67
70
Cantidad total
gastada en servicios
2210
2390
2430
2380
2760
3110
2780
2370
1990
2810
2930
2470
2830
2370
2390
2870
3210
2430
2730
2880
CAPTULO
MUESTREO BIETPICO
DE CONGLOMERADOS
OBJETIVOS
1. Presentar el concepto de muestreo de conglomerados en dos etapas.
2. Analizar los estimadores y sus errores en muestreo bietpico de conglomerados
del mismo tamao con probabilidades iguales.
3. Analizar los estimadores y sus errores en muestreo bietpico de conglomerados
del mismo tamao con probabilidades iguales considerando todas las opciones
posibles de reposicin o no en ambas etapas.
4. Analizar los estimadores y sus errores en muestreo bietpico de conglomerados
de distinto tamao con probabilidades iguales.
5. Analizar los estimadores y sus errores en muestreo bietpico de
conglomerados de distinto tamao con probabilidades iguales considerando
todas las opciones posibles de reposicin o no en ambas etapas.
6. Estudiar el tamao de la muestra en muestreo bietpico.
7. Analizar los estimadores y sus errores en muestreo bietpico de conglomerados
con probabilidades desiguales y con reposicin en primera etapa.
8. Analizar los estimadores y sus errores en muestreo bietpico de conglomerados
con probabilidades desiguales y sin reposicin en primera etapa.
9. Presentar el concepto de muestreo polietpico.
10. Analizar los estimadores y sus errores en muestreo polietpico.
11. Estudiar diseos polietpicos complejos.
12. Estudiar el muestreo bietpico con estratificacin en primera etapa.
NDICE
1. Muestreo bietpico de conglomerados. Estimadores para probabilidades
iguales y conglomerados del mismo tamao.
2. Varianzas y su estimacin en muestreo bietpico con probabilidades iguales
y conglomerados del mismo tamao.
3. Muestreo bietpico de conglomerados de distinto tamao y probabilidades
iguales.
4. Tamao de la muestra en muestreo bietpico.
5. Muestreo bietpico con probabilidades desiguales y con reposicin en 1
etapa. Estimadores, varianzas y su estimacin.
6. Muestreo bietpico con probabilidades desiguales y sin reposicin en 1
etapa. Estimadores, varianzas y su estimacin.
7. Muestreo polietpico.
8. Diseos complejos: Muestreo bietpico con estratificacin en primera
etapa.
9. Problemas resueltos.
10. Ejercicios propuestos.
301
1
nm
X ij =
1 n
xi
n i
Para el total poblacional, proporcin y total de clase, los estimadores insesgados son
los siguientes:
NM
X = N M x =
n
xi ,
i
1 n
NM
P = Pi , A = NMP =
n i
n
P
i
S b2
S2
+ (1 < f 2 ) u w
nM
nm
N
( X
n
m
f1 = , f 2 =
, S b2 = M
N
M
<X
N <1
(X
M
, S w2 =
< Xi )
ij
(M < 1) u N
N 2 MS b2
N 2 M 2 S w2
+ (1 < f 2 ) u
V ( X ) = N 2V (x ) = (1 < f 1 ) u
n
nm
N
1
1 N
2
MPi ( 1 < Pi )
M ( Pi < P )
N ( M < 1) i =1
N <1 i
+ (1 < f 2 )
=
nM
nm
V ( P$ ) = ( 1 < f 1 )
(1 < f )
( P < P)
i
+ (1 < f 2 )
n( N < 1)
V ( A$ ) = N 2 M 2V ( P$ ) = ( 1 < f 1 )
MP (1 < P )
N M
i =1
nm N ( M < 1)
( P < P)
i
n( N < 1)
+ (1 < f 2 )
NM
P (1 < P )
i =1
nm ( M < 1)
Grados libertad
n <1
Entre
Sumas de cuadrados
(x
i
Dentro
Total
n(m < 1)
<x
( X
i
(X
nm < 1
ij
ij
< xi
<x
m 2
S b + (1 < f 2 )S w2
M
Sb2
S w2
S w2
S 2
S2
Las estimaciones de las varianzas para las dos etapas sin reposicin son las siguientes:
S 2
S 2
V (x ) = (1 < f 1 ) b + f 1 (1 < f 2 ) w , y V ( X ) = N 2 M 2V ( x )
nm
nm
n
()
V P = (1 < f1 ) u
(P < P )
i
n(n < 1)
+ f1 (1 < f 2 ) u
PQ
i
2
n (m < 1)
V$ ( X$ ) = N 2 M 2V$ ( x )
303
y V$ ( A$ ) = N 2 M 2V$ ( P$ )
S$b2
$
Si f1 es muy pequea, se toma V ( x ) = ( 1 < f 1 ) u
.
nm
Muestreo con reposicin en las dos etapas
V (x ) =
m b2
nM
m w2
nm
N 2 Mmb2 N 2 M 2m w2
$
(
)
V ( X ) = V NMx =
+
n
nm
V ( P$ ) =
1
N
M ( P < P)
i
nM
1
NM
MP (1 < P ) ( P < P)
i
i =1
nm
N
V ( A$ ) = N 2 M 2V ( P$ ) =
NM 2 ( Pi < P )
nN
P (1 < P )
i
i =1
nm N
NM 2 Pi ( 1 < Pi )
i =1
nm
2
m n
i (Pi < P )
n
1
<
V P =
=
nm
()
y V ( X ) = N 2 M 2V ( x )
(P < P )
n
i
(P < P )
n
()
y V A = N 2 M 2
n(n < 1)
n(n < 1)
m b2
nM
+ (1 < f 2 )
S w2
nm
N 2 Mmb2
N 2 M 2 S w2
$
(
)
V ( X ) = V NMx =
+ (1 < f 2 )
n
nm
N
N
N
1
1 N
2
2
MPi ( 1< Pi ) ( Pi < P)
M( Pi < P)
MPi ( 1< Pi )
N ( M < 1) i =1
N i
V ( P$) =
+ (1< f2 )
= i
+ (1< f2 ) i =1
nM
nm
nN
nmN ( M < 1)
V ( A$ ) = N 2 M 2V ( P$ ) =
NM 2 ( Pi < P)
i
+ (1 < f 2 )
NM 3 Pi ( 1 < Pi )
i =1
nm ( M < 1)
Las estimaciones de varianzas son iguales que para reposicin en las dos etapas:
S 2
V (x ) = b ,
nm
m n
(Pi < P )2
n <1 i
V P =
=
nm
()
y V ( X ) = N 2 M 2V ( x )
(P < P )
n
()
(P < P )
n
y V A = N 2 M 2
n(n < 1)
n(n < 1)
S b2 m w2
+
nM nm
N 2 MSb2 N 2 M 2m w2
$
V ( X ) = V ( NMx ) = (1 < f 1 )
+
n
nm
N
N
1 N
1 N
2
(Pi < P)2 Pi (1 < Pi )
M (Pi < P)
MPi (1 < Pi )
+ NM i =1
= (1 < f1) i
+ i =1
V P = (1 < f1) N <1 i
nM
nm
n(N <1)
nmN
()
V ( A$ ) = N 2 M 2V ( P$ ) = (1 < f 1 )
N 2 M 2 ( Pi < P)
n( N < 1)
NM 2 Pi ( 1 < Pi )
i =1
nm
()
V P = (1 < f1)
(P < P) P(1< P)
2
n(N <1)
i =1
nmN
y V ( A ) = N 2 M 2V ( P )
n
m n
(Pi < P )2 y S w2 =
Para proporciones y totales de clase: S b2 =
n <1 i
m P (1 < P )
i =1
n(m < 1)
M
i
xi .
( )
V X = N 2 u (1 < f 1 )
(X
i
< X)
Mi
(X
n(N < 1)
N
n
M u (1 < f ) u (M
j
2
i
2i
X < X
2
i
(
)
<
1
N
f
N
i
1
u i
V X =
+
n
n <1
n
( )
< 1)mi
mi
< Xi )
ij
M (1 < f 2i
mi
2
i
(X
)
u
j
< xi )
ij
mi < 1
X i = X i , X i = M i x
n i
i
n
( )
V X = N 2 u (1 < f 1 )
(X
i
< X)
n(N < 1)
N
n
M
i mi
i
Mi
(X
j
mi
X < X
2
i
(
)
<
N
1
f
N
i
1
u i
V X =
+
n
n <1
n
( )
1
X i = X i ,
n i
< Xi )
ij
2
i
M
u
mi
(X
j
< xi )
ij
mi < 1
X i = M i x i
( )
2
N N
N
V X = u (X i < X ) +
n i
n
i
i X i < X i
2
N
u
V X =
n
n <1
M
i mi
i
N
Mi
(X
j
< Xi )
ij
( )
1 n
X i = X i y X i = M i x i
n i
( )
N
V X =
n
(X
i
< X) +
2
N
n
i X i < X i
2
N
u
V X =
n
n <1
( )
(X
M u (1 < f ) u (M
i
2
i
2i
< Xi )
ij
< 1)mi
1 n
X i = X i y X i = M i xi
n i
305
1 n
Para proporciones y totales de clase: X i = M i Pi y X i = M i Pi
n i
X N n M i
1
1
X =
=
xi , V ( X ) = 2 V ( X ) , V ( X ) = 2 V ( X )
M n i M
M
M
N
P =
n
N n
Mi
Pi , A = MP = Mi Pi
M
i
()
N 3 PQ N
V A = (1 < f 1 )
+
n(N < 1) n
PQ
M u (1 < f ) u (M < 1)m
N
i
3
i
2i
1 n
M i Pi < M i Pi
2
N (1 < f 1 ) i
n i =1
+N
u
V A =
n
n <1
n
n
()
PQ
M (1 < f ) u m < 1
n
2
i
2i
()
N 3 PQ
N
+
V A = (1 < f 1 )
n(N < 1) n
M i2
i m Pi Qi
i
N
1 n
<
M
P
M i Pi
i i
2
N (1 < f 1 ) i
n i =1
+N
u
V A =
n
n <1
n
n
()
M i2 u
i
Pi Q i
mi < 1
()
N2
N
V A =
PQ +
n
n
M i2
Pi Qi
mi
< 1 M P
M
P
i
i
i i
N2 i
n i =1
u
V A =
n
n <1
n
()
307
()
N2
N
V A =
PQ +
n
n
PQ
M u (1 < f ) u (M < 1)m
N
i
3
i
2i
< 1 M P
M
P
i
i
i i
N2 i
n i =1
V A =
u
n
n <1
n
()
1
1
Para proporciones aplicamos V ( P ) = 2 V ( A ) y V ( P ) = 2 V ( A ) .
M
M
C = co + c1n a1 + c2 ( nM )
a2
+ c3 ( nM )
a3
en donde c0 representa un coste fijo que suele incluir, dependiendo de las encuestas, gastos
de preparacin tcnica, gastos administrativos previos, cartografa, etc. Puede empezarse
por suponer deducido el coste co del total C, para no preocuparse ms que de la distribucin
de los costes variables.
Por otra parte, c1 , c2 y c3 son los costes unitarios por unidad primaria, por unidad
secundaria listada y por unidad secundaria que sea objeto de entrevista o medida,
respectivamente.
Como casos particulares tpicos de nuestra funcin de costes tenemos:
1) a1 = a2 = a3 = 1, C = c1n + c2 nM + c3 nm
2) Adems de verificarse la condicin anterior, suponemos c2 = 0, con lo cual no se
cuenta el coste del listado de unidades de segunda etapa. Ahora tenemos: C = c1n + c3 nm ,
que suele denominarse funcin de coste de campo, y que es la ms utilizada habitualmente.
3) Adems de las dos condiciones anteriores suponemos que c 1 = 0, lo que equivale
a considerar el coste total directamente proporcional al tamao de la muestra. Tendremos
C = cnm = cm .
Una expresin matemtica de la funcin de coste no deducible de la funcin general
anterior es la funcin de coste de Hansen, Hurwitz y Madow, cuya expresin es
C = co n + c1n + c2 nm , donde el primer trmino expresa los gastos de viaje entre las
unidades primarias. Hansen, Hurwitz y Madow obtienen el par
varianza para una funcin de coste dada.
( n, m )
que minimiza la
Nosotros vamos a suponer en los clculos una funcin de coste de campo definida
como C = n u c1 + n u m u c2 , y evaluaremos la varianza de la media a optimizar mediante la
S2
(1 + (m < 1) u b ) . Para obtener los valores de n y m que
expresin aproximada V (x ) =
nm
hagan mnima V ( x ) con la restriccin dada por la funcin de coste de campo construiremos
la funcin de Lagrange:
S2
q=
u ( 1 + ( m < 1) , ) + h ( C < n u c1 < n u m c2 )
nm
Igualaremos a cero sus derivadas parciales respecto de n, m y h y eliminando
parmetros adecuadamente se tiene:
c 1<b
mop = 1 u
c2
b
N
Mi
Para probabilidades proporcionales al tamao A Pi =
con M = M i , luego:
M
i =1
1 n M x
1 n M i xi
M
X HH = i i =
=
n i Pi
n i Mi M
n
x
i
1
1
X =
X HH =
M
M
Mi
Mi
x
Pi
n
X i 1 n M i
1
1 n M P
M
A
M
P
M
=
,
=
=
= i i
i nP n i P
n i
Pi
n i Pi
i
i
Mi
P
1 n M i
P=
n i
Pi
n
309
Varianzas
Como la primera etapa es siempre con reposicin, distinguiremos entre si la segunda etapa
es con reposicin o sin reposicin.
Sin reposicin en segunda etapa
2
M 2 (1 < f 2i ) 2
1 N X
1
V ( X HH ) = i < X Pi + i
u S i , V ( X HH ) = 2 V ( X HH )
M
n i =1 Pi
nPi mi
i
V( AHH) = i < A2 + i
u
n i=1 Pri
Mi <1
i nPrimi
V ( PHH ) = 2 V ( A )
M
Mi
M
M , se tiene:
i =1
2
2
< X
+
u Si = < + (1< f2i ) u Si2
V ( XHH) =
n i =1 Mi M i mi
n i =1 Mi / M
M i nmi Mi / M
M i2
1 N X
1
V ( X HH ) = i < X Pi +
u m i2 , V ( X HH ) = 2 V ( X HH )
M
n i =1 Pi
i nPi mi
M i2
1 N A
V ( A HH ) = i < A Pri +
u Pi Qi
n i =1 Pri
i nPri mi
V ( PHH ) = 2 V ( A )
M
Mi
M
M , se tiene:
i =1
2
2
2
N
Mi N
M i2
M
1 N Xi
M N Xi
X2
2
+ i u m i2
V ( X HH ) =
< X
+
um i =
<
n i =1 M i / M
n i =1 M i M
mi
i nmi M i / M
i
M
i P < X HH
i
1
V X =
, V ( X ) = 2 V ( X HH )
n(n < 1)
M
2
A i
i P < A
i
=
V A =
n(n < 1)
n
M i Pi
i P < MP
i
n(n < 1)
n
V ( P ) = 2 V ( A )
M
X HT = i = i i
i
/i
/i
X HT =
= M i
i
/i
/i
N
nM i
con M = M i
M
i =1
n
n
M x
M i xi
M
X HT = i i =
=
/i
n
i
i nM i M
x
i
Probabilidades iguales A / i =
311
n
N
n
n
M x
M x
N
X HT = i i = i i =
/i
n
i
i n N
M x
i
Vemos que las expresiones de los estimadores coinciden en muestreo con y sin
reposicin.
Los estimadores para medias, proporciones y totales de clase en el muestreo
bietpico con probabilidades desiguales son inmediatos:
1
1
X =
X HT =
M
M
n
P =
i
Mi
Pi
M
/i
X i
/ =
Mi
xi
M
/i
A = MP = M
i
Varianzas
Mi
Pi
n
M P
M
= i i
/i
/i
Como la primera etapa es siempre sin reposicin, distinguiremos entre si la segunda etapa es
con reposicin o sin reposicin.
Sin reposicin en segunda etapa
N
N
N
(1 < f 2i ) M i2 S i2
X2
X Xj
,
(/ ij </ i / j ) +
V ( X HT ) = i (1 </ i ) + i
mi / i
i =1 / i
i& j / i / j
i
V ( X HH ) = 2 V ( X HH )
M
X2
X Xj
M 2m 2
1
(/ ij </ i / j ) + i i , V ( X HH ) = 2 V ( X HH )
V ( X HT ) = i (1 </ i ) + i
mi / i
M
i =1 / i
i& j / i / j
i
Mi
Pi Qi , m i2 = Pi Qi
Mi <1
V ( X HT ) =
(1 </ i ) +
(/ ij </ i/ j ) +
mi / i
i& j / i / j
i =1 / i
i
V ( X HT ) = i (1 </ i ) + i
(/ ij </ i / j ) + i i
mi / i
i& j / i / j
i
i =1 / i
mi
Para el caso particular de totales de clase y proporciones se hace S i2 =
Pi Qi .
mi < 1
MUESTREO POLIETPICO
En el muestreo polietpico se realizan submuestreos consecutivos hasta un nmero de etapas
determinado. Por ejemplo, en el muestreo trietpico se selecciona en una primera etapa una
muestra de unidades primarias, en una segunda etapa se realiza submuestreo en cada una de
las unidades de la muestra de primera etapa y en una tercera etapa se realiza submuestreo en
cada una de las unidades de la muestra de segunda etapa. De forma similar se generalizara
para un nmero elevado de etapas, dando lugar al muestreo polietpico.
Muestreo con reposicin de unidades primarias y sin reposicin en las restantes etapas
Considerando la unidad muestral i-sima como una poblacin y representando por x i un
estimador insesgado de X i , podemos extender el estimador insesgado de Hansen y Hurwitz
a cualquier nmero de etapas. Tenemos entonces que un estimador insesgado del total ser:
n
X
1 n X
1 n M x
X HH = i = i = i i
n i Pi n i Pi
i nPi
X
i Pi < X HH
i
V X =
n(n < 1)
n
1 N X
V ( X HH ) = i < X Pi + nPi u m i2
n i =1 Pi
i
X HT = i = i i = i i =
n N
n
/i
i /i
i
i
M
i
313
xi
V ( X HT ) = 2i / i + 2 i
/ ij < X 2 + m i2 / i
i =1
/i
i< j
/i / j
V ( X HT ) =
(1 </ i ) +
(/ ij </ i/ j ) +
mi / i
i =1 / i
i& j / i / j
i
NhM h
n m
f h = h h = f 1h u f 2 h
NM
NhM h
L
E (x st ) = Wh E1 E 2 x h = Wh E1
1
nh
nh
x
i
ih
pues
L
L
1 n
E 2 xih = Wh E1 x h = Wh X h =X
nh i
h
h
S2
S2
V (x st ) = Wh2 u V (x h ) = Wh2 (1 < f 1h ) u bh + (1 < f 2 h ) u wh
nh mh
nh M h
h
i
S 2
S2
V (x st ) = Wh2 u V (x h ) = Wh2 (1 < f 1h ) u bh + f 1h (1 < f 2 h ) u wh
nh mh
nh mh
h
i
PROBLEMAS RESUELTOS
8.1.
En un barrio de una ciudad se obtiene una muestra de 6 manzanas de 30 casas cada una con
probabilidades iguales. Dentro de cada manzana de la muestra se realiza submuestreo sin
reposicin con fraccin de muestreo igual a 1/6, y se obtienen los siguientes valores para el
nmero de casas en las que viven jubilados:
Manzana
1 2 3 4 5 6
4 3 5 2 1 5
Se pide:
1) Suponiendo muestreo con reposicin de unidades primarias, estimar la proporcin P de
casas del barrio en las que viven jubilados y su error relativo de muestreo. Estimar por
intervalos al 95% el total A de casas del barrio en las que viven jubilados.
2) Suponiendo muestreo sin reposicin de unidades primarias y fraccin de muestreo en
primera etapa igual a 1/2, estimar la proporcin de casas del barrio en las que viven
jubilados y su error relativo de muestreo. Construir la tabla del anlisis de la varianza para la
muestra y estimar el valor del coeficiente de correlacin intraconglomerados. Estimar por
intervalos al 95% el total de casas del barrio en las que viven jubilados.
Consideramos las manzanas como conglomerados de igual tamao (30 casas cada manzana).
Tenemos como datos n = 6, M = 30, f 2i =
mi
1
mi = f 2i M = 30 = 5 = m .
M
6
1 n
1 4 3 5 2 1 5 2
P = Pi = + + + + + =
n i =1
6 5 5 5 5 5 5 3
Para calcular la varianza del estimador realizamos la tabla muestral del anlisis de la
varianza. Para ello utilizamos seis variables de clasificacin de, C1 a C6, una por cada
conglomerado muestral, de modo que cada variable tiene un nmero de unos igual al total de
clase del conglomerado muestral correspondiente, y ceros para el resto de las unidades del
conglomerado muestral. Se elige Anlisis de la varianza de un factor en Anlisis de datos
del men Herramientas, y se rellena su pantalla de entrada como se indica en la Figura 8-1.
Los resultados se ven en la Figura 8-2.
S 2 0,53333
= 0,018 . El error relativo de muestreo es:
La varianza es V ( P ) = b =
nm
Cv ( P$ ) =
6,5
V$ ( P$ )
0,018 0,134164
=
=
= 0,2 (20%)
2/3
2/3
P$
315
Figura 8-1
Figura 8-2
Al ser la fraccin de muestreo en primera etapa 1/2, tenemos 1/2 = 6/N, de donde el
nmero de conglomerados en la poblacin es N = 13. Para hacer una estimacin por
intervalos del total de la caracterstica A en la poblacin, necesitamos la varianza del
estimador del total. Pero:
2
A = NMP = 12 30 = 240
3
En el caso de que ambas etapas sean sin reposicin, los estimadores de la proporcin
y el total de clase no varan, pero s cambian los errores de muestreo. La varianza del
estimador de la proporcin ser ahora:
S2
S2 1 0,5333 1 1 0,1666
+ 1<
= 0,0112
V P = (1< f1) b + f1(1< f2 ) w = 1<
nm
nm 2 6,5 2 6 6,5
()
V$ ( P$ )
0,0112 0,10583
El error relativo es Cv ( P$ ) =
=
=
= 0,1587 (15,87%) y se
$
2/3
2/3
P
observa que en muestreo sin reposicin el error resulta ser menor.
8.2.
Una regin tiene 1000 hogares agrupados en 50 pequeos municipios de tamaos desiguales
Mi (i = 1, 2, ..., 50). Se trata de estimar la proporcin de hogares que estn al corriente de
sus obligaciones fiscales mediante muestreo de conglomerados con submuestreo con
probabilidades iguales y sin reposicin en las dos etapas. En la primera etapa se obtienen 5
municipios muestrales de tamaos 6, 10, 8, 20 y 60 hogares. En la segunda etapa, realizada
con fracciones de muestreo f2i = 4/Mi, se obtiene en los 5 municipios de la muestra de
primera etapa los valores 1, 3, 2, 2 y 3 para el nmero de hogares que estn al corriente de
sus obligaciones fiscales. Se pide:
1) Hallar el estimador insesgado de la proporcin de hogares que estn al corriente de sus
obligaciones fiscales y su error absoluto y relativo de muestreo.
2) Construir la tabla del anlisis de la varianza para la muestra y comprobar la igualdad
fundamental.
Consideramos los municipios como conglomerados de distinto tamao. Las unidades elementales
son los hogares de los municipios. Tenemos:
f 2i =
mi
4
=
mi = 4 i
Mi Mi
M i 50 1 5
1 1
3
2
2
3
i M Pi = 5 u 1000 i M i Pi = 100 6 4 + 10 4 + 8 4 + 20 4 + 60 4 = 0,68
n
1 n
Mi Pi < Mi Pi
n
1 N (1 < f1 ) i
n i =1
+ N M 2 (1 < f ) u PiQi = 0,1458
V P = 2
u
i 2i m <1
M
n
n <1
n i
i
()
Fuente
Grados libertad
Sumas de cuadrados
n
i
dentro
Total
m Pi < P
n <1
entre
Cuadrados medios
Sb2
P (1 < P )
n
n(m < 1)
nm < 1
nm P Q
i =1
317
S w2
S 2
La relacin fundamental del anlisis de la varianza ser: (nm <1)S 2 = (nm < n)S w2 + (n <1)Sb2 .
Todos los elementos del cuadro son calculables con nuestros datos, con lo que ya pueden
realizarse las operaciones para obtener los siguientes resultados:
Fuente
entre
dentro
Total
8.3.
Grados libertad
5 <1 = 4
Sumas de cuadrados
0,7
5( 4 < 1) = 15
5 u 4 < 1 = 19
Cuadrados medios
0,175
0,2833
0,26
4,25
4,95
Consideremos una provincia con 400 municipios. Para estimar el total de hogares con
automvil en la provincia se selecciona una muestra de 10 municipios con igual
probabilidad, y dentro de cada municipio de la muestra se seleccionan aleatoriamente
hogares utilizando una fraccin de muestreo f = 1/5. Se obtienen los siguientes datos:
Distritos
muestrales
1
2
Total de hogares en
los distritos ( M i )
200
180
N de hogares en
la muestra ( m i )
40
35
Hogares con
coche ( Ai )
6
7
35
4
5
220
80
44
16
7
1
6
7
140
125
28
25
3
2
8
9
65
140
13
28
2
2
10
55
11
Se pide:
1) Estimar el total de hogares con automvil en la provincia y sus errores absoluto y relativo
de muestreo.
2) Realizar la estimacin anterior por intervalos al 95% de confianza.
Consideramos los municipios como conglomerados de distinto tamao. Las unidades
elementales son los hogares dentro de los municipios.
M P
i
400
6
7
1
200 + 180 + L + 53 = 6440
10
40
35
11
1 n
Mi Pi < Mi Pi
2
n
N (1 < f1 ) i
n i =1
+ N M 2 (1 < f ) u PiQi = 628237
u
V A =
i
2i
n
n <1
n i
mi <1
n
()
El error relativo de muestreo viene dado por el coeficiente de variacin del estimador.
Tenemos:
V ( A )
628237 792,614
Cv ( P ) =
=
=
=0,123 (12,3%)
6440
6440
A
Para hacer una estimacin por intervalos del total de la caracterstica suponiendo
normalidad tendremos:
(A < h m ( A ), A < h m ( A )) = [6440 < 1.96 u 792,61, 6440 + 1.96 u 792,61] = [4886.4, 7993.5]
_
8.4.
De una via formada por 1000 lneos de 50 cepas cada uno, se extrae una muestra de 30
lneos. Dentro de cada lneo de la muestra se analizan cinco cepas, utilizando muestreo con
probabilidades iguales y con reemplazamiento en primera etapa. El anlisis de la varianza de
la muestra para una variable medida sobre las cepas presenta los siguientes resultados:
Fuente de variacin
Entre lneos
Dentro de lneos
Grados de libertad
29
120
Cuadrados medios
600
400
1) Estimar el error de muestreo del estimador de la media de la variable medida sobre las
cepas. Hallar la amplitud de las estimaciones por intervalos al 95% de confianza.
2) Realizar los mismos clculos para muestreo sin reposicin en ambas etapas, comparando
los resultados con los del apartado anterior.
Consideramos cada lneo como conglomerado de 50 cepas (tamaos iguales). Cuando existe
reposicin en primera etapa, la frmula de la estimacin de la varianza de la media,
independientemente de que haya o no reposicin en segunda etapa, es la siguiente:
S 2
V (x ) = b
nm
La tabla del anlisis de la varianza para la muestra en el caso del muestreo bietpico
es la siguiente:
Fuente
Grados libertad
m ( xi < x )
n <1
entre
dentro
Total
Sumas de cuadrados
Cuadrados medios
S$b2
n( m < 1)
( X
ij
< xi
nm < 1
( X
ij
<x
i
n
i
j
m
j
319
S w2
S$ 2
Si consideramos los datos de nuestro problema tenemos S$b2 = 600 y S w2 = 400. Por tanto:
S 2
600
=4
V (x ) = b =
nm 29 u 5
La amplitud del intervalo de confianza al 95% es 2 V (x ) , que puede considerarse
como un lmite para el error de muestreo, y que en nuestro caso vale 4.
Si las dos etapas son sin reposicin se tiene:
S 2
S 2
30 600
30
5 400
V x = (1 < f1 ) b + f1 (1 < f2 ) u w = 1 <
+
= 3,95
1 < u
nm
nm 1000 30 u 5 1000 50 30 u 5
()
La amplitud del intervalo de confianza al 95% es 2 V (x ) , que en este caso vale 7,9.
Como es natural, tiene menos varianza el muestreo sin reposicin, ya que siempre es ms
preciso. Este hecho tambin se refleja en la anchura de los intervalos de confianza.
8.5.
Mi
1
2
3
4
5
6
7
8
9
10
so
65
45
48
52
58
42
66
40
56
mi
10
13
9
10
10
12
8
13
8
11
xi
S2i
5,40
4,00
5,67
4,80
4,30
3,83
5,00
3,85
4,88
5,00
11,38
10,67
16,75
13,29
11,12
14,88
5,14
4,31
6,13
11,80
Estimar el tiempo sin funcionar promedio por mquina y establecer un lmite para el error de
estimacin. El fabricante sabe que tiene un total de 4.500 mquinas en todas las plantas.
Estimar tambin la cantidad total de tiempo sin funcionar durante el mes pasado para todas
las mquinas. Estimar el tiempo sin funcionar promedio por mquina en caso de que no se
conozca el nmero total de mquinas.
N
n
Mi
Mx
i =1
N 2 (1 < f 1 )
u
V x =
nM 2
()
90
(50 u 5,4 + 65 u 4 + L + 56 u 5) = 4,8
4500 u 10
mi
X < X
i
i
N
+
n <1
nM 2
M i2 (1 < f 2i
mi
(X
)u
j
ij
< xi
mi < 1
10
90 2 1 <
90
90 u 768,38 +
u 21990,96 = 0,037094
2
10 u 4500
10 u 4500 2
x=
M x
i =1
n
M
i =1
(50 u 5,4 + 65 u 4 + L + 56 u 5)
= 4,6
50 + 65 + L56
10
10
10
1< f 2 2 2
2
2
2
S ) = 1< f
(
)
(
M
x
+
x
M
<
2
x
M i xi M i ) = 0,049
(
S
+
R
S
<
2
R
V ( x ) =
x
M
xm
i
i
i
nM 2 (n <1) i =1
nM 2
i =1
i =1
8.6.
Para estimar el total de una magnitud en una poblacin de 100 conglomerados se estratifica la misma
en dos zonas, rural y urbana, con 60 y 40 conglomerados respectivamente. En la zona rural se
selecciona una muestra de cinco conglomerados con probabilidades proporcionales a su tamao Mi y
con reemplazamiento, mientras que en la zona urbana se selecciona una muestra sistemtica de
cuatro conglomerados con coeficiente de correlacin intramuestral igual a una milsima. Se tiene:
ZONA RURAL
Unidad
muestral
Mi
Total
1
7
13
2
6
11
3
8
18
4
4
10
5
5
11
ZONA URBANA
Unidad
muestral
Total
1
21
2
15
3
24
4
20
1) Estimar la media por conglomerado en cada zona y sus errores absoluto y relativo de
muestreo. Hallar tambin un intervalo de confianza del 95% para la media por conglomerado
en cada zona.
2) Estimar el total en la poblacin y sus errores absoluto y relativo de muestreo.
321
= + + + + = 2,128
MR i nPi MR n i MiR MR n i MiR 5 7 6 8 4 5
Xi
< X HHR
i =1 Pi
1
1
= 1
V ( X HHR) = 2 V ( X HHR) = 2
MR
MR
n(n < 1)
M R2
n
Xi
< M R X HHR
i =1 MiR M R
=
n(n < 1)
n
2
2
2
2
2
Xi
13
11
18
10
11
<
X
<
+
<
+
<
2
,
128
2
,
128
+
<
2
,
128
+
<
2
,
128
2
,
128
HHR
i =1 MiR
=7
6
8
4
5
= 0,016
20
n(n < 1)
n
=
= 0,059 6%
Cv( X HHR ) =
2,128
X HHR
Un intervalo de confianza al 95% para el gasto medio por hogar en zona rural es:
X HHR h_ V ( X HHR ) = 2,128 1,96 0,016 = [1,880, 2,376]
21 + 15 + 24 + 20
X U =
= 20
4
1
(21< 20)2 + (15 < 20)2 + (24 < 20)2 + (20 < 20)2
2
S
4 3
V ( XU ) = (1 < f ) = 1 <
= 3,15
n 40
4
Cv ( X U ) =
=
= 0,0887 8,87%
20
X U
Un intervalo de confianza al 95% para el gasto medio por hogar en zona urbana es:
V ( X st )
5097,6
C v( X st ) =
=
= 0,077 7,7%
927,68
X st
8.7.
En las 10 regiones de un pas se efecta muestreo en dos etapas (1 etapa con reposicin). En
la primera etapa se obtienen tres regiones de 50, 60 y 80 distritos. En la segunda etapa se
seleccionan cinco distritos de cada regin de la primera etapa en los que se mide el nmero
de habitantes condenados a cadena perpetua, y se obtienen los siguientes datos:
Unidades primarias Tamaos Valores observados X ij
(M i )
de la muestra (n = 3)
mi = m = 5
REGIN 1
8, 6, 12, 14, 10
50
REGIN 2
REGIN 3
60
80
Sabiendo que el total de distritos es M = 600, se pide formar un estimador insesgado del total
X de condenados a cadena perpetua y calcular el valor particular correspondiente a los datos
del problema en los siguientes casos:
1) Muestreo con probabilidades iguales en las dos etapas.
2) Muestreo con probabilidades proporcionales al tamao en primera etapa.
3) Estimar el error de muestreo en ambos casos.
Para probabilidades iguales en ambas etapas el estimador del total es:
N
X =
n
M
i
xi =
10
(50 u 10 + 60 u 12,4 + 80 u 11,2) = 7133,33 5 7134 condenados
3
X
n
n
i 1 / Ni < X NX i < N 1 M i xi
n i
N2
i
=
V X =
=
n(n < 1)
n(n < 1)
n
n
( )
1 n
i M i xi < n i M i xi N 2
=
n <1
n
n
< X i
n <1
X
i
100 (50u10 < 713,33) 2 + (60u12,4 < 713,33) 2 + (80u11,2 < 713,33) 2
= 2.19385u107
3
2
323
X HH = i i =
=
n i Pi
n i Mi M
n
x
i
600
(10 + 12,4 + 11,2) = 6720 condenados
3
i M /iM < X
i
=
V X =
n(n < 1)
n
( )
M
M
i M M i xi < n
i
n(n < 1)
n
2
n
n
i xi M 2 xi < 1n xi
i
i
=
=
n(n < 1)
n
6002 (10 < 11,2) + (12,4 < 11,2) + (11,2 < 11,2)
= 172800
6
2
8.8.
Consideramos las 1100 granjas de cerdos de una comarca que se estratifican formando 2
estratos. El primero de ellos (granjas en zona rural) tiene 1.000 granjas de 50 cerdos con 4
meses de edad del que se extrae una muestra de 5 granjas, en cada una de las cuales se obtiene
a su vez una submuestra de 6 cerdos. Los pesos promedios (en arrobas) de los 6 cerdos con 4
meses de las 5 granjas anteriores extradas del primer estrato son los siguientes:
2
x i1 = {3, 5, 2, 4, 6} i = 1, 2, ..., 5 y S1w
=1,5. El segundo estrato (granjas en permetro
urbano) tiene 100 granjas de 40 cerdos con 4 meses cada una del que se extrae una muestra de
6 granjas, en cada una de las cuales se obtiene a su vez una submuestra de 4 cerdos. Los pesos
promedios (en arrobas) de los 4 cerdos con 4 meses de las 6 granjas anteriores extradas del
2
segundo estrato son los siguientes: x i 2 = {3, 4, 3, 5, 3, 3} i = 1, 2, ..., 6 y S 2w
= 1,33. A partir
de esta informacin, estimar el peso promedio de los cerdos a los 4 meses en las granjas de la
comarca y sus errores absoluto y relativo de muestreo considerando muestreo sin reposicin y
probabilidades iguales en todas las etapas. Hallar tambin un intervalo de confianza para el
peso promedio de los cerdos a los 4 meses en las granjas de la comarca al 95%.
Estamos ante el tpico diseo complejo de muestreo bietpico de conglomerados (granjas de
cerdos) con estratificacin de las unidades de primera etapa (las granjas) en dos estratos. Las
unidades elementales de segunda etapa son los cerdos con 4 meses de las granjas.
Inicialmente estimamos la media y su varianza en el primer estrato. Tenemos:
5
x1 =
1
n1
x
i
i1
20
=4
5
S b2 =
m1 (xi1 < x1 )
n1 < 1
= 15
5 15
5
6 1,5
S 2
S 2
1
x2 =
n2
21
i xi 2 = 6 = 3,5
S 22b =
m 2 (xi 2 < x 2 )
n2 < 1
= 2,8
6 2,8 6 4 1,33
S 2
S 2
= 0,113
V x2 = (1 < f21) 2b + f21(1 < f22 ) u 2w = 1 <
+
1 < u
n2m2
n2m2 100 24 100 40 24
( )
x st = W h x h = W1 x1 + W 2 x 2 =
h =1
100
1000
u4+
u 3,5 = 3,685 arrobas
1100
1100
2
1000
100
2
2
2
V (xst ) = Wh V (xh ) = W1 V (x )1 + W2 V (x2 ) =
u 0,5 +
u 0,113 = 0,415
h =1
1100
1100
8.9.
Una empresa tiene que realizar una encuesta en la que las unidades primarias de muestreo
son las secciones censales y las unidades de segunda etapa son las familias pertenecientes a
las secciones censales. La empresa dispone de agentes entrevistadores que residen en la
capital de cada provincia en la que tiene sucursales. Se supone que el coste de enviar un
agente a una seccin censal es de 500 euros y el de realizar una entrevista a una familia es de
50 euros.
Si existe un presupuesto de 3000000 de euros para realizar la encuesta siendo la
caracterstica a estimar la proporcin de poblacin activa respecto del total, y por encuestas
anteriores se tiene una estimacin de dicha proporcin del 38% y una estimacin del
coeficiente de correlacin intraconglomerados de 0,05, se pide:
1) Considerando muestreo con reposicin, plantear el problema de Lagrange que permite
calcular el nmero ptimo de secciones censales y el de familias a entrevistar dentro de cada
una.
2) Hallar el valor de los nmeros ptimos citados para el coste total dado.
325
V ( P$ ) = (1 < f )
$$
PQ
(1 + (m < 1)b )
nm
(1 + (m < 1)0,05)
c1 1 < b
500 1 < 0,05
u
=
u
14 familias
nm
m =
c2 b
50 0,05
MinV ( P ) = (1 < f )
8.10.
3000000
3000000
=
= 2500 secciones censales
500 + 50m 500 + 50 u 14
Una empresa quiere estimar la proporcin de mquinas que han sido retiradas del proceso de
produccin debido a reparaciones mayores. Para ello utiliza muestreo en dos etapas
considerando unidades de primera etapa las plantas de que dispone y unidades de segunda
etapa las mquinas de las plantas. Se dispone de tiempo y dinero para muestrear 10 plantas y
se obtiene que los tamaos de las plantas Mi, las mquinas muestreadas en cada planta en
segunda etapa mi y las proporciones muestrales de mquinas que requieren reparaciones
mayores son los que se exponen en la siguiente tabla:
Porcentaje de mquinas
Planta
1
Mi
50
mi
10
2
3
65
45
13
9
0,38
0, 22
4
5
48
52
10
10
0,30
0,50
6
7
58
42
12
8
0, 25
0,38
8
9
66
40
13
8
0,31
0, 25
10
56
11
0,36
Estimar la proporcin de mquinas que han sido retiradas del proceso de produccin debido
a reparaciones mayores para todas las plantas y establecer un lmite para el error de
estimacin al 95%.
P =
i =1
n
M
i =1
Pi
= 0,34
(1 < f 1
V P =
nM
()
) M
u
i
2
i
(P < P )
n <1
1
nNM 2
PQ
M (1 < f ) u m < 1 = 0,0081
n
i
2
i
2i
()
P 2 V P = 0,34 0,056
327
EJERCICIOS PROPUESTOS
8.1.
Se desea estimar el consumo de los hogares espaoles a travs de una muestra bietpica
formada por conglomerados de 500 hogares cuya unidad primaria de muestreo es la seccin
censal. El coeficiente de correlacin intraconglomerados es 0,1. El coste de preparacin de
listados y planimetra de cada seccin censal a incluir en la muestra es de 5.000 unidades
monetarias, y el coste de entrevista por hogar es de 1000 unidades monetarias, no
considerndose ms componentes en la funcin de coste total. Si se dispone de un
presupuesto global de 10000000 de unidades monetarias, se pide:
1) Especificar la funcin de coste total y plantear el problema de optimizacin con
restricciones asociado.
2) Cules seran los tamaos de muestra en cada etapa que optimizasen el diseo? Se
entiende por diseo ptimo aquel que logra la mxima precisin dentro del presupuesto
fijado.
3) Si se estratifican las secciones censales en dos estratos del mismo tamao correspondientes
a zona rural y zona urbana, de modo que la variabilidad del consumo de los hogares medida a
travs de la varianza es tres veces superior en la zona urbana que en la rural, cmo se distribuira
la muestra en cada estrato y en cada etapa para optimizar el diseo?
8.2.
Un investigador desea muestrear tres hospitales de entre los seis que existen en una ciudad,
con el propsito de estimar la proporcin de pacientes que han estado (o estarn) en el
hospital por ms de dos das consecutivos. Puesto que los hospitales varan en tamao, stos
sern muestreados con probabilidades proporcionales al nmero de sus pacientes. En los tres
hospitales muestreados se examinar un 10% de los registros de los pacientes actuales para
determinar cuntos pacientes permanecern por ms de dos das en el hospital. Con la
informacin sobre los tamaos de los hospitales dada en la tabla adjunta se selecciona una
muestra de tres hospitales con probabilidades proporcionales al tamao.
Hosp. Pacien. Interv.
1
328
1-328
4
220 870-1089
Hosp.
2
5
Pacien.
109
280
Interv. Hosp.
329-437 3
1090-1369 6
Pacien.
432
190
Interv
438-869
1370-1559
Puesto que sern seleccionados tres hospitales, tres nmeros aleatorios entre el 0001 y el
1559 deben ser seleccionados de la tabla de nmeros aleatorios. Nuestros nmeros elegidos
son 1505, 1256 y 0827. Qu hospitales sern elegidos para la muestra? Supngase que los
hospitales muestreados dieron los siguientes datos sobre el nmero de pacientes con
permanencia de ms de dos das:
Hospital N de pacientes muestreados
a
43
b
28
c
19
Estimar la proporcin de pacientes con permanencia superior a dos das para los seis
hospitales y establecer un lmite para el error de estimacin.
8.3.
8.4.
i i
45 i & j
45 i =1
3 i =1
siendo xi el total muestral y si2 = Si2 la cuasivarianza dentro de la unidad primaria i-sima de
la muestra. Si consideramos muestreo con reposicin en la segunda etapa, cul es el
estimador del total? Qu expresin toma el estimador de su varianza?
8.5.
Ciudad
1
2
N de tiendas
en la ciudad
25
10
N de tiendas
muestreada s
13
5
N de tiendas que no
satisfacen el criterio de limp ieza
3
1
3
4
18
16
9
8
4
2
CAPTULO
MUESTREO BIFSICO Y
MUESTREO EN OCASIONES SUCESIVAS
OBJETIVOS
1. Presentar el concepto de muestreo bifsico.
2. Analizar los estimadores y sus errores en muestreo bifsico con estratificacin.
3. Analizar los estimadores y sus errores en muestreo bifsico para estimaciones de razn.
4. Analizar los estimadores y sus errores en muestreo bifsico para estimaciones de regresin.
5. Analizar los estimadores y sus errores en muestreo bifsico para estimaciones de diferencia.
6. Estudiar los estimadores de mnima varianza en el muestreo en ocasiones
sucesivas.
NDICE
1. Muestreo bifsico.
2. Muestreo bifsico para estratificacin. Estimadores, varianzas y estimacin
de varianzas.
3. Muestreo bifsico para estimadores de razn.
4. Muestreo bifsico para estimadores de regresin.
5. Muestreo bifsico para estimadores de diferencia.
6. Mestreo en ocasiones sucesivas.
7. Estimadores de mnima varianza en el muestreo en ocasiones sucesivas.
8. Problemas resueltos.
9. Ejercicios propuestos.
331
MUESTREO BIFSICO
El muestreo doble o bifsico se utiliza cuando queremos obtener estimadores de alguna variable
X y disponemos de informacin adicional de otra variable de modo similar a lo que ocurra en los
mtodos de estimacin indirecta. En la prctica, el muestreo doble se lleva a cabo seleccionando
en una primera fase una muestra, relativamente grande, en la que a bajo coste pueden observarse
una o varias caractersticas generales de las unidades que nos proporcionan la informacin que
necesitamos para el estudio de nuestra caracterstica objetivo. En una segunda fase seleccionamos
una submuestra de la primera en la que observamos ya la caracterstica objeto de estimacin. Esta
tcnica se conoce con el nombre de muestreo en dos fases, muestreo doble o muestreo bifsico.
Para fijar notacin consideramos:
1 fase. Se toma una muestra grande de tamao n relativa a la variable auxiliar Yi
para estimar por ejemplo Y u otras caractersticas relativas a la variable Yi con bajo coste.
2 fase. Se toma una muestra relativa a la variable en estudio Xi de tamao n
(generalmente submuestra de la muestra preliminar n< n) con coste mucho ms alto.
El uso de esta tcnica de muestreo depende de los costes. Si la observacin de la
caracterstica Xi que nos interesa no tiene coste, o es muy bajo, sencillamente tomaramos
una muestra del tamao no necesario para la precisin deseada y con ella haramos las
estimaciones relativas a Xi. Supongamos que disponemos de un presuspuesto total C, que el
coste por unidad de la primera muestra, de tamao n, es c y que el coste por unidad de la
segunda muestra, de tamao n < n, es c. Frecuentemente c es mucho ms pequeo que c,
bien sea porque la primera muestra se utiliza para obtener unos pocos datos generales de las
unidades (en campo o en oficina, si se dispone de un fichero o registro) o bien porque la
observacin de la caracterstica objetivo implica un proceso de observacin ms costoso. En
estas condiciones, si tomamos una sola muestra, tendremos C = cno, y si hacemos muestreo
en dos fases C = cn + cn. Supongamos que los costes totales por el procedimiento bifsico
y por el normal (aleatorio) son los mismos, esto es, cno = cn + cn. Igualando los dos costes
totales, se obtiene: no = n +
c'
n' , lo que nos dice que con la tcnica de dos fases la
c
observacin efectiva (la referida a la variable Xi) se hace en una muestra de tamao n, menor
que el tamao no de la muestra aleatoria simple correspondiente en una sola fase con el
mismo coste total. Luego al introducir las dos fases el tamao de muestra necesario es ms
pequeo que si hubiese una sola fase (muestreo aleatorio normal) y hay una prdida en la
precisin de los estimadores (al disminuir el tamao de la muestra).
Se trata de decidir si compensa la disminucin del tamao efectivo de la muestra, con
el incremento de informacin adquirido en la primera fase (lo que provocar prdida de
precisin en las estimaciones relativas a Xi). Para ello debe calcularse la varianza
correspondiente a muestreo doble y compararla con la del muestreo en una sola fase
m2
no
en
caso de estimacin de la media. Es obvio que cuanto menor sea la relacin c/c ms favorable
es el muestreo doble. Ello es debido a que no < n = (c / c ) n mientras menor sea c / c ms
cerca estar n de no y menos disminucin habr del tamao de muestra comparado el bifsico y
el aleatorio simple, siendo la prdida en precisin de los estimadores menor al introducir el
bifsico.
Wh =
n'
Nmero de elementos de la primera muestra que caen en el estrato h
W h = h =
n'
Nmero total de elementos de la primera muestra
Hay que tener presente que si consideramos selecciones diferentes de la primera
muestra (con n prefijado) obtenemos diferentes valores de nh y W$h resulta ser un estimador
insesgado de Wh (porque la proporcin muestral en muestreo aleatorio simple es un
estimador insesgado de la proporcin poblacional, lo mismo que la media muestral es un
estimador insesgado de la media poblacional). Tenemos entonces que E W$h = Wh estando
la esperanza referida a las muestras posibles de n unidades de entre las N de la poblacin. A
efectos de clarificar la notacin especificamos lo siguiente:
( )
h =1
h =1
n' = n' h y n = nh
La segunda muestra (segunda fase) es una muestra aleatoria estratificada de tamao
n. Consiste en tomar una submuestra aleatoria de tamao nh ) n' h en cada estrato
independientemente (o sea, las nh las elegimos de entre las nh para valores de h = 1, ..., L).
L
Tendremos
tambin sern fijos (por serlo nh y n) y lo que se hace es considerar todas las submuestras
aleatorias de nh unidades que pueden extraerse de entre las nh unidades dadas.
333
Estimadores y varianzas
El estimador usual de la media en muestreo estratificado es X =
W x
h
con Wh =
Nh
.
N
En muestreo doble los Wh se estiman por los W$h obtenidos de la primera muestra, y con la
xh
; de esta forma resulta el estimador para la
segunda muestra estimamos las medias x h =
nh
media:
X$ = W$h x h
h
n' h
; W$h =
n'
donde g es el factor de finitud g = (N < n)/(N <1). Por otro lado, Rao expres esta varianza
de la media de la siguiente forma:
1
S2
N < n' S 2
V X =
u
+ < 1 u Wh h
N
n'
n'
h i h
; ih =
nh
n h'
frmula aproximada para n pequeo respecto de N en caso sin reposicin en segunda fase.
Para muestreo con reposicin en las dos fases tendremos:
m h2 2 Wh (1 < Wh ) 1
2
V X = Wh +
+ Wh ( X h < X )
h nh
n'
n' h
frmula aproximada para nh pequeo respecto de Nh, en todo h, y n pequeo respecto de N.
( )
V ( X$ ) = N 2V X$ .
Si la muestra de primera fase es de tamao n=N, esto es, se observan todas las
unidades de la poblacin para efectuar la estratificacin, la frmula general de la varianza
del estimador en muestreo doble se convierte en:
S h2
$
2
V X = ( 1 < f h )Wh
nh
h
( )
; g' = 0
que coincide con la del muestreo estratificado habitual (una sola fase). Adems se observa
que n aparece dividiendo, y en consecuencia, cuanto mayor es n (n < N ) la prdida de
precisin por el uso de muestreo doble disminuye. Obviamente el coste aumenta, razn por
la cual conviene estudiar los tamaos y la afijacin ptimos en funcin del coste.
Para proporciones y totales de clase tenemos:
Si se desea estimar una porporcin P en la poblacin, siendo Ph la correspondiente
al h-simo estrato, el estimador insesgado en muestreo doble es:
P$ = W$h ph
h
La varianza (sin reposicin en las dos fases), aplicando el resultado anterior, ser:
Nh
Ph Qh 5 Ph Qh .
Nh <1
En muestreo con reposicin en las dos fases, o sin reposicin y tamaos muestrales
pequeos respecto de los correspondientes poblacionales ( f h 5 1; g ' 5 1) , se tiene:
Wh ( 1 < Wh ) 1
PQ
2
+ Wh ( Ph < P )
V ( P$ ) = h h Wh2 +
nh
n'
h
n' h
( )
( )
n' h
( )
335
( )
1
1
1
2
V X$ = m h2Wh +
m h2 ( 1 < Wh ) + Wh ( X h < X )
n h
nn' h
n' h
que puede aproximarse por:
( )
1
1
2
V X$ = Whm h2 + Wh ( X h < X )
n h
n' h
Para afijacin ptima tenemos:
2
2
1
1
V X = Whm h + Wh (X h < X )
n h
n' h
( $)
1
1
2
q = A + B + h ( c' n'+cn < C ) con A = Whm h y B = Wh ( X h < X )
n
n'
h
h
,q
A
A
= < 2 + h c = 0 h = 2 n =
,n
n
cn
,q
B
B
= < 2 + h c' = 0 h =
n ' =
,n '
n'
c ' n' 2
,q
= c' n'+ cn < C = 0
V
,h
pt .
c'
()
X =
C A
Ac + Bc'
C B
Ac + Bc'
Ac + Bc'
C
Estimacin de varianzas
Tenemos:
n' sh2
V X =
n'<1
h nh
El factor
2 W h 1
W h <
+ W h (xn < X )2
n' n' h
n'
prcticamente es prximo a la unidad si n no es pequeo. Tambin
( n'<1)
()
s2 1
V X 5 W h2 h + W h x h < X
n h n'
h
()
2 sh
V X 5 Wh
nh
h
sh2
ph q h
=
;
nh nh < 1
(x
< X$
2
= ( ph < P$ )
x
X$ R = u y ' ;
y
En el caso de que las muestras de las dos fases sean independientes, se tiene:
1
1
V X R = {m x2 + R2m y2 < 2Rm xy }+ R2m y2
n
n'
frmula vlida para muestreo con reposicin. En el caso sin reposicin sustituimos varianzas
y covarianzas por cuasivarianzas y cuasicovarianzas, multiplicando el primer sumando por el
factor de finitud en segunda fase y el segundo sumando por el de primera fase.
Para el caso en que la segunda muestra de tamao n es una submuestra aleatoria de
la primera (n ) n), resulta:
1
1
V X R = {m x2 + R 2m y2 < 2 Rm xy }+ {2 Rm xy < R 2m y2 }
n
n'
337
X$ R = NX$ R
( )
; V ( X$ R ) = N 2V X$ R
n
1 n
( X i < x )2 y s xy = 1 ( X i < x )(Yi < y ) , y puesto que la primera
n <1 1
n <1 1
mediante
1 n'
2
(Yi < y ') . Para la razn R, tomaremos la estimacin R$ .
n'<1 1
X rg = x + K ( y '< y )
En esta situacin, la segunda muestra puede ser independiente de la primera o la
segunda muestra puede ser una submuestra aleatoria n < n de la primera.
Si las muestras de las dos fases son independientes, se tiene:
K 2m y2
1 2
2 2
V X rg = (m x + K m y < 2 Km xy ) +
n
n'
1
1
V X rg = (m x2 + K 2m y2 < 2 Km xy ) + (2 Km xy < K 2m y2 )
n
n'
n
m xy
Sea el valor ptimo de K = b = 2 estimado por b =
my
(X
1
(X
1
.
< x ) (Yi < y )
2
(1 < l 2 )m x2 + l 2m x2 < m x2
V X rl =
n
n'
N
Una estimacin para la varianza ptima es la siguiente:
S x2, y S x2 < S x2, y S x2
V X rl =
+
<
n
n'
N
S x2, y =
n
1 n
2
2
(
X
<
x
)
<
b
(Yi < y ) 2
n < 2 i =1
i =1
1 n
S x2 =
( X i < x)2
n < 1 i =1
339
,$ = x 2 < x1 =
1 n
( x < x1i )
n i 2i
ocasiones, se puede hacer la representacin grfica siguiente sobre los solapamientos en los
totales muestrales en ambas ocasiones.
Ocasin t1
@ x1c A @ x1c A
Ocasin t 2
@ x2c A @ x2c A
y prescindiendo del factor de correccin para poblaciones finitas 1 < f y suponiendo por
comodidad que la cuasivarianza poblacional en las dos ocasiones es la misma, tendremos
para las varianzas y covarianzas las expresiones:
S2
S2
, V (x2 ) =
n
n
2
c
S S c2
S2 c
S2
cov( x1 , x 2 ) = 2 u cov( x1c , x 2 c ) = l12 u
u
u 2 = l12 u
u = l12 u
u/ c
n n
n
n
c c n
V ( x1 ) =
()
S2 S2
S2
S2
+
<2
l12/ c = 2 [1 < l12/ c ]
V , = V ( x1 ) + V ( x 2 ) < 2 cov( x1 x 2 ) =
n
n
n
n
siendo l12 el coeficiente de correlacin entre los valores comunes a ambas ocasiones y
/ c la proporcin de unidades comunes. De esta expresin deducimos que para l12 > 0 la
ganancia en precisin es proporcional a / c l12 correspondiendo la mxima ganancia a los
valores
x=
1
( x + x2 )
2 1
V ( x) =
1
V ( x1 ) + V ( x 2 ) + 2 cov( x1 , x 2 )
4
V (x2 ) =
S2
S2
y cov( x1 , x 2 ) =
l12/ c ), tenemos:
n
n
V (x ) =
S2
,
n
S2
1 2S 2 2S 2
+
l
/
u [1 + l12/ c ]
12 c =
n
4 n
2n
Como este valor es mnimo cuando / c = 0 , vemos que, en el caso l12 < 0 , para
estimar la media sobre dos ocasiones es preferible utilizar muestras independientes.
341
()
2S 2
2S 2
(1 < l12 )
y V ( x2c < x1c ) =
n<c
c
1
(1 < l12 )(1 < / c )
/c
c
n<c
=
=
1<W =
W=
1 < l12 c + (n < c)(1 < l12 ) 1 < l12 (1 < / c )
1
1 < l12 (1 < / c )
+
n<c
c
Sustituyendo estos valores en la expresin de la varianza del estimador lineal de
mnima varianza se obtiene:
=
V 6 = W V (x2c < x1c ) + (1 < W ) V u (x2c < x1c )
[1 < l12 (1 < / c )]2 u n [1 < l12 (1 < / c )]2 u n
2
()
2S 2 (1 < l12 )
2S 2 (1 < l12 )
[1 < l (1 < / )] u n
[1 < l (1 < / )]
2S (1 < l )
2S (1 < l )
=
u (1 < l (1 < / )) =
[1 < l (1 < / )] u n
[1 < l (1 < / )] u n
2
12
12
12
12
12
12
un
12
c
Hemos obtenido una expresin para la varianza mnima del estimador lineal:
()
V 6 =
2 S 2 (1 < l12 )
[1 < l12 (1 < / c )] u n
X 1 en el estimador de regresin x 2' c = x 2 c + b( x1 < x1c ) cuya varianza viene dada por la
varianza de sus componentes x 2 c < bx1c y bx1 :
2
S
S2
2 S
V (bx1 ) = b u V ( x1 ) = b u
= l12
, (S1 = S 2 b = 1 u l12 = l12 )
n
n
S2
2
( )
'
2c
1 < l122
l122
=S
+
n
c
2
x 2 = Wx 2' c + ( 1 < W ) x 2 c
( )
( )
V(x )
W=
V( x ) +V( x )
( )
'
2c
1< W =
2c
V ( x 2' c )
V ( x 2' c ) + V ( x 2 c )
de donde se deduce que el estimador combinado de varianza mnima para estimar la media
en la segunda ocasin toma la forma:
x2 =
V ( x 2' c )
V ( x2c )
u x 2' c +
V ( x 2' c )
V ( x2c )
V ( x2c )
x 2' c
V ( x 2' c )
es una media ponderada con los coeficientes de ponderacin basados en los valores
recprocos de las varianzas. Sustituyendo los valores de W y 1 < W en V x 2 , calculamos el
valor de la varianza mnima para el estimador de la media en segunda ocasin. Tenemos
( )
V (x2 ) =
V 2 ( x2c )
(V (x ) + V (x ))
( )
'
2c
( )
V 2 x 2' c +
2
2c
( )
V 2 x 2' c
V 2 (x2c ) =
2
(V (x ) + V (x ))
'
2c
2c
y como V x 2' c = S 2
( )
( )
V ( x 2 c )V x 2' c
V ( x 2 c )V x 2' c
343
c =
V (x2 ) =
u
cn c
1 < l122 n + cl122 S 2
1 < l122 u n + cl122 +
+
S 2 u
c
cn
c
=
S2
u
c
V (x2 ) = S 2
n < l122 c 2
n 2 < l122 c 2
S 2 u n u (1 < l122 ) S 2
S2
y c = n V (x 2 ) =
En particular , c = 0 V (x 2 ) =
=
n
n
n 2 (1 < l122 )
Luego podemos decir que para estimar el valor actual de X 2 se obtiene la misma
precisin manteniendo la muestra que cambindola por completo en cada ocasin.
PROBLEMAS RESUELTOS
9.1.
Se trata de estudiar las casas en alquiler en una poblacin. Para ello se extrae una muestra
aleatoria simple extensa y barata de tamao 374 de las casas de un distrito y se halla que 272
casas estaban ocupadas por familias de raza blanca y 82 por otras razas. Se extrae una
segunda muestra de aproximadamente una de cada cuatro casas y se obtienen los siguientes
resultados respecto de la proporcin de casas en alquiler:
En alquiler
Blancos
Otras razas
Total
31
4
74
18
n1 = 74
n2 = 18
n=92
W$ 1 = 272/374 P$ 1 =31/74
W$ 2 = 82/374 P$ 2 = 4/18
2
272 31 82 4
$
Tenemos entonces P = W$h P$h =
u
+
u = 0,376 .
374 74 374 18
h =1
n'<1 h nh < 1
n' n' h
()
31 43
82
272 4 14
2
2
u
u
374 74 74 272
82
374
18
18
374
<
+
<
374
17 374
374
373 73 374
2
2
1 272 31
82 4
< 0,376 +
< 0,376 0,0025
374 374 74
374 18
0,0025
= 0,133 (13,3%) .
0,375
9.2.
345
Se trata de estimar una proporcin a travs de una encuesta para la que se dispone de un
presupuesto de 300000 unidades monetarias utilizando muestreo bifsico con estratificacin.
La encuesta principal cuesta 1000 unidades monetarias por unidad de muestreo y se dispone
de informacin adicional en registros a un coste de 25 unidades monetarias por unidad de
muestreo que permite clasificar las unidades en dos estratos de tamaos casi iguales.
Sabiendo que la proporcin verdadera es 0,2 en el primer estrato y 0,8 segundo estrato, se
quiere estimar los tamaos de las muestras en ambas fases n y n ptimos y el
correspondiente valor de la varianza del estimador de la proporcin. Cuantificar la ganancia
en precisin respecto del muestreo aleatorio simple.
Hallaremos los tamaos ptimos n y n correspondientes a un coste total dado tales que
V P sea mnima, escribiendo la funcin de Lagrange:
()
2
1
1
(
)
q = A + B + h c' n'+cn < C con A = Wh Ph Qh y B = Wh (Ph < P)2
n
n'
h
h
A
A
,q
= < 2 + hc = 0 h= 2
,n
n
cn
B
B
,q
= < 2 + h c' = 0 h =
,n '
n'
c' n' 2
,q
,h
n =
n ' =
V
pt .
c'
()
X =
C A
Ac +
Bc '
C B
Ac +
Bc '
Ac + Bc '
C
W P
W1 = W2 = 0,5 y P =
h =1
= 0,16
B = Wh (Ph < P ) = 0,5 u (0,2 < 0,5) 2 + 0,5 u (0,8 < 0,5) 2 = 0,09
2
y tenemos:
n=
n' =
V pt .
c'
()
X =
C A
Ac +
Bc '
C B
Ac +
Bc '
1000
=
Ac + Bc '
C
25
) =(
2
300000 0,16
0,16 u 1000 + 0,09 u 25
300000 0,09
0,16 u 1000 + 0,09 u 25
) = 268
) = 1272
= 0,0006673
V ( P ) =
PQ
0,5(1 < 0,5)
=
= 0,0008333
n
300000 / 1000
Se observa que hay ganancia en precisin al utilizar muestreo bifsico cuantificada por
(0,0008333/0,0006673-1) = 0,248, esto es, el 24,8%.
9.3.
()
400 15
n' s h2 2 W h 1
0,55
2
2
+ W h (xn < X ) =
V X =
Wh <
0,55 <
n'<1 h nh
n' n' h
400
400 < 1 20
200
0,32 1000
0,13 1
2
2
+
0,55(2,8 < 7,54) 2 + 0,32(8,2 < 7,54) 2
0,32 <
+
0,13 <
+
10
400 10
400 400
)]
V ( X )
3,96
=
= 0,264 (26,4%)
7
,
544
X
Un lmite para el error de estimacin al 95% vendr dado por la anchura del intervalo de
confianza, que vale 1,96 3,96 = 3,9.
Hemos visto en este captulo que para valores grandes de n (caso habitual) el
estimador de la varianza del estimador de la media puede aproximarse por la frmula
correspondiente al estimador de la varianza del estimador de la media en muestreo
estratificado en una sola fase (seguimos suponiendo reposicin) sustituyendo Wh por su
estimacin. En nuestro caso tendramos:
()
S 2
15
200
1000
+ 0,322
+ 0,132
V X = W h2 h = 0,552
= 4,12
20
10
10
nh
h
347
V ( X )
4,12
=
= 0,269 (26,9%)
7
,
544
X
9.4.
Consideremos dos caractersticas X e Y medidas sobre los elementos de una poblacin para
las que conocemos los datos mx = 2 my = 4 mxy = 10 y X = 10. Se lleva a cabo un muestreo
bifsico obteniendo en primera fase una muestra de tamao n = 100 con y ' = 40,6. En la
segunda fase n = 25, x = 9,8 e y = 40,1. Se trata de estimar la media poblacional utilizando
muestreo bifsico por regresin ptimo calculando el error relativo de muestreo y el coste
total para c = 0 y c = 600
Se tiene l =
m xy
m xy
6
6
6
6
=
= = 0,75 y b = 2 = 2 =
4
16
m xm y 2 u 4 8
my
( )
1 < l 2 m x2 l 2m x2
1 < 0,75 2 2 2 0,75 2 u 2 2
V X rg =
+
=
+
= 0,0955
n
n'
25
100
V ( X rg )
0,0955
9
,
998
X rg
El coste total ser C = cn + cn = 600(25)+10(100) = 16000.
9.5.
Se utiliza una muestra aleatoria simple de tamao 60 extrada de una poblacin sin
reposicin y probabilidades iguales, para repetir una encuesta sobre sus elementos en dos
ocasiones distintas. Se supone que no existe falta de respuesta y que los resultados obtenidos
son los que representa la tabla adjunta. Adems, se sabe que m2 = 20, l = 0,7 y / = 0,6.
1)
2)
3)
4)
Primera ocasin
Segunda ocasin
El nmero c de unidades muestrales comunes en las dos ocasiones se puede calcular a partir de la
proporcin de unidades muestrales comunes /c y del tamao muestral total n.
/c =
c
c = / c u n = 0,6 u 60 = 36
n
n<c
c
60 < 36
36
x ' '+ x ' =
150 + 152 = 0,4 u 150 + 0,6 u 152 = 151,2
n
n
60
60
n<c
c
60 < 36
36
y=
y ' '+ y ' =
160 + 158 = 0,4 u 160 + 0,6 u 158 = 158,8
n
n
60
60
x=
()
20
S2
V , = 2 [1 < l12/ c ] 2 [1 < 0,7 u 0,6] = 0,38666
60
n
El estimador del cambio de mnima varianza y su error vienen dados por:
/c
0,6
= 0,8333
1 < 0,7 u 0,4
()
V 6 =
2 S 2 (1 < l12 )
2 u 20(1 < 0,7 )
= 0,277
[1 < l12 (1 < / c )] u n [1 < 0,7(1 < 0,6)] u 60
y=
n<c
c
60 < 36
36
y ' '+ y ' =
160 + 158 = 0,4 u 160 + 0,6 u 158 = 158,8
n
n
60
60
V (y) =
S 2 20
= 0,333
n
60
y = W [ y'+ l ( x < x ')] + (1 < W ) y' ' = 0,65[158 + 0,7(151,2 < 152)] + (1 < 0,65)160 = 159
Los clculos necesarios son los siguientes:
W =
V (x2c )
0,833
=
= 0,65
V x + V ( x 2 c ) 0,446 + 0,833
( )
'
2c
( )
349
V (y) =
9.6.
Se utiliza una muestra aleatoria simple de tamao 100 de una poblacin de 1000 personas
sin reposicin y probabilidades iguales para repetir una encuesta sobre sus elementos en dos
ocasiones sucesivas preguntando sobre un carcter dicotmico. Se obtienen los resultados de
la tabla adjunta.
O1 A
O2
?
S
No
Total
S
80
10
No Total
5
5
85
15
90 10
100
P1 (1 < P1 )
10 100
100
i =1
+
< 2(1 < f )
= 1 <
(1 < f )
n(n < 1)
n <1
100 100 < 1
90 85
90
90
80 < 100
)
(1 <
10
10 100
n(n < 1)
100 100 < 1
100
n
X
i =1
1i
u X 2i = 80 .
l=
Cov( P1 , P2 )
=
V ( P1 ) V ( P2 )
0,00032
0,00082 0,00116
= 0,3
EJERCICIOS PROPUESTOS
9.1.
Se destinan 3000 unidades monetarias a una encuesta para estimar una proporcin. La
encuesta principal costar 10 unidades monetarias por unidad de muestreo. Se dispone de
informacin en registros, a un coste de 0,25 unidades monetarias por unidad de muestreo,
que permite la clasificacin de las unidades en dos estratos de tamaos casi iguales. Si la
proporcin verdadera es 0,2 en el estrato 1 y 0,8 en el estrato 2, estimar n y n ptimas y el
valor resultante de V(pst). Produce el muestreo bifsico alguna ganancia en precisin sobre
el muestreo aleatorio simple?
9.2.
Si l = 0,8 en muestreo doble para regresin, cmo debe ser n con relacin a n, si la prdida
en precisin debida a errores de muestreo en la media de la muestra grande se desea que sea
menor del 10%?
9.3.
(X
i
< x ) = 17283
2
(X
i
(Y
i
< y ) = 3248
2
9.4.
En un muestreo en dos ocasiones se supone que S1=S2=S y que las muestras son grandes de
modo que los coeficientes de regresin de X2i respecto de X1i y de X1i respecto de X2i en la
parte apareada de las muestras en las dos ocasiones son ambas efectivamente iguales a l.
Demostrar que si las estimaciones x1 y x2 se construyen usando la regresin de X1i respecto
de X2i se tiene:
v( x 2 < x1 ) =
2S 2 (1 < l )
(n < lu )
v( x2 + x1 ) =
2 S 2 (1 + l )
(n + lu )
CAPTULO
MUESTREO ESTADSTICO
MEDIANTE SPSS
OBJETIVOS
1. Presentar mtodos automatizados de tratamiento del muestreo estadstico.
2. Analizar las posibilidades en muestreo del software SPSS a partir de la
versin 12.
3. Utilizar el asistente de muestreo de SPSS para la creacin de planes de
muestreo en diseos complejos.
4. Utilizar el asistente de muestreo de SPSS para la modificacin y ejecucin
de planes de muestreo en diseos complejos.
5. Estudiar las posibilidades del asistente de preparacin de anlisis de SPSS
para la creacin de un plan de anlisis en una muestra compleja.
6. Estudiar las posibilidades del asistente de preparacin de anlisis de SPSS
para la modificacin de un plan de anlisis en una muestra compleja.
7. Realizar clculos en muestra complejas con SPSS.
8. Obtener frecuencias, descriptivos, tablas de contingencia, razones y otros
estimadores y sus errores en muestras complejas con SPSS.
NDICE
1. SPSS y el muestreo estadstico.
2. Diseos complejos y el asistente de muestreo. Creacin de un nuevo plan
de muestreo.
3. Asistente de muestreo: Modificar un plan existente.
4. Asistente de muestreo: ejecutar un plan de muestreo dado.
5. Preparacin de una muestra compleja para su anlisis: Creacin de un
nuevo plan de anlisis.
6. Preparacin de una muestra compleja para su anlisis: Modificar un plan de
anlisis existente.
7. Clculos en muestras complejas: frecuencias, descriptivos, tablas de
contingencia y razones.
353
Figura 10-1
Figura 10-2
355
Figura 10-3
Este paso permite seleccionar las variables de estratificacin y conglomeracin en el
campo Variables arrastrndolas a los campos Estratificar por y Conglomerados respectivamente,
y definir ponderaciones muestrales de entrada en el campo Introducir ponderacin muestral (si
el diseo muestral actual forma parte de un diseo muestral mayor, puede disponer de
ponderaciones muestrales de una etapa anterior del diseo mayor, en cuyo caso puede
especificar una variable numrica que contenga estas ponderaciones en la primera etapa del
diseo actual calculndose las ponderaciones muestrales automticamente para las etapas
posteriores del diseo actual). Tambin puede especificar una etiqueta para la etapa en el
campo Etiqueta de etapa (se utiliza en los resultados para facilitar la identificacin de la
informacin por etapas).
En la parte izquierda de cada paso del Asistente de muestreo se muestra un esquema
de los titulares de todos los pasos. Puede navegar por el Asistente al pulsar el nombre de uno
de los pasos activados en el esquema. Los pasos estn activados cuando todos los pasos
anteriores sean vlidos, es decir, si cada uno de los pasos anteriores dispone de las
especificaciones mnimas necesarias para ese paso. Consulte la ayuda de los pasos
individuales para obtener ms informacin sobre los motivos por los que un paso
determinado puede no ser vlido.
A continuacin, para ir al paso Mtodo, pulsamos en Mtodo en la parte izquierda de la
pantalla del Asistente para obtener la Figura 10-4, en cuyo campo Mtodo elegimos el tipo de
muestreo (aleatorio, sistemtico, con o sin reposicin, etc.).
Algunos tipos de muestreo permiten elegir entre realizar un muestreo con reposicin (CR)
o sin reposicin (SR). Si desea obtener ms informacin, consulte las descripciones de los tipos.
Tenga en cuenta que algunos tipos de probabilidad proporcional al tamao (PPS) estn
disponibles slo cuando se han definido conglomerados y todos los tipos de PPS estn
disponibles slo en la primera etapa de un diseo. Adems, los mtodos SR estn disponibles
slo en la ltima etapa de un diseo.
Figura 10-4
En el Muestreo aleatorio simple las unidades se seleccionan con probabilidad igual. Se
pueden seleccionar con o sin reposicin. En el Muestreo sistemtico simple las unidades se
seleccionan con un intervalo fijo en todo el marco muestral (o en los estratos, si se han especificado)
y se extraen sin reposicin. Se selecciona una unidad aleatoriamente dentro del primer intervalo
como el punto inicial. En el Muestreo secuencial simple las unidades se seleccionan de forma
secuencial con probabilidad igual y sin reposicin. El Muestreo con probabilidad proporcional al
tamao es un mtodo de primera etapa que selecciona unidades de forma aleatoria con probabilidad
proporcional al tamao. Se puede seleccionar cualquier unidad con reposicin; slo se puede realizar
muestreo sin reposicin de los conglomerados. El Muestreo sistemtico proporcional al tamao es
un mtodo de primera etapa que selecciona unidades de forma sistemtica con probabilidad
proporcional al tamao. Se seleccionan sin reposicin. El Muestreo secuencial proporcional al
tamao es un mtodo de primera etapa que selecciona unidades de forma secuencial con
probabilidad proporcional al tamao del conglomerado y sin reposicin.
El Muestreo de Brewer proporcional al tamao es un mtodo de primera etapa que
selecciona dos conglomerados de cada estrato con probabilidad proporcional al tamao del
conglomerado y sin reposicin. Se debe especificar una variable de conglomeracin para utilizar
este mtodo. El Muestreo de Murthy proporcional al tamao es un mtodo de primera etapa
que selecciona dos conglomerados de cada estrato con probabilidad proporcional al tamao del
conglomerado y sin reposicin. Se debe especificar una variable de conglomeracin para utilizar
este mtodo. El Muestreo de Sampford proporcional al tamao es un mtodo de primera etapa
que selecciona ms de dos conglomerados de cada estrato con probabilidad proporcional al
tamao del conglomerado y sin reposicin. Es una extensin del mtodo de Brewer. Se debe
especificar una variable de conglomeracin para utilizar este mtodo. Por defecto, el mtodo de
estimacin se especifica en el archivo de plan de manera coherente con el mtodo de muestreo
seleccionado, pero la opcin Usar estimacin CR para el anlisis permite utilizar la estimacin
con reposicin incluso si el mtodo de muestreo implica la estimacin SR. Esta opcin solamente
est disponible en la etapa 1. Si se selecciona un mtodo PPS, se deber especificar una medida
del tamao que defina el tamao de cada unidad en el campo Medida del tamao (MDT).
357
Figura 10-5
Este paso permite especificar el nmero o la proporcin de unidades que se van a
muestrear dentro de la etapa actual. El tamao muestral puede ser fijo o variar entre estratos.
Para el propsito de especificar el tamao muestral, se pueden utilizar los conglomerados
elegidos en etapas anteriores para definir estratos. En el campo Unidades puede especificar un
tamao muestral exacto o una proporcin de unidades a muestrear. En el campo Valor se
aplica un valor particular a todos los estratos. Si se selecciona Recuentos como la unidad
mtrica, se deber introducir un entero positivo. Si se selecciona Proporciones, se deber
introducir un valor no negativo (a no ser que se realice una muestra con reposicin, los valores
de proporcin no debern ser mayores que 1). El campo Valores desiguales para estratos
permite introducir distintos valores de tamao para cada estrato a travs del cuadro de dilogo
Definir tamaos desiguales. El campo Leer valores de la variable permite seleccionar una
variable numrica que contenga los valores de tamao para los estratos. Si se selecciona
Proporciones, se tiene la opcin de establecer los lmites inferior y superior para el nmero de
unidades muestreadas.
A continuacin, para ir al paso Variables de resultado, pulsamos en Variables de resultado en
la parte izquierda de la pantalla del Asistente. Se obtiene la Figura 10-6.
Figura 10-6
Este paso permite elegir las variables que desea guardar cuando se extraiga la muestra.
Tamao poblacional recoge el nmero estimado de unidades en la poblacin de una etapa dada.
El nombre raz de la variable guardada es TamaoPoblacin_. Proporcin muestral recoge la
tasa de la muestra en una etapa dada. El nombre raz de la variable guardada es TasaMuestreo_.
Tamao muestral recoge el nmero de unidades extradas en una etapa dada. El nombre raz de la
variable guardada es TamaoMuestra_. Ponderacin muestral recoge la inversa de las
probabilidades de inclusin.
El nombre raz de la variable guardada es PonderacinMuestra_. Algunas variables por
etapa se generan automticamente. Entre stas se incluyen Probabilidades de inclusin
(proporcin de unidades extradas en una etapa dada con nombre raz de la variable guardada
ProbabilidadInclusin_), Ponderacin acumulada (ponderacin de la muestra acumulada a lo
largo de las etapas anteriores a la actual e incluyendo esta ltima con nombre raz de la variable
guardada), PonderacinMuestraAcumulada_, ndice (identifica las unidades seleccionadas varias
veces dentro de una etapa dada con nombre raz de la variable guardada ndice_), etc.. Los
nombres raz de la variable guardada incluyen un sufijo entero que refleja el nmero de la etapa,
por ejemplo, TamaoPoblacin_1_ para el tamao de la poblacin guardada de la etapa 1.
A continuacin, para ir al paso Resumen, pulsamos en Resumen en la parte izquierda
de la pantalla del Asistente. Se obtiene la Figura 10-7. Se trata del ltimo paso de cada etapa
que proporciona un resumen de las especificaciones del diseo muestral hasta la etapa
actual. A partir de aqu, puede pasar a la siguiente etapa (crendola si es necesario en Aadir
etapa 2) o definir las opciones para extraer la muestra.
359
Figura 10-7
Ya estamos en condiciones de extraer la muestra segn el diseo definido en los pasos
anteriores. Para ello elegimos Extraer muestra A Opciones de seleccin en la parte izquierda de
la pantalla del Asistente de muestreo. Tambin puede controlar otras opciones del muestreo,
como la semilla aleatoria y el tratamiento de los valores perdidos (Figura 10-8). Extraer muestra,
adems de elegir si desea extraer una muestra, tambin puede elegir ejecutar parte del diseo
muestral. Las etapas se deben extraer en orden; es decir, la etapa 2 no se puede extraer a menos
que ya se haya extrado la etapa 1. Al editar o ejecutar un plan, no puede volver a muestrear
etapas bloqueadas. El campo Semilla permite elegir un valor de semilla para la generacin de
nmeros aleatorios. El campo Incluye los valores perdidos definidos por el usuario determina si
los valores perdidos definidos por el usuario son tratados como vlidos. Si es as, los valores
perdidos definidos por el usuario se tratan como una categora diferente. El campo Los datos ya
estn ordenados permite acelerar el proceso de seleccin si el marco muestral est clasificado
previamente por los valores de las variables de estratificacin.
Figura 10-8
Figura 10-9
Ya slo resta finalizar el proceso adecuadamente. Para ello se selecciona Extraer
muestra A Finalizacin en la parte izquierda de la pantalla del Asistente de muestreo (Figura 10-10).
Puede guardar el archivo de plan y extraer la muestra ahora o pegar las selecciones en una
ventana de sintaxis. Al editar un plan, puede guardar el plan editado en un archivo nuevo o
sobrescribir el archivo de plan existente.
361
Figura 10-10
Al pulsar en Finalizar en la Figura 10-10 se obtiene la salida del procedimiento con la
sintaxis (Figura 10-11) y un resumen para las etapas (Figura 10-12).
Figura 10-11
Figura 10-12
Etapa 1
Variables
Informacin de
la muestra
Informacin
sobre el anlisis
Estratificacin
Mtodo de seleccin
Barrio
Muestreo aleatorio simple sin
reposicin
,1
ProbabilidadInclusin_1_
PonderacinMuestralAcumulada_1
_
TamaoPoblacin_1_
TamaoMuestral_1_
TasaMuestreo_1_
PonderacinMuestral1_
Muestreo de probabilidad igual
sin reposicin
A partir de la variable
ProbabilidadInclusin_1_
Figura 10-13
Figura 10-14
363
Figura 10-15
Puede ocurrir que al pulsar Finalizar en la Figura 10-16, algunas variables a guardar
coincidan en nombre con las ya existentes. En ese caso, en la pantalla de la Figura 10-17 se hace clic en
Cambiar nombre y SPSS realiza los cambios adecuados. La Figura 10-18 muestra el nuevo archivo
PLAN2.SAV que contiene la muestra aleatoria.
Figura 10-16
Figura 10-17
Figura 10-18
365
Figura 10-19
Figura 10-20
Figura 10-21
Figura 10-22
Figura 10-23
Figura 10-24
Figura 10-25
Figura 10-26
Figura 10-27
Figura 10-28
367
Figura 10-29
Figura 10-30
Figura 10-31
Figura 10-32
Figura 10-33
Figura 10-34
369
Figura 10-35
Figura 10-36
Figura 10-37
Figura 10-38
Figura 10-39
Figura 10-40
371
Figura 10-41
Figura 10-42
Figura 10-43
Figura 10-44
373
Figura 10-45
Figura 10-46
Figura 10-47
Figura 10-48
Figura 10-49
Figura 10-50