Mu Iea 03

Muestreo en Poblaciones Finitas
Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz
José A. Mayor Gallego
Departamento de Estadística e Investigación Operativa

Universidad de Sevilla
Septiembre de 2011
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011

Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz CB 1/26
Contenidos
1 Objetivos
2 Estimador de Horvitz-Thompson
Ejemplo. Estimación de y U . Diseño MAS(N ,
n) Ejemplo. Estimación de y U . Diseño MB(N ,
p) Reducción de Varianza
Método de Sampford
3 Estimador de Hájek de la Media Poblacional
4 Muestreo con reemplazamiento

Estimador de Hansen-Hurwitz
Utilidad del muestreo con reemplazamiento
5 Bibliografía

Objetivos
Estimador de Horvitz-Thompson.
Diseños Muestrales ΠPS.
Estimador de Háyek.
Muestreo con Reemplazamiento. Estimador de Hansen-Hurwitz.
Muestreos PPS.

Estimador de Horvitz-Thompson del Total
Consideremos una muestra, m, obtenida mediante un diseño
muestral con probabilidades de inclusión πi y πij .
Total Poblacional. X
ty = yi
i ∈U
Ponderaciones o Pesos.
1
ωi =
πi
Estimador de Horvitz-Thompson o π-estimador.
Xyi X
tb = = ωy
yπ
i ∈m
πi i ∈m
i
Estimador Insesgado.
hX i h i X X
yi yi y y
E [bty π ] = E =E = E [Ii i = π i i = ty
X π i
Ii π ]
i
π i π i
i ∈m i ∈U i ∈U i ∈U

Estimador de Horvitz-Thompson del Total. Varianza
Fórmulas Generales
Varianza.
y y
V [bty π ] =X ∆iij j
π
π
ij ∈U
i j
Estimador Insesgado de la Varianza. Diseño Cuantificable.

X ∆ y
ij i
Vbb [t yj
yπ
π πi πj
ij ∈m ij
Estimador de Horvitz-Thompson del Total. Varianza
Tamaño Muestral Fijo. Fórmula de Yates-Grundy-Sen

Varianza.
1 X yj
2
V [bt ] = − ∆ij yi − π
yπ j
ij ∈U
πi

1 X ∆ij yi 2
Vb [bty π ] = − − yj
2 πij πi πj
ij ∈m

Estimador de Horvitz-Thompson de la Media
Estimador de Horvitz-Thompson.
1 X
b y
y Uπ = i
π
i ∈m i
N
Varianza.
X
V [ybU π ] = 12 y y
∆ij i j
N π
ij ∈U πi j
Vb [ybU π ] = 1 X ∆ij yi yj
N2 πij πi πj
ij ∈m

Ejemplo: Estimación de y U . Diseño MAS(N , n)
Muestreo MAS(N , n): πi = n/N , πij = n(n − 1)/(N (N − 1)),

∆ij = −f (1 − f )/(N (N − 1)) si i = j , ∆ii = f (1 − f )
Estimación de Horvit-Thopmson.
1 X 1 X yi 1X
y
y b Ui π = = = yi = y m
N i ∈m πi N i ∈m n/N n
i ∈m
Varianza.
X yi yj 1 X f (1 − f ) 2
V [ybU π ] = 1 ∆ij = 2 y
π
πi j N i ∈U n2 /N 2 i
ij ∈U
N2
1 X f (1 − f ) 1−f
yi y =
− 2 = ···
N N (N − 1)n2 /N 2 n
yU
i =j ∈U
Estimación de la Varianza.
1 X ∆ij yi 1−f 2
yj
Vb [ybU π ] = = ··· Sym
πij πi πj n
ij ∈m
N2

Ejemplo: Estimación de y U . Diseño MB(N , p)
Muestreo MB(N , p): πi = p, πij = p 2 , ∆ij = p2 − p2 = 0 si i = j ,

∆ii = p(1 − p)
Estimación de Horvit-Thopmson.
1 X 1 X 1 X
ybyUπ =
i
=
yi
= yi
N i ∈m πi N i ∈m p Np
i ∈m
Varianza.
1 X yi yj 1 X p (1 − p ) 1−p X 2
V [yb Uπ] = ∆ij = 2 yi = y
πj N 2 i ∈U p2 p N 2 i ∈U i
ij ∈U πi
N2
Estimación de la Varianza.
1 X ∆ij yi 1 X p(1 − p ) 1−p X
yj 2
2
Vb [ybU π ] = = yi = yi
πij πi πj N 2 i ∈m p2 p p2 N 2
i ∈m
ij ∈m
N2

Reducción de Varianza
Estimación del Total. Fórmula de Yates-Grundy-Sen

2
1X yj
V [bt y]π= − ∆ij yi − π
j
ij ∈U πi
Si πi = αyi , ∀i ∈ U
yi yj
2
− = 0, ∀i , j ∈ U ⇒ V [bty π ] = 0 ⇒ NO HAY ERROR
πi πj
También se cumple para la estimación de la

media.
Imposible de llevar a la práctica pues los valores yi no se
conocen de antemano.
Empleando variables conocidas y relacionadas con Y no se
conseguirá que la varianza sea nula pero sí que se
reduzca considerablemente.
Diseños Muestrales ΠPS. Tamaño Muestral Fijo, n
X es una variable conocida, correlacionada positivamente con

Y . Se denomina Variable de Tamaño.
Un diseño muestral ΠPS [“Inclusion Probabilities Proportional to
Size”] es aquel que cumple,
πi ∝ Xi , ∀i ∈ U
P
Al ser πi = n, se cumple,
U
nXi
πi = , ∀i ∈ U
tx
Los diseños muestrales ΠPS se implementan mediante

algoritmos de cierta complicación. Todos ellos comparten las πi
pero las πij cambian dependiendo del método.

Ejemplo. Método de Sampford. Implementado en SPSS
1 Seleccionar el primer elemento con probabilidades αi = xi /tx .

2 Seleccionar los n − 1 restantes elementos con probabilidades
proporcionales a,
αi
1 − nαi
3 Finalizada la extracción, la muestra es aceptada si todos los
elementos son diferentes. En caso contrario se rechaza, y se
vuelve al paso 1.
πi = nαi
Aproximación de orden N −4 calculada por Asok y Sukhatme,
X
2 2
πij ≈ n(n − 1)αi αj 1 + [(αi + αj ) − kα ] + [2(α
i +j α2 )
k
X X X
−2 αk3 − (n − 2)αi αj + (n − 3)(αi + αj ) k α2 − (n − 3)( k α2 )2 ]
k ∈U k ∈U k

Otros Métodos ΠPS
Método de Sunter.
Método de Madow. Tipo Sistemático. Auditorías.
Método de Brewer. Implementado en SPSS y SAS.
Método de Hanurav-Vijayan. Implementado en SPSS y SAS.
Método de Midzuno.
Y un largo etcétera.

Estimador de Hájek de la Media Poblacional
La media poblacional,
y U = 1 ty
N
es un cociente o razón entre el total, ty , y N .
El total podemos estimarlo mediante el estimador de

Horvitz-Thompson,
Xyi
tb =
yπ π
i ∈m i
Expresando, X
N= 1
i ∈U
es decir, el total de la variable UNO sobre la población, podemos
estimarlo también mediante el estimador de Horvitz-Thompson,
X1
Nb =
π π
i ∈m i

Por sustitución el siguiente estimador de la media, conocido como

estimador de Hájek, X
yi /πi
b i ∈m
y U HJ = X
1/πi
i ∈m
Es un cociente de dos estimadores insesgados. En general no

es insesgado pero su sesgo es reducido.
Para estudiar su varianza se requieren técnicas especiales.
Es el estimador de medias [y proporciones] empleado por los
programas de aplicación al muestreo como SAS, SPSS, R y
otros.

Diseño Muestral MAS(N , n)

X X
yi /πi yi /(n/N )
i
ybU HJ = X
∈m i ∈m 1X
= = yi = y m
1/πi n/(n/N ) n
i ∈m
i ∈m
Diseño Muestral MB(N , p)

X X X
yi /πi yi yi
i ∈m /p i ∈m
ybU HJ = X = iX
∈m
= =y
1/p n(m) m
i ∈m
1/πi
i ∈m
Muestreo con Reemplazamiento
Es posible considerar muestreos en los que los elementos

puedan aparecer repetidos en la muestra.
La situación sería similar a la extracción de n bolas de una caja
en la que hay N bolas numeradas de 1 a N , devolviendo a la
caja la bola obtenida en cada extracción.
La selección se realiza mediante una distribución de
probabilidad definida sobre U ,
NX
{p1 , p2 , . . . , pN | pi ≥ 0 ∀i , pi = 1}
i =1
que permanece inalterada durante todas las extracciones.

No es aplicable el estimador de Horvitz-Thompson.
El caso particular pi = 1/N se denomina Muestreo Aleatorio
Simple con Reemplazamiento.

Estimador de Hansen-Hurwitz del Total
Cambio de Variable
yi ∀ ∈
zi = , i U
pi
Estimador de Hansen-Hurwitz del Total. Insesgado.

Xyi
tb = =z
y HH npi
i ∈m
Varianza.
h i
1X 2 1 X 2
V z)
y=
i n
pi =
2n
p p (z
i ∈U pi i j ∈U
Estimador Insesgado de la varianza.

h i X y 2
b 1 i − bt
Vb ty HH = y = 1Szm
2
n(n − 1) HH n
i ∈m
pi
Estimador de Hansen-Hurwitz de la Media
Cambio de Variable
yi ∀ ∈
zi = , i U
Npi
Estimador de Hansen-Hurwitz de la Media. Insesgado.

1 X yi
ybU HH = = zm
npi
i ∈m
N
Varianza.
h i 1 X yi 2
1 X
V ybU HH =
2
− yU pi = pi pj (zi − zj )
n i ∈U Npi 2n i j ∈U
Estimador Insesgado de la varianza.

h i X y 2
b 1
b = 1S 2
i
V y = −
U HH yb mHH zm
n(n − 1) Npi n
i ∈m

Estimador de Hansen-Hurvitz
Tanto en el caso del total como de la media, el cálculo práctico

asociado a la estimación se reduce al cálculo de una media
muestral y de una cuasivarianza muestral.
Si las probabilidades de de selección son proporcionales a la
variable de estudio,
pi ∝ yi , i = 1, . . . , N
LA VARIANZA ES NULA.
Casuística similar a la del estimador de Horvitz-Thompson. Se
consigue una reducción de la varianza eligiendo las pi
proporcionales a una variable X relacionada con la Y . Método
PPS [Probabilidades de Selección proporcionales al Tamaño].

Muestreo Aleatorio Simple con Reemplazamiento, MASR(N , n)
Selección de n unidades con probabilidades pi = 1/N , i ∈ U

, con reemplazamiento.
Estimación de la Media.
X y 1 X yi
ybU HH =1 i
= = ym
npi N i ∈m n/N
i ∈m
N
Varianza.
X
V [ybU HH ] =1 1 1 2
(yi − y U 2 = σyU
n n
i ∈U)
N
Varianza Estimada.
Vb [ybU HH ] 1= 2 S 1 2S
zm = ym
n n
Similar a la que se obtiene en el caso de muestreo aleatorio
simple sin reemplazamiento, salvo el factor (1 − f ). Esta
cantidad suele denominarse factor de corrección por
población finita.
Eficiencia en Relación al MAS(N , n)
El error difiere del obtenido para el muestreo aleatorio simple sin
reemplazamiento básicamente por el factor 1 − f .
1−f 2 1 2
VMAS = SyU y VMASR = σ
n n yU
se tiene,
1−f 2 N −n 2
VMAS SyU SyU N −n
= n = N = <1 si n > 1
VMASR 1 σ2 N−1 2 N−1
yU SyU
n N
El reemplazamiento hace disminuir la eficiencia pues aumenta la
varianza de la estimación. Este aumento de la varianza es menos
acentuado conforme la población es mayor y no suele ser muy
grande en condiciones normales. Por ejemplo, si N = 1.000.000 y
n = 400, se tiene,
N −n 999.600
= = 00 999600999 próximo a 1
N−1 999.999
Utilidad del Muestreo con Reemplazamiento
La aplicación del muestreo con reemplazamiento se realiza más

a nivel teórico que real. No es usual realizar en una población
muestreo con reemplazamiento para estimar parámetros.
Los diseños sin reemplazamiento presentan probabilidades de
inclusión de segundo orden a veces difíciles o imposibles de
calcular. Ello dificulta la computación de la varianza estimada y
del error de muestreo.
La varianza estimada del estimador de Hansen-Hurwitz,
h i 1 X 1 yi
Vb
2
= (z − ) = S 2 , siendo z =
bty HH
z i m
n(n − 1) n
zm i
pi
i ∈m
no presenta estos inconvenientes y puede ser empleada
aunque el muestreo sea sin reemplazamiento, aunque dando
lugar a una sobre estimación.
Por ejemplo, si trabajamos con un nivel de confianza del 95 %, el
intervalo obtenido con este método tendrá una confianza real
igual o superior a dicho nivel nominal.
En resumen, cuando no dispongamos de las πij , y estimamos el total
[o la media] mediante el estimador de Horvitz-Thompson,
Xyi
tb =
yπ π
i ∈m i
Podemos estimar la varianza como si hubiéramos aplicado el

estimador de Hansen-Hurvitz,
Xyi
tb =
y HH npi
i ∈m
es decir, con la fórmula,

h i X
1 1 yi nyi
Vb bt
2
= (z − ) = S2 , siendo z = =
y HH z i m i
n(n − 1) n
zm pi πi
i ∈m
donde, por analogía, hemos igualado πi a npi , es decir,

pi = πi /n.

OBSERVACIONES
Esta metodología NO AUMENTA LA VARIANZA DE LA
ESTIMACIÓN, que es la que es, sino que proporciona una
sobrestimación de dicha varianza, siendo ello preferible a no dar
ninguna estimación y por lo tanto no poder calcular el error de
muestreo.
No tiene sentido aplicarla si el muestreo es tal que las πij se
tienen o son fáciles de calcular, pues en tal caso se emplea la
expresión propia sin mayor problema. Por ejemplo, para el
muestreo aleatorio simple sabemos que,
n(n − 1)
π ij =
N (N − 1)
y además disponemos de una expresión fácil para estimar la

varianza por lo que sería absurdo recurrir al procedimiento
anterior.

Bibliografía
Fernández García, F.R. y Mayor Gallego, J.A. (1995). Muestreo en

poblaciones finitas: Curso básico. E.U.B. Ediciones Universitarias de
Barcelona.
Lohr, S.L. (2010). Sampling: Design and Analysis. 2nd Edition.
Brooks/Cole. International Edition.
Särndal, C., Swensson, B. and Wretman, J. (1992). Model Assisted
Survey Sampling. Springer-Verlag. New York, Inc.


Mu Iea 03

Cargado por

Copyright:

Formatos disponibles

Mu Iea 03

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Mu Iea 03

Cargado por

Copyright:

Formatos disponibles

Muestreo en Poblaciones Finitas

Estimadores de Horvitz-Thompson, Hájek y Hansen-Hurwitz

José A. Mayor Gallego

Departamento de Estadística e Investigación Operativa

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011

3 Estimador de Hájek de la Media Poblacional

4 Muestreo con reemplazamiento

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011

Estimador Insesgado de la Varianza. Diseño Cuantificable.

Tamaño Muestral Fijo. Fórmula de Yates-Grundy-Sen

Estimador Insesgado de la Varianza. Diseño Cuantificable.

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011

Estimador Insesgado de la Varianza. Diseño Cuantificable.

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011

Muestreo MAS(N , n): πi = n/N , πij = n(n − 1)/(N (N − 1)),

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011

Muestreo MB(N , p): πi = p, πij = p 2 , ∆ij = p2 − p2 = 0 si i = j ,

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011

Estimación del Total. Fórmula de Yates-Grundy-Sen

También se cumple para la estimación de la

X es una variable conocida, correlacionada positivamente con

Los diseños muestrales ΠPS se implementan mediante

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011

1 Seleccionar el primer elemento con probabilidades αi = xi /tx .

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011

El total podemos estimarlo mediante el estimador de

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011

Por sustitución el siguiente estimador de la media, conocido como

Es un cociente de dos estimadores insesgados. En general no

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011

Diseño Muestral MAS(N , n)

Diseño Muestral MB(N , p)

Es posible considerar muestreos en los que los elementos

que permanece inalterada durante todas las extracciones.

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011

Estimador de Hansen-Hurwitz del Total. Insesgado.

Estimador Insesgado de la varianza.

Estimador de Hansen-Hurwitz de la Media. Insesgado.

Estimador Insesgado de la varianza.

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011

Tanto en el caso del total como de la media, el cálculo práctico

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011

Selección de n unidades con probabilidades pi = 1/N , i ∈ U

La aplicación del muestreo con reemplazamiento se realiza más

Podemos estimar la varianza como si hubiéramos aplicado el

es decir, con la fórmula,

donde, por analogía, hemos igualado πi a npi , es decir,

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011

y además disponemos de una expresión fácil para estimar la

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011

Fernández García, F.R. y Mayor Gallego, J.A. (1995). Muestreo en

INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011

También podría gustarte