NC03M
NC03M
NC03M
Introducción
El muestreo aleatorio simple (m.a.s.) es un diseño muestral muy popular, dadas las propie-
dades que posee con respecto a las estimaciones de parámetros y de errores de muestreo. Es un
diseño de tamaño fijo y exige disponer de un marco poblacional con sus elementos muy bien
identificados, por lo que su uso es frecuente junto con otras técnicas.
Se puede usar la librerı́a animation para mostrar la idea básica de este tipo de muestreo:
# Animaci ó n con R
library ( animation )
sample.simple ( nrow =10 , ncol =10 , size =15 , p.col = c ( " blue " , " red " ) ,
p.cex = c (1 ,3))
1
Definición del diseño m.a.s. y parámetros asociados
Es un diseño de tamaño fijo n y exige disponer de un marco poblacional con sus elementos
bien identificados.
A partir de una población U = {u1 , . . . , uN } se toma una muestra de tamaño n: {ui1 , . . . , uin }
Ası́,
S = {Todos los subconjuntos de tamaño n sin elementos repetidos, donde el orden de
los elementos no importa}
1
P (s) =
N
n
En el tema anterior ya se vieron algunas propiedades de este diseño:
n
πk = =f
N
f (1 − f )
∆kl = Cov(Ik , Il ) = πkl − πk πl = −
N −1
n n 2
∆kk = − = f (1 − f )
N N
2
U = c ( " Manolo " , " Luisa " , " Pedro " , " Eva " , " Juan " )
N = length ( U )
Horvitz-Thompson.
– Media
N
1 X
X= Xi
N i=1
Ya se vio en el tema anterior que:
i)
n
b = 1 XX
X i
n i=1
es un estimador insesgado de X
ii ) Además,
b = 1 − f S2
V (X) X
n
donde
N
2 1 X
SX = (Xi − X)2
N − 1 i=1
y
n
f=
N
b = 1 − f Sb2
Vb (X) X
n
3
tal que
n
2 1 X b 2
SbX = (Xi − X)
n − 1 i=1
es decir, la cuasivarianza muestral.
– Total
N
X
X= Xi
i=1
i)
b = NX
X b
es un estimador insesgado de X.
ii )
b = N 2 (1 − f ) SX
V (X) 2
n
b = N 2 (1 − f ) Sb2
Vb (X) X
n
Observación:
factor
N −n
=1−f <1
N
population correction) fpc. Resalta la alteración que se produce al trabajar con poblaciones
finitas.
En la varianza de la media muestral se ve que a medida que crece la fracción de muestreo
5 % (es decir sea menor que 0.05). Pero, ignorar el fpc equivale a sobrestimar el error estándar
del estimador de la media poblacional X.
4
Intervalos de Confianza
i) Para la media X: r
b ∓ zα 1 − f b2
X SX
2
n
donde
n
2 1 X b 2
SbX = (Xi − X)
n − 1 i=1
Si el tamaño muestral es menor que 50, es más correcto utilizar una distribución t-Student
con (n − 1) grados de libertad.
Una cuestión importante es decidir cuantos elementos deben formar parte de la muestra. Este
tamaño muestral dependerá del error que estemos dispuestos a asumir al obtener estimaciones.
Pero además, habrá que tener en cuenta el presupuesto disponible y los costes que se deriven
del muestreo.
La forma estándar de proceder es fijar un error de muestreo que deberá ser el mı́nimo posible,
aunque hay varios criterios para fijarlo.
– Fijar σ(θ)
b
5
Obtención de n al estimar X
Fijar σ(θ)
b
Sabemos que r
2
SX
σ X
b = (1 − f )
n
Si consideramos un error de muestreo e fijo como máximo, debemos encontrar n tal que
r
S2 S2 S2
e = (1 − f ) X ⇒ X = e2 + X
n n N
Despejando
2 2
SX N SX
n= 2 = 2
e2 +
SX N e2 + SX
N
Observaciones:
que es un valor constante. Es decir, no hace falta tomar una muestra más grande.
2
Un problema que se plantea es que, para obtener n, se necesita calcular SX . La solución
!
|X
b − X| d
P ≤ ≥ 1−α
e e
Si asumimos normalidad de X
b se obtiene que
d
= z α2 ⇒ d = z α2 e
e
6
Si consideramos el apartado anterior y observando que fijar un error máximo admisible d es
d
equivalente a fijar un error de muestreo e = zα
el tamaño muestral a utilizar será
2
2 2
SX SX
n= 2
SX
= 2 ⇒
e2 + d
2
SX
N
zα
+ N
2
z α 2
2
SX 2
d
n= 2
z α 2
SX
1+ N
2
d
Sea
σ(θ)
b
er =
E(θ)
b
un error de muestreo dado (equivalentemente coeficiente de variación).
Se trata de buscar n para un valor fijo de er :
q
S2
σ(θ)
b σ(X)
b (1 − f ) nX
er = = = ⇒
E(θ)
b E(X)
b X
SX 2
X
n = 2
SX
⇒
e2r + X
N
CV 2
n = 2
e2r + CV
N
SX
donde el coeficiente de variación CV = X
y se debe estimar a partir de una muestra piloto.
Se puede observar que se obtiene la misma expresión que en el caso de fijar σ(θ)
b sustituyendo
SX por CV.
Fijar σ(θ).
b
Dado que
X
b = NX
b
7
entonces se trata de fijar r
2
SX
e X =σ X
b b =N (1 − f )
n
luego aplicando el resultado anterior, se obtiene que
SX2
2
N b )2
e(X
n=
2
SX
1+ b )2
N
e(X
En este caso se observa que cuando aumenta indefinidamente el tamaño de la población hay
que aumentar también el tamaño de la muestra.
d
= z α2 ⇒ d = z αs e
e
n= z α 2
2
1 + N SX s
d
Si fijamos
σ(θ)
b σ(X)
b N σ(X)
b
er (X) =
b = = = er (X)
b
E(θ)
b E(X)
b N E(X)
b
Observaciones
En general los pasos a seguir para elegir el tamaño de la muestra pueden resumirse en:
i) Se debe preguntar: ¿Cuánta precisión se necesita? ¿en términos de qué se define una
precisión?
8
ii) Determinar una ecuación que relacione el tamaño de la muestra n y las expectativas que
iii) Estimar normalmente mediante una muestra piloto las cantidades desconocidas para de-
terminar n.
iv) Si el tamaño muestral obtenido es demasiado grande, replantear la precisión inicial fijada.
9
Muestreo aleatorio simple con reemplazamiento
para todo k = 1, . . . , N.
Si consideramos las muestras ordenadas de tamaño n, el espacio muestral está formado por
N n muestras, todas ellas equiprobables:
1
P (s) =
Nn
En una muestra de tamaño n un elemento dado puede aparecer un cierto número de veces.
Si denominamos Nr = número de veces que aparece en una muestra la unidad r
Entonces
k n−k
n 1 1
P {Nr = k} = 1−
k N N
Ası́ Nr ∼ Bin(N, N1 ).
P {k ∈ s} = πk = 1 − P {k ∈
/ s} =
para k = 1, . . . , N.
10
Por otro lado, para k ̸= l = 1, . . . , N
πkl = P {k, l ∈ s} = 1 − P {k ó l ∈
/ s} =
1 − [P {k ∈
/ s} + P {l ∈
/ s} − P {k, l ∈
/ s}] =
n n
1 2
1− 2 1− − 1− =
N N
n n
1 2
1−2 1− + 1−
N N
Estimadores de X y X
Estimación de X:
Media muestral
b = 1 XX
X k
n k∈s
N 1 2
1X X
N k 1
V X =
b
1 −X =
n k=1 N
N
N
1 X 2 1 2 1N −1 2
Xk − X = σX = SX
nN k=1 n n N
2 2
donde σX es la varianza poblacional y SX es la cuasivarianza poblacional.
El estimador es
1 X 2 1 2
V X
b b = Xk − X = SbX
b
n(n − 1) k∈s n
2
donde SbX es la cuasivarianza muestral.
11
Estimación del total X:
Como X = N X, entonces
X
b = NX
b
N2 2
V X
b = σ
n X
N 2 b2
Vb X
b = S
n X
La pregunta que se plantea es cuál de los dos tipos de muestreo es más preciso, o tiene
menor error.
Si se comparan las varianzas
Vmasr X b 1 N −1 2
SX 1 − N1 1
n N
= 1 2
= ≃
Vmas X b n
(1 − f )SX 1−f 1−f
12
Ejemplo con R
# Generas unos datos artificiales
set.seed (666)
unosdatos = rbind ( matrix ( rep ( " nc " ,165) ,165 ,1 , byrow = TRUE ) ,
matrix ( rep ( " sc " ,70) ,70 ,1 , byrow = TRUE ))
genero = rbinom (235 , 1 , 0 .43 )
genero [ genero ==1]= " M "
genero [ genero ==0]= " H "
unosdatos = c b in d . d a t a . f r a m e ( unosdatos , c ( rep (1 ,100) , rep (2 ,50) ,
rep (3 ,15) , rep (1 ,30) , rep (2 ,40)) , genero ,100 * runif (235))
dim ( unosdatos )
names ( unosdatos ) = c ( " provincia " , " region " , " genero " , " ingresos " )
head ( unosdatos )
library ( survey )
srs $ popcuanto = N
srs $ pesos = N / n
total SE
ingresos 14180 810 .37
13
svymean (∼ingresos , dsrs , na.rm = TRUE )
mean SE
ingresos 60 .339 3 .4484
variance SE
ingresos 755 .25 99 .552
$ quantiles
0 .25 0 .5 0 .75
ingresos 40 .50154 65 .42247 84 .27074
$ CIs
, , ingresos
0 .25 0 .5 0 .75
( lower 31 .15592 46 .49287 76 .89246
upper ) 44 .89626 76 .53099 88 .61348
2 .5 % 97 .5 %
ingresos 12591 .27 15767 .84
2 .5 % 97 .5 %
ingresos 53 .57988 67 .09721
14
Si no se especifica el tamaño de la población, es necesario especificar las probabilidades de
muestreo o pesos de muestreo.
La variable pesos en el conjunto de datos contiene el peso muestral que es igual a 235/50 =
4,7.
El efecto de omitir el tamaño de la población aparece como (with replacement) en la
salida. La media estimada y el total son los mismos, pero los errores estándar son un poco más
15
svytotal (∼ingresos , dsrsR )
total SE
ingresos 14180 913 .33
mean SE
ingresos 60 .339 3 .8865
2 .5 % 97 .5 %
ingresos 12389 .46 15969 .66
2 .5 % 97 .5 %
ingresos 52 .72111 67 .95599
16
Introducción al estudio de variables cualitativas
En una población finita es frecuente querer estimar la proporción de unidades que poseen
cierta caracterı́stica, o el número total de unidades de la población que la poseen.
Por ello se puede definir para todo i = 1, . . . , N
(
1 si i posee la caracterı́stica
Ii =
0 si i no posee la caracterı́stica
Ası́ los parámetros de interés se pueden escribir como
N N
1 X X
P = Ii T = Ii
N i=1 i=1
madores de Horwitz-Thompson.
Ası́, la proporción de valores muestrales
1X
Pb = Ik
n k∈s
y como Tb = N Pb
NX
Tb = Ik
n k∈s
Sus varianzas respectivas son
(N − n) P (1 − P )
V Pb =
N −1 n
N 2 (N − n) P (1 − P )
V Tb =
N −1 n
Demostración:
Como
1−f
2
V X
b = SX
n
donde
N
2 1 X 2
SX = Xk − X =
N − 1 k=1
" N #
1 X 2 1 N P (1 − P )
Xk2 − N |{z}
X = NP − NP 2 =
N − 1 k=1 2
N −1 N −1
=P
17
de modo que
N −n
N N P (1 − P ) (N − n)
V (Pb) = = P (1 − P )
n N −1 n(N − 1)
la media, se pueden obtener los resultados para los estimadores de las varianzas:
(1 − f ) b
Vb Pb = P (1 − Pb)
n−1
(1 − f ) b
Vb Tb = N 2 P (1 − Pb)
n−1
donde
1X
Pb = Ik
n k∈s
para muestreo con reemplazamiento, se obtienen los resultados para las varianzas:
P (1 − P )
V Pb =
n
P (1 − P )
V Tb = N 2
n
y los estimadores de las varianzas:
1 b
Vb Pb = P (1 − Pb)
n−1
1 b
V Tb = N 2
b P (1 − Pb)
n−1
donde
1X
Pb = Ik
n k∈s
Se trata ahora de determinar el tamaño muestral necesario cuando se fija el error de muestreo
e o para obtener una precisión determinada d.
18
Fijando el error de muestreo σ(θ)
b =e
2 N P (1 − P )
SX =
N −1
2 2
Sustituyendo en la fórmula general y tomando SX en lugar de su estima SbX , dado que
depende solo de P :
2
N SX
n= 2
⇒
N e2 + SX
N P (1 − P )
n=
(N − 1)e2 + P (1 − P )
Del mismo modo para estimar el total, aplicando la fórmula general, se obtiene
N 3 P (1 − P )
n=
(N − 1)e2 + N 2 P (1 − P )
Ejemplo
10 %. ¿Cuál debe ser el tamaño de la muestra para conseguir el error de muestro fijado?
Sea U = “4000 casas” N = 4000
Se quiere estimar una proporción P. Para este caso, se tiene que
N P (1 − P )
n=
e2 (N − 1) + P (1 − P )
Para estimar P nos basamos en la información recogida, en lugar de tomar P = 1/2 ya que
se conseguirı́a una n demasiado grande. Como se sabe que 0,05 < P < 0,10 entonces
19
Fijando el error máximo admisible d
Por otro lado, si queremos fijar un error máximo admisible d, usando la fórmula general, se
obtiene que
N P (1 − P )z 2α
2
n= 2
P (1 − P )z α + (N − 1)d2
2
que P (1 − P ) ≤ 14 .
Luego
N z 2α
2
n=
z 2α + 4(N − 1)d2
2
N 3 P (1 − P )z 2α
2
n=
N 2 P (1 − P )z 2α + (N − 1)d2
2
20
Intervalos de Confianza
r !
1−f N
Pb ∼ N P, P (1 − P )
n N −1
de modo que el intervalo de confianza es
q
P ∓ z α2 V (P ) =
b b b
" r #
1−f b
Pb ∓ z α2 P (1 − Pb)
n−1
Supongamos que se quiere estudiar una variable cualitativa que presenta k modalidades
(k > 2)
nj
Pbj =
n
nj ∼ B(n, Pj )
y
n nP
j j
E Pbj = E = = Pj
n n
1 Pj (1 − Pj )
V Pbj = 2
nPj (1 − Pj ) =
n n
21
siendo un estimador insesgado de la varianza
1 b
Vc(Pbj ) = Pj (1 − Pbj )
n−1
1 − α:
" r #
1 b
Pbj ∓ z 2k
α Pj (1 − Pbj )
n−1
Si fijamos un error máximo admisible d para cada Pj , el tamaño de la muestra viene dado
por: n o
máx Pbj (1 − Pbj )
n ≃ z 2α
2k d2
y como para todo j
1
Pj (1 − Pj ) ≤
4
siendo Pj ∈ (0, 1) se obtiene que
z 2α
n≃ 2k
4d2
Observación: Si k = 2 no son válidos los cálculos anteriores.
Ejemplo
En una población de 1000 personas mayores de 25 años se desea estimar las proporciones
de personas solteras, emparejadas y en otras circunstancias.
Dada una m.a.s. con reemplazamiento de 500 personas se obtiene 355 emparejadas, 112
solteras y 33 en otro estado.
a)
355 112 33
p̂1 = = 0,71; p̂2 = = 0,224; p̂3 = = 0,0066
500 500 500
Siendo
z 3·2
α = z 0,05 = z
0,0083 = 2,40
6
22
Entonces q
355 145
355 500
· 500
IC1 = ∓ 2,40 = [0,6; 0,75]
500 499
q
112 388
112 500
· 500
IC21 = ∓ 2,40 = [0,179; 0,268]
500 499
q
33 467
33 500
· 500
IC1 = ∓ 2,40 = [0,039; 0,092]
500 499
b)
2,402
n= ≈ 900
4 · 0,042
Ejemplo con R
prop.table ( svytable (∼genero , design = dsrs ))
genero
H M
0 .56 0 .44
mean SE
generoH 0 .56 0 .0709
generoM 0 .44 0 .0709
23