Estimación Puntual de Parámetros
Estimación Puntual de Parámetros
Estimación Puntual de Parámetros
ESTIMACIÓN PUNTUAL
El objetivo de este tema es describir cómo se puede realizar la estimación de las características de una población a
partir del estudio de una muestra aleatoria simple extraída de la misma. Vamos a suponer que se conoce la distribución
de probabilidad que sigue la variable en estudio de la población, es decir, estamos en el caso de la estadística paramétrica.
El problema se reduce entonces a estimar los valores de los parámetros poblacionales que definen dicha distribución.
Sea X una variable aleatoria de interés en un experimento aleatorio, y supongamos que X tiene una distribución de
probabilidad con función de densidad f (x; θ), en donde θ es el parámetro o el conjunto de parámetros de la distribución.
En esta nueva notación se hace énfasis en que la distribución depende de un parámetro θ que consideraremos desconocido.
Por ejemplo, si la distribución es exp(λ), entonces θ representa el parámetro λ, si la distribución es N (µ, σ 2 ), entonces θ
representa el vector de parámetros (µ, σ 2 ). El problema de estimación puntual consiste en encontrar un número, con base
en las observaciones realizadas de la variable aleatoria, que sirva como estimación del parámetro desconocido θ.
Definición 1.
Un estimador puntual para el parámetro poblacional θ es una función real de una muestra aleatoria simple X1 , X2 , . . . , Xn
que se usa para estimar θ. Es decir, es un estadístico (variable aleatoria) que cambia de muestra a muestra de forma
aleatoria.
A un estimador del parámetro θ se le denota regularmente por θb (se lee “teta circunflejo”). Observe que un estimador
puntual es un estadístico y puede escribirse como θb = θ(X
b 1 , X2 , . . . , Xn ).
Una estimación puntual es el valor concreto que toma el estimador puntual en una muestra en particular. Como ya se
ha indicado, los estimadores puntuales se usan para realizar la estimación de parámetros poblacionales. En general, a cada
parámetro poblacional se le pueden asociar diferentes estimadores puntuales aunque normalmente se elegirán aquellos que
sean insesgados y más eficientes.
Evidentemente, no se espera que un estimador puntual proporcione sin error el parámetro poblacional, sino que se
pretende que las estimaciones puntuales no se alejen mucho del valor desconocido a calcular. Veremos a continuación dos
métodos para encontrar estimadores puntuales.
Métodos de estimación
A continuación, se estudian dos métodos que van a permitir obtener estimadores con unas cotas de bondad razo-
nablemente buenas en relación con las propiedades que se acaban de describir. El primero de ellos, llamado método de
los momentos, se basa en la correspondencia entre las características de la población y las de la muestra. El segundo,
denominado de máxima verosimilitud, se apoya en la función de verosimilitud definida posteriormente.
1
Sea f (x; θ) la función de densidad de una variable aleatoria X que depende de un parámetro desconocido θ que se desea
estimar. Recordemos que el k-ésimo momento poblacional de X es el número E(X k ) = αk (θ), cuando este valor esperado
existe.
Ahora, dada una muestra aleatoria simple X1 , X2 , . . . , Xn de esta distribución, se define el k-ésimo momento muestral
1 Pn
como mk = Xk.
n i=1 i
El método de momentos para estimar el parámetro θ es muy sencillo, consiste en igualar los momentos poblacionales,
que no sean constantes, con los correspondientes momentos muestrales y resolver esta ecuación o sistema de ecuaciones
para el parámetro θ cuando ello sea posible.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple obtenida de una población que sigue una distribución de Poisson de
parámetro λ, desconocido. Obtener un estimador del parámetro λ utilizando el método de los momentos.
Solución.
Aplicando el método de los momentos igualaremos el momento de orden uno, respecto al origen, de la población αj , al
momento de orden uno de la muestra m1 .
∞ ∞ ∞
X X λxi −λ X λxi−1
α1 (λ) = E[X] = xi · P (X = xi ) = xi · e = e−λ λ = e−λ λeλ = λ.
i=0 i=0
xi ! x
i=0 i−1
!
n
X Xi
m1 =
i=1
n
Luego, igualando se tiene que α1 (λ) = m1 . Así, estimador por el método de los momentos de λ es:
n
b=X= 1
X
λ Xi .
n i=1
Este estimador, como veremos después, es también el estimador obtenido por el método de la máxima verosimilitud.
Ejemplo 2.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple procedente de una B(1, p). Obtener el estimador del parámetro p, utili-
zando el método de los momentos.
Solución.
Sabemos de la distribución B(1, p) que la media o momento de orden uno respecto al origen es:
X
α1 (p) = E[X] = xi · P (X = xi ) = 0 · P (X = 0) + 1 · P (X = 1)
i
= 0 · (1 − p) + 1 · p = p.
2
n
P
y si hacemos X = Xi ≡ número de éxitos en las n pruebas:
i=1
X
pb = .
n
Este estimador, como veremos después, es también el estimador obtenido por el método de la máxima verosimilitud.
Ejemplo 3.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple obtenida de una población que sigue una distribución N (µ, σ 2 ), µ y σ 2
desconocidos. Obtener los estimadores de µ y de σ 2 utilizando el método de los momentos.
Solución.
Como necesitamos estimar dos parámetros usamos los dos primeros momentos.
El primer y segundo momento poblacionales son E(X) = µ y E(X 2 ) = σ 2 + µ2 , respectivamente.
1 Pn 1 Pn
El primer y segundo momento muestrales son Xi y X 2 , respectivamente.
n i=1 n i=1 i
La igualación respectiva produce el sistema de ecuaciones
n
1X
µ= Xi
n i=1
n
1X 2
σ 2 + µ2 = X .
n i=1 i
La primera ecuación es explícita mientras que la segunda ecuación se puede reescribir como sigue
n n n
!2 n
2 1X 2 1X 2 1X 1X
σ = Xi − µ2 = X − Xi = (Xi − µ)2 .
n i=1 n i=1 i n i=1 n i=1
1 Pn n
Luego, µ
b= c2 = 1 P (Xi − X)2 = S 2 son los estimadores de µ y de σ 2 obtenidos por el método de
Xi = X y σ c
n i=1 n i=1
los momentos.
Ejemplo 4.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple procedente de una población con distribución Γ(r, λ). Obtener los esti-
madores de r y de λ utilizando el método de los momentos.
Solución.
Sabemos que el momento de orden k respecto al origen en la Γ(r, λ) viene dado por:
Γ(r + k)
αk = E[X k ] = .
λk Γ(r)
Γ(r + 1) r
α1 = E[X] = =
λΓ(r) λ
y
Γ(r + 2) (r + 1)r
α2 = E[X 2 ] = =
λ2 Γ(r) λ2
3
y los dos primeros momentos muestrales son:
n n
X Xi X X2 i
m1 = y m2 = .
i=1
n i=1
n
De donde,
n
2
1
P
Xi 2
m21 n
i=1 X
rb = = 2 = n
m2 − m21 n
n 1
P
1
P
Xi2 − 1
P
Xi n (Xi − X)2
n n i=1
i=1 i=1
Solución.
Para aplicar el método de los momentos tendremos que calcular los momentos de orden uno, respecto al origen, tanto para
la población como para la muestra e igualarlos; con lo cual tendremos:
Z θ 2 θ
−1 x θ2 θ
α1 = E[X] = x · θ dx = = = .
0 2θ 0 2θ 2
4
tendremos el estimador θb del parámetro θ por el método de los momentos, que será:
θb = 4,8
La función de verosimilitud de una muestra aleatoria X1 , X2 , . . . , Xn , denotada por L(θ), se define como la función de
densidad conjunta
L(θ) = fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ; θ).
La letra L proviene del término en inglés likelihood, que tradicionalmente se ha traducido como verosimilitud,
aunque tal vez el término credibilidad sea más acertado. El método de máxima verosimilitud consiste en obtener el valor
de θ que maximice la función de verosimilitud L(θ), la idea intuitiva es interesante: se debe encontrar el valor de θ de tal
forma que los datos observados tengan máxima probabilidad de ocurrir. El valor de θ en donde se alcanza el máximo se
llama estimador de máxima verosimilitud, o estimador máximo verosímil.
Por tanto, en general podemos dar la siguiente definición:
Definición 4 (Método de la máxima verosimilitud).
El método de la máxima verosimilitud consiste en elegir como estimador del parámetro desconocido θ aquel valor
θ(X
b 1 , X2 , . . . , Xn ) que hace máxima la función de verosimilitud L(θ|x1 , x2 , . . . , xn ). Es decir, consiste en encontrar aquel
valor θ(X
b 1 , X2 , . . . , Xn ) tal que
L(θ|x
b 1 , x2 , . . . , xn ) = máx L(θ|x1 , x2 , . . . , xn )
θ∈Θ
Si consideramos sólo el caso discreto, vemos que la función de verosimilitud de la muestra será:
n
Y
L(θ|x
b 1 , x2 , . . . , xn ) = P (X1 = x1 , X2 = x2 , . . . , Xn = xn ; θ) = p(xi ; θ) (1)
i=1
y para una muestra concreta esta expresión dependerá sólo de θ, por eso también podríamos haberla notado poniendo
L(θ). Entonces el método de la máxima verosimilitud lo que hace es elegir aquel valor del parámetro θ para el cual la
expresión [1] es máxima para la muestra en cuestión, lo cual equivale a que la muestra considerada es la más probable y
coincide con el comportamiento lógico, siendo ese valor del parámetro θ el que se hace más verosímil con la aparición de
la muestra considerada.
En resumen, el valor de la función de verosimilitud L(θ|x1 , x2 , . . . , xn ) para una muestra concreta nos da la verosimilitud
o plausibilidad de que el parámetro θ tome un cierto valor, tomando como información la proporcionada por la muestra.
Así pues si L(θ1 |x1 , x2 , . . . , xn ) > L(θ2 |x1 , x2 , . . . , xn ) esto nos indica que la verosimilitud de que el parámetro θ tome
el valor θ1 , es mayor que la verosimilitud de que el parámetro tome el valor θ2 , dado que se ha obtenido la muestra
considerada.
Ahora bien, con frecuencia la función de verosimilitud L(θ|x1 , x2 , . . . , xn ) suele ser complicada, y al ser esta función
positiva y coincidir sus valores máximos con los de la función log L(θ|x1 , x2 , . . . , xn ), entonces lo que se hace es considerar
la función:
n
Y n
X
log L(θ|x1 , x2 , . . . , xn ) = log f (x1 , x2 , . . . , xn ; θ) = log f (xi ; θ) = log f (xi ; θ) (2)
i=1 i=1
5
y el estimador de máxima verosimilitud, θ,
b será el que verifique la expresión:
n
X
log L(θ|x
b 1 , x2 , . . . , xn ) = máx log L(θ|x1 , x2 , . . . , xn ) = máx log f (xi ; θ) (3)
θ∈Θ θ∈Θ
i=1
Admitimos las siguientes condiciones de regularidad: que el campo de variación de θ es un intervalo abierto del eje real,
que el campo de variación de la variable aleatoria poblacional no depende de θ, que f (x, θ) es positiva y derivable respecto
∂ 2 log(L)
a θ y que se verifica la condición de máximo |θ<θb.
∂θ2
y tendríamos:
θb1 = θb1 (X1 , X2 , . . . , Xn )
.. .
. · · · .. (6)
θbk = θbk (X1 , X2 , . . . , Xn )
Dada una muestra aleatoria simple X1 , X2 , . . . , Xn de una población con función de densidad de probabilidad f (x; θ),
muestre que maximizar la función de verosimilitud, que denotamos L(θ|x), como función de θ es equivalente a maximizar
la función log(L(θ|x)).
Solución.
6
Ejemplo 7.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple obtenida de una población que sigue una distribución exponencial de
parámetro λ, desconocido. Obtener un estimador del parámetro poblacional λ utilizando el método de máxima verosimilitud.
Solución.
La función de verosimilitud es
Maximizar la función L(λ) es equivalente a maximizar la función log L(λ), pues la función logaritmo es continua y
monótona creciente en su dominio de definición.
Hacemos esto, pues esta nueva función resulta más fácil de maximizar, como veremos a continuación. Tenemos que
log L(λ) = n log(λ) − λnx.
n 1
Derivando respecto a λ e igualando a cero se llega a la ecuación λ − nx = 0, de donde se obtiene λ = .
x
Fácilmente se comprueba que esta solución corresponde a un máximo relativo.
b= 1.
Por lo tanto, el estimador máximo verosímil del parámetro poblacional λ es λ
X
Ejemplo 8.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple obtenida de una población que sigue una distribución N (µ, σ 2 ), µ y σ 2
desconocidos. Obtener estimadores de los parámetros poblacionales µ y σ 2 utilizando el método de máxima verosimilitud.
Solución.
Por lo tanto,
n
∂ 1 X
log L(µ, σ 2 ) = 2
(xi − µ)
∂µ σ i=1
n
∂ 2 n 1 X
(xi − µ)2 .
log L(µ, σ ) = − +
∂σ 2 2σ 2 2σ 4 i=1
Igualando a cero ambas derivadas encontramos un sistema de dos ecuaciones con dos variables:
n
1 X
(xi − µ) = 0
σ 2 i=1
7
n
n 1 X
− + (xi − µ)2 = 0.
2σ 2 2σ 4 i=1
1 Pn 1 Pn
De estas ecuaciones se obtiene µ = xi y σ 2 = (xi − µ)2 .
n i=1 n i=1
Fácilmente se comprueba que dicha solución corresponde a un máximo relativo.
Por lo tanto, los estimadores para los parámetros µ y σ 2 de una distribución normal por el método de máxima
1 Pn n
verosimilitud son µ
b= c2 = 1 P (Xi − µ)2 .
Xi y σ
n i=1 n i=1
Ejemplo 9.
Sea una población distribuida según una B(10, p). Obtener el estimador de máxima verosimilitud utilizando una muestra
aleatoria simple (X1 , X2 , X3 , X4 ).
Solución.
∂ log L(p|x1 , x2 , x3 , x4 )
=0
∂p
y para ello calculamos:
4
Y
L(p|x1 , x2 , x3 , x4 ) = p(xi ; p)
i=1
10 x1 10 x4
= p (1 − p)10−x1 . . . p (1 − p)10−x4
x1 x4
4 P 4 4
P
Y 10 i=1 xi 40− xi
= p (1 − p) i=1
i=1
xi
Luego,
4 P 4 P 4
Y 10 i=1 xi 40− xi
log L(p|x1 , x2 , x3 , x4 ) = log p (1 − p) i=1
i=1
xi
4 X 4 4
!
X 10 X
= log + xi log(p) + 40 − xi log(1 − p)
i=1
xi i=1 i=1
Esto es,
4
X
xi − 40p = 0
i=1
8
Por lo tanto,
4
P
xi
i=1
pb =
40
que será el estimador de máxima verosimilitud, o lo que es lo mismo, es el valor del parámetro p que hace máxima la
función de verosimilitud para esta muestra concreta. Pero como para cualquier otra muestra llegaríamos al mismo tipo de
estimación, entonces podemos considerar que el estimador será:
4
P
Xi
i=1
pb =
40
Ejemplo 10.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple procedente de una población B(1, p), donde p es desconocido. Obtener el
estimador de máxima verosimilitud del parámetro p.
Solución.
Por lo tanto,
4
P
xi
i=1 X
pb = = = x.
n n
9
∂ 2 log L
Por otro lado, calculando tenemos que:
∂p2
n
P n
P
2 − xi n− xi
∂ log L(p|x1 , x2 , . . . , xn ) i=1 i=1
= −
∂p2 p2 1 − p2
n
n
2
xi p2
P P
−(1 − p) xi − n −
i=1 i=1
=
p2 (1 − p)2
y particularmente para p = x, se tiene:
∂ 2 log L(p|x1 , x2 , . . . , xn )
n n
=− + <0
∂p2 x 1−x
con lo cual podemos decir que se trata de un máximo. Luego el estimador de máxima verosimilitud es
X
pb = x =
n
Ejemplo 11.
Sea una población N (20, σ 2 ), donde σ 2 es desconocido. Con la ayuda de una muestra aleatoria simple de tamaño n,
obtener:
Solución.
n (xi − 20)2
Y 1 −
= √ e 2σ 2
i=1
σ 2π
n
(xi − 20)2
P
n2 i=1
1 −
= e 2σ 2
2σ 2 π
Luego,
n
(xi − 20)2
P
n n i=1
log L(σ |x1 , x2 , . . . , xn ) = − log(σ 2 ) − log(2π) −
2
.
2 2 2σ 2
Ahora, derivando parcialmente con respecto a σ 2 e igualando a cero, se tiene que:
n
(xi − 20)2
P
∂ log L(σ 2 |x1 , x2 , . . . , xn ) n i=1
=− 2 + =0
∂σ 2 2σ 2σ 4
10
De donde se obtiene que:
n
(xi − 20)2
P
c2 = i=1
σ
n
pudiendo comprobarse que es un máximo y por tanto será el estimador de máxima verosimilitud.
Observemos que no se trata de una varianza muestral pues el valor µ = 20 se refiere a la media de la población y no a la media de la
muestra.
Ejemplo 12.
Una compañía de seguros, después de analizar su fichero de siniestros sobre roturas de lunas de establecimientos comer-
ciales, llega a la conclusión de que el número de siniestros mensuales se ajusta a una distribución de Poisson. Tomando
una muestra aleatoria simple de 8 meses, se observó que se produjeron 310 siniestros. Obtener una estimación máximo-
verosímil del parámetro λ.
Solución.
Luego,
8
X 8
X
log L(λ|x1 , x2 , . . . , x8 ) = −8λ − log(λ) xi − log(xi !)
i=1 i=1
Por lo tanto,
λ
b = x.
11
En general en una distribución de Poisson P(λ), se observa que el estimador máximo verosímil del parámetro λ es:
n
P
Xi
i=1
λ
b= =X
n
y se comprueba que efectivamente se verifica la condición de máximo, pues:
n
P
2 − xi
∂ log L(λ|x1 , x2 , . . . , xn ) i=1 n
|λ=x = 2 =− <0
∂λ2 x x
b
Ejemplo 13.
Suponiendo que la cotización de una determinada acción se distribuye según una N (µ, σ 2 ), seleccionamos una muestra
aleatoria simple de 20 días de cotización de esa acción, obteniendo que
20
X 20
X
xi = 357000 pesos (xi − x)2 = 405000 pesos.
i=1 i=1
Obtener estimadores máximo verosímiles para µ y σ 2 , y sus correspondientes estimaciones para la muestra dada.
Solución.
(xi − µ)2
1 −
f (x; µ, σ 2 ) = √ e 2σ 2
σ 2π
Luego,
n
(xi − µ)2
P
2 n 2 i=1
log L(µ, σ |x1 , x2 , . . . , xn ) = −n log(σ ) − log(2π) −
2 2σ 2
Derivando respecto a los dos parámetros µ y σ 2 e igualando a cero, se tiene el siguiente sistema de dos ecuaciones:
n
P
2 (xi − µ)
∂ log L(µ, σ |x1 , x2 , . . . , xn ) i=1
= =0
∂µ σ2
n
(xi − µ)2
P
2
∂ log L(µ, σ |x1 , x2 , . . . , xn ) n i=1
=− + =0
∂σ 2 σ σ3
12
De la primera ecuación tenemos:
n n n
X X 1X
(xi − µ) = 0 ⇒ xi = nµ ⇒ µ
b= xi = x
i=1 i=1
n i=1
Ejemplo 14.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de una población que se distribuye según una Γ(r, λ), con ambos pará-
metros desconocidos. Obtener los estimadores máximo verosímiles.
Solución.
13
Derivando respecto de r y de λ e igualando a cero, obtenemos las ecuaciones de verosimilitud:
n
∂ log L(r, λ|x1 , x2 , . . . , xn ) n ∂Γ(r) X
= n log(λ) − · + log(xi ) = 0
∂r Γ(r) ∂r i=1
n
∂ log L(r, λ|x1 , x2 , . . . , xn ) nr X
= − xi = 0
∂λ λ i=1
Para resolver este sistema de ecuaciones empezamos obteniendo el parámetro λ de la segunda ecuación:
n
nr X b = nr = rb
= xi ⇒ λ n
λ P x
i=1 xi
i=1
o bien,
n
r Γ0 (r) X
n log −n + log(xi ) = 0
x Γ(r) i=1
Pero la solución de esta ecuación hay que obtenerla de manera aproximada mediante métodos numéricos, y una vez
que se tiene este estimador rb, el otro se obtiene fácilmente.
Ejemplo 15.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple procedente de una población uniforme, U [0, θ]. Obtener el estimador
máximo verosímil del parámetro θ.
Solución.
Observemos que aquí no se verifica la condición de que el campo de variación de la variable X sea independiente del
parámetro θ.
La función de verosimilitud será:
n
Y
L(θ|x1 , x2 , . . . , xn ) = f (x1 , x2 , . . . , xn ; θ) = f (xi ; θ) para 0 ≤ xi ≤ θ
i=1
n
Y 1
=
i=1
θ
1
=
θn
14
Derivando respecto de θ e igualando a cero, obtenemos:
∂ log L(θ|x1 , x2 , . . . , xn ) n
=− =0
∂θ θ
y no existe ningún valor de θ para el cual la derivada de la función de verosimilitud es igual a cero, pues el único valor
sería θ = inf inito, pero esto no es posible pues entonces f (x) = 0, ∀x.
Luego, vemos que en este caso no podemos aplicar el proceso anterior de derivar el logaritmo de la función de verosi-
militud, y sin embargo si podemos encontrar el estimador de máxima verosimilitud; en efecto:
maximizar L(θ|x1 , x2 , . . . , xn ) = minimizar θ
pero el mínimo valor de θ será superior al máx {xi } que será el valor de x que más se aproxime a θ.
1≤i≤n
Ejemplo 16.
Solución.
Para obtener el estimador por el método de los momentos obtenemos el momento de orden uno respecto al origen de la
población y lo igualamos al momento de orden uno de la muestra
Z 1 Z 1
1+θ
α1 = E[X] = x · (1 + θ)xθ dx = (1 + θ)x1+θ dx =
0 0 2+θ
Además,
n
P
Xi
i=1
m1 = =X
n
Igualando ambos momentos, tenemos:
1+θ 1 − 2X
=X ⇒ θb =
2+θ X −1
que es el estimador obtenido por el método de los momentos.
Para obtener el estimador máximo verosímil procedemos como sigue
n
Y
L(θ|x1 , x2 , . . . , xn ) = f (x1 , x2 , . . . , xn ; θ) = f (xi ; θ)
i=1
n
Y
= (1 + θ)xθi
i=1
n
!θ
Y
n
= (1 + θ) xi
i=1
15
Tomando logaritmo en la función de verosimilitud tenemos:
n
X
log L(θ|x1 , x2 , . . . , xn ) = −n log(1 + θ) + θ log(xi )
i=1
y como vemos no tiene porque coincidir con el estimador obtenido por el método de los momentos.
En general, para cada parámetro poblacional se podrán definir varios estimadores, cada uno con sus características.
Será importante elegir, de entre todos los estimadores posibles, el estimador óptimo para cada parámetro poblacional. Las
propiedades que definen un buen estimador son las siguientes:
Definimos el error cuadrático medio del estimador θ,b que lo notaremos por ECM (θ),
b como el valor esperado del cuadrado
de la diferencia entre el estimador θ y el parámetro θ, es decir,
b
2
ECM (θ) = E θ − θ
b b (7)
16
2
h i
ECM (θ)
b =E θb − θ = E θb2 − 2θθb + θ2
2
= E[θb2 ] − 2θE[θ]
b + θ2 sumando y restando E[θ]
b
2 2
= E[θb2 ] − E[θ]
b + E[θ] b + θ2
b − 2θE[θ]
2
= V ar(θ)b + E[θ]b −θ
= V ar(θ) b 2.
b + (sesgo(θ)) (8)
resultando que el ECM del estimador θb se puede descomponer como la suma de dos cantidades no negativas:
Evidentemente, ambas cantidades se deben tener en cuenta para las propiedades deseables de un estimador. Así pues,
ambos sumandos, varianza y sesgo, deben ser lo más pequeños posibles, lo cual equivale a que la distribución muestral del
estimador θb debe concentrarse en torno al valor del parámetro θ, tanto más cuanto menor sea la varianza.
El problema aparentemente parece muy sencillo, pues bastará seleccionar como mejor estimador del parámetro θ, aquel
estimador θb que tenga el error cuadrático medio, más pequeño de entre todos los posibles estimadores de θ. Pero no es
nada fácil el obtener entre todos los posibles estimadores del parámetro θ el que nos de un error cuadrático medio mínimo
para todos los valores posibles del parámetro θ, es decir, no siempre existirá un estimador θb que haga mínimo su error
cuadrático medio para todos los valores posibles de θ, pues un estimador θb puede dar lugar a un ECM mínimo para
algunos valores del parámetro θ, mientras que otro estimador θb0 también dará lugar a un ECM mínimo pero para otros
valores diferentes de θ.
Ejemplo 17.
Sea X1 , X2 , X3 , una muestra aleatoria simple de tamaño 3, cuyos valores son siempre positivos y procedentes de una
población con media µ y varianza σ 2 = 25. Consideramos como posibles estimadores de µ los estadísticos
1
µ
b1 = (X1 + 2X2 + X3 )
4
1
µ
b2 = (X1 + 2X2 + X3 )
5
Solución.
17
1 1
V ar [b
µ1 ] = V ar (X1 + 2X2 + X3 ) = (V ar [X1 ] + 4V ar [X2 ] + V ar [X3 ])
4 16
1 6 2 3
σ 2 + 4σ 2 + σ 2 = σ = σ2
=
16 16 8
3 75
= (25) = .
8 8
4 4µ − 5µ 1
Luego, sesgo(b µ2 ] − µ =
µ2 ) = E[b µ−µ= = − µ.
5 5 5
1 1
V ar [b
µ2 ] = V ar (X1 + 2X2 + X3 ) = (V ar [X1 ] + 4V ar [X2 ] + V ar [X3 ])
5 25
1 6 2
σ 2 + 4σ 2 + σ 2 =
= σ
25 25
6
= (25) = 6.
25
y su error cuadrático medio será:
2
µ2
1
ECM (b
µ2 ) = V ar(b µ2 ))2 = 6 + − µ = 6 +
µ2 ) + (sesgo(b .
5 25
Igualando ECM (b
µ1 ) = ECM (b
µ2 ) tendremos:
75 µ2 µ2 75 27
=6+ ⇒ = −6= ⇒ 8µ2 = 675.
8 25 25 8 8
r
675
Por lo tanto, µ = .
8
r
675
Luego, si µ < , entonces ECM (bµ2 ) < ECM (b µ1 ) y el estimador µ
b2 , será mejor que el estimador µb1 ; pero si
r 8
675
µ> , entonces ECM (b µ1 ) < ECM (b
µ2 ) resultando que el estimador µ
b1 será mejor que el estimador µb2 .
8
Resulta, por tanto, que la utilización del error cuadrático medio para la elección de un buen estimador es insuficiente,
siendo necesario dar otros criterios, de tal manera que la elección de un buen estimador puntual dependerá de otras
propiedades que satisfaga ese estimador. Así pues estudiaremos la insesgadez, eficiencia, consistencia y suficiencia que
darán lugar a los estimadores puntuales: insesgados, eficientes, consistentes y suficientes.
Estimador insesgado
Siendo un estimador θb una variable aleatoria que se utiliza para estimar el parámetro θ, es interesante saber si el valor
promedio de θb coincide con el parámetro poblacional θ. Esta sería una buena propiedad para un estimador.
18
Definición 6.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de una población con media desconocida µ. Comprobaremos que la
n
1 P
media muestral X = Xi es un estimador insesgado para el parámetro µ. Observe que X es el estimador µ
b, y µ es el
n i=1
parámetro desconocido θ. Por la propiedad lineal del valor esperado,
n
! n n
1X 1X 1X 1
E(bµ) = E X = E Xi = E(Xi ) = µ = (nµ) = µ.
n i=1 n i=1 n i=1 n
Ejemplo 19.
Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con varianza desconocida σ 2 . Recordemos que la varianza
1 P n
muestral es una estadística definida de la forma siguiente: S 2 = (Xi − X)2 . En este caso el estimador es S 2 y el
n − 1 i=1
parámetro desconocido a estimar es σ 2 . Esta estadística resulta ser un estimador insesgado para la varianza σ 2 .
Para demostrarlo, hay que tener en cuenta que la varianza muestral se puede escribir de la forma:
n n n
1 X 1 X 1 X 2
S2 = (Xi − X)2 = (Xi − X + µ − µ)2 = (Xi − µ) − (X − µ) .
n − 1 i=1 n − 1 i=1 n − 1 i=1
Calculando el valor esperado de la varianza muestral a partir de la expresión anterior se tiene que
n
!
2 1 X
2 2
E[S ] = E[(Xi − µ) ] − nE[(X − µ) ] .
n − 1 i=1
Teniendo en cuenta que la muestra es aleatoria simple y que la media muestral verifica que E[X] = µ y que V ar[X] =
σ2
, se tiene que el primer valor esperado que aparecen en el segundo miembro es, para todo i, E[(Xi − µ)2 ] = σ 2 y el
n
σ2
segundo, E[(X − µ)2 ] = , con lo que se llega a
n
σ2
2 1 2 n−1 2
E[S ] = nσ − n = σ = σ2 .
n−1 n n−1
19
Estimador insesgado de mínima varianza
Ya indicábamos anteriormente que no era posible obtener un estimador θb que haga mínimo su error cuadrático medio
para todos los valores posibles del parámetro θ. Sin embargo, sí podemos considerar los estimadores que son insesgados
y de éstos determinar el que tenga su error cuadrático medio, ECM (θ),
b mínimo. Es decir, si el estimador θb es insesgado,
entonces:
E[θ]
b = θ y ECM [θ] b = V ar[θ].
b
Definición 7.
Diremos que el estimador insesgado θb0 , es uniformemente insesgado de mínima varianza U M V U E para el pa-
b de él, se verifica que V ar(θb0 ) ≤ V ar(θ)
rámetro θ, si dado cualquier otro estimador insesgado θ, b para todos los valores
posibles de θ.
Para llegar a obtener el estimador uniformemente insesgado de mínima varianza, si es que éste existe, tendríamos que
determinar las varianzas de todos los estimadores insesgados de θ y seleccionar el estimador que tenga la varianza más
pequeña para todos los valores de θ.
Con el fin de facilitar la obtención de un estimador uniformemente insesgado de mínima varianza U M V U E daremos
la desigualdad o cota de Frechet-Cramer-Rao, la cual nos permitirá obtener una cota inferior de la varianza.
Cota de Frechet-Cramer-Rao
Para poder aplicar la cota de Frechet-Cramer-Rao es necesario que se cumplan ciertas condiciones de regularidad de
f (x; θ). Son las conocidas condiciones de regularidad de Fisher-Wolfowitz. Diremos que la función de densidad
f (x; θ) verifica las condiciones de regularidad Fisher-Wolfowitz, cuando:
1. El espacio paramétrico Θ es un intervalo abierto de R (no necesariamente finito), pero nunca se reduce a un punto.
2. El campo de variación de la variable aleatoria X que define la población de la cual se extrajo la muestra es indepen-
diente del parámetro θ, y por tanto, la muestra también lo es.
3. Existen, al menos, las dos primeras derivadas respecto al parámetro θ de la función fn (x1 , x2 , . . . , xn ; θ). Esto es,
para casi todo x y todo θ ∈ D, existe
∂ log dFn (x1 , x2 , . . . , xn ; θ)
.
∂θ
Al decir para casi todo x, queremos decir para todo x excepto para un conjunto cuya probabilidad sea nula (un
conjunto de medida cero).
4. La derivación e integración, así como la suma en el caso discreto, son operaciones intercambiables.
" 2 #
∂ log dFn (x1 , x2 , . . . , xn ; θ)
5. Se verifica que E > 0, para todo θ ∈ D.
∂θ
Teorema 1.
Supongamos que se verifican las condiciones de regularidad de Fisher-Wolfowitz. Sea X1 , X2 , . . . , Xn una muestra
aleatoria simple de tamaño n, obtenida de una población cuya función de densidad es f (x; θ). Designamos la función de
densidad conjunta de la muestra por:
verificándose que Z Z
dFn (x1 , x2 , . . . , xn ; θ) = fn (x1 , x2 , . . . , xn ; θ)dx1 dx2 . . . dxn = 1
Rn Rn
20
Entones la varianza del estimador está acotada inferiormente:
1
V ar θb ≥ " 2 # (11)
∂ log dFn
E
∂θ
o bien, si las variables aleatorias son independientes e idénticamente distribuidas con función de densidad f (x; θ), entonces:
1
V ar θb ≥ " 2 # (12)
∂ log f (x; θ)
nE
∂θ
o incluso 1
V ar θb ≥
∂ 2 log f (x; θ)
−nE
∂θ2
Estimador eficiente
Puesto que lo que se intenta es obtener el valor del parámetro a través de un estimador, que es a su vez una variable
aleatoria, una propiedad que también sería deseable es que la varianza de dicho estimador fuese lo más pequeña posible,
dicha propiedad se denomina eficiencia. Se dice que un estimador θb1 es más eficiente que otro θb2 , cuando ocurre que
V ar(θb1 ) < V ar(θb2 ). Un estimador es eficiente, en términos absolutos, cuando alcanza la llamada Cota de Frechet-
Cramer-Rao.
La propiedad de eficiencia de un estimador la definiremos comparando su varianza con la varianza de los demás
estimadores insesgados. Así pues: el estimador más eficiente entre un grupo de estimadores insesgados será el que
tenga menor varianza.
Definición 8 (Estimador eficiente).
Diremos que un estimador θb del parámetro poblacional θ, es eficiente si es insesgado y además su varianza alcanza la cota
de Frechet-Cramer-Rao. Esto es equivalente a decir que un estimador θb es eficiente si su varianza coincide con la cota de
Frechet-Cramer-Rao:
1
V ar(θ)
b = " 2 # (13)
∂ log dFn
E
∂θ
o bien
1
V ar(θ)
b = " 2 # .
∂ log f (x; θ)
nE
∂θ
Si tenemos dos estimadores insesgados θb1 y θb2 del parámetro poblacional θ, se dice que el estimador θb1 es más eficiente
que el estimador θb2 si su varianza es menor. Es decir
V ar(θb1 ) ≤ V ar(θb2 )
21
Se quiere estimar el parámetro λ de una Poisson mediante la media de una muestra de tamaño n. ¿Es la media un
estimador eficiente?
λ
La varianza de la media muestral es V ar[X] = y la esperanza E[X] = λ. Calculando la Cota de Frechet-Cramer-Rao:
n
1
CF CR = " 2 # .
∂ log Pλ (X)
nE
∂λ
Se tiene que
log Pλ (X) = −λ + x log λ − log(x!)
y su derivada respecto a λ
∂ log Pλ (X) x x−λ
= −1 + = ,
∂λ λ λ
luego el denominador queda
" 2 #
∂ log Pλ (X) E (X − λ)2 V ar[X] λ n
nE =n =n =n 2 = ,
∂λ λ2 λ2 λ λ
y la Cota de Frechet-Cramer-Rao
1 λ
CF CR = " 2 # = n .
∂ log Pλ (X)
nE
∂λ
λ
Como la varianza del estimador es igual a , se tiene que éste es eficiente.
n
Ejemplo 22.
Demostrar que la proporción muestral pb es un estimador insesgado de varianza mínima de la proporción poblacional p, de
una variable aleatoria X con distribución de Bernoulli.
Solución.
Suponga que se extrae una muestra aleatoria simple de tamaño n de la población X con distribución de Bernoulli, entonces:
n
1X
pb = Xi , estima a p.
n i=1
La proporción muestral pb, es una media muestral de variable aleatoria Bernoulli con E(Xi ) = p y V ar(Xi ) = pq;
representa la proporción de éxitos en la muestra y estima a la proporción de éxitos en la población p. Luego:
n n
1X 1X 1
E [b
p] = E [Xi ] = p = (np) = p.
n i=1 n i=1 n
n n
1 X 1 X 1 pq
V ar [b
p] = 2
V ar [Xi ] = 2
pq = 2 (npq) = .
n i=1 n i=1 n n
22
f (x; p) = px (1 − p)1−x , x = 0, 1
log f (x; p) = x log p + (1 − x) log(1 − p)
d x 1−x x−p
(log f (x; p)) = − =
dp p 1−p p(1 − p)
" 2 #
(x − p)2
d V ar(X) pq 1
E log f (x; p) =E 2 = = 2 2 =
dp p (1 − p)2 p2 q 2 p q pq
1 1 pq
CF CR = " 2 # = h 1 i = n = V ar [b
p] .
d n pq
nE log f (x; p)
dp
Dado que la V ar [b
p] es igual a la cota inferior de Frechet-Cramer-Rao, pb es un estimador de varianza mínima para p.
Como la proporción muestral pb es un estimador insesgado y de varianza mínima para p, es un estimador eficiente.
Ejemplo 23.
Dada una población N (µ, σ 2 ) se verifica que la media muestral X es un estimador eficiente de la media poblacional µ.
Solución.
Sabemos que la función de densidad de una distribución N (µ, σ 2 ), de parámetro µ, desconocido, es:
1 1 (x−µ)
2
f (x; µ) = √ e− 2 σ 2
σ 2π
Para que el estadístico, X, media muestral sea un estimador eficiente del parámetro µ, media poblacional, se tiene que
verificar la expresión (13), es decir, que su varianza coincida con la cota de Frechet-Cramer-Rao:
1
V ar(X) = " 2 #
∂ log f (x; µ)
nE
∂µ
En efecto:
1 (x − µ)2
1 1 (x−µ)
2
1 1 (x−µ)
2
1
log f (x; µ) = log √ e− 2 σ 2 = log √ + log e− 2 σ2 = log √ − .
σ 2π σ 2π σ 2π 2 σ2
Luego,
" 2 # " 2 #
∂ log f (x; µ) X −µ n n n n
E (X − µ)2 = 4 · V ar(X) = 4 · (σ 2 ) = 2 .
nE = nE =
∂µ σ2 σ 4 σ σ σ
1 σ2
V ar(b
µ) = V ar(X) = " 2 # = n
∂ log f (x; µ)
nE
∂µ
23
σ2
que coincide con la cota de Frechet-Cramer-Rao, además sabemos que la varianza del estadístico media muestral es y
n
que el estadístico media muestral X es un estimador insesgado de la media poblacional µ.
Resultando que, efectivamente, la media muestral es un estimador eficiente de la media poblacional, cuando la población
es N (µ, σ 2 ).
Ejemplo 24.
Dada una población N (µ, 49), y los estimadores de la media poblacional µ, para muestras aleatorias simples de tamaño
n=3
1 1 1 1
θb1 = (X1 + X2 + X3 ) y θb2 = X1 + X2 + X3
3 2 3 4
Entonces:
Solución.
E[θ]
b =θ
3. Para ver si son eficientes tendremos que ver si son insesgados y que su varianza alcance la cota de F.C.R.
Ahora bien, en nuestro caso el estimador θb2 no es insesgado y por tanto no será eficiente.
Para el estimador θb1 , que sí que es insesgado, bastará tener en cuenta el teorema (23), pues resulta que el estimador
1
θb1 = (X1 + X2 + X3 )
3
24
coincide exactamente con la media muestral, X, y según hemos visto el estadístico media muestra, X, en una
población N (µ, σ 2 ) es un estimador eficiente de la media poblacional µ.
Luego el estimador θb1 , es un estimador eficiente de la media poblacional µ.
Teorema 2.
Siendo A(θ) una expresión que no depende de θb y entonces el estimador θb será eficiente.
Teorema 3.
Demostración.
1 b = 1 .
De donde, V ar2 (θ)
b = y por consiguiente V ar(θ)
A2 (θ) A(θ)
lı́m V ar(θ)
b = Cota de Frechet-Cramer-Rao (14)
n→∞
No obstante debemos tener en cuenta que la cota también depende del tamaño muestral, lo cual puede ocasionar algún
problema en algún caso aislado (como podrían ser el caso de los estimadores súper-eficientes).
Estimador consistente
Teorema 4 (Glivenko-Cantelli).
Si se tienen muestra aleatoria simple de tamaño n de una población X, con función de distribución F (x), para cualquier
número real positivo arbitrario ε, se tiene que
25
1 Pn
Se define la función de distribución empírica como Fn∗ (x) = εi (x), donde
n i=1
(
1, si Xi ≤ x
εi (x) =
0, si Xi > x.
Cuando un estimador no es insesgado se le exige que al menos sea consistente. Existen diversas definiciones de
consistencia, en función de la convergencia que se utilice. Sea θbn un estimador de θ para el que se verifica cuando n → ∞
que
1. lı́m E(θbn ) = θ.
n→∞
2. lı́m V ar(θbn ) = 0.
n→∞
Entonces, θbn es débilmente consistente de θ. También dicha consistencia se conoce como consistencia en probabilidad.
Ejemplo 25.
La media muestral es un ejemplo de estimador consistente de la media poblacional µ: E[X] = µ y por tanto lı́m E[X] = µ
n→∞
σ2
y V ar[X] = , con lo que se tiene que lı́m V ar[X] = 0.
n n→∞
Sean θb1 , θb2 , . . . , θbn una sucesión de estimadores del parámetro θ, obtenidos a partir de muestras de tamaño 1, 2, . . . , n,
respectivamente, es decir:
θb1 = g(X1 )
θb2 = g(X1 , X2 )
..
.
θn = g(X1 , X2 , . . . , Xn )
b
de manera que el estimador basado en la muestra de tamaño n lo notaremos por θbn , donde el subíndice n lo empleamos
para
n ohacer más evidente la dependencia del tamaño muestral. En general esta sucesión de estimadores se representa por
θbn .
Definición 10.
n o
Diremos que una sucesión de estimadores θbn es consistente, si la sucesión converge en probabilidad hacia el parámetro
θ. Es decir, si para todo ε > 0, se verifica:
lı́m P θbn − θ < ε = 1, ∀θ (15)
n→∞
Solución.
σ2
X −µ
Como la media muestral X se distribuye como N µ, . Y la variable aleatoria Z = tiene aproximadamente
n √σ
n
distribución N (0, 1); tenemos que:
26
√ √ ! √ √
ε n X −µ ε n ε n ε n
P X − µ < ε = P −ε < X − µ < ε = P − < < =P − <Z<
σ √σ σ σ σ
n
√ √ √ √ √
ε n ε n ε n ε n ε n
=φ −φ − =φ −1+φ = 2φ − 1.
σ σ σ σ σ
√
ε n
Luego, lı́m P X − µ < ε = lı́m 2φ − 1 = 2(1) − 1 = 1.
n→∞ n→∞ σ
Por lo tanto, la media muestral X es un estimador consistente de la media poblacional µ, cualquiera que sea el tipo
de distribución de la población, siempre que tenga media y varianza.
Ejemplo 27.
Solución.
Luego en este caso el estimador θb obtenido por el método de los momentos es insesgado.
27
3. Para ver si es consistente, se debe probar que
lı́m P |θbn − θ| < ε = 1
n→∞
b < ε ≥ 1 − V ar(θ) .
b
P |θb − E[θ]| 2
ε
Ahora bien,
n
!
b = V ar m1 + 1
V ar(θ) = V ar
1X
Xi +
1
2 n i=1 2
n
! n
1X 1 X
= V ar Xi = V ar(Xi )
n i=1 n2 i=1
n
1 X 1 1
= 2 V ar(X) = 2 (nV ar(X)) = V ar(X).
n i=1 n n
b < ε ≥ 1 − V ar(X) .
P |θb − E[θ]|
nε2
Por lo tanto,
lı́m P |θb − E[θ]|
b <ε =1
n→∞
Ejemplo 28.
Solución.
28
1. La función de verosimilitud viene dada por:
n
Y
L(θ|x1 , x2 , . . . , xn ) = f (x1 , x2 , . . . , xn ; θ) = f (xi ; θ)
i=1
n
Y xi
= θ−1 e− θ
i=1
n
P
xi
i=1
−
= θ−n e θ
E[X] = θ y V ar(X) = θ2 .
Luego,
V ar(X) θ2
E[θ] = E[X] = E[X] = θ y V ar(θ) = V ar(X) = = .
n n
Cuando n → ∞, entonces la V ar(θ)b → 0 y como el estimador θb es insesgado, resulta que efectivamente el estimador
de máxima verosimilitudd es consistente, pues el sesgo es nulo y la varianza tiende a cero cuando n tiende a infinito.
3. Para probar la eficiencia, tendremos que probar que la vananza del estimador coincide con la cota de Frechet-Cramer-
Rao, es decir que,
1
V ar(θ)
b = " 2 #
∂ log f (x; θ)
nE
∂θ
o bien
1
V ar(θ)
b =
∂ 2 log f (x; θ)
−nE
∂θ2
29
En efecto: El logaritmo de la función de densidad es:
x
log f (x; θ) = − log(θ) − , x>0
θ
∂ 2 log f (x; θ) 1 2x
=− 2 + 3, x>0
∂θ2 θ θ
1 1 θ2
V ar(θ)
b = 2
= =
∂ log f (x; θ) 1 n
−nE 2
−n − 2
∂θ θ
Estimador suficiente
Fisher introdujo en 1920 muchos conceptos relacionados con la inferencia estadística, los cuales todavía siguen vivos
y son indispensables. El concepto más importante es el conocido como suficiencia, el cual fue desarrollado por Fisher
también en el 1922.
Un estadístico es suficiente si resume la información de la muestra sin perder información relevante sobre el parámetro.
Existen dos caminos para encontrar estadísticos suficientes en un modelo estadístico. El primer método implica el
cálculo directo de la distribución condicional de los datos dado el valor de un estadístico particular, mientras que el
segundo consiste en la factorización clásica de Neyman de una función de probabilidad.
Definición 11 (Estimador suficiente).
Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población cuya función de distribución F (x; θ) depende de un parámetro
θ desconocido. Diremos que el estadístico muestral T = T (X1 , X2 , . . . , Xn ) es suficiente para el parámetro θ si las distri-
buciones condicionadas (X1 , X2 , . . . , Xn )|T = t no depende del parámetro θ (excepto a los sumo para valores t ∈ T , siendo
Pθ (t ∈ T ) = 0, ∀ θ).
Intuitivamente, dado el valor t de un estadístico suficiente T , condicionalmente no queda más información en los datos
originales con respecto al parámetro desconocido θ. Cuando disponemos de una muestra y queremos escoger un estadístico
basado en ella, parece lógico seleccionar el que conserve la mayor cantidad posible de la información contenida en dicha
muestra. El concepto de suficiencia está basado, precisamente, en esta idea de conservar la información contenida en una
muestra. Por tanto, diremos que T es un estadístico suficiente para un parámetro θ si contiene toda la información de la
muestra para dicho parámetro. Por ejemplo, consideremos una muestra de n repeticiones independientes de un experimento
binomial, X1 , X2 , . . . , Xn , con probabilidad de éxito p, y definimos el estadístico T como “el número de éxitos en las n
repeticiones”, es decir,
Xn
T = Xi ,
i=1
30
donde (
1, si la i-ésima repetición es éxito, con probabilidad p
Xi =
0, si la i-ésima repetición es fracaso con probabilidad 1 - p.
Como estamos interesados en el parámetro poblacional p, al tomar la muestra de n repeticiones del experimento
binomial tendremos un valor del estadístico:
n
X
T = Xi = número de éxitos en las n-pruebas
i=1
y entonces nos surge la duda de si este estadístico contiene toda la información sobre el parámetro p o por el contrario se
podría obtener más información sobre p considerando otros estadísticos o funciones de X1 , X2 , . . . , Xn .
Para resolver esta duda obtenemos la distribución condicionada de X1 , X2 , . . . , Xn dado el valor del estadístico T = t,
es decir:
P (X1 = x1 , X2 = x2 , . . . , Xn = xn , T = t)
P (X1 = x1 , X2 = x2 , . . . , Xn = xn |T = t) = .
P (T = t)
n
P n
P
Si T (x1 , x2 , . . . , xn ) = xi 6= t, la probabilidad condicionada será cero y si T (x1 , x2 , . . . , xn ) = xi = t
i=1 i=1
P (X1 = x1 , X2 = x2 , . . . , Xn = xn , T = t)
P (X1 = x1 , X2 = x2 , . . . , Xn = xn |T = t) = (16)
P (T = t)
P (X1 = x1 , X2 = x2 , . . . , Xn = xn )
= (17)
P (T = t)
P (X1 = x1 , X2 = x2 , . . . , Xn = xn )
= n
P (18)
P ( Xi = t)
i=1
px1 (1 − p)1−x1 · px2 (1 − p)1−x2 . . . pxn (1 − p)1−xn
= (19)
n t
p · (1 − p)n−t
t
pt · (1 − p)n−t
= (20)
n t
p · (1 − p)n−t
t
1
= n (21)
t
Observamos que la distribución condicionada de X1 , X2 , . . . , Xn , dado el valor del estadístico T = t no depende del
parámetro p, es decir, la distribución condicionada para la muestra de n repeticiones, dado el número de éxitos, no depende
de la probabilidad p de obtener un éxito, entonces conociendo el número total de éxitos en la muestra tendremos toda la
información que la muestra puede proporcionar sobre el valor del parámetro p, siendo por tanto, el estadístico T suficiente
para el parámetro p.
Ejemplo 29.
Sea una muestra aleatoria simple X1 , X2 , . . . , Xn procedente de una distribución B(1, p), y sean los estadísticos:
T1 = X1 + X2 + X3 y T2 = X1 + 2X2 + X3
tales que para la muestra de tamaño n = 3 toman los valores T1 = 2 y T2 = 2. Comprobar que T1 es suficiente y que T2
no es suficiente.
El estadístico T1 = X1 + X2 + X3 es suficiente, pues es un caso particular del ejemplo anterior, así pues, sustituyendo
en la expresión (21) tenemos:
1
P (X1 = x1 , X2 = x2 , X3 = x3 |T1 = 2) = 3
2
31
y esta probabilidad no depende del parámetro p, con lo cual es el estadístico T , es suficiente.
Análogamente, para el estadístico T2 = X1 + 2X2 + X3 si obtenemos la probabilidad condicionada, por ejemplo, para
la muestra (x1 , x2 , x3 ) = (1, 0, 1) tendremos que:
P (X1 = 1, X2 = 0, X3 = 1, T2 = 2)
P (X1 = x1 , X2 = x2 , X3 = x3 |T2 = 2) =
P (T2 = 2)
P (X1 = 1, X2 = 0, X3 = 1, X1 + 2X2 + X3 = 2)
=
P (X1 + 2X2 + X3 = 2)
P (X1 = 1, X2 = 0, X3 = 1)
=
P (X1 = 1, X2 = 0, X3 = 1) + P (X1 = 0, X2 = 1, X3 = 0)
p(1 − p)0 · p0 (1 − p) · p(1 − p)0 p2 (1 − p)
= 2 2
= 2
p (1 − p) + p(1 − p) p (1 − p) + p(1 − p)2
p
= = p,
p + (1 − p)
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de una población con función de distribución F (x; θ). Consideremos la
función de verosimilitud L(θ) dada en la Definición (3). Un estadístico T = T (X1 , X2 , . . . , Xn ) es suficiente para θ si y
solo si
L(θ) = g(T (x1 , x2 , . . . , xn ); θ) · h(x1 , x2 , . . . , xn ) (22)
donde g(T, θ) es una función no negativa que depende solamente de θ y de la muestra a través del estadístico
T (X1 , X2 , . . . , Xn ), y h(x1 , x2 , . . . , xn ) es una función no negativa que depende exclusivamente de los valores muestra-
les.
Ejemplo 30.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de tamaño n de una población con distribución P(λ). Comprobar utili-
n
P
zando el teorema de factonzación de Fisher-Neyman que el estadístico T = Xi es suficiente para el parámetro λ.
i=1
Solución.
32
La función de verosimilitud de la muestra será:
L(λ) = Pλ (X1 = x1 , X2 = x2 , . . . , Xn = xn )
e−λ λx1 e−λ λx2 e−λ λxn
= · ···
x1 ! x2 ! xn !
n
P
xi
−nλ
e λ i=1
= n
Q
xi !
i=1
n
P
−nλ
xi 1
=e λi=1 · Q
n
xi !
i=1
n
P
−nλ
xi 1
Haciendo g(T (x1 , x2 , . . . , xn ); λ) = e λ i=1 y h(x1 , x2 , . . . , xn ) = Q
n , entonces resulta la siguiente factonzación:
xi !
i=1
n
P
Por tanto, T = Xi es un estadístico suficiente para el parárnetro λ.
i=1
Ejemplo 31.
De una población distribuida según una Bernoulli de parámetro p se extrae una muestra aleatoria simple de tamaño n.
Encontrar un estimador suficiente para el parámetro p.
Solución.
p(x1 , x2 , . . . , xn , p) = Pp [X1 = x1 , X2 = x2 , . . . , Xn = xn ]
= Pp [X1 = x1 ] × Pp [X2 = x2 ] × · · · × Pp [Xn = xn ]
= px1 (1 − p)1−x1 × px2 (1 − p)1−x2 × · · · × pxn (1 − p)1−xn
n
P n
P
xi n− xi
= pi=1 (1 − p) i=1 .
n
P
se obtiene que Xi es un estimador suficiente para p.
i=1
Ejemplo 32.
1
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple procedente de una distribución Γ 1, , cuya función de densidad es:
λ
1 e− λx , si x > 0
f (x) = λ
0, si x ≤ 0
33
Solución.
Observemos que el estadístico media muestral X es también un estadístico suficiente para el parámetro λ. En efecto,
haciendo
n n
1X X
T = Xi ⇒ nT = Xi
n i=1 i=1
Lo cual indica que pueden existir varios estadísticos suficientes para un mismo parámetro.
Otro resultado interesante que se ha puesto de manifiesto en el ejemplo anterior, lo recogemos en el siguiente Teorema,
que es una consecuencia inmediata del teorema de factorización de Fisher-Neyman.
Teorema 6.
Si el estadístico T1 es suficiente y es función con inversa única del estadístico T2 , T1 = f (T2 ), entonces el estadístico T2
es también suficiente.
Demostración.
34
Sea T1 = f (T2 ), donde f es inyectiva. Entonces existe la inversa T2 = f −1 (T1 ) con lo cual, por ser T1 , suficiente, tenemos
según la expresión (22) que:
f (x1 , x2 , . . . , xn ; θ) = g (T1 (x1 , x2 , . . . , xn ); θ) × h(x1 , x2 , . . . , xn )
= g (f (T2 )(x1 , x2 , . . . , xn ); θ) × h(x1 , x2 , . . . , xn )
= g ? (T2 (x1 , x2 , . . . , xn ); θ) × h(x1 , x2 , . . . , xn ),
lo cual demuestra que el estadístico T2 también es suficiente.
Intuitivamente también se puede entender, pues si el estadístico T1 puede calcularse a partir del estadístico T2 , entonces
el conocimiento de T1 , debe de ser al menos tan bueno como el de T1 .
Esto es equivalente a decir: que si un estadístico no es suficiente ninguna reducción suya puede ser suficiente.
El recíproco del teorema (6), que no demostraremos, también se verifica y lo podemos enumerar mediante el siguiente
teorema.
Teorema 7.
Si los estadísticos T1 y T2 son suficientes para el parámetro θ, entonces T1 y T2 están relacionados funcionalmente.
Cuando la distribución de la población depende de dos parámetros, como es el caso de la distribución normal, es
interesante determinar dos estadísticos que sean conjuntamente suficientes para los dos parámetros. En estas situaciones
el teorema de factorización se puede enunciar de la siguiente forma.
Teorema 8.
Los estadísticos T1 = T1 (X1 , X2 , . . . , Xn ) y T2 = T2 (X1 , X2 , . . . , Xn ) son conjuntamente suficientes para los parámetros
θ1 y θ2 si y solamente si la función de masa de probabilidad o la función de densidad de probabilidad de la muestra se
puede descomponer factorialmente de la siguiente forma:
f (x1 , x2 , . . . , xn ; θ1 , θ2 ) = g (T1 (x1 , x2 , . . . , xn ), T2 (x1 , x2 , . . . , xn ); θ1 , θ2 ) × h(x1 , x2 , . . . , xn ) (23)
Ejemplo 33.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de una población N (µ, σ 2 ). Obtener dos estadísticos que sean conjunta-
mente suficientes para los parámetros poblacionales µ y σ 2 .
Solución.
n n
− 2σ12 x2i −2µ xi +nµ2
P P
n
2 −2
= 2πσ e i=1 i=1 .
35
2. Si σ 2 es conocido, tomemos en la cuarta igualdad
n
n
− 2σ12 x2i − 2σ12 xi +nµ2
P P
−2µ
−n
h(x1 , x2 , . . . , xn ) = (2π) 2 e i=1 , g(T ; µ) = e i=1 .
n
P
Entonces Xi es suficiente para µ.
i=1
Diremos que un estadístico es mínimal suficiente, si es suficiente y cualquier reducción de la información definida por él
ya no es suficiente, es decir, desprecia información que está contenida en la muestra, acerca del parámetro θ.
Este método parte de la existencia de dos muestras aleatorias simples del mismo tamaño:
X1 , X2 , . . . , Xn y Y1 , Y2 , . . . , Yn
cuyas respectivas funciones de masa de probabilidad o de densidad conjunta de las muestras son:
n
Y
f (x1 , x2 , . . . , xn ; θ) = f (xi ; θ)
i=1
n
Y
f (y1 , y2 , . . . , yn ; θ) = f (yi ; θ)
i=1
y si podemos encontrar una función g(x1 , x2 , . . . , xn ) tal que la razón de funciones de probabilidad o de densidad conjunta
no dependa de θ si y solamente si
g(x1 , x2 , . . . , xn ) = g(y1 , y2 , . . . , yn )
entonces decimos que g(x1 , x2 , . . . , xn ) será el estadístico mínimal suficiente para el parámetro θ.
Si en lugar de existir un solo parámetro θ, existieran k parámetros, entonces tendríamos que obtener k funciones
36
tales que el cociente de funciones de probabilidad no depende de θ1 , θ2 , . . . , θk , si y solamente si
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple procedente de una población binomial, B(1, p). Obtener, si existe, un
estadístico mínimal suficiente para el parámetro p.
Solución.
En un ejemplo anterior ya se había obtenido un estadístico suficiente para el parámetro p, y veíamos que, efectivamente,
n
P
el estadístico T = Xi era suficiente para p.
i=1
Ahora vamos a tratar de obtener un estadístico mínimal suficiente, para ello consideramos dos muestras de tamaño n.
X1 , X2 , . . . , Xn y Y1 , Y2 , . . . , Yn
n n
P xi −
P
yi
p i=1 i=1
=
1−p
n
P n
P
que como vemos depende del parámetro, y únicamente no dependerá del parámetro p si y sólo si xi = yi .
i=1 i=1
Ejemplo 35.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple procedente de una distribución N (µ, 1). Obtener un estimador minimal
suficiente del parámetro µ.
Pn
Resultando que efectivamente el estadístico Xi , será minimal suficiente para el parámetro µ.
i=1
Solución.
X1 , X2 , . . . , Xn y Y1 , Y2 , . . . , Yn
2π 2π
n n
2
− 21 (yi −µ)2
P P
(xi −µ) −
=e i=1 i=1
n n
n n
− 12 x2i − yi2 +µ
P P P P
xi − yi
=e i=1 i=1 i=1 i=1
37
n
P n
P
Esta función no dependerá de µ si y solamente si xi = yi .
i=1 i=1
n
P n
P
Por tanto, el estadístico Xi es minimal suficiente. Y puesto que X es una función inyectiva de Xi , resulta que
i=1 i=1
X es también un estadístico mínimal suficiente.
Ejemplo 36.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple procedente de una población cuya función de densidad es:
1 (x−µ)2
f (x; µ, σ 2 ) = √ e− 2σ2 .
σ 2π
Obtener dos estadísticos para los parámetros µ y σ 2 que sean conjuntamente mínimal suficientes.
Solución.
En el ejemplo (33) ya habíamos obtenido dos estadísticos conjuntamente suficientes para los parámetros µ y σ 2 . Veamos
ahora si existen dos estadísticos que sean conjuntamente mínimal suficientes.
Consideramos dos muestras de tamaño n
X1 , X2 , . . . , Xn y Y1 , Y2 , . . . , Yn
n
n P (xi −µ)2
− 2σ 2
√1 e i=1
σ 2π
= n
(yi −µ)2
n − P
2σ 2
√1 e i=1
σ 2π
n n
− 2σ12 (xi −µ)2 − (yi −µ)2
P P
=e i=1 i=1
n n
µ P
n n
− 2σ12 x2i − yi2 +
P P P
xi − yi
2
σ i=1
=e i=1 i=1 i=1
que como vemos depende de los parámetros µ y σ 2 , únicamente no dependerá de estos parámetros µ y σ 2 si y sólo si:
n
X n
X n
X n
X
x2i = yi2 y xi = yi
i=1 i=1 i=1 i=1
que ya habíamos visto que eran conjuntamente suficientes, resultan ser conjuntamente minimal suficientes para los pará-
metros µ y σ 2 .
38
∂ log g(θ;
b θ)
o bien, sustituyendo A(θ)(θb − θ) por , tendremos
∂θ
de donde:
b θ) × h(x1 , x2 , . . . , xn )
dFn (x1 , x2 , . . . , xn ; θ) = g(θ;
que por el Teorema de factorización de Fisher-Neyman resulta que el estimador θb es suficiente.
Luego si el estimador θb es eficiente, también es suficiente.
Ejemplo 37.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple procedente de una población con distribución de Poisson de parámetro
λ > 0, donde el parámetro λ se estima a partir de la media X de la muestra aleatoria simple del tamaño n. Obtener:
a) Un estimador eficiente.
b) Un estimador suficiente.
Solución.
1
V ar(λ)
b = " 2 # .
∂ log p(x; λ)
nE
∂λ
" 2 # " 2 #
∂ log p(x; λ) x−λ 1 h 2
i
E =E = E (x − λ)
∂λ λ λ2
1 1 1
= V ar(X) = 2 (λ) =
λ2 λ λ
pues en la distribución de Poisson sabemos que
E[X] = λ y V ar[X] = λ.
39
Pero sabemos que en la distribución de Poisson el parámetro λ se estima mediante la media X de una muestra
aleatoria simple; siendo la media muestral X un estimador insesgado del parámetro λ.
E[X] = λ
Y como
λ
V ar[X] =
n
Sustituyendo en la expresión de la Cota de Frechet-Cramer-Rao, resulta:
1 λ
" 2 # = n
∂ log p(x; λ)
nE
∂λ
y como
X1 + · · · + Xn
b = V ar[X] = V ar
V ar[λ]
n
1 1 λ
= 2 V ar (X1 + · · · + Xn ) = 2 (nλ) =
n n n
pλ (x1 , x2 , . . . , xn ) = p(x1 , x2 , . . . , xn ; λ)
De modo que, (
p(x1 ; λ) · p(x2 ; λ) . . . p(xn ; λ), si x = 0, 1, 2, . . .
p(x1 , x2 , . . . , xn ; λ) =
0, e.o.c.
x x x
e−λ λ 1 · e−λ λ 2 . . . e−λ λ n , si x = 0, 1, 2, . . .
p(x1 , x2 , . . . , xn ; λ) = x1 ! x2 ! xn !
0, e.o.c.
Por lo tanto, n
P
xi
λ
i=1
e−nλ
, si x = 0, 1, 2, . . .
n
p(x1 , x2 , . . . , xn ; λ) = Q
x !
i
i=1
0, e.o.c.
Luego, !
n
X
pλ (x1 , x2 , . . . , xn ) = g xi ; λ × h(x1 , x2 , . . . , xn )
i=1
40
n
P n
P
y el estadístico Xi es un estimador suficiente para el parámetro λ. Pero como el estadístico Xi es función
i=1 i=1
n
P n
P
biyectiva del estadístico X, pues Xi = nX, y Xi es suficiente, entonces por el teorema (6) resulta que el estadístico
i=1 i=1
X también es suficiente para el parámetro λ.
Luego el estadístico media muestral es un estimador suficiente y eficiente del parámetro λ.
La suficiencia juega un papel importante en la obtención de estimadores insesgados uniformemente de mínima varianza
(U M V U E). Si existe un estimador U M V U E éste será preferible a cualquier otro estimador insesgado de θ, ya que sus
valores presentan menos varianza que la de cualquier otro estimador insesgado; como se pone de manifiesto a continuación.
Teorema 9 (Teorema de Rao-Blackwell).
Sea una población con función de densidad o de masa de probabilidad representada por f (x; θ) y sea θb un estimador
insesgado para el parámetro θ y T un estadístico suficiente del mismo parámetro θ. Entonces si hacemos:
g(T ) = E[θ|T
b ]
se verifica:
3. V ar[g(T )] ≤ V ar[θ].
b
Es decir, el estadístico g(T ) es función del estadístico suficiente, es un estimador insesgado de θ y su varianza es menor
que la del estimador insesgado.
Demostración.
1. Si tenemos un estadístico suficiente T para un parámetro θ y θb es otro estimador, entonces la función g(T ) = E[θ|T
b ]
es una función de T que no depende de θ porque T es suficiente.
Como T es suficiente, la distribución condicional de X1 , X2 , . . . , Xn dado T = t no depende del parámetro θ y por
tanto, θb no depende de θ. Así g(T ) = E[θ|T
b ] no depende de θ.
Esto prueba que g(T ) es un estadístico y es función del estadístico suficiente.
2. Aplicando una propiedad del valor esperado condicional se tiene que
h i
E[g(T )] = E E[θ|T
b ] = E[θ] b = θ.
41
Este teorema nos indica que dado un estimador insesgado y un estadístico suficiente, este estadístico suficiente lo
podemos utilizar para encontrar otro estimador g(T ) insesgado y de menor varianza que el primero. Ahora bien, notemos
que aunque g(T ) tiene menor varianza no podemos asegurar que alcanza la cota de Frechet-Cramer-Rao, esto es, no se
puede asegurar que el estimador g(T ) sea de mínima varianza, es decir, U M V U E. Para ello recurrimos al teorema de
Lehmann-Scheffé que veremos posteriormente.
Una buena pregunta es, por qué en el Teorema de Rao Blackwell el nuevo estimador g(T ) = E[θ|T b ], se necesita que T
sea suficiente. La respuesta es porque si T no es suficiente, g(T ) no sería un estadístico, en otras palabras dependería del
parámetro.
Ejemplo 38.
Sea X1 , X2 una muestra aleatoria simple de tamaño n = 2 de una población N (θ, 1).
X1 + X2
Entonces θb = es un estimador insesgado para θ.
2
Sea T = X1 . Entonces T es un estimador, pero no es suficiente para θ.
Luego,
X1 + X2 1 1 1 1 1 1
g(T ) = E[θ|T ] = E
b |X1 = E [X1 |x1 ] + E [X2 |X1 ] = X1 + E[X2 ] = X1 + θ,
2 2 2 2 2 2 2
esto no es un estadístico.
Esto paso porque T no fue un estadístico suficiente.
Corolario 1.
Si existe un estimador θb U M V U E, entonces debe ser función del estadístico mínimal suficiente para el parámetro θ, el
cual es U M V U E.
Ejemplo 39.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple procedente de una población con población Ber(p). Encontrar el U M V U E
usando el teorema de Rao Blackwell.
Solución.
42
Puesto que
n
n
P P
n
X
! P X1 = 0, Xi = t P X1 = 0, Xi = t
P X1 = 0| Xi = t = n i=1 = n i=2
P P
i=1 P Xi = t P Xi = t
i=1 i=1
n
P
P (X1 = 0) × P Xi = t
(1 − θ) × n−1
t
i=2 t θ (1 − θ)n−1−t
= n = n t
n−t
t θ (1 − θ)
P
P Xi = t
i=1
n−1
n −t t
= nt = =1− .
t
n n
n
P t
Por lo tanto, la probabilidad del complemento es P X1 = 1| Xi = t = .
i=1 n
n
P
Xi
i=1
Note que el estadístico g(T ) = es insesgado para p y tiene menor varianza que pb.
n
Ejercicios
1. Obtenga un estimador, por el método de los momen- 5. Sea X una variable una variable aleatoria que tiene
tos, para el parámetro a de la distribución que tiene por función de densidad
por función de densidad (
2θ−2 (1 − x), si 0 < x < 1
f (x; θ) =
2(a − x) 0, en otro caso.
, si 0 < x < a
f (x; a) = a2
0, en otro caso.
Encuentre un estimador de máxima verosimilitud para
el parámetro θ.
2. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de
una población con función de densidad: 6. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de
una población con función de densidad:
1 , si 0 < x < θ, (θ > 0)
1 , si − θ < x < θ, (θ > 0)
f (x; θ) = θ
0, en otro caso. f (x; θ) = 2θ
0, en otro caso.
43
8. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de 13. Disponemos de una variable aleatoria de una pobla-
una población X con función de densidad: ción con función de densidad
(x 2 θ
exp −x , si x > 0, (θ > 0) , si x ≥ θ (θ > 0)
f (x; θ) = θ 2 2θ 2 f (x; θ) = x2
0, en otro caso.
0, en otro caso.
a) Hallar el estimador por el método de los momen- 18. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de
tos de θ. tamaño n extraída de una población con distribución
N (µ, σ 2 ).
b) Estudiar si el estimador encontrado en el aparta-
do anterior es insesgado. a) Hallar los estimadores de máxima verosimilitud
para los parámetros µ y σ 2 .
12. La distancia X entre un árbol cualquiera y el árbol b) ¿Es X un estimador eficiente para el parámetro
más próximo a él en un bosque sigue una distribución µ?
de Rayleigh con función de densidad
c) Encontrar un estimador insesgado para µ2 + σ 2
(
2θx exp(−θx2 ), si x > 0, (θ > 0) d ) Encontrar un estimador suficiente para σ 2 cuan-
f (x; θ) = do µ = 0.
0, en otro caso.
e) Demostrar que la varianza muestral S 2 no es un
a) Obtener el estimadores de máxima verosimilitud estimador eficiente para el parámetro σ 2 .
de θ. ¿Es el estadístico suficiente?
19. Si X1 , y X2 son variables aleatorias independien-
b) Obtener el estimador de θ por el método de los tes con: E(X1 ) = 4, E(X2 ) = 2, V ar(X1 ) = 8 y
momentos. V ar(X2 ) = 4. Siendo θb1 = 2X1 −3X2 y θb2 = 3X2 −X1
c) Comprobar la eficiencia asintótica de ambos esti- dos estimadores de θ, ¿cuál de los estimadores es más
madores. eficiente?
44
20. Suponga que tiene una muestra de tamaño n de una a) Encuentre la media y la varianza de la función de
población X con E(X) = µ y V ar(X) = σ 2 . Sean densidad.
n−2 n
P
Xi
P
Xi Se definen los siguientes estimadores para la me-
dia de la distribución:
X 1 = i=1 y X 2 = i=1 dos estimadores de µ,
n−2 n X1 + X2 + X3
¿cuál es el mejor estimador de µ? µ
b1 =
3
21. Sea X1 , X2 , . . . , X10 una muestra aleatoria de una po- X1 X2 2X3
µ
b2 = + +
blación con media µ y varianza σ 2 . Considere los si- 6 6 3
guientes estimadores de µ: X1 X2 X3
µ
b3 = + +
3 6 6
X1 + X2 + . . . + X10 b X1 + 3X5 − X10
θb1 = ; θ2 = b) Obtenga el valor esperado de los estimadores.
10 3
c) ¿Cuáles de estos estimadores son insesgados?
a) ¿Son estimadores insesgados?
d ) Determine la varianza de cada estimador.
b) ¿Cuál es mejor estimador de µ?
e) ¿Cuál de estos es el mejor estimador?
22. Sean θb1 y θb2 dos estimadores de θ con E(θb1 ) = θ, 26. Sea X1 , X2 , X3 una muestra aleatoria simple proce-
θ dente de una población que se distribuye normalmen-
E(θb2 ) = , V ar(θb1 ) = 8, V ar(θb2 ) = 2. ¿Cuál es mejor
3 X1 + 2X2 + 3X3 X1 − 4X2
estimador de θ? ¿por qué? te. Sean µ
c1 = yµc2 = dos
6 −3
estimadores de µ.
23. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de
una población X tal que E(X) = µ y V ar(X) = σ 2 . a) Demuestre que ambos son insesgados.
Se consideran los estimadores de µ de la forma µ b = b) Pruebe que µ
c1 es más eficiente que µ
c2 .
Pn
ai xi .
i=1 27. Sea X1 , X2 , X3 y X4 una muestra aleatoria simples de
una distribución exponencial con parámetro θ desco-
a) Determinar una condición sobre los ai para que nocido. Considere los siguientes estadísticos:
µ
b sea un estimador insesgado.
X1 + 2X2 + 3X3 + 4X4
b) Determinar los ai para que µ b sea insesgado y de θb1 =
5
varianza mínima.
n y
c) Encontrar el estimador µ̃ =
P
ai xi que minimiza X1 + X2 + X3 + X4
θb2 =
i=1 4
E (µ̃ − µ)2 . Comparar los sesgos y las varianzas
de los estimadores µ
b y µ̃. a) Determine si son estimadores insesgados de θ.
b) ¿Cuál es el error cuadrático medio de cada esti-
24. Se extrae X1 , X2 , X3 , X4 muestra aleatoria
simple
de mador?
1
una población X distribuida según una Exp . Da- c) ¿Cuál es el mejor estimador?
θ
dos los estadísticos 28. Con base en una muestra aleatoria simple de 100 ob-
servaciones, tomadas de una población con media µ y
1 1
θb1 = (X1 + X2 ) + (X3 + X4 ) varianza σ 2 , considere los siguientes estimadores de µ:
6 3
X1 + 2X2 + 3X3 + 4X4 100 90
θ2 =
b P
Xi
P
Xi
5 i=1 i=1
X 1 + X2 + X3 + X4 µ
b1 = µ
b2 =
θb3 = 100 90
4
a) ¿Cuál es la eficiencia relativa de µ
b2 con respecto
estudie cuáles son insesgados para θ. de µ
b1 ?
25. Se elige una muestra aleatoria independiente de 3 ob- b) ¿Cuál es la causa de dicha ineficiencia?
servaciones de una población con función de distribu- 29. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de
ción uniforme: una población con media µ y varianza σ 2 , considere
los tres siguientes estimadores para µ:
1 , si a < x < b
f (x) = b − a X1 + X2
0, en otro caso µ
b1 =
2
45
n−1
P b) Estudie su eficiencia.
Xi
X1 i=2 Xn
µ
b2 = + + 35. Dada una muestra aleatoria simple de tamaño n ex-
4 2(n − 2) 4
traída de una población N (µ, σ 2 ), se quiere estimar la
µ
b3 = X media µ mediante
m
a) Determine si son insesgados. X
T (X1 , X2 , . . . , Xn ) = k jXj .
b) Encuentre la varianza de cada estimador e iden- j=1
tifique cuál es el más eficiente.
a) Obtenga k para que T (X1 , X2 , . . . , Xn ) sea inses-
c) Determine la eficiencia relativa de µ
b3 con respec- gado.
to a µ
b2 y µ
b1 , respectivamente.
b) Estudie si T (X1 , X2 , . . . , Xn ) es eficiente.
30. De una población N (µ, 4) se extrae una muestra alea- c) ¿Es consistente?
toria simple Y1 , Y2 , Y3 , Y4 de tamaño n = 4. Para el
siguiente estimador de la media 36. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple ex-
traída de una población que sigue una B(1, p). Consi-
µ
b = 0,2Y1 + 0,4Y2 + cY3 + dY4 , dérense los estimadores:
T1 (X1 , X2 , . . . , Xn ) = X
calcule c y d para que µ
b sea insesgado y eficiente.
y
31. Un gerente de producción supone que el peso de un ob- n
1X 2
jeto se distribuye normalmente con varianza conocida, T2 (X1 , X2 , . . . , Xn ) = X .
pero con media µ desconocida. Se toma una mues- n i=1 i
tra aleatoria de cuatro observaciones independientes:
a) Demuestre que ambos son insesgados.
X1 , X2 , X3 , X4 . Considere los siguientes estimadores
de µ: b) Estudie cuál es más eficiente.
4X1 + 3X2 + 2X3 + X4 c) ¿Son consistentes?
µ
b2 =
10
37. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de
X1 + X2 + X3 + X4 una población con una de las siguientes funciones de
µ
b3 =
4 densidad:
a) Determine cuáles estimadores son insesgados. a) f (x; θ) = θxθ−1 , 0 < x < 1, θ > 0.
b) ¿Cuál de los estimadores insesgados es el de ma- θaθ
yor eficiencia relativa? b) f (x; θ) = (θ+1) , x > a, θ > 0, a > 0.
x
c) ¿Cuál de los estimadores tiene el menor error cua- En cada caso encontrar un estadístico suficiente para
drático medio? el parámetro θ.
32. Si X1 , X2 , X3 es una muestra aleatoria simple to- 38. De una población distribuida según una exponencial
mada de una población normal con media µ y va- de función de densidad
rianza σ 2 , ¿cuál es la eficiencia del estimador µ
b =
X1 + 2X2 + X3 fα (x) = αe−xα x > 0,
en relación con X?
4
se extrae una muestra aleatoria simple de tamaño n.
33. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple pro- n
cedente de una distribución N (µ, σ 2 ). Compruébese
P
a) Demuestre que T (X) = Xi es suficiente para
1 P n i=1
que S 2 = (Xi − X)2 no alcanza la cota de α.
n − 1 i=1 n−1
Frechet-Cramér-Rao, pero la diferencia entre su va- b) Pruebe que el estimador U = es consisten-
T
rianza y dicha cota tiende hacia cero cuando n → ∞. te para α.
34. De una población con función de densidad 39. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de
una distribución Rayleigh con función de densidad de
1 e− xθ , si x ≥ 0 probabilidad
f (x) = θ
0, en otro caso 2x e− xα2 , x>0
f (x) = α
0, en otro caso
se extrae una muestra aleatoria simple de tamaño n. Si
se estima el parámetro θ a través de la media muestral:
n
Xi2 es suficiente para el parámetro α.
P
a) Demuestre que es consistente. Probar que
i=1
46
n n
40. Considérese una muestra aleatoria simple de tamaño d
c) Si Xi = β(a, b), entonces
Q
Xi ,
Q
(1 − Xi )
n extraída de una población Normal de media µ y va- i=1 i=1
rianza σ 2 . es suficiente para (a, b).
n
P
a) Encuentre un estimador suficiente de σ cuando 2 Si a es conocido, entonces (1−Xi ) es suficiente
i=1
µ = 0. para b.
n
b) Busque un estimador suficiente de µ. ¿Es ese es- Si b es conocido, entonces
Q
Xi es suficiente para
timador eficiente? i=1
a.
c) Demuestre que T (X1 , X2 , . . . , Xn ) = S 2 no es un
estimador eficiente de σ 2 . 42. De una población uniforme en el intervalo (θ, 3) se to-
ma una muestra aleatoria simple de tamaño dos. En-
41. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple. Pro- contrar un estadístico minimal suficiente para el pará-
bar que: metro θ.
d 43. De una población X con función de densidad
a) Si Xi = Bi (ni , p), 1 ≤ i ≤ n, con ni conocido,
n
entonces
P
Xi es suficiente para p. x − x2
f (x; θ) = e 2θ , si x > 0,
i=1 θ
n n
d Q P se extrae una muestra aleatoria simple de tamaño n.
b) Si Xi = Γ(α, λ), entonces Xi , Xi es su- n
i=1 i=1
Xi2 es un estadístico minimal suficiente
P
ficiente para (α, λ). Probar que
i=1
n
P n
P
Si α es conocido, entonces Xi es suficiente pa- para el parámetro θ, pero Xi no es suficiente.
i=1 i=1
ra λ.
n
Q 44. Considere la distribución de Poisson con parámetro λ;
Si λ es conocido, entonces Xi es suficiente pa- donde λ > 0. Encuentre el U M V U E para el paráme-
i=1
ra α. tro λ ¿Cuál es la cota inferior para su varianza?
47