Estimación Puntual de Parámetros

FACULTAD DE CIENCIAS EXACTAS Y NATURALES
Taller de Inferencia Estadística

17 de agosto de 2019
ESTIMACIÓN PUNTUAL
El objetivo de este tema es describir cómo se puede realizar la estimación de las características de una población a
partir del estudio de una muestra aleatoria simple extraída de la misma. Vamos a suponer que se conoce la distribución
de probabilidad que sigue la variable en estudio de la población, es decir, estamos en el caso de la estadística paramétrica.
El problema se reduce entonces a estimar los valores de los parámetros poblacionales que definen dicha distribución.
Sea X una variable aleatoria de interés en un experimento aleatorio, y supongamos que X tiene una distribución de
probabilidad con función de densidad f (x; θ), en donde θ es el parámetro o el conjunto de parámetros de la distribución.
En esta nueva notación se hace énfasis en que la distribución depende de un parámetro θ que consideraremos desconocido.
Por ejemplo, si la distribución es exp(λ), entonces θ representa el parámetro λ, si la distribución es N (µ, σ 2 ), entonces θ
representa el vector de parámetros (µ, σ 2 ). El problema de estimación puntual consiste en encontrar un número, con base
en las observaciones realizadas de la variable aleatoria, que sirva como estimación del parámetro desconocido θ.
Definición 1.
Un estimador puntual para el parámetro poblacional θ es una función real de una muestra aleatoria simple X1 , X2 , . . . , Xn
que se usa para estimar θ. Es decir, es un estadístico (variable aleatoria) que cambia de muestra a muestra de forma
aleatoria.
A un estimador del parámetro θ se le denota regularmente por θb (se lee “teta circunflejo”). Observe que un estimador
puntual es un estadístico y puede escribirse como θb = θ(X
b 1 , X2 , . . . , Xn ).
Una estimación puntual es el valor concreto que toma el estimador puntual en una muestra en particular. Como ya se
ha indicado, los estimadores puntuales se usan para realizar la estimación de parámetros poblacionales. En general, a cada
parámetro poblacional se le pueden asociar diferentes estimadores puntuales aunque normalmente se elegirán aquellos que
sean insesgados y más eficientes.
Evidentemente, no se espera que un estimador puntual proporcione sin error el parámetro poblacional, sino que se
pretende que las estimaciones puntuales no se alejen mucho del valor desconocido a calcular. Veremos a continuación dos
métodos para encontrar estimadores puntuales.
Métodos de estimación
A continuación, se estudian dos métodos que van a permitir obtener estimadores con unas cotas de bondad razo-
nablemente buenas en relación con las propiedades que se acaban de describir. El primero de ellos, llamado método de
los momentos, se basa en la correspondencia entre las características de la población y las de la muestra. El segundo,
denominado de máxima verosimilitud, se apoya en la función de verosimilitud definida posteriormente.
Método de los momentos

Definición 2.
1
Sea f (x; θ) la función de densidad de una variable aleatoria X que depende de un parámetro desconocido θ que se desea
estimar. Recordemos que el k-ésimo momento poblacional de X es el número E(X k ) = αk (θ), cuando este valor esperado
existe.
Ahora, dada una muestra aleatoria simple X1 , X2 , . . . , Xn de esta distribución, se define el k-ésimo momento muestral
1 Pn
como mk = Xk.
n i=1 i
El método de momentos para estimar el parámetro θ es muy sencillo, consiste en igualar los momentos poblacionales,
que no sean constantes, con los correspondientes momentos muestrales y resolver esta ecuación o sistema de ecuaciones
para el parámetro θ cuando ello sea posible.
Si la ecuación o sistema de ecuaciones tiene alguna solución θ(X

b 1 , X2 , . . . , Xn ), esta se denomina estimador de θ por
el método de los momentos. Veamos algunos ejemplos.
Ejemplo 1.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple obtenida de una población que sigue una distribución de Poisson de
parámetro λ, desconocido. Obtener un estimador del parámetro λ utilizando el método de los momentos.
Solución.
Aplicando el método de los momentos igualaremos el momento de orden uno, respecto al origen, de la población αj , al
momento de orden uno de la muestra m1 .
∞ ∞ ∞
X X λxi −λ X λxi−1
α1 (λ) = E[X] = xi · P (X = xi ) = xi · e = e−λ λ = e−λ λeλ = λ.
i=0 i=0
xi ! x
i=0 i−1
!
n
X Xi
m1 =
i=1
n
Luego, igualando se tiene que α1 (λ) = m1 . Así, estimador por el método de los momentos de λ es:
n
b=X= 1
X
λ Xi .
n i=1
Este estimador, como veremos después, es también el estimador obtenido por el método de la máxima verosimilitud.
Ejemplo 2.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple procedente de una B(1, p). Obtener el estimador del parámetro p, utili-
zando el método de los momentos.
Solución.
Sabemos de la distribución B(1, p) que la media o momento de orden uno respecto al origen es:
X
α1 (p) = E[X] = xi · P (X = xi ) = 0 · P (X = 0) + 1 · P (X = 1)
i
= 0 · (1 − p) + 1 · p = p.
y el momento de orden uno de la muestra es:

n
X Xi
m1 = .
i=1
n
Luego igualando ambos momentos resulta:

n
P
Xi
i=1
pb =
n
2
n
P
y si hacemos X = Xi ≡ número de éxitos en las n pruebas:
i=1
X
pb = .
n
Este estimador, como veremos después, es también el estimador obtenido por el método de la máxima verosimilitud.
Ejemplo 3.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple obtenida de una población que sigue una distribución N (µ, σ 2 ), µ y σ 2
desconocidos. Obtener los estimadores de µ y de σ 2 utilizando el método de los momentos.
Solución.
Como necesitamos estimar dos parámetros usamos los dos primeros momentos.
El primer y segundo momento poblacionales son E(X) = µ y E(X 2 ) = σ 2 + µ2 , respectivamente.
1 Pn 1 Pn
El primer y segundo momento muestrales son Xi y X 2 , respectivamente.
n i=1 n i=1 i
La igualación respectiva produce el sistema de ecuaciones
n
1X
µ= Xi
n i=1
n
1X 2
σ 2 + µ2 = X .
n i=1 i
La primera ecuación es explícita mientras que la segunda ecuación se puede reescribir como sigue
n n n
!2 n
2 1X 2 1X 2 1X 1X
σ = Xi − µ2 = X − Xi = (Xi − µ)2 .
n i=1 n i=1 i n i=1 n i=1
1 Pn n
Luego, µ
b= c2 = 1 P (Xi − X)2 = S 2 son los estimadores de µ y de σ 2 obtenidos por el método de
Xi = X y σ c
n i=1 n i=1
los momentos.
Ejemplo 4.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple procedente de una población con distribución Γ(r, λ). Obtener los esti-
madores de r y de λ utilizando el método de los momentos.
Solución.
Sabemos que el momento de orden k respecto al origen en la Γ(r, λ) viene dado por:
Γ(r + k)
αk = E[X k ] = .
λk Γ(r)
Luego los dos primeros momentos de la población, respecto al origen serán:
Γ(r + 1) r
α1 = E[X] = =
λΓ(r) λ
y
Γ(r + 2) (r + 1)r
α2 = E[X 2 ] = =
λ2 Γ(r) λ2
3
y los dos primeros momentos muestrales son:
n n
X Xi X X2 i
m1 = y m2 = .
i=1
n i=1
n
Igualando ambos momentos tenemos el sistema:

n n
r X Xi (r + 1)r X Xi2
= = m1 y = = m2
λ i=1
n λ2 i=1
n
Resolviendo el sistema para r y λ, pero utilizando previamente m1 y m2 , tenemos:

2
r (r + 1)r r r+1 rm2 m2
= ⇒ = ⇒ =r+1 ⇒ r −1 =1
m1 m2 m21 m2 m21 m21
De donde,
n
2
1
P
Xi 2
m21 n
i=1 X
rb = = 2 = n
m2 − m21 n
n 1
P
1
P
Xi2 − 1
P
Xi n (Xi − X)2
n n i=1
i=1 i=1
Por otro lado,

n
1
P
n Xi
m1 i=1 X
λ
b= = 2 = n
m2 − m21 n
n 1
P
1
P
Xi2 − 1
P
Xi n (Xi − X)2
n n i=1
i=1 i=1
que son los estimadores de r y de λ obtenidos por el método de los momentos.

Ejemplo 5.
Sea una muestra aleatoria simple formada por las observaciones
1,2; 2,6; 4,4; 3,4; 0,6; 2,2
procedente de una población cuya función de densidad es:

(
θ−1 , si 0 < x < θ,
f (xi ; θ) =
0, en otro caso
Estimar el parámetro θ por el método de los momentos.
Solución.
Para aplicar el método de los momentos tendremos que calcular los momentos de orden uno, respecto al origen, tanto para
la población como para la muestra e igualarlos; con lo cual tendremos:
Z θ 2 θ
−1 x θ2 θ
α1 = E[X] = x · θ dx = = = .
0 2θ 0 2θ 2
Por otro lado,

n
P
Xi
i=1 1,2 + 2,6 + 4,4 + 3,4 + 0,6 + 2,2 14,4
m1 = = = = 2,4
n 6 6
Luego resolviendo la ecuación:
θ
= 2,4
2
4
tendremos el estimador θb del parámetro θ por el método de los momentos, que será:
θb = 4,8
Método de máxima verosimilitud

Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad (o función de masa de probabilidad)
f (x; θ). Esto significa que todas las variables de la muestra aleatoria tienen función de densidad (o función de masa de
probabilidad) f (x) que depende de un parámetro desconocido θ.
Definición 3.
La función de verosimilitud de una muestra aleatoria X1 , X2 , . . . , Xn , denotada por L(θ), se define como la función de
densidad conjunta
L(θ) = fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ; θ).
La letra L proviene del término en inglés likelihood, que tradicionalmente se ha traducido como verosimilitud,
aunque tal vez el término credibilidad sea más acertado. El método de máxima verosimilitud consiste en obtener el valor
de θ que maximice la función de verosimilitud L(θ), la idea intuitiva es interesante: se debe encontrar el valor de θ de tal
forma que los datos observados tengan máxima probabilidad de ocurrir. El valor de θ en donde se alcanza el máximo se
llama estimador de máxima verosimilitud, o estimador máximo verosímil.
Por tanto, en general podemos dar la siguiente definición:
Definición 4 (Método de la máxima verosimilitud).
El método de la máxima verosimilitud consiste en elegir como estimador del parámetro desconocido θ aquel valor
θ(X
b 1 , X2 , . . . , Xn ) que hace máxima la función de verosimilitud L(θ|x1 , x2 , . . . , xn ). Es decir, consiste en encontrar aquel
valor θ(X
b 1 , X2 , . . . , Xn ) tal que
L(θ|x
b 1 , x2 , . . . , xn ) = máx L(θ|x1 , x2 , . . . , xn )
θ∈Θ
A este estimador θ(X

b 1 , X2 , . . . , Xn ) se le denomina estimador máximo-verosímil o estimador de máxima vero-
similitud (EM V ) del parámetro θ.
Si consideramos sólo el caso discreto, vemos que la función de verosimilitud de la muestra será:
n
Y
L(θ|x
b 1 , x2 , . . . , xn ) = P (X1 = x1 , X2 = x2 , . . . , Xn = xn ; θ) = p(xi ; θ) (1)
i=1
y para una muestra concreta esta expresión dependerá sólo de θ, por eso también podríamos haberla notado poniendo
L(θ). Entonces el método de la máxima verosimilitud lo que hace es elegir aquel valor del parámetro θ para el cual la
expresión [1] es máxima para la muestra en cuestión, lo cual equivale a que la muestra considerada es la más probable y
coincide con el comportamiento lógico, siendo ese valor del parámetro θ el que se hace más verosímil con la aparición de
la muestra considerada.
En resumen, el valor de la función de verosimilitud L(θ|x1 , x2 , . . . , xn ) para una muestra concreta nos da la verosimilitud
o plausibilidad de que el parámetro θ tome un cierto valor, tomando como información la proporcionada por la muestra.
Así pues si L(θ1 |x1 , x2 , . . . , xn ) > L(θ2 |x1 , x2 , . . . , xn ) esto nos indica que la verosimilitud de que el parámetro θ tome
el valor θ1 , es mayor que la verosimilitud de que el parámetro tome el valor θ2 , dado que se ha obtenido la muestra
considerada.
Ahora bien, con frecuencia la función de verosimilitud L(θ|x1 , x2 , . . . , xn ) suele ser complicada, y al ser esta función
positiva y coincidir sus valores máximos con los de la función log L(θ|x1 , x2 , . . . , xn ), entonces lo que se hace es considerar
la función:
n
Y n
X
log L(θ|x1 , x2 , . . . , xn ) = log f (x1 , x2 , . . . , xn ; θ) = log f (xi ; θ) = log f (xi ; θ) (2)
i=1 i=1
5
y el estimador de máxima verosimilitud, θ,
b será el que verifique la expresión:
n
X
log L(θ|x
b 1 , x2 , . . . , xn ) = máx log L(θ|x1 , x2 , . . . , xn ) = máx log f (xi ; θ) (3)
θ∈Θ θ∈Θ
i=1
que vendrá dado por la solución de la ecuación de verosimilitud:

n
∂ log L(θ|x1 , x2 , . . . , xn ) X ∂ log f (xi ; θ)
= =0 (4)
∂θ i=1
∂θ
este estimador θb = θ(X

b 1 , X2 , . . . , Xn ) será función de las observaciones muestrales, y prescindimos de aquellas soluciones
que den lugar a que el estimador fuera igual a una constante.
Observación 1.
Admitimos las siguientes condiciones de regularidad: que el campo de variación de θ es un intervalo abierto del eje real,
que el campo de variación de la variable aleatoria poblacional no depende de θ, que f (x, θ) es positiva y derivable respecto
∂ 2 log(L)
a θ y que se verifica la condición de máximo |θ<θb.
∂θ2
Si la función de densidad o de masa de probabilidad de la población depende de k parámetros, f (x; θ1 , θ2 , . . . , θk ),

entonces los estimadores máximo-verosimiles de estos parámetros se obtienen resolviendo el sistema de ecuaciones de
verosimilitud en θ1 , θ2 , . . . , θk .
∂ log L(θ1 , θ2 , . . . , θk |x1 , x2 , . . . , xn ) n ∂ log f (x ; θ , θ , . . . , θ )

P i 1 2 k
= =0
∂θ1 i=1 ∂θ 1
.. .
. · · · .. (5)
∂ log L(θ1 , θ2 , . . . , θk |x1 , x2 , . . . , xn ) n ∂ log f (x ; θ , θ , . . . , θ )
P i 1 2 k
= =0
∂θk i=1 ∂θk
y tendríamos:
θb1 = θb1 (X1 , X2 , . . . , Xn )
.. .
. · · · .. (6)
θbk = θbk (X1 , X2 , . . . , Xn )
que serían los estimadores de máxima verosimilitud de los parámetros (θ1 , θ2 , . . . , θk ).

Cualquier solución no trivial de las ecuaciones [4] o [5] será un estimador de máxima verosimilitud. Ahora bien si la
solución es única diremos que se trata de un estimador de máxima verosimilitud en sentido estricto, dando lugar
al máximo absoluto de la función de verosimilitud. Sin embargo, cuando hay más de una solución (no incluimos la trivial)
entonces diremos que tenemos estimadores de máxima verosimilitud en sentido amplio.
Generalmente la ecuación o sistema de ecuaciones de verosimilitud se puede resolver sin grandes dificultades, no
obstante en algunas ocasiones hay que recurrir a métodos iterativos de cálculo numérico.
Ejemplo 6.
Dada una muestra aleatoria simple X1 , X2 , . . . , Xn de una población con función de densidad de probabilidad f (x; θ),
muestre que maximizar la función de verosimilitud, que denotamos L(θ|x), como función de θ es equivalente a maximizar
la función log(L(θ|x)).
Solución.
La función log(θ) es una función estrictamente monótona.

Así, L(θ|x) > L(θ0 |x) si y sólo si log(L(θ|x)) > log(L(θ0 |x)). De este modo, el valor θb que maximiza log(L(θ|x)) es el
mismo valor que maximiza L(θ|x).
6
Ejemplo 7.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple obtenida de una población que sigue una distribución exponencial de
parámetro λ, desconocido. Obtener un estimador del parámetro poblacional λ utilizando el método de máxima verosimilitud.
Solución.
La función de verosimilitud es
L(λ) = fX1 (x1 )fX2 (x2 ) · · · fXn (xn )

= λe−λx1 λe−λx2 · · · λe−λxn
= λn e−λnx
Maximizar la función L(λ) es equivalente a maximizar la función log L(λ), pues la función logaritmo es continua y
monótona creciente en su dominio de definición.
Hacemos esto, pues esta nueva función resulta más fácil de maximizar, como veremos a continuación. Tenemos que
log L(λ) = n log(λ) − λnx.
n 1
Derivando respecto a λ e igualando a cero se llega a la ecuación λ − nx = 0, de donde se obtiene λ = .
x
Fácilmente se comprueba que esta solución corresponde a un máximo relativo.
b= 1.
Por lo tanto, el estimador máximo verosímil del parámetro poblacional λ es λ
X
Ejemplo 8.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple obtenida de una población que sigue una distribución N (µ, σ 2 ), µ y σ 2
desconocidos. Obtener estimadores de los parámetros poblacionales µ y σ 2 utilizando el método de máxima verosimilitud.
Solución.
Por definición la función de verosimilitud es
L(µ; σ 2 ) = fX1 (x1 )fX2 (x2 ) · · · fXn (xn )

1 2 2 1 2 2 1 2 2
=√ e−(x1 −µ) /2σ √ e−(x2 −µ) /2σ · · · √ e−(xn −µ) /2σ
2πσ 2πσ 2πσ
n n
2
1
P
1 − 2 (xi −µ)
= √ e 2σ i=1 .
2πσ
Nuevamente el logaritmo de esta función es más sencillo de maximizar. Tenemos que

n
n 1 X
log L(µ, σ 2 ) = − log(2πσ 2 ) − 2 (xi − µ)2 .

2 2σ i=1
Por lo tanto,
n
∂ 1 X
log L(µ, σ 2 ) = 2

(xi − µ)
∂µ σ i=1
n
∂ 2 n 1 X
(xi − µ)2 .

log L(µ, σ ) = − +
∂σ 2 2σ 2 2σ 4 i=1
Igualando a cero ambas derivadas encontramos un sistema de dos ecuaciones con dos variables:
n
1 X
(xi − µ) = 0
σ 2 i=1
7
n
n 1 X
− + (xi − µ)2 = 0.
2σ 2 2σ 4 i=1
1 Pn 1 Pn
De estas ecuaciones se obtiene µ = xi y σ 2 = (xi − µ)2 .
n i=1 n i=1
Fácilmente se comprueba que dicha solución corresponde a un máximo relativo.
Por lo tanto, los estimadores para los parámetros µ y σ 2 de una distribución normal por el método de máxima
1 Pn n
verosimilitud son µ
b= c2 = 1 P (Xi − µ)2 .
Xi y σ
n i=1 n i=1
Ejemplo 9.
Sea una población distribuida según una B(10, p). Obtener el estimador de máxima verosimilitud utilizando una muestra
aleatoria simple (X1 , X2 , X3 , X4 ).
Solución.
Obtendremos el estimador de máxima verosimilitud para el parámetro p, resolviendo la ecuación:
∂ log L(p|x1 , x2 , x3 , x4 )
=0
∂p
y para ello calculamos:
4
Y
L(p|x1 , x2 , x3 , x4 ) = p(xi ; p)
i=1

10 x1 10 x4
= p (1 − p)10−x1 . . . p (1 − p)10−x4
x1 x4
4 P 4 4
P
Y 10 i=1 xi 40− xi
= p (1 − p) i=1
i=1
xi
Luego,
4 P 4 P 4
Y 10 i=1 xi 40− xi
log L(p|x1 , x2 , x3 , x4 ) = log p (1 − p) i=1
i=1
xi
4 X 4 4
!
X 10 X
= log + xi log(p) + 40 − xi log(1 − p)
i=1
xi i=1 i=1
Ahora, derivando parcialmente con respecto a p e igualando a cero, se tiene que:

4
P 4
P
xi 40 − xi
∂ log L(p|x1 , x2 , x3 , x4 ) i=1 i=1
= − =0
∂p p 1−p
De donde se obtiene que:

4
X 4
X
(1 − p) xi − p(40 − xi ) = 0
i=1 i=1
Esto es,
4
X
xi − 40p = 0
i=1
Fácilmente se comprueba que esta solución corresponde a un máximo relativo.
8
Por lo tanto,
4
P
xi
i=1
pb =
40
que será el estimador de máxima verosimilitud, o lo que es lo mismo, es el valor del parámetro p que hace máxima la
función de verosimilitud para esta muestra concreta. Pero como para cualquier otra muestra llegaríamos al mismo tipo de
estimación, entonces podemos considerar que el estimador será:
4
P
Xi
i=1
pb =
40
Ejemplo 10.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple procedente de una población B(1, p), donde p es desconocido. Obtener el
estimador de máxima verosimilitud del parámetro p.
Solución.
Sabemos que la función de masa de probabilidad es:

(
pxi (1 − p)1−xi , si xi = 0, 1 i = 1, 2, . . . , n,
p(xi ; p) =
0, en otro caso
La función de verosimilitud es:

n
Y
L(p|x1 , x2 , . . . , xn ) = p(x1 , x2 , . . . , xn ; p) = p(xi ; p)
i=1
n
P n
P
xi n− xi
=p i=1 (1 − p) i=1
El log L viene dado por:

n
! n
!
X X
log L(p|x1 , 22 , . . . , xn ) = xi log(p) + n− xi log(1 − p).
i=1 i=1
Ahora, derivando parcialmente con respecto a p e igualando a cero, se obtiene que:

n
P n
P n
P
xi n− xi xi − np
∂ log L(p|x1 , x2 , . . . , xn ) i=1 i=1 i=1
= − = =0
∂p p 1−p p(1 − p)

4
X
xi − np = 0
i=1
Por lo tanto,
4
P
xi
i=1 X
pb = = = x.
n n
9
∂ 2 log L
Por otro lado, calculando tenemos que:
∂p2
n
P n
P
2 − xi n− xi
∂ log L(p|x1 , x2 , . . . , xn ) i=1 i=1
= −
∂p2 p2 1 − p2
n
n

2
xi p2
P P
−(1 − p) xi − n −
i=1 i=1
=
p2 (1 − p)2
y particularmente para p = x, se tiene:
∂ 2 log L(p|x1 , x2 , . . . , xn )

n n
=− + <0
∂p2 x 1−x
con lo cual podemos decir que se trata de un máximo. Luego el estimador de máxima verosimilitud es
X
pb = x =
n
Ejemplo 11.
Sea una población N (20, σ 2 ), donde σ 2 es desconocido. Con la ayuda de una muestra aleatoria simple de tamaño n,
obtener:
1. El estimador de máxima verosimilitud de σ 2 .

30
2. El estimador de máxima verosimilitud de σ 2 para n = 30 y (xi − 20)2 = 3000.
P
i=1
Solución.
1. Tenemos que resolver la ecuación:

∂ log L(σ 2 |x1 , x2 , . . . , xn )
=0
∂σ 2
y para ello calculamos:
n
Y
L(σ 2 |x1 , x2 , . . . , xn ) = f (xi ; σ 2 )
i=1
n (xi − 20)2
Y 1 −
= √ e 2σ 2
i=1
σ 2π
n
(xi − 20)2
P
n2 i=1
1 −
= e 2σ 2
2σ 2 π
Luego,
n
(xi − 20)2
P
n n i=1
log L(σ |x1 , x2 , . . . , xn ) = − log(σ 2 ) − log(2π) −
2
.
2 2 2σ 2
Ahora, derivando parcialmente con respecto a σ 2 e igualando a cero, se tiene que:
n
(xi − 20)2
P
∂ log L(σ 2 |x1 , x2 , . . . , xn ) n i=1
=− 2 + =0
∂σ 2 2σ 2σ 4
10
n
(xi − 20)2
P
c2 = i=1
σ
n
pudiendo comprobarse que es un máximo y por tanto será el estimador de máxima verosimilitud.
2. Con la información complementaria que tenemos, el estimador de máxima verosimilitud será:

30
(xi − 20)2
P
c2 = i=1 3000
σ = = 100
30 30
Observemos que no se trata de una varianza muestral pues el valor µ = 20 se refiere a la media de la población y no a la media de la
muestra.
Ejemplo 12.
Una compañía de seguros, después de analizar su fichero de siniestros sobre roturas de lunas de establecimientos comer-
ciales, llega a la conclusión de que el número de siniestros mensuales se ajusta a una distribución de Poisson. Tomando
una muestra aleatoria simple de 8 meses, se observó que se produjeron 310 siniestros. Obtener una estimación máximo-
verosímil del parámetro λ.
Solución.
La función de probabilidad de una distribución de Poisson de parámetro λ es:

x

 −λ λ
e , si x = 0, 12, . . . , λ > 0,
p(x; λ) = x!
0, en otro caso
La función de verosimilitud para la muestra de tamaño n = 8, es

8
Y
L(λ|x1 , x2 , . . . , x8 ) = p(xi ; λ)
i=1
8
Y λx
= e−8λ
i=1
x!
Luego,
8
X 8
X
log L(λ|x1 , x2 , . . . , x8 ) = −8λ − log(λ) xi − log(xi !)
i=1 i=1
Ahora, derivando parcialmente con respecto a λ e igualando a cero, se tiene que:

8
P
xi
∂ log L(λ|x1 , x2 , . . . , x8 ) i=1
= −8 + =0
∂λ λ
Luego la estimación de máxima verosimilitud es:

8
P
xi
i=1 310
λ
b= = = 38,7
8 8
Por lo tanto,
λ
b = x.
11
En general en una distribución de Poisson P(λ), se observa que el estimador máximo verosímil del parámetro λ es:
n
P
Xi
i=1
λ
b= =X
n
y se comprueba que efectivamente se verifica la condición de máximo, pues:
n
P
2 − xi
∂ log L(λ|x1 , x2 , . . . , xn ) i=1 n
|λ=x = 2 =− <0
∂λ2 x x
b
Ejemplo 13.
Suponiendo que la cotización de una determinada acción se distribuye según una N (µ, σ 2 ), seleccionamos una muestra
aleatoria simple de 20 días de cotización de esa acción, obteniendo que
20
X 20
X
xi = 357000 pesos (xi − x)2 = 405000 pesos.
i=1 i=1
Obtener estimadores máximo verosímiles para µ y σ 2 , y sus correspondientes estimaciones para la muestra dada.
Solución.
Como se trata de una población N (µ, σ 2 ), la función de densidad es:
(xi − µ)2
1 −
f (x; µ, σ 2 ) = √ e 2σ 2
σ 2π
La función de verosimilitud para la muestra de tamaño n es:

n
Y
2 2
L(µ, σ |x1 , x2 , . . . , xn ) = f (x1 , x2 , . . . , xn ; µ, σ ) = f (xi ; µ, σ 2 )
i=1
2
n (xi − µ)
Y 1 −
= √ e 2σ 2
i=1
σ 2π
n
(xi − µ)2
P
i=1
1 −
= n n e 2σ 2
σ (π) 2
Luego,
n
(xi − µ)2
P
2 n 2 i=1
log L(µ, σ |x1 , x2 , . . . , xn ) = −n log(σ ) − log(2π) −
2 2σ 2
Derivando respecto a los dos parámetros µ y σ 2 e igualando a cero, se tiene el siguiente sistema de dos ecuaciones:
n
P
2 (xi − µ)
∂ log L(µ, σ |x1 , x2 , . . . , xn ) i=1
= =0
∂µ σ2
n
(xi − µ)2
P
2
∂ log L(µ, σ |x1 , x2 , . . . , xn ) n i=1
=− + =0
∂σ 2 σ σ3
12
De la primera ecuación tenemos:
n n n
X X 1X
(xi − µ) = 0 ⇒ xi = nµ ⇒ µ
b= xi = x
i=1 i=1
n i=1
y sustituyendo en la segunda se tiene:

n
(xi − x)2
P
n
n i=1
X
− + =0 ⇒ nσ 2 = (xi − x)2
σ σ3 i=1

n
(xi − x)2
P
c2 = i=1
σ
n
Utilizando la información que nos proporciona la muestra resulta que las estimaciones máximo verosímiles de los
parámetros µ y σ 2 son:
20
P
xi
357000
b = i=1 =
µ = 17850 pesos
20 20
20
(xi − x)2
P
c2 = i=1 405000
σ = = 20250 pesos
20 20
Por lo tanto,
b = ±142,3025 pesos
σ
Ejemplo 14.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de una población que se distribuye según una Γ(r, λ), con ambos pará-
metros desconocidos. Obtener los estimadores máximo verosímiles.
Solución.
La función de densidad de la distribución Γ(r, λ) es:

 r
 λ xr−1 e−λx , si x > 0, λ > 0, r > 0,
f (x; r, λ) = Γ(r)
0, si x ≤ 0

La función de verosimilitud viene dada por:

n
Y
L(r, λ|x1 , x2 , . . . , xn ) = f (x1 , x2 , . . . , xn ; r, λ) = f (xi ; r, λ)
i=1
n n n
λr r−1 −λxi λnr Y r−1 −λ i=1 xi
P
Y
= x e = n x e
i=1
Γ(r) i [Γ(r)] i=1 i
Tomando logaritmo en la función de verosimilitud tenemos:

n
X n
X
log L(r, λ|x1 , x2 , . . . , xn ) = nr log(λ) − n log(Γ(r)) + (r − 1) log(xi ) − λ xi
i=1 i=1
13
Derivando respecto de r y de λ e igualando a cero, obtenemos las ecuaciones de verosimilitud:
n
∂ log L(r, λ|x1 , x2 , . . . , xn ) n ∂Γ(r) X
= n log(λ) − · + log(xi ) = 0
∂r Γ(r) ∂r i=1
n
∂ log L(r, λ|x1 , x2 , . . . , xn ) nr X
= − xi = 0
∂λ λ i=1
Para resolver este sistema de ecuaciones empezamos obteniendo el parámetro λ de la segunda ecuación:
n
nr X b = nr = rb
= xi ⇒ λ n
λ P x
i=1 xi
i=1
y sustituyendo en la primera ecuación, se tiene:

r n
n ∂Γ(r) X
n log − · + log(xi ) = 0
x Γ(r) ∂r i=1
o bien,
n
r Γ0 (r) X
n log −n + log(xi ) = 0
x Γ(r) i=1
Pero la solución de esta ecuación hay que obtenerla de manera aproximada mediante métodos numéricos, y una vez
que se tiene este estimador rb, el otro se obtiene fácilmente.
Ejemplo 15.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple procedente de una población uniforme, U [0, θ]. Obtener el estimador
máximo verosímil del parámetro θ.
Solución.
La función de densidad de la U [0, θ] es:


 1 , para 0 ≤ x ≤ θ, (θ > 0)
f (x; θ) = θ
0, en otro caso
Observemos que aquí no se verifica la condición de que el campo de variación de la variable X sea independiente del
parámetro θ.
La función de verosimilitud será:
n
Y
L(θ|x1 , x2 , . . . , xn ) = f (x1 , x2 , . . . , xn ; θ) = f (xi ; θ) para 0 ≤ xi ≤ θ
i=1
n
Y 1
=
i=1
θ
1
=
θn
log L(θ|x1 , x2 , . . . , xn ) = −n log(θ)
14
Derivando respecto de θ e igualando a cero, obtenemos:
∂ log L(θ|x1 , x2 , . . . , xn ) n
=− =0
∂θ θ
y no existe ningún valor de θ para el cual la derivada de la función de verosimilitud es igual a cero, pues el único valor
sería θ = inf inito, pero esto no es posible pues entonces f (x) = 0, ∀x.
Luego, vemos que en este caso no podemos aplicar el proceso anterior de derivar el logaritmo de la función de verosi-
militud, y sin embargo si podemos encontrar el estimador de máxima verosimilitud; en efecto:
maximizar L(θ|x1 , x2 , . . . , xn ) = minimizar θ
pero el mínimo valor de θ será superior al máx {xi } que será el valor de x que más se aproxime a θ.
1≤i≤n
Luego, el estimador máximo verosímil de θ será:

θb = máx {Xi } = X(n) .
1≤i≤n
Ejemplo 16.
Dada una población cuya función de densidad es:

(
(1 + θ)xθ , si 0 < x < 1,
f (x; θ) =
0, en otro caso
y una muestra aleatoria simple X1 , X2 , . . . , Xn .
Comprobar que el estimador del parámetro θ obtenido por el método de los momentos no coincide con el estimador
máximo verosímil.
Solución.
Para obtener el estimador por el método de los momentos obtenemos el momento de orden uno respecto al origen de la
población y lo igualamos al momento de orden uno de la muestra
Z 1 Z 1
1+θ
α1 = E[X] = x · (1 + θ)xθ dx = (1 + θ)x1+θ dx =
0 0 2+θ
Además,
n
P
Xi
i=1
m1 = =X
n
Igualando ambos momentos, tenemos:
1+θ 1 − 2X
=X ⇒ θb =
2+θ X −1
que es el estimador obtenido por el método de los momentos.
Para obtener el estimador máximo verosímil procedemos como sigue
n
Y
L(θ|x1 , x2 , . . . , xn ) = f (x1 , x2 , . . . , xn ; θ) = f (xi ; θ)
i=1
n
Y
= (1 + θ)xθi
i=1
n
!θ
Y
n
= (1 + θ) xi
i=1
15
n
X
log L(θ|x1 , x2 , . . . , xn ) = −n log(1 + θ) + θ log(xi )
i=1

n
∂ log L(θ|x1 , x2 , . . . , xn ) n X
=− + log(xi ) = 0
∂θ 1 + θ i=1
De donde, se tiene que:

n
θ= n
P −1
− log(xi )
i=1
Luego el estimador de máxima verosimilitud será:

n
θb = n
P −1
− log(Xi )
i=1
y como vemos no tiene porque coincidir con el estimador obtenido por el método de los momentos.
En general, para cada parámetro poblacional se podrán definir varios estimadores, cada uno con sus características.
Será importante elegir, de entre todos los estimadores posibles, el estimador óptimo para cada parámetro poblacional. Las
propiedades que definen un buen estimador son las siguientes:
Propiedades de los estimadores puntuales

Puesto que para un mismo parámetro pueden existir varios estimadores, a continuación se analizan una serie de
propiedades que serían deseables para un estimador y que permiten elegir, entre dos de ellos, el mejor.
Considérese una población con función de distribución F (x; θ), donde θ es un parámetro poblacional desconocido, que
pretendemos estimar con la ayuda de la muestra aleatoria simple X1 , X2 , . . . , Xn de tamaño n a partir del estimador θb =
T (X1 , X2 , . . . , Xn ) que como sabemos es un estadístico y, por tanto, una variable aleatoria que tendrá su correspondiente
distribución muestral: su media y su varianza. Pero nos interesa encontrar un estadístico T (X1 , X2 , . . . , Xn ) que nos
proporcione el mejor estimador del parámetro desconocido θ, para lo cual tendremos que utilizar alguna medida que
nos permita dar algún criterio para seleccionar el mejor estimador. Esta medida será el error cuadrático medio del
estimador.
Error cuadrático medio del estimador

Definición 5 (Error cuadrático medio del estimador θ).
b
Definimos el error cuadrático medio del estimador θ,b que lo notaremos por ECM (θ),
b como el valor esperado del cuadrado
de la diferencia entre el estimador θ y el parámetro θ, es decir,
b
2
ECM (θ) = E θ − θ
b b (7)
Desarrollando la expresión (7) tendremos:
16
2
h i
ECM (θ)
b =E θb − θ = E θb2 − 2θθb + θ2
2
= E[θb2 ] − 2θE[θ]
b + θ2 sumando y restando E[θ]
b
2 2
= E[θb2 ] − E[θ]
b + E[θ] b + θ2
b − 2θE[θ]
2
= V ar(θ)b + E[θ]b −θ
= V ar(θ) b 2.
b + (sesgo(θ)) (8)
resultando que el ECM del estimador θb se puede descomponer como la suma de dos cantidades no negativas:
La varianza del estimador: 2

b = E[θb2 ] − E[θ]
V ar(θ) b (9)
El cuadrado del sesgo del estimador:

2
b 2 = E[θ]
(sesgo(θ)) b −θ (10)
Evidentemente, ambas cantidades se deben tener en cuenta para las propiedades deseables de un estimador. Así pues,
ambos sumandos, varianza y sesgo, deben ser lo más pequeños posibles, lo cual equivale a que la distribución muestral del
estimador θb debe concentrarse en torno al valor del parámetro θ, tanto más cuanto menor sea la varianza.
El problema aparentemente parece muy sencillo, pues bastará seleccionar como mejor estimador del parámetro θ, aquel
estimador θb que tenga el error cuadrático medio, más pequeño de entre todos los posibles estimadores de θ. Pero no es
nada fácil el obtener entre todos los posibles estimadores del parámetro θ el que nos de un error cuadrático medio mínimo
para todos los valores posibles del parámetro θ, es decir, no siempre existirá un estimador θb que haga mínimo su error
cuadrático medio para todos los valores posibles de θ, pues un estimador θb puede dar lugar a un ECM mínimo para
algunos valores del parámetro θ, mientras que otro estimador θb0 también dará lugar a un ECM mínimo pero para otros
valores diferentes de θ.
Ejemplo 17.
Sea X1 , X2 , X3 , una muestra aleatoria simple de tamaño 3, cuyos valores son siempre positivos y procedentes de una
población con media µ y varianza σ 2 = 25. Consideramos como posibles estimadores de µ los estadísticos
1
µ
b1 = (X1 + 2X2 + X3 )
4
1
µ
b2 = (X1 + 2X2 + X3 )
5
Obtener los errores cuadráticos medios de µ

b1 y µ
b2 y comparar sus valores para diferentes valores del parámetro pobla-
cional µ.
Solución.
Empezamos calculando la media y varianza de µ b1 :

1 1
E [b
µ1 ] = E (X1 + 2X2 + X3 ) = (E [X1 ] + 2E [X2 ] + E [X3 ])
4 4
1
= (µ + 2µ + µ) = µ.
4
Luego, sesgo(b µ1 ] − µ = µ − µ = 0.
µ1 ) = E[b
17

1 1
V ar [b
µ1 ] = V ar (X1 + 2X2 + X3 ) = (V ar [X1 ] + 4V ar [X2 ] + V ar [X3 ])
4 16
1 6 2 3
σ 2 + 4σ 2 + σ 2 = σ = σ2

=
16 16 8
3 75
= (25) = .
8 8
Teniendo en cuenta la expresión (8), tendremos:

75 75
ECM (b
µ1 ) = V ar(b µ1 ))2 =
µ1 ) + (sesgo(b +0= .
8 8
Análogamente para el estimador µ b2 :

1 1
E [b
µ2 ] = E (X1 + 2X2 + X3 ) = (E [X1 ] + 2E [X2 ] + E [X3 ])
5 5
1 4
= (µ + 2µ + µ) = µ.
5 5
4 4µ − 5µ 1
Luego, sesgo(b µ2 ] − µ =
µ2 ) = E[b µ−µ= = − µ.
5 5 5

1 1
V ar [b
µ2 ] = V ar (X1 + 2X2 + X3 ) = (V ar [X1 ] + 4V ar [X2 ] + V ar [X3 ])
5 25
1 6 2
σ 2 + 4σ 2 + σ 2 =

= σ
25 25
6
= (25) = 6.
25
y su error cuadrático medio será:
2
µ2

1
ECM (b
µ2 ) = V ar(b µ2 ))2 = 6 + − µ = 6 +
µ2 ) + (sesgo(b .
5 25
Igualando ECM (b
µ1 ) = ECM (b
µ2 ) tendremos:
75 µ2 µ2 75 27
=6+ ⇒ = −6= ⇒ 8µ2 = 675.
8 25 25 8 8
r
675
Por lo tanto, µ = .
8
r
675
Luego, si µ < , entonces ECM (bµ2 ) < ECM (b µ1 ) y el estimador µ
b2 , será mejor que el estimador µb1 ; pero si
r 8
675
µ> , entonces ECM (b µ1 ) < ECM (b
µ2 ) resultando que el estimador µ
b1 será mejor que el estimador µb2 .
8
Resulta, por tanto, que la utilización del error cuadrático medio para la elección de un buen estimador es insuficiente,
siendo necesario dar otros criterios, de tal manera que la elección de un buen estimador puntual dependerá de otras
propiedades que satisfaga ese estimador. Así pues estudiaremos la insesgadez, eficiencia, consistencia y suficiencia que
darán lugar a los estimadores puntuales: insesgados, eficientes, consistentes y suficientes.
Estimador insesgado
Siendo un estimador θb una variable aleatoria que se utiliza para estimar el parámetro θ, es interesante saber si el valor
promedio de θb coincide con el parámetro poblacional θ. Esta sería una buena propiedad para un estimador.
18
Definición 6.
Un estimador θb del parámetro θ es insesgado, o centrado, si E(θ)

b = θ.
b − θ se le llama sesgo. De esta forma, un

Si θb no es insesgado, entonces se dice que es sesgado, y a la diferencia E(θ)
estimador puntual θb es un estimador insesgado para el parámetro desconocido θ si, en promedio, el valor de θb coincide con
el valor desconocido de θ. Observe en los siguientes ejemplos la forma en la que se verifica la propiedad de insesgamiento
aún cuando no se conozca el valor del parámetro θ.
Ejemplo 18.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de una población con media desconocida µ. Comprobaremos que la
n
1 P
media muestral X = Xi es un estimador insesgado para el parámetro µ. Observe que X es el estimador µ
b, y µ es el
n i=1
parámetro desconocido θ. Por la propiedad lineal del valor esperado,
n
! n n
1X 1X 1X 1
E(bµ) = E X = E Xi = E(Xi ) = µ = (nµ) = µ.
n i=1 n i=1 n i=1 n
Ejemplo 19.
Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con varianza desconocida σ 2 . Recordemos que la varianza
1 P n
muestral es una estadística definida de la forma siguiente: S 2 = (Xi − X)2 . En este caso el estimador es S 2 y el
n − 1 i=1
parámetro desconocido a estimar es σ 2 . Esta estadística resulta ser un estimador insesgado para la varianza σ 2 .
Para demostrarlo, hay que tener en cuenta que la varianza muestral se puede escribir de la forma:
n n n
1 X 1 X 1 X 2
S2 = (Xi − X)2 = (Xi − X + µ − µ)2 = (Xi − µ) − (X − µ) .
n − 1 i=1 n − 1 i=1 n − 1 i=1
Desarrollando el cuadrado se obtiene

n
!
2 1 X
S = (Xi − µ)2 − n(X − µ)2 .
n−1 i=1
Calculando el valor esperado de la varianza muestral a partir de la expresión anterior se tiene que
n
!
2 1 X
2 2
E[S ] = E[(Xi − µ) ] − nE[(X − µ) ] .
n − 1 i=1
Teniendo en cuenta que la muestra es aleatoria simple y que la media muestral verifica que E[X] = µ y que V ar[X] =
σ2
, se tiene que el primer valor esperado que aparecen en el segundo miembro es, para todo i, E[(Xi − µ)2 ] = σ 2 y el
n
σ2
segundo, E[(X − µ)2 ] = , con lo que se llega a
n
σ2

2 1 2 n−1 2
E[S ] = nσ − n = σ = σ2 .
n−1 n n−1
Estimador asintóticamente insesgado
Cuando el sesgo b(θ)

b es tal que lı́m b(θ)
b = 0, se dice que el estimador es asintóticamente insesgado.
n→∞
Ejemplo 20.
1 Pn
Anteriormente se estudió que la cuasivarianza muestral Sc2 = (Xi − X)2 era un estimador sesgado de la varianza
n i=1
c2 ) = − 1 σ 2 . Se observa que cuando n → ∞ el sesgo b(S
poblacional, siendo su sesgo b(S c2 ) → 0. Con lo cual, se tiene que
c c
n
2
la cuasivarianza muestral es un estimador asintóticamente insesgado del parámetro σ .
19
Estimador insesgado de mínima varianza
Ya indicábamos anteriormente que no era posible obtener un estimador θb que haga mínimo su error cuadrático medio
para todos los valores posibles del parámetro θ. Sin embargo, sí podemos considerar los estimadores que son insesgados
y de éstos determinar el que tenga su error cuadrático medio, ECM (θ),
b mínimo. Es decir, si el estimador θb es insesgado,
entonces:
E[θ]
b = θ y ECM [θ] b = V ar[θ].
b
Definición 7.
Diremos que el estimador insesgado θb0 , es uniformemente insesgado de mínima varianza U M V U E para el pa-
b de él, se verifica que V ar(θb0 ) ≤ V ar(θ)
rámetro θ, si dado cualquier otro estimador insesgado θ, b para todos los valores
posibles de θ.
Para llegar a obtener el estimador uniformemente insesgado de mínima varianza, si es que éste existe, tendríamos que
determinar las varianzas de todos los estimadores insesgados de θ y seleccionar el estimador que tenga la varianza más
pequeña para todos los valores de θ.
Con el fin de facilitar la obtención de un estimador uniformemente insesgado de mínima varianza U M V U E daremos
la desigualdad o cota de Frechet-Cramer-Rao, la cual nos permitirá obtener una cota inferior de la varianza.
Cota de Frechet-Cramer-Rao
Para poder aplicar la cota de Frechet-Cramer-Rao es necesario que se cumplan ciertas condiciones de regularidad de
f (x; θ). Son las conocidas condiciones de regularidad de Fisher-Wolfowitz. Diremos que la función de densidad
f (x; θ) verifica las condiciones de regularidad Fisher-Wolfowitz, cuando:
1. El espacio paramétrico Θ es un intervalo abierto de R (no necesariamente finito), pero nunca se reduce a un punto.
2. El campo de variación de la variable aleatoria X que define la población de la cual se extrajo la muestra es indepen-
diente del parámetro θ, y por tanto, la muestra también lo es.
3. Existen, al menos, las dos primeras derivadas respecto al parámetro θ de la función fn (x1 , x2 , . . . , xn ; θ). Esto es,
para casi todo x y todo θ ∈ D, existe
∂ log dFn (x1 , x2 , . . . , xn ; θ)
.
∂θ
Al decir para casi todo x, queremos decir para todo x excepto para un conjunto cuya probabilidad sea nula (un
conjunto de medida cero).
4. La derivación e integración, así como la suma en el caso discreto, son operaciones intercambiables.
" 2 #
∂ log dFn (x1 , x2 , . . . , xn ; θ)
5. Se verifica que E > 0, para todo θ ∈ D.
∂θ
Teorema 1.
Supongamos que se verifican las condiciones de regularidad de Fisher-Wolfowitz. Sea X1 , X2 , . . . , Xn una muestra
aleatoria simple de tamaño n, obtenida de una población cuya función de densidad es f (x; θ). Designamos la función de
densidad conjunta de la muestra por:
dFn (x1 , x2 , . . . , xn ; θ) = fn (x1 , x2 , . . . , xn ; θ)
verificándose que Z Z
dFn (x1 , x2 , . . . , xn ; θ) = fn (x1 , x2 , . . . , xn ; θ)dx1 dx2 . . . dxn = 1
Rn Rn
y sea θb = T (x1 , x2 , . . . , xn ) un estimador insesgado del parámetro θ.
20
Entones la varianza del estimador está acotada inferiormente:
1
V ar θb ≥ " 2 # (11)
∂ log dFn
E
∂θ
o bien, si las variables aleatorias son independientes e idénticamente distribuidas con función de densidad f (x; θ), entonces:
1
V ar θb ≥ " 2 # (12)
∂ log f (x; θ)
nE
∂θ
o incluso 1
V ar θb ≥
∂ 2 log f (x; θ)

−nE
∂θ2
Estimador eficiente
Puesto que lo que se intenta es obtener el valor del parámetro a través de un estimador, que es a su vez una variable
aleatoria, una propiedad que también sería deseable es que la varianza de dicho estimador fuese lo más pequeña posible,
dicha propiedad se denomina eficiencia. Se dice que un estimador θb1 es más eficiente que otro θb2 , cuando ocurre que
V ar(θb1 ) < V ar(θb2 ). Un estimador es eficiente, en términos absolutos, cuando alcanza la llamada Cota de Frechet-
Cramer-Rao.
La propiedad de eficiencia de un estimador la definiremos comparando su varianza con la varianza de los demás
estimadores insesgados. Así pues: el estimador más eficiente entre un grupo de estimadores insesgados será el que
tenga menor varianza.
Definición 8 (Estimador eficiente).
Diremos que un estimador θb del parámetro poblacional θ, es eficiente si es insesgado y además su varianza alcanza la cota
de Frechet-Cramer-Rao. Esto es equivalente a decir que un estimador θb es eficiente si su varianza coincide con la cota de
Frechet-Cramer-Rao:
1
V ar(θ)
b = " 2 # (13)
∂ log dFn
E
∂θ
o bien
1
V ar(θ)
b = " 2 # .
∂ log f (x; θ)
nE
∂θ
Si tenemos dos estimadores insesgados θb1 y θb2 del parámetro poblacional θ, se dice que el estimador θb1 es más eficiente
que el estimador θb2 si su varianza es menor. Es decir
V ar(θb1 ) ≤ V ar(θb2 )
donde la desigualdad en sentido estricto se debe cumplir para algún valor de θ.

Por ejemplo, para la estimación de la media poblacional, los estimadores media aritmética X y mediana X̃ son
insesgados, pero la media es más eficiente que la mediana (su varianza es menor). Evidentemente, entre dos estimadores
insesgados siempre será preferible usar el más eficiente. Incluso en algunos casos será mejor usar un estimador algo sesgado
pero más eficiente que otro insesgado.
Ejemplo 21.
21
Se quiere estimar el parámetro λ de una Poisson mediante la media de una muestra de tamaño n. ¿Es la media un
estimador eficiente?
λ
La varianza de la media muestral es V ar[X] = y la esperanza E[X] = λ. Calculando la Cota de Frechet-Cramer-Rao:
n
1
CF CR = " 2 # .
∂ log Pλ (X)
nE
∂λ
Se tiene que
log Pλ (X) = −λ + x log λ − log(x!)
y su derivada respecto a λ
∂ log Pλ (X) x x−λ
= −1 + = ,
∂λ λ λ
luego el denominador queda
" 2 #
∂ log Pλ (X) E (X − λ)2 V ar[X] λ n
nE =n =n =n 2 = ,
∂λ λ2 λ2 λ λ
y la Cota de Frechet-Cramer-Rao
1 λ
CF CR = " 2 # = n .
∂ log Pλ (X)
nE
∂λ
λ
Como la varianza del estimador es igual a , se tiene que éste es eficiente.
n
Ejemplo 22.
Demostrar que la proporción muestral pb es un estimador insesgado de varianza mínima de la proporción poblacional p, de
una variable aleatoria X con distribución de Bernoulli.
Solución.
Suponga que se extrae una muestra aleatoria simple de tamaño n de la población X con distribución de Bernoulli, entonces:
n
1X
pb = Xi , estima a p.
n i=1
La proporción muestral pb, es una media muestral de variable aleatoria Bernoulli con E(Xi ) = p y V ar(Xi ) = pq;
representa la proporción de éxitos en la muestra y estima a la proporción de éxitos en la población p. Luego:
n n
1X 1X 1
E [b
p] = E [Xi ] = p = (np) = p.
n i=1 n i=1 n
Es decir que la proporción muestral pb es un estimador insesgado de la proporción poblacional p. Veamos si es de

varianza mínima.
n n
1 X 1 X 1 pq
V ar [b
p] = 2
V ar [Xi ] = 2
pq = 2 (npq) = .
n i=1 n i=1 n n
Hallemos la cota inferior de Frechet - Cramer - Rao,
22
f (x; p) = px (1 − p)1−x , x = 0, 1
log f (x; p) = x log p + (1 − x) log(1 − p)
d x 1−x x−p
(log f (x; p)) = − =
dp p 1−p p(1 − p)
" 2 #
(x − p)2

d V ar(X) pq 1
E log f (x; p) =E 2 = = 2 2 =
dp p (1 − p)2 p2 q 2 p q pq
1 1 pq
CF CR = " 2 # = h 1 i = n = V ar [b
p] .
d n pq
nE log f (x; p)
dp
Dado que la V ar [b
p] es igual a la cota inferior de Frechet-Cramer-Rao, pb es un estimador de varianza mínima para p.
Como la proporción muestral pb es un estimador insesgado y de varianza mínima para p, es un estimador eficiente.
Ejemplo 23.
Dada una población N (µ, σ 2 ) se verifica que la media muestral X es un estimador eficiente de la media poblacional µ.
Solución.
Sabemos que la función de densidad de una distribución N (µ, σ 2 ), de parámetro µ, desconocido, es:
1 1 (x−µ)
2
f (x; µ) = √ e− 2 σ 2
σ 2π
Para que el estadístico, X, media muestral sea un estimador eficiente del parámetro µ, media poblacional, se tiene que
verificar la expresión (13), es decir, que su varianza coincida con la cota de Frechet-Cramer-Rao:
1
V ar(X) = " 2 #
∂ log f (x; µ)
nE
∂µ
En efecto:
1 (x − µ)2

1 1 (x−µ)
2
1 1 (x−µ)
2
1
log f (x; µ) = log √ e− 2 σ 2 = log √ + log e− 2 σ2 = log √ − .
σ 2π σ 2π σ 2π 2 σ2
De donde se tiene que:

∂ log f (x; µ) x−µ
= .
∂µ σ2
Luego,
" 2 # " 2 #
∂ log f (x; µ) X −µ n n n n
E (X − µ)2 = 4 · V ar(X) = 4 · (σ 2 ) = 2 .

nE = nE =
∂µ σ2 σ 4 σ σ σ
Ahora bien, sustituyendo en la expresión (13), resultaría:
1 σ2
V ar(b
µ) = V ar(X) = " 2 # = n
∂ log f (x; µ)
nE
∂µ
23
σ2
que coincide con la cota de Frechet-Cramer-Rao, además sabemos que la varianza del estadístico media muestral es y
n
que el estadístico media muestral X es un estimador insesgado de la media poblacional µ.
Resultando que, efectivamente, la media muestral es un estimador eficiente de la media poblacional, cuando la población
es N (µ, σ 2 ).
Ejemplo 24.
Dada una población N (µ, 49), y los estimadores de la media poblacional µ, para muestras aleatorias simples de tamaño
n=3
1 1 1 1
θb1 = (X1 + X2 + X3 ) y θb2 = X1 + X2 + X3
3 2 3 4
Entonces:
1. Verificar si los estimadores θb1 y θb2 son insesgados.

2. Calcular la varianza de ambos estimadores.
3. ¿Son ambos estimadores eficientes?
Solución.
1. Sabemos que un estimador θb es insesgado si se verifica que:
E[θ]
b =θ
En este ejemplo, se conoce que E[Xi ] = µ, para i = 1, 2, 3.

Luego,
1 1 1 1
E[θ1 ] = E (X1 + X2 + X3 ) = (E[X1 ] + E[X2 ] + E[X3 ]) = (µ + µ + µ) = (3µ) = µ
b
3 3 3 3
y por tanto el estimador θb1 , es un estimador lineal insesgado para µ.
Para el estimador θb2 se tiene:

1 1 1 1 1 1 1 1 1 26 13
E[θb2 ] = E X1 + X2 + X3 ) = E[X1 ] + E[X2 ] + E[X3 ] = µ + µ + µ = (µ) = µ
2 3 4 2 3 4 2 3 4 24 12
Luego, este estimador lineal es sesgado para µ.

2. Veamos la varianza de ambos estimadores:
Se sabe que V ar(Xi ) = 49, para i = 1, 2, 3.
Luego,

1 1 1 1 49
V ar[θ1 ] = V ar (X1 + X2 + X3 ) = (V ar[X1 ] + V ar[X2 ] + V ar[X3 ]) = (49 + 49 + 49) = (3 × 49) =
b
3 9 9 9 3
Para el estimador θb2 se tiene:

1 1 1 1 1 1 1 1 1
V ar[θb2 ] = V ar X1 + X2 + X3 ) = V ar[X1 ] + V ar[X2 ] + V ar[X3 ] = (49) + (49) + (49)
2 3 4 4 9 16 4 9 16
49 49 49 244 61 2989
= + + = (49) = (49) = .
4 9 16 576 144 144
3. Para ver si son eficientes tendremos que ver si son insesgados y que su varianza alcance la cota de F.C.R.
Ahora bien, en nuestro caso el estimador θb2 no es insesgado y por tanto no será eficiente.
Para el estimador θb1 , que sí que es insesgado, bastará tener en cuenta el teorema (23), pues resulta que el estimador
1
θb1 = (X1 + X2 + X3 )
3
24
coincide exactamente con la media muestral, X, y según hemos visto el estadístico media muestra, X, en una
población N (µ, σ 2 ) es un estimador eficiente de la media poblacional µ.
Luego el estimador θb1 , es un estimador eficiente de la media poblacional µ.
Teorema 2.
Si un estimador θb es insesgado, su varianza alcanza la cota de F.C.R. si se verifica:

∂ log dFn
= A(θ)(θb − θ).
∂θ
Siendo A(θ) una expresión que no depende de θb y entonces el estimador θb será eficiente.
Teorema 3.
Si θb es un estimador eficiente, entonces se verifica que

1
V ar(θ)
b = .
A(θ)
Demostración.
Como el estimador θb es eficiente, entonces la V ar(θ)

b coincide con la cota de Frechet-Cramer-Rao, expresión (13) y teniendo
en cuenta el teorema (1) resulta:
1 1 1 1
V ar(θ)
b = h i2 = h i2 = h i2 = 2
E ∂ log dFn
E A(θ)(θb − θ) A2 (θ)E θb − θ A (θ)V ar(θ)
b
∂θ
1 b = 1 .
De donde, V ar2 (θ)
b = y por consiguiente V ar(θ)
A2 (θ) A(θ)
Estimador asintóticamente eficiente

Definición 9 (Estimador asintóticamente eficiente).
Diremos que un estimador θb es asintóticamente eficiente si se verifica:
lı́m V ar(θ)
b = Cota de Frechet-Cramer-Rao (14)
n→∞
No obstante debemos tener en cuenta que la cota también depende del tamaño muestral, lo cual puede ocasionar algún
problema en algún caso aislado (como podrían ser el caso de los estimadores súper-eficientes).
Estimador consistente
Teorema 4 (Glivenko-Cantelli).
Si se tienen muestra aleatoria simple de tamaño n de una población X, con función de distribución F (x), para cualquier
número real positivo arbitrario ε, se tiene que
lı́m P {supx∈R |F ∗ (x) − F (x)| ≥ ε} = 0,

n→∞
donde F ∗ (x) es la función de distribución empírica.
25
1 Pn
Se define la función de distribución empírica como Fn∗ (x) = εi (x), donde
n i=1
(
1, si Xi ≤ x
εi (x) =
0, si Xi > x.
Cuando un estimador no es insesgado se le exige que al menos sea consistente. Existen diversas definiciones de
consistencia, en función de la convergencia que se utilice. Sea θbn un estimador de θ para el que se verifica cuando n → ∞
que
1. lı́m E(θbn ) = θ.
n→∞
2. lı́m V ar(θbn ) = 0.
n→∞
Entonces, θbn es débilmente consistente de θ. También dicha consistencia se conoce como consistencia en probabilidad.
Ejemplo 25.
La media muestral es un ejemplo de estimador consistente de la media poblacional µ: E[X] = µ y por tanto lı́m E[X] = µ
n→∞
σ2
y V ar[X] = , con lo que se tiene que lı́m V ar[X] = 0.
n n→∞
Sean θb1 , θb2 , . . . , θbn una sucesión de estimadores del parámetro θ, obtenidos a partir de muestras de tamaño 1, 2, . . . , n,
respectivamente, es decir:
θb1 = g(X1 )
θb2 = g(X1 , X2 )
..
.
θn = g(X1 , X2 , . . . , Xn )
b
de manera que el estimador basado en la muestra de tamaño n lo notaremos por θbn , donde el subíndice n lo empleamos
para
n ohacer más evidente la dependencia del tamaño muestral. En general esta sucesión de estimadores se representa por
θbn .
Definición 10.
n o
Diremos que una sucesión de estimadores θbn es consistente, si la sucesión converge en probabilidad hacia el parámetro
θ. Es decir, si para todo ε > 0, se verifica:

lı́m P θbn − θ < ε = 1, ∀θ (15)

n→∞
y cada elemento de la sucesión se dirá que es un estimador consistente.

Ejemplo 26.
1 Pn
Demuestre que la media muestral X = Xi es un estimador consistente de la media poblacional µ.
n i=1
Solución.
σ2

X −µ
Como la media muestral X se distribuye como N µ, . Y la variable aleatoria Z = tiene aproximadamente
n √σ
n
distribución N (0, 1); tenemos que:
26
√ √ ! √ √
ε n X −µ ε n ε n ε n
P X − µ < ε = P −ε < X − µ < ε = P − < < =P − <Z<
σ √σ σ σ σ
n
√ √ √ √ √
ε n ε n ε n ε n ε n
=φ −φ − =φ −1+φ = 2φ − 1.
σ σ σ σ σ
√
ε n
Luego, lı́m P X − µ < ε = lı́m 2φ − 1 = 2(1) − 1 = 1.
n→∞ n→∞ σ
Por lo tanto, la media muestral X es un estimador consistente de la media poblacional µ, cualquiera que sea el tipo
de distribución de la población, siempre que tenga media y varianza.
Ejemplo 27.
Sea una población cuya distribución de probabilidad viene dada por


1
 2 (1 − θ), si
 x = −1,
p(xi ; θ) = 21 , si x = 0,
1

2 θ, si x=1
donde 0 < θ < 1. Utilizando una muestra aleatoria simple X1 , X2 , . . . , Xn .
1. Obtener un estimador del parámetro θ por el método de los momentos.

2. Comprobar si es insesgado.
3. Comprobar si es consistente.
Solución.
1. El momento de orden uno respecto al origen en la población es:

3
X 1 1 1 1
α1 = E[X] = xi P (X = xi ) = (−1) · (1 − θ) + 0 · + (1) · θ = θ − .
i=1
2 2 2 2
El momento muestral de orden uno será:

n
P
Xi
i=1
m1 = .
n
Igualando ambos momentos tenemos:
n
P
Xi
1 i=1
θ− = m1 = .
2 n
Luego,
n
P
Xi
1 i=1 1
θb = m1 + = +
2 n 2
es el estimador obtenido por el método de los momentos.
2. Veamos si es insesgado
n
P 
Xi n
b = E  i=1
 1 1X 1 1 1 1
E[θ]  n +  = E[Xi ] + = · n θ − + = θ.
2  n i=1 2 n 2 2
Luego en este caso el estimador θb obtenido por el método de los momentos es insesgado.
27
3. Para ver si es consistente, se debe probar que

lı́m P |θbn − θ| < ε = 1
n→∞
y como el estimador es insesgado θ = E[θ]

b nos queda:

lı́m P |θb − E[θ]|
b <ε =1
n→∞
Teniendo en cuenta una de las expresiones de la desigualdad de Chebychev, tenemos:
b < ε ≥ 1 − V ar(θ) .
b
P |θb − E[θ]| 2
ε
Ahora bien,
n
!
b = V ar m1 + 1
V ar(θ) = V ar
1X
Xi +
1
2 n i=1 2
n
! n
1X 1 X
= V ar Xi = V ar(Xi )
n i=1 n2 i=1
n
1 X 1 1
= 2 V ar(X) = 2 (nV ar(X)) = V ar(X).
n i=1 n n
Sustituyendo en la expresión de la desigualdad de Chebychev tenemos:
b < ε ≥ 1 − V ar(X) .

P |θb − E[θ]|
nε2
Por lo tanto,
lı́m P |θb − E[θ]|
b <ε =1
n→∞
ya que V ar(X), al ser un valor fijo, no depende de n.

Luego,
lı́m P | θbn − θ |< ε = 1
n→∞
y por tanto el estimador θb es consistente.
Ejemplo 28.
Sea una población cuya función de densidad es:

( x
θ−1 e− θ , si x > 0,
f (x; θ) =
0, en otro caso
y consideremos una muestra aleatoria simple X1 , X2 , . . . , Xn . Entonces:
1. Calcular el estimador máximo-verosímil del parámetro θ.

2. Comprobar si es insesgado y consistente.
3. Comprobar si el estimador máximo-verosímil es eficiente.
Solución.
28
1. La función de verosimilitud viene dada por:
n
Y
L(θ|x1 , x2 , . . . , xn ) = f (x1 , x2 , . . . , xn ; θ) = f (xi ; θ)
i=1
n
Y xi
= θ−1 e− θ
i=1
n
P
xi
i=1
−
= θ−n e θ
El logaritmo de la función de verosimilitud es:

n
1X
log L(θ|x1 , x2 , . . . , xn ) = −n log(θ) − xi = 0
θ i=1

n
∂ log L(θ|x1 , x2 , . . . , xn ) n 1 X
=− + 2 xi = 0
∂θ θ θ i=1
De donde, se obtiene que:

n
P
xi
i=1
θ= =x
n
Luego el estimador de máxima verosimilitud será:
n
P
Xi
i=1
θb = =X
n
2. Veamos que es insesgado y consistente:

Es claro que el estimador del parámetro θ es insesgado. Veamos que es consistente. En efecto:
Como se trata de una distribución exponencial de parámetro θ1 , sabemos que:
E[X] = θ y V ar(X) = θ2 .
Luego,
V ar(X) θ2
E[θ] = E[X] = E[X] = θ y V ar(θ) = V ar(X) = = .
n n
Cuando n → ∞, entonces la V ar(θ)b → 0 y como el estimador θb es insesgado, resulta que efectivamente el estimador
de máxima verosimilitudd es consistente, pues el sesgo es nulo y la varianza tiende a cero cuando n tiende a infinito.
3. Para probar la eficiencia, tendremos que probar que la vananza del estimador coincide con la cota de Frechet-Cramer-
Rao, es decir que,
1
V ar(θ)
b = " 2 #
∂ log f (x; θ)
nE
∂θ
o bien
1
V ar(θ)
b =
∂ 2 log f (x; θ)

−nE
∂θ2
29
En efecto: El logaritmo de la función de densidad es:
x
log f (x; θ) = − log(θ) − , x>0
θ
Derivando con respecto a θ, obtenemos:

∂ log f (x; θ) 1 x
= − + 2, x>0
∂θ θ θ
Derivando nuevamente con respecto a θ, tenemos:
∂ 2 log f (x; θ) 1 2x
=− 2 + 3, x>0
∂θ2 θ θ
Tomando valor esperado, se tiene que:

2
∂ log f (x; θ) 1 2X 1 2 1 2 1 2 1
E 2
= E 2
− 3
= 2 − 3 E[X] = 2 − 3 (θ) = 2 − 2 = − 2
∂θ θ θ θ θ θ θ θ θ θ
Así las cosas, la cota de Freschet-Cramer-Rao será:
1 1 θ2
V ar(θ)
b = 2
= =
∂ log f (x; θ) 1 n
−nE 2
−n − 2
∂θ θ
que coincide con la V ar(θ),

b siendo por tanto el estimador de máxima verosimilitud para este ejemplo eficiente.
Estimador suficiente
Fisher introdujo en 1920 muchos conceptos relacionados con la inferencia estadística, los cuales todavía siguen vivos
y son indispensables. El concepto más importante es el conocido como suficiencia, el cual fue desarrollado por Fisher
también en el 1922.
Un estadístico es suficiente si resume la información de la muestra sin perder información relevante sobre el parámetro.
Existen dos caminos para encontrar estadísticos suficientes en un modelo estadístico. El primer método implica el
cálculo directo de la distribución condicional de los datos dado el valor de un estadístico particular, mientras que el
segundo consiste en la factorización clásica de Neyman de una función de probabilidad.
Definición 11 (Estimador suficiente).
Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población cuya función de distribución F (x; θ) depende de un parámetro
θ desconocido. Diremos que el estadístico muestral T = T (X1 , X2 , . . . , Xn ) es suficiente para el parámetro θ si las distri-
buciones condicionadas (X1 , X2 , . . . , Xn )|T = t no depende del parámetro θ (excepto a los sumo para valores t ∈ T , siendo
Pθ (t ∈ T ) = 0, ∀ θ).
Intuitivamente, dado el valor t de un estadístico suficiente T , condicionalmente no queda más información en los datos
originales con respecto al parámetro desconocido θ. Cuando disponemos de una muestra y queremos escoger un estadístico
basado en ella, parece lógico seleccionar el que conserve la mayor cantidad posible de la información contenida en dicha
muestra. El concepto de suficiencia está basado, precisamente, en esta idea de conservar la información contenida en una
muestra. Por tanto, diremos que T es un estadístico suficiente para un parámetro θ si contiene toda la información de la
muestra para dicho parámetro. Por ejemplo, consideremos una muestra de n repeticiones independientes de un experimento
binomial, X1 , X2 , . . . , Xn , con probabilidad de éxito p, y definimos el estadístico T como “el número de éxitos en las n
repeticiones”, es decir,
Xn
T = Xi ,
i=1
30
donde (
1, si la i-ésima repetición es éxito, con probabilidad p
Xi =
0, si la i-ésima repetición es fracaso con probabilidad 1 - p.
Como estamos interesados en el parámetro poblacional p, al tomar la muestra de n repeticiones del experimento
binomial tendremos un valor del estadístico:
n
X
T = Xi = número de éxitos en las n-pruebas
i=1
y entonces nos surge la duda de si este estadístico contiene toda la información sobre el parámetro p o por el contrario se
podría obtener más información sobre p considerando otros estadísticos o funciones de X1 , X2 , . . . , Xn .
Para resolver esta duda obtenemos la distribución condicionada de X1 , X2 , . . . , Xn dado el valor del estadístico T = t,
es decir:
P (X1 = x1 , X2 = x2 , . . . , Xn = xn , T = t)
P (X1 = x1 , X2 = x2 , . . . , Xn = xn |T = t) = .
P (T = t)
n
P n
P
Si T (x1 , x2 , . . . , xn ) = xi 6= t, la probabilidad condicionada será cero y si T (x1 , x2 , . . . , xn ) = xi = t
i=1 i=1
P (X1 = x1 , X2 = x2 , . . . , Xn = xn , T = t)
P (X1 = x1 , X2 = x2 , . . . , Xn = xn |T = t) = (16)
P (T = t)
P (X1 = x1 , X2 = x2 , . . . , Xn = xn )
= (17)
P (T = t)
P (X1 = x1 , X2 = x2 , . . . , Xn = xn )
= n
P (18)
P ( Xi = t)
i=1
px1 (1 − p)1−x1 · px2 (1 − p)1−x2 . . . pxn (1 − p)1−xn
= (19)
n t
p · (1 − p)n−t
t
pt · (1 − p)n−t
= (20)
n t
p · (1 − p)n−t
t
1
= n (21)
t
Observamos que la distribución condicionada de X1 , X2 , . . . , Xn , dado el valor del estadístico T = t no depende del
parámetro p, es decir, la distribución condicionada para la muestra de n repeticiones, dado el número de éxitos, no depende
de la probabilidad p de obtener un éxito, entonces conociendo el número total de éxitos en la muestra tendremos toda la
información que la muestra puede proporcionar sobre el valor del parámetro p, siendo por tanto, el estadístico T suficiente
para el parámetro p.
Ejemplo 29.
Sea una muestra aleatoria simple X1 , X2 , . . . , Xn procedente de una distribución B(1, p), y sean los estadísticos:
T1 = X1 + X2 + X3 y T2 = X1 + 2X2 + X3
tales que para la muestra de tamaño n = 3 toman los valores T1 = 2 y T2 = 2. Comprobar que T1 es suficiente y que T2
no es suficiente.
El estadístico T1 = X1 + X2 + X3 es suficiente, pues es un caso particular del ejemplo anterior, así pues, sustituyendo
en la expresión (21) tenemos:
1
P (X1 = x1 , X2 = x2 , X3 = x3 |T1 = 2) = 3
2
31
y esta probabilidad no depende del parámetro p, con lo cual es el estadístico T , es suficiente.
Análogamente, para el estadístico T2 = X1 + 2X2 + X3 si obtenemos la probabilidad condicionada, por ejemplo, para
la muestra (x1 , x2 , x3 ) = (1, 0, 1) tendremos que:
P (X1 = 1, X2 = 0, X3 = 1, T2 = 2)
P (X1 = x1 , X2 = x2 , X3 = x3 |T2 = 2) =
P (T2 = 2)
P (X1 = 1, X2 = 0, X3 = 1, X1 + 2X2 + X3 = 2)
=
P (X1 + 2X2 + X3 = 2)
P (X1 = 1, X2 = 0, X3 = 1)
=
P (X1 = 1, X2 = 0, X3 = 1) + P (X1 = 0, X2 = 1, X3 = 0)
p(1 − p)0 · p0 (1 − p) · p(1 − p)0 p2 (1 − p)
= 2 2
= 2
p (1 − p) + p(1 − p) p (1 − p) + p(1 − p)2
p
= = p,
p + (1 − p)
la cual depende del parámetro p, y por tanto, el estadístico T2 = X1 + 2X2 + X3 no es suficiente.

Si observamos el estadístico T1 = X1 + X2 + X3 toma los valores 0, 1, 2, 3 sin pérdida de ninguna información sobre
el parámetro p. Sin embargo, el estadístico T2 = X1 + 2X2 + X3 toma los valores 0, 1, 2, 3, 4 perdiendo información sobre
el parámetro p.
La definición de estadístico suficiente nos permite comprobar si efectivamente el estadístico o estimador T es o no
suficiente pero no nos dice cómo se puede encontrar un estadístico o estimador suficiente.
Un método que, además de decirnos si un estadístico es o no suficiente, nos permite también obtener un estadístico
suficiente, es el teorema de factorización de Fisher-Neyman.
Observemos que el procedimiento descrito anteriormente para encontrar estimadores suficientes puede ser bastante
complejo ya que precisa múltiples cálculos. Afortunadamente, el Teorema de Fisher-Neyman permite encontrar un esta-
dístico suficiente sin más que inspeccionar la función de densidad (o función de masa de probabilidad) conjunta de la
muestra.
Teorema 5 (Teorema de Factorización de Fisher-Neyman).
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de una población con función de distribución F (x; θ). Consideremos la
función de verosimilitud L(θ) dada en la Definición (3). Un estadístico T = T (X1 , X2 , . . . , Xn ) es suficiente para θ si y
solo si
L(θ) = g(T (x1 , x2 , . . . , xn ); θ) · h(x1 , x2 , . . . , xn ) (22)
donde g(T, θ) es una función no negativa que depende solamente de θ y de la muestra a través del estadístico
T (X1 , X2 , . . . , Xn ), y h(x1 , x2 , . . . , xn ) es una función no negativa que depende exclusivamente de los valores muestra-
les.
Ejemplo 30.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de tamaño n de una población con distribución P(λ). Comprobar utili-
n
P
zando el teorema de factonzación de Fisher-Neyman que el estadístico T = Xi es suficiente para el parámetro λ.
i=1
Solución.
32
La función de verosimilitud de la muestra será:
L(λ) = Pλ (X1 = x1 , X2 = x2 , . . . , Xn = xn )
e−λ λx1 e−λ λx2 e−λ λxn
= · ···
x1 ! x2 ! xn !
n
P
xi
−nλ
e λ i=1
= n
Q
xi !
i=1
n
P
−nλ
xi 1
=e λi=1 · Q
n
xi !
i=1
n
P
−nλ
xi 1
Haciendo g(T (x1 , x2 , . . . , xn ); λ) = e λ i=1 y h(x1 , x2 , . . . , xn ) = Q
n , entonces resulta la siguiente factonzación:
xi !
i=1
L(λ) = g(t; λ) · h(x1 , x2 , . . . , xn ).
n
P
Por tanto, T = Xi es un estadístico suficiente para el parárnetro λ.
i=1
Ejemplo 31.
De una población distribuida según una Bernoulli de parámetro p se extrae una muestra aleatoria simple de tamaño n.
Encontrar un estimador suficiente para el parámetro p.
Solución.
Para ello se considera la función de masa de probabilidad conjunta de la muestra:
p(x1 , x2 , . . . , xn , p) = Pp [X1 = x1 , X2 = x2 , . . . , Xn = xn ]
= Pp [X1 = x1 ] × Pp [X2 = x2 ] × · · · × Pp [Xn = xn ]
= px1 (1 − p)1−x1 × px2 (1 − p)1−x2 × · · · × pxn (1 − p)1−xn
n
P n
P
xi n− xi
= pi=1 (1 − p) i=1 .
Por el Teorema de Factorización de Fisher-Neyman, tomando

n
X
t = T (x) = xi , h(x) = 1 y g(t, p) = pt (1 − p)n−t ,
i=1
n
P
se obtiene que Xi es un estimador suficiente para p.
i=1
Ejemplo 32.

1
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple procedente de una distribución Γ 1, , cuya función de densidad es:
λ

 1 e− λx , si x > 0
f (x) = λ
0, si x ≤ 0
Obtener un estadístico suficiente para el parámetro λ.
33
Solución.
La función de densidad conjunta de la muestra es:
f (x1 , x2 , . . . , xn ; λ) = f (x1 ; λ) × f (x2 ; λ) × · · · × f (xn ; λ)

1 x1 1 x2 1 xn
= e− λ × e− λ × · · · × × e− λ
λ λ λ
1 − 1 (x1 +x2 +···+xn )
= ne λ
λ
n
1 − λ1 (i=1 xi )
P
= e ×1
λn
Por tanto, si hacemos:

n
X
t = T (x1 , x2 , . . . , xn ) = xi
i=1
n
1 − λ1 (i=1 xi )
P
1 t
e
entonces se tiene g (T (x1 , x2 , . . . , xn ); λ) = = n e− λ y h(x1 , x2 , . . . , xn ) = 1.
λn λ
Luego tendremos la siguiente factorización:
f (x1 , x2 , . . . , xn ; λ) = g (T (x1 , x2 , . . . , xn ); λ) × h(x1 , x2 , . . . , xn )

n
1 − λ1 (i=1 xi )
P
= e ×1
λn
1 t
= n e− λ × 1.
λ
n
P
Y podemos decir que el estadístico T = Xi es un estadístico suficiente para el parámetro λ.
i=1
Observemos que el estadístico media muestral X es también un estadístico suficiente para el parámetro λ. En efecto,
haciendo
n n
1X X
T = Xi ⇒ nT = Xi
n i=1 i=1
tendríamos la siguiente factorización:

n
1 − λ1 (i=1 xi )
P
f (x1 , x2 , . . . , xn ; λ) = e ×1
λn
1 1
= n e− λ (nt) × 1
λ
= g (T (x1 , x2 , . . . , xn ); λ) × h(x1 , x2 , . . . , xn )
Lo cual indica que pueden existir varios estadísticos suficientes para un mismo parámetro.
Otro resultado interesante que se ha puesto de manifiesto en el ejemplo anterior, lo recogemos en el siguiente Teorema,
que es una consecuencia inmediata del teorema de factorización de Fisher-Neyman.
Teorema 6.
Si el estadístico T1 es suficiente y es función con inversa única del estadístico T2 , T1 = f (T2 ), entonces el estadístico T2
es también suficiente.
Demostración.
34
Sea T1 = f (T2 ), donde f es inyectiva. Entonces existe la inversa T2 = f −1 (T1 ) con lo cual, por ser T1 , suficiente, tenemos
según la expresión (22) que:
f (x1 , x2 , . . . , xn ; θ) = g (T1 (x1 , x2 , . . . , xn ); θ) × h(x1 , x2 , . . . , xn )
= g (f (T2 )(x1 , x2 , . . . , xn ); θ) × h(x1 , x2 , . . . , xn )
= g ? (T2 (x1 , x2 , . . . , xn ); θ) × h(x1 , x2 , . . . , xn ),
lo cual demuestra que el estadístico T2 también es suficiente.
Intuitivamente también se puede entender, pues si el estadístico T1 puede calcularse a partir del estadístico T2 , entonces
el conocimiento de T1 , debe de ser al menos tan bueno como el de T1 .
Esto es equivalente a decir: que si un estadístico no es suficiente ninguna reducción suya puede ser suficiente.
El recíproco del teorema (6), que no demostraremos, también se verifica y lo podemos enumerar mediante el siguiente
teorema.
Teorema 7.
Si los estadísticos T1 y T2 son suficientes para el parámetro θ, entonces T1 y T2 están relacionados funcionalmente.
Cuando la distribución de la población depende de dos parámetros, como es el caso de la distribución normal, es
interesante determinar dos estadísticos que sean conjuntamente suficientes para los dos parámetros. En estas situaciones
el teorema de factorización se puede enunciar de la siguiente forma.
Teorema 8.
Los estadísticos T1 = T1 (X1 , X2 , . . . , Xn ) y T2 = T2 (X1 , X2 , . . . , Xn ) son conjuntamente suficientes para los parámetros
θ1 y θ2 si y solamente si la función de masa de probabilidad o la función de densidad de probabilidad de la muestra se
puede descomponer factorialmente de la siguiente forma:
f (x1 , x2 , . . . , xn ; θ1 , θ2 ) = g (T1 (x1 , x2 , . . . , xn ), T2 (x1 , x2 , . . . , xn ); θ1 , θ2 ) × h(x1 , x2 , . . . , xn ) (23)
Ejemplo 33.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de una población N (µ, σ 2 ). Obtener dos estadísticos que sean conjunta-
mente suficientes para los parámetros poblacionales µ y σ 2 .
Solución.
La función de verosimilitud de la muestra será:

n
Y 1 (x1 −µ)2 1 (xn −µ)2
L(µ, σ 2 ) = f (xi ; µ, σ 2 ) = √ e− 2σ2 · · · √ e− 2σ2
i=1
σ 2π σ 2π
n
(x −µ)2
P
i
1 i=1
= √ n e− 2σ2
σ 2π
n
− 2σ12 (xi −µ)2
P
n
2 −2
= 2πσ e i=1
n n

− 2σ12 x2i −2µ xi +nµ2
P P
n
2 −2
= 2πσ e i=1 i=1 .
Podemos distinguir los siguientes tres casos:
1. Si µ es conocido, tomemos en la tercera igualdad

n
− 2σ12 (xi −µ)2
P
−n 2 2 −n
h(x1 , x2 , . . . , xn ) = (2π) 2 , g(T ; σ ) = (σ ) 2 e i=1 .
n
(Xi − µ)2 es suficiente para σ 2 .
P
Entonces
i=1
35
2. Si σ 2 es conocido, tomemos en la cuarta igualdad
n
n

− 2σ12 x2i − 2σ12 xi +nµ2
P P
−2µ
−n
h(x1 , x2 , . . . , xn ) = (2π) 2 e i=1 , g(T ; µ) = e i=1 .
n
P
Entonces Xi es suficiente para µ.
i=1
3. Si ambos son desconocidos, entones tenemos en la cuarta igualdad

n n

− 2σ12 x2i −2µ xi +nµ2
P P
−n 2
h(x1 , x2 , . . . , xn ) = (2π) 2 , g(T ; µ, σ ) = e i=1 i=1 .
n n

Xi2 es suficiente para µ, σ 2 .
P P
Entonces T = Xi ,
i=1 i=1
Siguiendo la notación utilizada en la expresión (23), tenemos que:

n
X n
X
T1 = Xi y T2 = Xi2
i=1 i=1
son conjuntamente suficientes para los parámetros µ y σ 2 .
Estadístico mínimal suficiente

Definición 12 (Estadístico mínimal suficiente).
Diremos que un estadístico es mínimal suficiente, si es suficiente y cualquier reducción de la información definida por él
ya no es suficiente, es decir, desprecia información que está contenida en la muestra, acerca del parámetro θ.
Método de Lehmann y Scheffé para obtener un estadístico mínimal suficiente
Este método parte de la existencia de dos muestras aleatorias simples del mismo tamaño:
X1 , X2 , . . . , Xn y Y1 , Y2 , . . . , Yn
cuyas respectivas funciones de masa de probabilidad o de densidad conjunta de las muestras son:
n
Y
f (x1 , x2 , . . . , xn ; θ) = f (xi ; θ)
i=1
n
Y
f (y1 , y2 , . . . , yn ; θ) = f (yi ; θ)
i=1
Se obtiene el cociente de funciones de probabilidad o de densidad conjunta de las muestras:

f (x1 , x2 , . . . , xn ; θ)
f (y1 , y2 , . . . , yn ; θ)
y si podemos encontrar una función g(x1 , x2 , . . . , xn ) tal que la razón de funciones de probabilidad o de densidad conjunta
no dependa de θ si y solamente si
g(x1 , x2 , . . . , xn ) = g(y1 , y2 , . . . , yn )
entonces decimos que g(x1 , x2 , . . . , xn ) será el estadístico mínimal suficiente para el parámetro θ.
Si en lugar de existir un solo parámetro θ, existieran k parámetros, entonces tendríamos que obtener k funciones
g1 (x1 , x2 , . . . , xn ), g2 (x1 , x2 , . . . , xn ), . . . , gk (x1 , x2 , . . . , xn )
36
tales que el cociente de funciones de probabilidad no depende de θ1 , θ2 , . . . , θk , si y solamente si
gi (x1 , x2 , . . . , xn ) = gi (y1 , y2 , . . . , yn ) para i = 1, 2, . . . , k
y entonces decimos que

gi (x1 , x2 , . . . , xn ), para i = 1, 2, . . . , k
serán los estadísticos conjuntamente mínimal suficientes para los parámetros θ1 , θ2 , . . . , θk .
Ejemplo 34.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple procedente de una población binomial, B(1, p). Obtener, si existe, un
estadístico mínimal suficiente para el parámetro p.
Solución.
En un ejemplo anterior ya se había obtenido un estadístico suficiente para el parámetro p, y veíamos que, efectivamente,
n
P
el estadístico T = Xi era suficiente para p.
i=1
Ahora vamos a tratar de obtener un estadístico mínimal suficiente, para ello consideramos dos muestras de tamaño n.
X1 , X2 , . . . , Xn y Y1 , Y2 , . . . , Yn
y obtenemos el cociente de funciones de probabilidad conjunta de las muestras:

p(x1 , x2 , . . . , xn ; p) px1 (1 − p)1−x1 · px2 (1 − p)1−x2 . . . pxn (1 − p)1−xn
= y1
p(y1 , y2 , . . . , yn ; p) p (1 − p)1−y1 · py2 (1 − p)1−y2 . . . pyn (1 − p)1−yn
n
P n
P
xi n− xi
p i=1 (1 − p) i=1
= n
P n
P
yi n− xi
p i=1 (1 − p) i=1
n n
P xi −
P
yi
p i=1 i=1
=
1−p
n
P n
P
que como vemos depende del parámetro, y únicamente no dependerá del parámetro p si y sólo si xi = yi .
i=1 i=1
Ejemplo 35.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple procedente de una distribución N (µ, 1). Obtener un estimador minimal
suficiente del parámetro µ.
Pn
Resultando que efectivamente el estadístico Xi , será minimal suficiente para el parámetro µ.
i=1
Solución.
Consideramos dos muestras de tamaño n.
X1 , X2 , . . . , Xn y Y1 , Y2 , . . . , Yn
y obtenemos el cociente de funciones de densidad conjunta de las muestras:

(x −µ)2 (xn −µ)2
− 12
f (x1 , x2 , . . . , xn ; µ) √1
2π
e . . . √1
2π
e− 2
= (y −µ)2 (y −µ)2
f (y1 , y2 , . . . , yn ; µ) √1
1
e− 2 . . . √1 e− 2
n
2π 2π
n n

2
− 21 (yi −µ)2
P P
(xi −µ) −
=e i=1 i=1
n n
n n

− 12 x2i − yi2 +µ
P P P P
xi − yi
=e i=1 i=1 i=1 i=1
37
n
P n
P
Esta función no dependerá de µ si y solamente si xi = yi .
i=1 i=1
n
P n
P
Por tanto, el estadístico Xi es minimal suficiente. Y puesto que X es una función inyectiva de Xi , resulta que
i=1 i=1
X es también un estadístico mínimal suficiente.
Ejemplo 36.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple procedente de una población cuya función de densidad es:
1 (x−µ)2
f (x; µ, σ 2 ) = √ e− 2σ2 .
σ 2π
Obtener dos estadísticos para los parámetros µ y σ 2 que sean conjuntamente mínimal suficientes.
Solución.
En el ejemplo (33) ya habíamos obtenido dos estadísticos conjuntamente suficientes para los parámetros µ y σ 2 . Veamos
ahora si existen dos estadísticos que sean conjuntamente mínimal suficientes.
Consideramos dos muestras de tamaño n
X1 , X2 , . . . , Xn y Y1 , Y2 , . . . , Yn
y obtenemos el cociente de funciones de densidad conjunta de las muestras:

(x1 −µ)2 (xn −µ)2

2
f (x1 , x2 , . . . , xn ; µ, σ ) √1
σ 2π
e− 2σ 2 ... √1
σ 2π
e− 2σ 2
= (y1 −µ)2 (yn −µ)2

f (y1 , y2 , . . . , yn ; µ, σ 2 )

√1
σ 2π
e− 2σ 2 ... √1
σ 2π
e− 2σ 2
n
n P (xi −µ)2
− 2σ 2
√1 e i=1
σ 2π
= n
(yi −µ)2
n − P
2σ 2
√1 e i=1
σ 2π
n n

− 2σ12 (xi −µ)2 − (yi −µ)2
P P
=e i=1 i=1
n n
µ P
n n

− 2σ12 x2i − yi2 +
P P P
xi − yi
2
σ i=1
=e i=1 i=1 i=1
que como vemos depende de los parámetros µ y σ 2 , únicamente no dependerá de estos parámetros µ y σ 2 si y sólo si:
n
X n
X n
X n
X
x2i = yi2 y xi = yi
i=1 i=1 i=1 i=1
Resultando que los estadísticos

n
X n
X
Xi y Xi2
i=1 i=1
que ya habíamos visto que eran conjuntamente suficientes, resultan ser conjuntamente minimal suficientes para los pará-
metros µ y σ 2 .
Relación entre el estimador eficiente y suficiente
Si un estimador θb es eficiente ha de verificarse por el teorema (2) que:
∂ log dFn (x1 , x2 , . . . , xn ; θ)

= A(θ)(θb − θ)
∂θ
38
∂ log g(θ;
b θ)
o bien, sustituyendo A(θ)(θb − θ) por , tendremos
∂θ
∂ log dFn (x1 , x2 , . . . , xn ; θ) ∂ log g(θ;

b θ)
=
∂θ ∂θ
integrando respecto de θ, y expresando la constante de integración como log h(x1 , x2 , . . . , xn ) resulta:
log dFn (x1 , x2 , . . . , xn ; θ) = log g(θ;

b θ) + log h(x1 , x2 , . . . , xn )
de donde:
b θ) × h(x1 , x2 , . . . , xn )
dFn (x1 , x2 , . . . , xn ; θ) = g(θ;
que por el Teorema de factorización de Fisher-Neyman resulta que el estimador θb es suficiente.
Luego si el estimador θb es eficiente, también es suficiente.
Ejemplo 37.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple procedente de una población con distribución de Poisson de parámetro
λ > 0, donde el parámetro λ se estima a partir de la media X de la muestra aleatoria simple del tamaño n. Obtener:
a) Un estimador eficiente.
b) Un estimador suficiente.
Solución.
a) La función de masa de probabilidad de Poisson viene dada por:

x

 −λ λ
e , si x = 0, 1, 2, . . .
p(x; λ) = x!
0, e.o.c.
Por definición para que un estimador λ

b sea eficiente se tiene que verificar que la varianza del estimador coincida con
la cota de Frechet-Cramer-Rao.
1
V ar(λ)
b = " 2 # .
∂ log p(x; λ)
nE
∂λ
Aplicando esta expresión a la distribución de Poisson, resulta:
log p(x; λ) = x log λ − log(x!) − λ
∂ log p(x; λ) x x−λ

= −1=
∂λ λ λ
" 2 # " 2 #
∂ log p(x; λ) x−λ 1 h 2
i
E =E = E (x − λ)
∂λ λ λ2
1 1 1
= V ar(X) = 2 (λ) =
λ2 λ λ
pues en la distribución de Poisson sabemos que
E[X] = λ y V ar[X] = λ.
39
Pero sabemos que en la distribución de Poisson el parámetro λ se estima mediante la media X de una muestra
aleatoria simple; siendo la media muestral X un estimador insesgado del parámetro λ.
E[X] = λ
Y como
λ
V ar[X] =
n
Sustituyendo en la expresión de la Cota de Frechet-Cramer-Rao, resulta:
1 λ
" 2 # = n
∂ log p(x; λ)
nE
∂λ
y como

X1 + · · · + Xn
b = V ar[X] = V ar
V ar[λ]
n
1 1 λ
= 2 V ar (X1 + · · · + Xn ) = 2 (nλ) =
n n n
resulta que la V ar[λ]

b coincide con la cota de Frechet-Cramer-Rao.
Luego la media muestral X es un estimador eficiente del parámetro λ de Poisson.
b) Obtengamos ahora un estimador suficiente para el parámetro λ. Aplicando el Teorema de factorización de
Fisher-Neyman, tendremos que probar:
pλ (x1 , x2 , . . . , xn ) = g(T (x1 , x2 , . . . , xn ); λ) × h(x1 , x2 , . . . , xn )
La función de masa de probabilidad conjunta de la muestra será:
pλ (x1 , x2 , . . . , xn ) = p(x1 , x2 , . . . , xn ; λ)
De modo que, (
p(x1 ; λ) · p(x2 ; λ) . . . p(xn ; λ), si x = 0, 1, 2, . . .
p(x1 , x2 , . . . , xn ; λ) =
0, e.o.c.
 x x x
e−λ λ 1 · e−λ λ 2 . . . e−λ λ n , si x = 0, 1, 2, . . .
p(x1 , x2 , . . . , xn ; λ) = x1 ! x2 ! xn !
0, e.o.c.
Por lo tanto,  n
P
 xi
λ

 i=1
e−nλ

, si x = 0, 1, 2, . . .
n
p(x1 , x2 , . . . , xn ; λ) = Q
x !
 i


 i=1
0, e.o.c.

Así las cosas,

n
 P

−nλ i=1
xi 1
e λ · Q , si x = 0, 1, 2, . . .


n
p(x1 , x2 , . . . , xn ; λ) = xi !


 i=1
0, e.o.c.

Luego, !
n
X
pλ (x1 , x2 , . . . , xn ) = g xi ; λ × h(x1 , x2 , . . . , xn )
i=1
40
n
P n
P
y el estadístico Xi es un estimador suficiente para el parámetro λ. Pero como el estadístico Xi es función
i=1 i=1
n
P n
P
biyectiva del estadístico X, pues Xi = nX, y Xi es suficiente, entonces por el teorema (6) resulta que el estadístico
i=1 i=1
X también es suficiente para el parámetro λ.
Luego el estadístico media muestral es un estimador suficiente y eficiente del parámetro λ.
El papel de la suficiencia en la obtención de estimadores de mínima varianza
La suficiencia juega un papel importante en la obtención de estimadores insesgados uniformemente de mínima varianza
(U M V U E). Si existe un estimador U M V U E éste será preferible a cualquier otro estimador insesgado de θ, ya que sus
valores presentan menos varianza que la de cualquier otro estimador insesgado; como se pone de manifiesto a continuación.
Teorema 9 (Teorema de Rao-Blackwell).
Sea una población con función de densidad o de masa de probabilidad representada por f (x; θ) y sea θb un estimador
insesgado para el parámetro θ y T un estadístico suficiente del mismo parámetro θ. Entonces si hacemos:
g(T ) = E[θ|T
b ]
se verifica:
1. g(T ) es un estadístico y es función del estadístico suficiente.

2. E[g(T )] = θ.
3. V ar[g(T )] ≤ V ar[θ].
b
Es decir, el estadístico g(T ) es función del estadístico suficiente, es un estimador insesgado de θ y su varianza es menor
que la del estimador insesgado.
Demostración.
1. Si tenemos un estadístico suficiente T para un parámetro θ y θb es otro estimador, entonces la función g(T ) = E[θ|T
b ]
es una función de T que no depende de θ porque T es suficiente.
Como T es suficiente, la distribución condicional de X1 , X2 , . . . , Xn dado T = t no depende del parámetro θ y por
tanto, θb no depende de θ. Así g(T ) = E[θ|T
b ] no depende de θ.
Esto prueba que g(T ) es un estadístico y es función del estadístico suficiente.
2. Aplicando una propiedad del valor esperado condicional se tiene que
h i
E[g(T )] = E E[θ|T
b ] = E[θ] b = θ.
3. Teniendo en cuenta las siguientes expresiones de las varianzas de θb y g(T )

2 h i
b = E[θb2 ] − E[θ]
V ar[θ] b = E E[θb2 |T ] − θ2
h i
2
V ar[g(T )] = E[g 2 (T )] − (E[g(T )]) = E E 2 [θ|T
b ] − θ2
La diferencia de las varianzas es

h i h i h i h i
b − V ar[g(T )] = E E[θb2 |T ] − E E 2 [θ|T
V ar[θ] b ] = E E[θb2 |T ] − E 2 [θ|T b ] ≥0
b ] = E V ar[θ|T
y en consecuencia V ar[g(T )] ≤ V ar[θ].

b
b ⇔ V ar[θ|T
Si las varianzas fueran iguales se tiene V ar[g(T )] = V ar[θ] b ] = 0 en casi todas partes, con lo cual el
estadístico θ/T
b es casi seguro igual a una constante. En consecuencia θb = E[θ|T
b ] en casi todas partes.
41
Este teorema nos indica que dado un estimador insesgado y un estadístico suficiente, este estadístico suficiente lo
podemos utilizar para encontrar otro estimador g(T ) insesgado y de menor varianza que el primero. Ahora bien, notemos
que aunque g(T ) tiene menor varianza no podemos asegurar que alcanza la cota de Frechet-Cramer-Rao, esto es, no se
puede asegurar que el estimador g(T ) sea de mínima varianza, es decir, U M V U E. Para ello recurrimos al teorema de
Lehmann-Scheffé que veremos posteriormente.
Una buena pregunta es, por qué en el Teorema de Rao Blackwell el nuevo estimador g(T ) = E[θ|T b ], se necesita que T
sea suficiente. La respuesta es porque si T no es suficiente, g(T ) no sería un estadístico, en otras palabras dependería del
parámetro.
Ejemplo 38.
Sea X1 , X2 una muestra aleatoria simple de tamaño n = 2 de una población N (θ, 1).
X1 + X2
Entonces θb = es un estimador insesgado para θ.
2
Sea T = X1 . Entonces T es un estimador, pero no es suficiente para θ.
Luego,

X1 + X2 1 1 1 1 1 1
g(T ) = E[θ|T ] = E
b |X1 = E [X1 |x1 ] + E [X2 |X1 ] = X1 + E[X2 ] = X1 + θ,
2 2 2 2 2 2 2
esto no es un estadístico.
Esto paso porque T no fue un estadístico suficiente.
Corolario 1.
Si existe un estimador θb U M V U E, entonces debe ser función del estadístico mínimal suficiente para el parámetro θ, el
cual es U M V U E.
Ejemplo 39.
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple procedente de una población con población Ber(p). Encontrar el U M V U E
usando el teorema de Rao Blackwell.
Solución.
Primero veamos que pb = X1 es un estimador insesgado para p. En efecto: E[b

p] = E[X1 ] = p.
n
P
Además, sabemos que el estadístico T = Xi es suficiente para p. Entonces
i=1
" n
#
X
p|T = t] = E X1 |
g(T ) = E[b Xi = t
i=1
n
! n
!
X X
=0×P X1 = 0| Xi = t +1×P X1 = 1| Xi = t
i=1 i=1
n
P
n
! Xi
X i=1 t
=1×P X1 = 1| Xi = t = = .
i=1
n n
42
Puesto que
n
n

P P
n
X
! P X1 = 0, Xi = t P X1 = 0, Xi = t
P X1 = 0| Xi = t = n i=1 = n i=2
P P
i=1 P Xi = t P Xi = t
i=1 i=1
n
P
P (X1 = 0) × P Xi = t
(1 − θ) × n−1
t
i=2 t θ (1 − θ)n−1−t
= n = n t

n−t
t θ (1 − θ)
P
P Xi = t
i=1
n−1

n −t t
= nt = =1− .
t
n n
n

P t
Por lo tanto, la probabilidad del complemento es P X1 = 1| Xi = t = .
i=1 n
n
P
Xi
i=1
Note que el estadístico g(T ) = es insesgado para p y tiene menor varianza que pb.
n
Ejercicios
1. Obtenga un estimador, por el método de los momen- 5. Sea X una variable una variable aleatoria que tiene
tos, para el parámetro a de la distribución que tiene por función de densidad
por función de densidad (
2θ−2 (1 − x), si 0 < x < 1
 f (x; θ) =
 2(a − x) 0, en otro caso.
, si 0 < x < a
f (x; a) = a2
0, en otro caso.
Encuentre un estimador de máxima verosimilitud para
el parámetro θ.
2. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de
una población con función de densidad: 6. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de
una población con función de densidad:

 1 , si 0 < x < θ, (θ > 0) 
 1 , si − θ < x < θ, (θ > 0)
f (x; θ) = θ
0, en otro caso. f (x; θ) = 2θ
0, en otro caso.
Encontrar el estimador de θ por el método de los mo- Encontrar el estimador de θ utilizando:

mentos.
a) El método de los momentos.
3. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple ob- b) El método de máxima verosimilitud.
tenida de una distribución binomial de parámetros k
y p, desconocidos. Determinar los estimadores de k y 7. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de
p por el método de los momentos. Si una muestra de una población con función de densidad:
tamaño 3 ha producido los resultados x1 = 6, x2 = 8  α
y x3 = 4, hallar las estimaciones máximo verosímiles  α2
, si x ≥ 2
de k y p. f (x; α) = xα+1
0, si x < 2
4. A partir de una muestra aleatoria simple, de tamaño n,
con α > 0.
de una distribución uniforme en el intervalo (a, a + b),
determinar los estimadores de a y b a) Encontrar el estimador de máxima verosimilitud
de α.
a) por el método de los momentos.
b) Encontrar el estimador de α por el método de los
b) por el método de máxima verosimilitud. momentos.
43
8. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de 13. Disponemos de una variable aleatoria de una pobla-
una población X con función de densidad: ción con función de densidad

(x 2 θ
exp −x , si x > 0, (θ > 0) , si x ≥ θ (θ > 0)
f (x; θ) = θ 2 2θ 2 f (x; θ) = x2
0, en otro caso.
0, en otro caso.
Hallar el estimador de máxima verosimilitud de θ. Calcular los estimadores de máxima verosimilitud de

1
θ y de .
9. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de θ
una población X con función de densidad: 14. Obtenga un estimador por el método de los momentos
( para el parámetro a en una distribución Pareto, cuya
θx−θ−1 , si x > 1, (θ > 0) función de densidad viene dada por
f (x; θ) =
0, en otro caso.  a
 ax0
, si x > x0
f (x; a) = xa+1
a) Hallar el estimador de máxima verosimilitud de 0, en otro caso.
θ.
b) Hallar el estimador de θ por el método de los mo- 15. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple pro-
mentos. cedente de una población uniforme, U [θ − 1, θ + θ].
Obtener un estimador máximo verosímil del paráme-
10. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de tro θ.
una población X con función de densidad:
16. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple pro-
θ cedente de una población uniforme, U [θ, 2θ]. Obtener

 , si x > 0 un estimador máximo verosímil del parámetro θ.
f (x; θ) = (1 + x)1+θ
0, en otro caso.

17. Se obtiene una muestra aleatoria X1 , X2 , . . . , Xn de
una población con función de densidad
a) Determinar el estimador de θ por el método de (
los momentos, suponiendo que θ > 1. θxθ−1 , si 0 < x < 1
f (x; θ) =
b) Determinar el estimador de máxima verosimili- 0, e. o. c.
tud de θ.
con θ > 0.
11. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de Para estimar θ, calcúlese:
una población X con función de densidad:
( a) un estadístico suficiente;
e−x+θ , si x > θ, (θ ∈ R) b) el estimador de máxima verosimilitud;
f (x; θ) =
0, en otro caso. c) el estimador por el método de los momentos.
a) Hallar el estimador por el método de los momen- 18. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de
tos de θ. tamaño n extraída de una población con distribución
N (µ, σ 2 ).
b) Estudiar si el estimador encontrado en el aparta-
do anterior es insesgado. a) Hallar los estimadores de máxima verosimilitud
para los parámetros µ y σ 2 .
12. La distancia X entre un árbol cualquiera y el árbol b) ¿Es X un estimador eficiente para el parámetro
más próximo a él en un bosque sigue una distribución µ?
de Rayleigh con función de densidad
c) Encontrar un estimador insesgado para µ2 + σ 2
(
2θx exp(−θx2 ), si x > 0, (θ > 0) d ) Encontrar un estimador suficiente para σ 2 cuan-
f (x; θ) = do µ = 0.
0, en otro caso.
e) Demostrar que la varianza muestral S 2 no es un
a) Obtener el estimadores de máxima verosimilitud estimador eficiente para el parámetro σ 2 .
de θ. ¿Es el estadístico suficiente?
19. Si X1 , y X2 son variables aleatorias independien-
b) Obtener el estimador de θ por el método de los tes con: E(X1 ) = 4, E(X2 ) = 2, V ar(X1 ) = 8 y
momentos. V ar(X2 ) = 4. Siendo θb1 = 2X1 −3X2 y θb2 = 3X2 −X1
c) Comprobar la eficiencia asintótica de ambos esti- dos estimadores de θ, ¿cuál de los estimadores es más
madores. eficiente?
44
20. Suponga que tiene una muestra de tamaño n de una a) Encuentre la media y la varianza de la función de
población X con E(X) = µ y V ar(X) = σ 2 . Sean densidad.
n−2 n
P
Xi
P
Xi Se definen los siguientes estimadores para la me-
dia de la distribución:
X 1 = i=1 y X 2 = i=1 dos estimadores de µ,
n−2 n X1 + X2 + X3
¿cuál es el mejor estimador de µ? µ
b1 =
3
21. Sea X1 , X2 , . . . , X10 una muestra aleatoria de una po- X1 X2 2X3
µ
b2 = + +
blación con media µ y varianza σ 2 . Considere los si- 6 6 3
guientes estimadores de µ: X1 X2 X3
µ
b3 = + +
3 6 6
X1 + X2 + . . . + X10 b X1 + 3X5 − X10
θb1 = ; θ2 = b) Obtenga el valor esperado de los estimadores.
10 3
c) ¿Cuáles de estos estimadores son insesgados?
a) ¿Son estimadores insesgados?
d ) Determine la varianza de cada estimador.
b) ¿Cuál es mejor estimador de µ?
e) ¿Cuál de estos es el mejor estimador?
22. Sean θb1 y θb2 dos estimadores de θ con E(θb1 ) = θ, 26. Sea X1 , X2 , X3 una muestra aleatoria simple proce-
θ dente de una población que se distribuye normalmen-
E(θb2 ) = , V ar(θb1 ) = 8, V ar(θb2 ) = 2. ¿Cuál es mejor
3 X1 + 2X2 + 3X3 X1 − 4X2
estimador de θ? ¿por qué? te. Sean µ
c1 = yµc2 = dos
6 −3
estimadores de µ.
una población X tal que E(X) = µ y V ar(X) = σ 2 . a) Demuestre que ambos son insesgados.
Se consideran los estimadores de µ de la forma µ b = b) Pruebe que µ
c1 es más eficiente que µ
c2 .
Pn
ai xi .
i=1 27. Sea X1 , X2 , X3 y X4 una muestra aleatoria simples de
una distribución exponencial con parámetro θ desco-
a) Determinar una condición sobre los ai para que nocido. Considere los siguientes estadísticos:
µ
b sea un estimador insesgado.
X1 + 2X2 + 3X3 + 4X4
b) Determinar los ai para que µ b sea insesgado y de θb1 =
5
varianza mínima.
n y
c) Encontrar el estimador µ̃ =
P
ai xi que minimiza X1 + X2 + X3 + X4
θb2 =
i=1 4
E (µ̃ − µ)2 . Comparar los sesgos y las varianzas
de los estimadores µ
b y µ̃. a) Determine si son estimadores insesgados de θ.
b) ¿Cuál es el error cuadrático medio de cada esti-
24. Se extrae X1 , X2 , X3 , X4 muestra aleatoria
simple
de mador?
1
una población X distribuida según una Exp . Da- c) ¿Cuál es el mejor estimador?
θ
dos los estadísticos 28. Con base en una muestra aleatoria simple de 100 ob-
servaciones, tomadas de una población con media µ y
1 1
θb1 = (X1 + X2 ) + (X3 + X4 ) varianza σ 2 , considere los siguientes estimadores de µ:
6 3
X1 + 2X2 + 3X3 + 4X4 100 90
θ2 =
b P
Xi
P
Xi
5 i=1 i=1
X 1 + X2 + X3 + X4 µ
b1 = µ
b2 =
θb3 = 100 90
4
a) ¿Cuál es la eficiencia relativa de µ
b2 con respecto
estudie cuáles son insesgados para θ. de µ
b1 ?
25. Se elige una muestra aleatoria independiente de 3 ob- b) ¿Cuál es la causa de dicha ineficiencia?
servaciones de una población con función de distribu- 29. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de
ción uniforme: una población con media µ y varianza σ 2 , considere
 los tres siguientes estimadores para µ:
 1 , si a < x < b
f (x) = b − a X1 + X2
0, en otro caso µ
b1 =
2
45
n−1
P b) Estudie su eficiencia.
Xi
X1 i=2 Xn
µ
b2 = + + 35. Dada una muestra aleatoria simple de tamaño n ex-
4 2(n − 2) 4
traída de una población N (µ, σ 2 ), se quiere estimar la
µ
b3 = X media µ mediante
m
a) Determine si son insesgados. X
T (X1 , X2 , . . . , Xn ) = k jXj .
b) Encuentre la varianza de cada estimador e iden- j=1
tifique cuál es el más eficiente.
a) Obtenga k para que T (X1 , X2 , . . . , Xn ) sea inses-
c) Determine la eficiencia relativa de µ
b3 con respec- gado.
to a µ
b2 y µ
b1 , respectivamente.
b) Estudie si T (X1 , X2 , . . . , Xn ) es eficiente.
30. De una población N (µ, 4) se extrae una muestra alea- c) ¿Es consistente?
toria simple Y1 , Y2 , Y3 , Y4 de tamaño n = 4. Para el
siguiente estimador de la media 36. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple ex-
traída de una población que sigue una B(1, p). Consi-
µ
b = 0,2Y1 + 0,4Y2 + cY3 + dY4 , dérense los estimadores:
T1 (X1 , X2 , . . . , Xn ) = X
calcule c y d para que µ
b sea insesgado y eficiente.
y
31. Un gerente de producción supone que el peso de un ob- n
1X 2
jeto se distribuye normalmente con varianza conocida, T2 (X1 , X2 , . . . , Xn ) = X .
pero con media µ desconocida. Se toma una mues- n i=1 i
tra aleatoria de cuatro observaciones independientes:
a) Demuestre que ambos son insesgados.
X1 , X2 , X3 , X4 . Considere los siguientes estimadores
de µ: b) Estudie cuál es más eficiente.
4X1 + 3X2 + 2X3 + X4 c) ¿Son consistentes?
µ
b2 =
10
X1 + X2 + X3 + X4 una población con una de las siguientes funciones de
µ
b3 =
4 densidad:
a) Determine cuáles estimadores son insesgados. a) f (x; θ) = θxθ−1 , 0 < x < 1, θ > 0.
b) ¿Cuál de los estimadores insesgados es el de ma- θaθ
yor eficiencia relativa? b) f (x; θ) = (θ+1) , x > a, θ > 0, a > 0.
x
c) ¿Cuál de los estimadores tiene el menor error cua- En cada caso encontrar un estadístico suficiente para
drático medio? el parámetro θ.
32. Si X1 , X2 , X3 es una muestra aleatoria simple to- 38. De una población distribuida según una exponencial
mada de una población normal con media µ y va- de función de densidad
rianza σ 2 , ¿cuál es la eficiencia del estimador µ
b =
X1 + 2X2 + X3 fα (x) = αe−xα x > 0,
en relación con X?
4
se extrae una muestra aleatoria simple de tamaño n.
33. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple pro- n
cedente de una distribución N (µ, σ 2 ). Compruébese
P
a) Demuestre que T (X) = Xi es suficiente para
1 P n i=1
que S 2 = (Xi − X)2 no alcanza la cota de α.
n − 1 i=1 n−1
Frechet-Cramér-Rao, pero la diferencia entre su va- b) Pruebe que el estimador U = es consisten-
T
rianza y dicha cota tiende hacia cero cuando n → ∞. te para α.
34. De una población con función de densidad 39. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de
 una distribución Rayleigh con función de densidad de
 1 e− xθ , si x ≥ 0 probabilidad
f (x) = θ 
0, en otro caso  2x e− xα2 , x>0
f (x) = α
0, en otro caso
se extrae una muestra aleatoria simple de tamaño n. Si
se estima el parámetro θ a través de la media muestral:
n
Xi2 es suficiente para el parámetro α.
P
a) Demuestre que es consistente. Probar que
i=1
46
n n

40. Considérese una muestra aleatoria simple de tamaño d
c) Si Xi = β(a, b), entonces
Q
Xi ,
Q
(1 − Xi )
n extraída de una población Normal de media µ y va- i=1 i=1
rianza σ 2 . es suficiente para (a, b).
n
P
a) Encuentre un estimador suficiente de σ cuando 2 Si a es conocido, entonces (1−Xi ) es suficiente
i=1
µ = 0. para b.
n
b) Busque un estimador suficiente de µ. ¿Es ese es- Si b es conocido, entonces
Q
Xi es suficiente para
timador eficiente? i=1
a.
c) Demuestre que T (X1 , X2 , . . . , Xn ) = S 2 no es un
estimador eficiente de σ 2 . 42. De una población uniforme en el intervalo (θ, 3) se to-
ma una muestra aleatoria simple de tamaño dos. En-
41. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple. Pro- contrar un estadístico minimal suficiente para el pará-
bar que: metro θ.
d 43. De una población X con función de densidad
a) Si Xi = Bi (ni , p), 1 ≤ i ≤ n, con ni conocido,
n
entonces
P
Xi es suficiente para p. x − x2
f (x; θ) = e 2θ , si x > 0,
i=1 θ
n n

d Q P se extrae una muestra aleatoria simple de tamaño n.
b) Si Xi = Γ(α, λ), entonces Xi , Xi es su- n
i=1 i=1
Xi2 es un estadístico minimal suficiente
P
ficiente para (α, λ). Probar que
i=1
n
P n
P
Si α es conocido, entonces Xi es suficiente pa- para el parámetro θ, pero Xi no es suficiente.
i=1 i=1
ra λ.
n
Q 44. Considere la distribución de Poisson con parámetro λ;
Si λ es conocido, entonces Xi es suficiente pa- donde λ > 0. Encuentre el U M V U E para el paráme-
i=1
ra α. tro λ ¿Cuál es la cota inferior para su varianza?
47

Estimación Puntual de Parámetros

Cargado por

Copyright:

Formatos disponibles

Estimación Puntual de Parámetros

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estimación Puntual de Parámetros

Cargado por

Copyright:

Formatos disponibles

FACULTAD DE CIENCIAS EXACTAS Y NATURALES

Taller de Inferencia Estadística

Método de los momentos

Si la ecuación o sistema de ecuaciones tiene alguna solución θ(X

y el momento de orden uno de la muestra es:

Luego igualando ambos momentos resulta:

Luego los dos primeros momentos de la población, respecto al origen serán:

Igualando ambos momentos tenemos el sistema:

Resolviendo el sistema para r y λ, pero utilizando previamente m1 y m2 , tenemos:

Por otro lado,

que son los estimadores de r y de λ obtenidos por el método de los momentos.

Sea una muestra aleatoria simple formada por las observaciones

1,2; 2,6; 4,4; 3,4; 0,6; 2,2

procedente de una población cuya función de densidad es:

Estimar el parámetro θ por el método de los momentos.

Por otro lado,

Método de máxima verosimilitud

A este estimador θ(X

que vendrá dado por la solución de la ecuación de verosimilitud:

este estimador θb = θ(X

Si la función de densidad o de masa de probabilidad de la población depende de k parámetros, f (x; θ1 , θ2 , . . . , θk ),

∂ log L(θ1 , θ2 , . . . , θk |x1 , x2 , . . . , xn ) n ∂ log f (x ; θ , θ , . . . , θ )

que serían los estimadores de máxima verosimilitud de los parámetros (θ1 , θ2 , . . . , θk ).

La función log(θ) es una función estrictamente monótona.

L(λ) = fX1 (x1 )fX2 (x2 ) · · · fXn (xn )

Por definición la función de verosimilitud es

L(µ; σ 2 ) = fX1 (x1 )fX2 (x2 ) · · · fXn (xn )

Nuevamente el logaritmo de esta función es más sencillo de maximizar. Tenemos que

Obtendremos el estimador de máxima verosimilitud para el parámetro p, resolviendo la ecuación:

Ahora, derivando parcialmente con respecto a p e igualando a cero, se tiene que:

De donde se obtiene que:

Fácilmente se comprueba que esta solución corresponde a un máximo relativo.

Sabemos que la función de masa de probabilidad es:

La función de verosimilitud es:

El log L viene dado por:

Ahora, derivando parcialmente con respecto a p e igualando a cero, se obtiene que:

De donde se obtiene que:

1. El estimador de máxima verosimilitud de σ 2 .

1. Tenemos que resolver la ecuación:

2. Con la información complementaria que tenemos, el estimador de máxima verosimilitud será:

La función de probabilidad de una distribución de Poisson de parámetro λ es:

La función de verosimilitud para la muestra de tamaño n = 8, es

Ahora, derivando parcialmente con respecto a λ e igualando a cero, se tiene que:

Luego la estimación de máxima verosimilitud es:

Como se trata de una población N (µ, σ 2 ), la función de densidad es:

La función de verosimilitud para la muestra de tamaño n es:

y sustituyendo en la segunda se tiene:

De donde se obtiene que:

La función de densidad de la distribución Γ(r, λ) es:

La función de verosimilitud viene dada por:

Tomando logaritmo en la función de verosimilitud tenemos:

y sustituyendo en la primera ecuación, se tiene:

La función de densidad de la U [0, θ] es:

Tomando logaritmo en la función de verosimilitud tenemos:

log L(θ|x1 , x2 , . . . , xn ) = −n log(θ)

Luego, el estimador máximo verosímil de θ será:

Dada una población cuya función de densidad es:

Derivando respecto de θ e igualando a cero, obtenemos:

De donde, se tiene que:

La varianza del estimador: 2