Conjugate

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 25

CAP

ITULO 3: DISTRIBUCIONES CONJUGADAS


Para leer
Lee, Captulo 3, Secciones 3.1,3.2,3.4 y 3.5.
Gelman et al, Captulo 2, Secciones 2.4 2.7.
Ejemplo 18 Supongamos que en la situaci
on
del Ejemplo 13, se usa una distribuci
on a priori
de clase Beta, por ejemplo B(, ). Entonces
la distribuci
on a posteriori ser
a
f (|x) 9(1 )31(1 )1
haciendo caso omiso de las constantes.
Entonces, f (|x) +91(1 )+31 y es
f
acil ver que la distribuci
on a posteriori es B(+
9, + 3). Se dice que la distribuci
on beta es
conjugada con la distribuci
on muestral binomial.
58

Definici
on 5 Si F es una clase de distribuciones muestrales f (x| ) y P es una clase de
distribuciones a priori p( ) para , luego P es
conjugada con F si
p( |x) P f (| ) F y p() P.
Ejemplo 19 Sea X| P(), con distribuci
on
a priori gamma G(, ).
Dados los datos x, la verosimilitud ser
a
l(|x) =

n
Y
xi e
i=1
P

xi !

i xi en

Luego la distribuci
on a posteriori es
P

f (|x)
()1e i xi en
()
P

i xi 1 e(+n)

Entonces |x G( + n
x, + n). La distribuci
on gamma es conjugada con la distribuci
on
muestral Poisson.
59

Ejemplo 20 Sea X| E(). Supongamos una


densidad a priori gamma: G(, ). Entonces,
dados los datos x = (x1, . . . , xn), tenemos
1
f (|bx)

()

n
Y

exi

i=1
Pn
+n1
(+
i=1 xi )

e
x)
+n1e(+n

que es el n
ucleo de una distribuci
on gamma:
|x G( + n, + n
x)
La distribuci
on gamma tambien es conjugada
con la distribuci
on muestral exponencial.

60

Ejemplo 21 Supongamos que tenemos datos


multinomiales
n!
x
x
P (X = x| ) =
11 k k
x1! . . . xk !
Pk
T
donde X = (X1, . . . , Xk ) y
i=1 Xi = n, y
Pk
0 < i < 1, i=1 i = 1.

Un ejemplo tpico es el resultado de n tiradas


de un dado, cuando k = 6.
Elegimos una distribuci
on a priori Dirichlet
(1 + . . . + k ) 11
1
1
k k
f ( )
(1) (k )
Observaci
on 12 La distribuci
on Dirichlet es
la versi
on multivariante de la distribuci
on beta. Si k = 2, se tiene la distribuci
on beta introducida anteriormente. Recordamos tambi
en
que la distribuci
on multinomial es la versi
on
multivariante de la binomial.
61

Entonces, la distribuci
on a posteriori dados unos datos x es
f ( |x) f ( )l( |x)

k
Y

i i

k
Y

i i

i=1
i=1
k
Y
x + 1

i i i
i=1

es decir otra distribuci


on Dirichlet con par
ametro
(1 + x1, . . . , k + xk ).
Entonces, la distribuci
on Dirichlet es conjugada con la distribuci
on muestral multinomial.

62

Ventajas de usar distribuciones conjugadas.

El proceso de aprendizaje es sencillamente


el proceso de cambiar los valores de los
par
ametros de la distribuci
on a priori.

Se pueden interpretar los valores de los


par
ametros de la distribuci
on inicial.
Ejemplo 22 Volviendo al Ejemplo 18 veamos
que dada una distribuci
on a priori B(, ),
la distribuci
on a posteriori es
B( + # cruces visto, + # caras visto)
Podemos interpretar los par
ametros a priori
+ y como el n
umero equivalente de
tiradas de la moneda y el n
umero de cruces
en estas tiradas que habramos tenido que
ver para darnos el nivel de conocimiento
representado por la distribuci
on a priori.
63

Ejemplo 23 En el Ejemplo 19, dada una distribuci


on a priori G(, ), la distribuci
on a posteriori es G( + n
x, + n). La informaci
on contenida en la distribuci
on a priori equivale a la
informaci
on en una muestra de tama
no con
media muestral /.

En muchos casos, se puede relacionar la


media a posteriori con la media a priori y
la EMV.
Ejemplo 24 Volvemos al Ejemplo 18. La
media a posteriori es
+ 12 9
( + ) +
+9
12
=
+ + 12
+ + 12
= wE[] + (1 w)
+
donde 0 < w = ++n
< 1 y = 9/12 es el
EMV de .
64

Ejemplo 25 En el Ejemplo 19, se tiene


+ n
x
+n

= w + (1 w)
x

E[|x] =

donde 0 w = +n
1.

Volviendo al Ejemplo 23, vemos que la media a posteriori es una media ponderada con
pesos proporcionales al n
umero de observaciones equivalentes en la distribuci
on a priori
y al tama
no de la muestra.
Ejemplo 26 Retomando al Ejemplo 20, se tiene:
+n
E[|x] =
+ n
x
1

= w + (1 w)

donde
0w=

1
+ n
x

1 es el EMV de .
es
la
media
a
priori
y
y

65

La familia de mixturas de distribuciones


conjugadas es tambi
en conjugada. Si se define la distribuci
on inicial como
p( ) =

k
X

wipi( )

i=1

donde pi() P son conjugadas con una


distribuci
on muestral f (x| ) en el sentido
de Definici
on 5, luego p() P.
Es posible aproximar cualquier distribuci
on
f () con una mixtura suficientemente grande
de densidades conjugadas.

66

Ejemplo 27 Volvemos a la situaci


on del Ejemplo 13. Supongamos ahora una distribuci
on a
priori que es una mixtura de tres distribuciones
beta:
f () = 0,25B(2, 1) + 0,5B(5, 5) + 0,25B(1, 2)
Ahora, la distribuci
on a posteriori es
f (|x)

l(|x)f ()

1
21 11 +
B(2, 1)

1
1
0,5
51 51 + 0,25
11 21
B(5, 5)
B(1, 2)

1
1
111 41 + 0,5
141 81 +

0,25
B(2, 1)
B(5, 5)

1
0,25
101 51
B(1, 2)

1
B(11, 4)
111 41 +

0,25
B(2, 1) B(11, 4)
B(14, 8)
1
0,5
141 81 +
B(5, 5) B(14, 8)

B(10, 5)
1
0,25
101 51
B(1, 2) B(10, 5)
= w1 B(11, 4) + w2 B(14, 8) + (1 w1 w2 )B(10, 5)

9 (1 )3 0,25

67

es decir otra mixtura de tres distribuciones beta donde


w1 =

w2 =

0,25 B(11,4)
B(2,1)
B(14,8)
B(10,5)
0,25 B(11,4)
+
0,5
+
0,25
B(2,1)
B(5,5)
B(1,2)

0,5 B(14,8)
B(5,5)
B(14,8)
B(10,5)
0,25 B(11,4)
+
0,5
+
0,25
B(2,1)
B(5,5)
B(1,2)

68

La distribuci
on conjugada no siempre es
f
acil de usar
Ejemplo 28 Supongamos que X| B(, )
donde es conocido. Entonces
f (x|)

( + )
x
()

y una distribuci
on a priori conjugada ser
a
f ()

( + )
()

!a

cuando
f (|x)

!a+n n
Y
( + )
b
xi
()
i=1

y no se puede hallar ni la constante de integraci


on ni la media sin emplear la integraci
on
num
erica.

69

Familias Exponenciales
Hay una gran relaci
on entre familias conjugadas y el concepto cl
asico de la familia exponencial.
Definici
on 6 La familia de distribuciones f (x|)
con densidades de forma


f (x| ) = C( )h(x) exp R( )T T(x)

donde C() y h() son funciones y R() y T()


son funciones vectoriales de dimensi
on k =
dim( ) se llama una familia exponencial.

= R( ) se llama el par
ametro natural de
la familia.
Si el soporte de X es independiente de se
dice que la familia es una familia exponencial
regular. Si el soporte depende de , la familia
es irregular.
70

Ejemplo 29 Distribuci
on Poisson
xe
P (X = x|) =
x!
1
= e exp (x log())
x!
El par
ametro natural es = log().
Ejemplo 30 Sea X| BI(n, ) con conocido. Luego:
P (X = x|) =
=

n
x

n
x

x(1 )nx
x

(1 )n
1

= (1 )n

n
x

exp x log
1


y la distribuci
on binomial es una familia expo .
nencial con par
ametro natural = 1

71

Ejemplo 31 X|, 2 N (, 2). Supongamos


que ambos par
ametros son desconocidos.

1
1

f (x|, 2) =
exp 2 (x )2
2
2

2


1

2
T
2
= e 2 exp R(, ) T(x)
2


donde
T
1

R(, 2) = 2 , 2
2
es el par
ametro natural y


T(x) = (x2, x)T

72

Familias no exponenciales
Aunque la mayora de las distribuciones comunes son familias exponenciales, existen algunas excepciones.
Ejemplo 32 Supongamos que X| U (0, ).
Luego la distribuci
on de X es una familia exponencial irregular porque el soporte depende
de .
Ejemplo 33 La distribuci
on de Cauchy
1
f (x|)
1 + (x )2
no es una la familia exponencial.
Ejemplo 34 La distribuci
on F de Fisher
x/21
(( + )/2) /2 /2

f (x|, ) =
(/2)(/2)
( + x)(+)/2
no es una familia exponencial.
73

Estadsticos suficientes
Pongamos que X f (| ) pertenece a una familia exponencial. Entonces, dados los datos
x, la verosimilitud ser
a
l( |x)

n
Y

C( )h(xi) exp R( )T T(xi)

i=1

C( )n exp R( )T

n
X

T(xi) ()

i=1

Luego, la verosimilitud depende de (n, el tama


no
Pn
de la muestra y)
i=1 T(xi). que es un estadstico suficiente para .
Definici
on 7 Dados los datos x, un estadstico S(x) se llama suficiente para si
l( |x) = l( |S(x))
y (si depende de los datos) se puede expresar
el soporte de como una funci
on de S(x).
74

Ejemplo 35 X| P().
Volviendo al Ejemplo 29, T (x) = x y dados
los datos x, un estadstico suficiente para
P
ser
a n
i=1 xi.
La distribuci
on no tiene que ser una familia exponencial regular para que exista un estadstico
suficiente. El contraejemplo es la distribuci
on
uniforme.
Ejemplo 36 X| U(0, ).
ax xi.
Entonces l(x|) 1n por m
m
ax xi es un estadstico suficiente para .

75

Una familia conjugada con una familia exponencial


Si f (x| ) es de una familia exponencial, con
ecuaci
on (), est
a claro que existe una familia
conjugada. La distribuci
on

f ( ) C( ) exp

R( )T

por constantes y , es conjugada, porque


dados los datos x, la distribuci
on a posteriori
es

f ( |x) C( ) exp

R( )T

donde = + n y = +

Pn
i=1 T(xi).

76

Ejemplo 37 Retomemos el Ejemplo 30. Se tiene


P (x|) = (1 )n

n
x

exp x log
1


y entonces, una distribuci


on a priori conjugada
sera



f () ((1 )n) exp log


1
(1 )n
+11(1 )n+11
B( + 1, n + 1)
y como la elecci
on de y es arbitraria, se
sabe que cualquier distribuci
on beta es conjugada a la distribuci
on muestral binomial, como
se ha visto anteriormente en el Ejemplo 18

77

Ejemplo 38 X| N (, 2) ( 2 conocido).

1
f (x|) exp 2 (x )2
 2



1 2

exp 2 exp
x
2
2

Entonces, una distribuci


on a priori conjugada
ser
a de forma






1 2
exp

f () exp 2
2
2 



2
exp 2 2
2

y completando el cuadrado, se puede ver que


la distribuci
on a priori conjugada ser
a normal

N (m, 2/)
donde m = /.
78

La distribuci
on a posteriori
Dados los datos x, la verosimilitud es

l(|x) ( 2)n/2 exp

n
X

1
2
(x

)
i
2 2 i=1

y entonces, la distribuci
on final ser
a
1 h
f (|x) exp 2 ( m)2+
2

n
X

( xi)2

i=1


1 h
exp 2 ( + n)2
2

2(m +

i=1


xi)

m + n
x
+n

2 2
+n
!
m + n
x 2
,
+n +n

exp
|x N

n
X

2 !

79

Observamos que

La media a posteriori es
E[|x] = wE[] + (1 w)

.
donde
=x
es el EMV de y w = +n

Un intervalo de credibilidad de 95 % para


es
m + n
x

1,96
+n
+n
Si y s
olo si = 0, el intervalo ser
a igual al
intervalo clasco de confianza.

x
1,96
n
En esta situaci
on la distribuci
on a priori
sera impropia
N (m, ) f () c
80

De vez en cuando, se escribe la distribuci


on a posteriori en la forma N (m, 2)
con varianza 2 = 2/. Entonces, sustituyendo se tiene

1m+ nx


1
1
n
2
2

N 1
, 2+ 2
n

+ 2
2

|x

En esta expresi
on, se ve que la media a
posteriori es una media ponderada de la
media a priori y la media muestral con pesos proporcionales a las precisiones.
La precisi
on a posteriori es la suma de la
precisi
on a priori y la precisi
on del EMV.

81

Distribuciones conjugadas y familias exponenciales irregulares


La distribuci
on muestral no tiene que pertenecer
a una familia exponencial regular para que exista una distribuci
on conjugada a priori.
Ejemplo 39 Consideramos la distribuci
on uniforme (X U(0, )).
Dados los datos x, la verosimilitud es
l(|x) = n

para > m
ax{x1, . . . , xn}.

Supongamos una distribuci


on a priori Pareto;
PA(, ). Luego
f () = 1
para > .
Entonces la distribuci
on a posteriori es
f (|x) n1
por > = m
ax{, x1, . . . , xn}.
Luego |x PA( + n, ).
82

También podría gustarte