Conjugatecosas Bayes
Conjugatecosas Bayes
Conjugatecosas Bayes
JUGADAS
Para leer
f (θ|x) ∝ f (θ)l(θ|x)
1
∝ θ α−1(1 − θ)β−1 ×
B(α, β)
12
θ 9(1 − θ)3
9
∝ θ α+9−1(1 − θ)β+3−1
θ|x ∼ B(α + 9, β + 3).
55
La distribución a posteriori es de la misma fa-
milia como la distribución a priori.
56
La idea de la distribución conjugada es que la
distribución a posteriori tiene la misma forma
algebráica como la distribución a priori.
57
Definición 3 (Bernardo y Smith 1994) La fa-
milia conjugada de densidades a priori para θ
con respeto a la verosimilitud l(θ |x) con es-
tadı́stico suficiente t = t(x) = {n, s(x)} (de
dimensión fija k, independiente de x) es
f (θ |τ = (τ0, τ1, . . . , τk ) ∈ T )
donde
T = τ : f (s = (τ1, . . . , τk )|θ , n = τ0) dθ < ∞
Θ
y
f (s = (τ1, . . . , τk )|θ , n = τ0)
f (θ |τ ) = .
Θ f (s = (τ1, . . . , τk )|θ , n = τ0) dθ
58
Ejemplo 12 Sea X|θ ∼ P(θ), una densidad
Poisson.
60
Si el soporte de X no depende de θ , la familia
se llama regular. Si el soporte de X depende
de θ , la familia es irregular.
61
Una familia conjugada con una familia ex-
ponencial regular
f (θ |x) = g(θ |τ + t)
n n
donde t(x) = n, i=1 s1(xi), . . . , i=1 sk (xi)
es el estadı́stico suficiente.
62
Igualmente, si la distribución predictiva a priori
de unos futuros datos y es
f (y) = f (y|θ )f (θ ) dθ
= f (y|θ )g(θ |τ ) dθ
= h(y|τ )
entonces la distribución predictiva a posteriori
es
f (y|x) = h(y|τ + t).
Demostración
f (θ ) = g(θ |τ )
k
∝ C(θ ) τ0
exp Ri(θ )τi
i=1
la distribución a posteriori es
k n
f (θ |x) ∝ C(θ )τ0 +n exp Ri (θ )(τi + si(xj ))
i=1 j=1
= g(θ |τ + t).
Igualmente
f (y|x) = f (y|θ )f (θ |x) dθ
= f (y|θ )g(θ |τ + t) dθ
= h(τ + t).
64
El teorema demuestra que la familia conjugada
de distribuciones está cerrada bajo muestreo
(Weatherill 1961).
65
Ejemplo 15 Sea X|θ ∼ E(θ). Entonces
f (x|θ) = θe−xθ
es una famila exponencial y una distribución a
priori conjugada para θ es
f (θ) ∝ θ τ0 exp(−βτ1)
es decir una distribución gamma G(α, β) donde
α = τ0 + 1 y β = τ1.
66
Ejemplo 16 Sea X un ensayo de Bernoulli con
parámetro θ. Luego
67
Dada una muestra de tamaño n, el estadı́sti-
n
co suficiente es t(x) = {n, i=1 xi} y luego la
distribución a posteriori es B(α∗, β ∗) donde
n
α∗ = τ1 + xi + 1
i=1
= α + # cruces
n
β ∗ = τ0 + n − τ1 − xi + 1
i=1
= β + # caras
68
Interpretación de la información propor-
cionada por una distribución a priori con-
jugada
α + nx̄
E[θ|x] =
β+n
α
= w + (1 − w)x̄
β
β
donde 0 ≤ w = β+n ≤ 1.
71
Luego se tiene el siguiente teorema.
Teorema 3
72
Demostración
eφ = θ es
τ τ + nx
E[θ|x] = 0 1 donde τ 1 = ττ1 .
τ0 + n 0
75
Inferencia para la media de una distribu-
ción normal
µ ∼ N (m, δ 2)
donde m = τ1/τ0 y δ 2 = σ 2/τ0.
76
La distribución a posteriori. Cálculo directo
mediante el teorema de Bayes.
77
Cálculo usando las propiedades de la famil-
ia exponencial.
%
Entonces, la distribución a posteriori es N m%, δ 2
donde
n
τ1 + i=1 xi
m% =
τ0 + n
2 % σ2
δ =
τ0 + n
y entonces, sustituyendo por τ0 y τ1,
τ0 = σ 2/δ 2
τ1 = mσ 2/δ 2.
78
Luego, se tiene
2% σ2
δ =
σ 2/δ 2 + n
1 n −1
= 2
+ 2
δ σ
2 2 n
mσ /δ + i=1 xi
m% = y dividiendo por σ 2
σ 2/δ 2 + n
1 m + n x̄
2 σ2
m% = δ 1 n
δ2
+ σ2
es decir el mismo resultado como anteriormente.
79
Propiedades de la distribución a posteriori
Observación 17
80
Observación 19 Si y sólo si δ12 = 0, el inter-
valo será igual al intervalo clásico de confianza.
σ
x̄ ± 1,96 √
n
En esta situación la distribución a priori es im-
propia
82
Ejemplo 22 Volviendo al Ejemplo 11, supong-
amos que la distribución a priori es una mixtura
de una distribución uniforme y una distribución
más informativa:
θ ∼ 0,25B(1, 1) + 0,75B(5, 5).
1
f (θ|x) ∝ 0,25 + 0,75 θ 5−1(1 − θ)5−1
B(5, 5)
θ 9(1 − θ)3
∝ 0,25θ 10−1(1 − θ)4−1 +
0,75 14−1
θ (1 − θ)8−1
B(5, 5)
1
∝ 0,25B(10, 4) θ 10−1(1 − θ)4−1 +
B(10, 4)
0,75B(14, 8) 1
θ 14−1(1 − θ)8−1
B(5, 5) B(14, 8)
= wB(10, 4) + (1 − w)B(14, 8)
0,25B(10,4)
donde w = .
0,25B(10,4)+ 0,75B(14,8)
B(5,5)
83
Inferencia para la distribución uniforme
La distribución a posteriori es
f (θ|x) ∝ θ −β−n−1
para θ > α∗ = máx{α, x1, . . . , xn} es decir que
θ|x ∼ PA(α∗, β + n).
84
Distribuciones conjugadas no siempre son
fáciles de utilizar
86
λ
(n−n0 )/2
−(λ+µ)t
P (N (t) = n) = e In−n0 2 λµt
µ
(n−n0 −1)/2
λ
+ In+n0 +1 2 λµt
µ
n/2 ∞
λ λ
+ 1− Ij 2 λµt
µ µ
j=n+n +1
0
88
Observación 22 También existen expresiones
explı́citas para el tiempo de espera, periodos
de ocupación etc. Ver Gross y Harris (1985).
89
Experimento y Inferencia
λ|x ∼ G(αl + nl , βl + tl )
µ|y ∼ G(αs + ns, βs + ts)
90
Estimación de la intensidad de tráfico
E[ρ|x, y] = E [λ/µ|x, y]
= E[λ|x]E [1/µ|y]
αl + nl βs + ts
=
βl + tl αs + ns − 1
92
α∗l Γ(α∗l + n)
P (N = n|·) = ×
Γ(α∗l + n + 2)
∗ ∗ ∗ ∗ βl∗
2 F1 αl + αs , αl + n; αl + n + 2; − β ∗
s
∗ ∗ ∗ ∗ βl∗
2 F1 αl + αs , αl ; αl + 1; − β ∗
s
93
Resultados explı́citos cuando αs es un número
entero
r
λ
E [ρr |x, y, ρ < 1] = E |x, y, λ < µ
µ
∞ ∞ r
1 λ
= f (λ|x)f (µ|y) dµ dλ
p 0 µ
∞ λ ∞
1
= λr f (λ|x) µ−r f (µ|y) dµ dλ
p 0
∞ λ
1 Γ(α∗s − r) ∗ r
= λ f (λ|x)
r
(βs )
p 0 Γ(α∗s )
∞
g(µ|α∗s − r, βs∗) dµ dλ
λ
94
donde g(µ|α∗s − r, βs∗) representa una función de
densidad gamma (Erlang) con parámetros α∗s −
r y βs∗.
Luego λ∞ g(µ|α∗s − r, βs∗) dµ es la probabilidad
de que el suceso número α∗s − r ocurra después
de un tiempo λ. Esto es igual a decir que el
número de sucesos en [0, λ) es menor de α∗s − r
y luego
∞ α∗s −r−1
(βs∗λ)j −βs∗λ
g(µ|α∗s − r, βs∗) dµ = e .
λ j=0 j!
95
Entonces,
∞
1 Γ(α∗s − r) ∗ r
E [ρ |x, y, ρ < 1] =
r
λ f (λ|x)
r
(βs )
p 0 Γ(α∗s )
α −r−1
∗
(βs∗λ)j −βs∗ λ
s
e dλ
j=0
j!
1 Γ(α∗s − r) ∗ r
= (βs )
p Γ(α∗s )
α∗s −r−1 ∗ j ∞
βs
λr e−βs λ f (λ|x) dλ
∗
j=0
j! 0
α∗s −r−1
1 Γ(α∗s − r) ∗ r βs∗j
= (βs )
p Γ(α∗s ) j=0
j!
∗
Γ(α∗l + j) βl∗αl
Γ(α∗l ) (βl∗ + βs∗)αl +j
∗
1 Γ(α∗s − r) ∗ r
= ∗
(βs ) P (T ≤ α∗s − r − 1)
p Γ(αs )
∗
βl
donde T ∼ BN α∗l , ∗
βl +βs∗
.
97
Algoritmo
1. Para i = 1, . . . , S
a) Generar λi ∼ G(αl + nl , βl + tl )
λi
c) Definir ρi = µ .
i
2.
1 S
P (N (t) = n|data) ≈ P (N (t) = n|λi, µi)
S i=1
98
Estimación de los momentos
0.6
0.5
0.4
f
0.3
0.2
0.1
0
0 1 2 3 4 5 6
x
a
100
(Los servicios no se ajustan tan bien pero ...)
0.3
0.25
0.2
P(N=n|data)
0.15
0.1
0.05
0
0 2 4 6 8 10 12 14 16 18 20
n
102
1
0.9
0.8
0.7
0.6
FW(w|data)
0.5
0.4
0.3
0.2
0.1
0
0 2 4 6 8 10 12 14 16 18 20
w
103
0.7
0.6 t=1
t=10
t=50
0.5
0.4
P(N(t)|data)
0.3
0.2
0.1
0
0 2 4 6 8 10 12 14 16 18 20
N(t)
Se ve la convergencia a la distribución de N .
104
Aplicación 2: Comprobación de software
con múltiples usuarios
105
A lo largo del tiempo, la fiabilidad del soft-
ware se mejora y se lanza el producto al mer-
cado cuando sea suficientemente fiable. Ver,
por ejemplo Singpurwalla y Wilson (1999).
106
Un modelo para comprobación beta
Sj |λj ∼ E(λj )
independientemente de los otros errores.
107
Si Z es un indicador de la causa de un fallo,
entonces
λj
P (Z = j|N, λ) = para j = 1, . . . , N
λ0
Z y T son independientes.
Los usuarios
108
Función de verosimilitud e inferencia
La verosimilitud es:
K
r−r0 r0 r
l(N, λ, p|data) = p (1 − p) λkk
k=0
exp (−M0T0λ0) para N ≥ K,
donde se han identificado K errores y rk fallos
debidos a estos errores, para k = 1, . . . , K.
109
Distribuciones a priori
110
Distribuciones a priori de N y ρ
1. Modelo fijo (F )
ρj = 1/N para j = 1, . . . , N .
Se supone que todos los errores tienen la
misma importancia, parecido al modelo de
Jelinski y Moranda (1972).
111
Distribuciones a posteriori
1. Modelo fijo.
θN 1
P (N |F , datos) ∝
N ! N r−r0
para N = K, K + 1, . . . Es fácil estimar la
media de errores en el programa etc. trun-
cando los sumatorios.
2. Modelo Dirichlet.
112
Un segundo periodo de comprobación
113
Una función de costes
114
La función de costes es
N
Observamos que B = i=K+1 I(i) y entonces
N
C(M1, T1) = c1M1T1 + c2T1 + c4λ0 ρi
i=K+1
N
+ (c3 − c4λ0ρi)I(i)
i=K+1
Se tiene
N f
j=K+1,j = i ρj
P (descubierto|F = f ) = 1−1 − p + p N
j=K+1 ρj
Además
N
F |N, λ0, ρ, datos ∼ P λ0M1T1 ρi
i=K+1
y, combinando estos dos resultados, se puede
hallar el coste esperado dados los parámetros
del modelo.
= c1 M1T1 + c2 T1 +
∞
a+r N −K
c4 P (N |F, datos)
b + M0T0 N
N =K+1
∞ ∞
f
f
+ (N − K)P (N |F, datos) 1−
s
N =K+1 f =1 s=0
s
B(v + r − r0 + s, w + r0 + f − s) N − K − 1
B(v + r − r0, w + r0) N −K
Γ(a + r + f ) f
pN (1 − pN )a+r
f !Γ(a + r)
a+r+f
c3 − c4 −K
N (b + M0T0 + M1T1 N N )
−K
M1 T1 N N
donde pN = N −K .
b+M0T0 +M1 T1 N
117
Ejemplo
p = 0,9.
118
Distribución a posteriori de N
Modelo
N F D H
14 1,0000 ,2836 ,8794
15 0 ,2241 ,1096
16 0 ,1676 ,0101
17 0 ,1189 ,0008
18 0 ,0804 ,0001
19 0 ,0518 ,0000
20 0 ,0320 ,0000
> 20 0 ,0416 0
E[N |datos] 14,0000 16,0256 14,1784
119
Funciones de fiabilidad esperadas
1.00
Dirichlet
Fixed
0.95 Hierarchical
0.90
P(T>t|data)
0.85
0.80
0.75
0 20 40 60 80 100
t
120
Coste esperado de más comprobación
1000
Dirichlet
Hierarchical
1 Fixed
800
Expected Cost
2
600
3
1
400
2
3
200
3
2
1
0
0 10 20 30 40
Test time
121
Extensiones
Usuarios no homogeneos.
122