Vennův diagram ukazující aditivní a subtraktivní vztahy různých informačních měr přiřazených ke korelovaným proměnným
X
{\displaystyle X}
a
Y
{\displaystyle Y}
. Plocha pokrytá některou z kružnic je sdružená entropie
H
(
X
,
Y
)
{\displaystyle \mathrm {H} (X,Y)}
. Kružnice vlevo (červená a fialová) je entropie
H
(
X
)
{\displaystyle \mathrm {H} (X)}
, přičemž červená je podmíněná entropie
H
(
X
|
Y
)
{\displaystyle \mathrm {H} (X|Y)}
. Kružnice vpravo (modrá a fialová) je
H
(
Y
)
{\displaystyle \mathrm {H} (Y)}
, přičemž modrá je
H
(
Y
|
X
)
{\displaystyle \mathrm {H} (Y|X)}
. Fialová je vzájemná informace
I
(
X
;
Y
)
{\displaystyle \operatorname {I} (X;Y)}
.
Podmíněná entropie (anglicky conditional entropy ) v teorii informace kvantifikuje množství informace potřebné pro popsání výsledku náhodného pokusu
Y
{\displaystyle Y}
, pokud je známá hodnota jiné náhodné proměnné
X
{\displaystyle X}
. Měří se stejně jako informační entropie v bitech (kterým se v této souvislosti také říká „shannons “), někdy v „přirozených jednotkách“ (natech ) nebo v desítkových číslicích (nazývaný „dits“, „bans“ nebo „hartleys “). Jednotka měření závisí na základu logaritmu použitého pro výpočet entropie.
Entropii
Y
{\displaystyle Y}
podmíněnou
X
{\displaystyle X}
zapisujeme
H
(
Y
|
X
)
{\displaystyle \mathrm {H} (Y|X)}
, kde
H
{\displaystyle \mathrm {H} }
je velké řecké písmeno Éta .
Podmíněná entropie
Y
{\displaystyle Y}
, je-li dáno
X
{\displaystyle X}
, je definována jako
H
(
Y
|
X
)
=
−
∑
x
∈
X
,
y
∈
Y
p
(
x
,
y
)
log
p
(
x
,
y
)
p
(
x
)
{\displaystyle \mathrm {H} (Y|X)\ =-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x,y)}{p(x)}}}
(1)
kde
X
{\displaystyle {\mathcal {X}}}
a
Y
{\displaystyle {\mathcal {Y}}}
označuje nosič náhodných proměnných
X
{\displaystyle X}
a
Y
{\displaystyle Y}
.
Poznámka: při výpočtech se neurčité výrazy
0
log
0
{\displaystyle 0\log 0}
a
0
log
c
/
0
{\displaystyle 0\log c/0}
pro pevné
c
>
0
{\displaystyle c>0}
považují za rovné nule, protože
lim
θ
→
0
+
θ
log
c
/
θ
=
0
{\displaystyle \lim _{\theta \to 0^{+}}\theta \,\log \,c/\theta =0}
a
lim
θ
→
0
+
θ
log
θ
=
0
{\displaystyle \lim _{\theta \to 0^{+}}\theta \,\log \theta =0}
.[ 1]
Intuitivní vysvětlení definice:
Podle definice platí, že
H
(
Y
|
X
)
=
E
(
f
(
X
,
Y
)
)
{\displaystyle \displaystyle H(Y|X)=\mathbb {E} (\ f(X,Y)\ )}
kde
f
:
(
x
,
y
)
→
−
log
(
p
(
y
|
x
)
)
.
{\displaystyle \displaystyle f:(x,y)\ \rightarrow -\log(\ p(y|x)\ ).}
f
{\displaystyle \displaystyle f}
přiřazuje dvojici
(
x
,
y
)
{\displaystyle \displaystyle (x,y)}
informační obsah
(
Y
=
y
)
{\displaystyle \displaystyle (Y=y)}
, je-li dáno
(
X
=
x
)
{\displaystyle \displaystyle (X=x)}
, což je množství informace potřebné pro popsání události
(
Y
=
y
)
{\displaystyle \displaystyle (Y=y)}
, je-li dáno
(
X
=
x
)
{\displaystyle (X=x)}
. Podle zákona velkýich čísel,
H
(
Y
|
X
)
{\displaystyle \displaystyle H(Y|X)}
je aritmetický průměr velkého počtu nezávislých realizací
f
(
X
,
Y
)
{\displaystyle \displaystyle f(X,Y)}
.
Nechť
H
(
Y
|
X
=
x
)
{\displaystyle \mathrm {H} (Y|X=x)}
je entropie diskrétní náhodné proměnné
Y
{\displaystyle Y}
podmíněná tím, že diskrétní náhodná proměnná
X
{\displaystyle X}
nabývá hodnotu
x
{\displaystyle x}
. Označme nosiče funkcí
X
{\displaystyle X}
a
Y
{\displaystyle Y}
X
{\displaystyle {\mathcal {X}}}
a
Y
{\displaystyle {\mathcal {Y}}}
. Nechť
Y
{\displaystyle Y}
má pravděpodobnostní funkci
p
Y
(
y
)
{\displaystyle p_{Y}{(y)}}
. Nepodmíněná entropie
Y
{\displaystyle Y}
se spočítá jako
H
(
Y
)
:=
E
[
I
(
Y
)
]
{\displaystyle \mathrm {H} (Y):=\mathbb {E} [\operatorname {I} (Y)]}
, tj.
H
(
Y
)
=
∑
y
∈
Y
P
r
(
Y
=
y
)
I
(
y
)
=
−
∑
y
∈
Y
p
Y
(
y
)
log
2
p
Y
(
y
)
,
{\displaystyle \mathrm {H} (Y)=\sum _{y\in {\mathcal {Y}}}{\mathrm {Pr} (Y=y)\,\mathrm {I} (y)}=-\sum _{y\in {\mathcal {Y}}}{p_{Y}(y)\log _{2}{p_{Y}(y)}},}
kde
I
(
y
i
)
{\displaystyle \operatorname {I} (y_{i})}
je informační obsah toho, že výsledek
Y
{\displaystyle Y}
má hodnotu
y
i
{\displaystyle y_{i}}
. Entropie
Y
{\displaystyle Y}
podmíněná tím, že
X
{\displaystyle X}
nabývá hodnotu
x
{\displaystyle x}
, je definována podobně podmíněné očekávání :
H
(
Y
|
X
=
x
)
=
−
∑
y
∈
Y
Pr
(
Y
=
y
|
X
=
x
)
log
2
Pr
(
Y
=
y
|
X
=
x
)
.
{\displaystyle \mathrm {H} (Y|X=x)=-\sum _{y\in {\mathcal {Y}}}{\Pr(Y=y|X=x)\log _{2}{\Pr(Y=y|X=x)}}.}
Pamatujte, že
H
(
Y
|
X
)
{\displaystyle \mathrm {H} (Y|X)}
je výsledek průměrování
H
(
Y
|
X
=
x
)
{\displaystyle \mathrm {H} (Y|X=x)}
přes všechny možné hodnoty
x
{\displaystyle x}
, kterých může nabývat
X
{\displaystyle X}
. Také pokud se výše uvedený součet bere přes vzorek
y
1
,
…
,
y
n
{\displaystyle y_{1},\dots ,y_{n}}
, očekávaná hodnota
E
X
[
H
(
y
1
,
…
,
y
n
∣
X
=
x
)
]
{\displaystyle E_{X}[\mathrm {H} (y_{1},\dots ,y_{n}\mid X=x)]}
je známa v nějakém oboru jako ekvivokace (anglicky equivocation ).[ 2]
Jsou-li dány diskrétní náhodné proměnné
X
{\displaystyle X}
s obrazem
X
{\displaystyle {\mathcal {X}}}
a
Y
{\displaystyle Y}
s obrazem
Y
{\displaystyle {\mathcal {Y}}}
, podmíněná entropie
Y
{\displaystyle Y}
, je-li dáno
X
{\displaystyle X}
se definuje jako vážený součet
H
(
Y
|
X
=
x
)
{\displaystyle \mathrm {H} (Y|X=x)}
pro každou možnou hodnotu
x
{\displaystyle x}
, s použitím
p
(
x
)
{\displaystyle p(x)}
jako váhy:[ 3] :s.15
H
(
Y
|
X
)
≡
∑
x
∈
X
p
(
x
)
H
(
Y
|
X
=
x
)
=
−
∑
x
∈
X
p
(
x
)
∑
y
∈
Y
p
(
y
|
x
)
log
p
(
y
|
x
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
log
p
(
y
|
x
)
=
−
∑
x
∈
X
,
y
∈
Y
p
(
x
,
y
)
log
p
(
y
|
x
)
=
−
∑
x
∈
X
,
y
∈
Y
p
(
x
,
y
)
log
p
(
x
,
y
)
p
(
x
)
.
=
∑
x
∈
X
,
y
∈
Y
p
(
x
,
y
)
log
p
(
x
)
p
(
x
,
y
)
.
{\displaystyle {\begin{aligned}\mathrm {H} (Y|X)\ &\equiv \sum _{x\in {\mathcal {X}}}\,p(x)\,\mathrm {H} (Y|X=x)\\&=-\sum _{x\in {\mathcal {X}}}p(x)\sum _{y\in {\mathcal {Y}}}\,p(y|x)\,\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}}}\sum _{y\in {\mathcal {Y}}}\,p(x,y)\,\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x,y)}{p(x)}}.\\&=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x)}{p(x,y)}}.\\\end{aligned}}}
H
(
Y
|
X
)
=
0
{\displaystyle \mathrm {H} (Y|X)=0}
právě tehdy, když hodnota
Y
{\displaystyle Y}
je úplně určena hodnotou
X
{\displaystyle X}
.
Naopak
H
(
Y
|
X
)
=
H
(
Y
)
{\displaystyle \mathrm {H} (Y|X)=\mathrm {H} (Y)}
právě tehdy, když
Y
{\displaystyle Y}
a
X
{\displaystyle X}
jsou nezávislé náhodné proměnné .
Předpokládejme, že kombinovaný systém určený dvěma náhodnými proměnnými
X
{\displaystyle X}
a
Y
{\displaystyle Y}
má sdruženou entropii
H
(
X
,
Y
)
{\displaystyle \mathrm {H} (X,Y)}
, tj. potřebujeme průměrně
H
(
X
,
Y
)
{\displaystyle \mathrm {H} (X,Y)}
bitů informace pro popsání jeho přesného stavu. Pokud nejdříve zjistíme hodnotu
X
{\displaystyle X}
, získali jsme
H
(
X
)
{\displaystyle \mathrm {H} (X)}
bitů informace. Pokud je
X
{\displaystyle X}
známé, potřebujeme pouze
H
(
X
,
Y
)
−
H
(
X
)
{\displaystyle \mathrm {H} (X,Y)-\mathrm {H} (X)}
bitů pro popsání stavu celého systému. Tato hodnota se přesně rovná
H
(
Y
|
X
)
{\displaystyle \mathrm {H} (Y|X)}
, kterou dává řetízkové pravidlo podmíněné entropie:
H
(
Y
|
X
)
=
H
(
X
,
Y
)
−
H
(
X
)
.
{\displaystyle \mathrm {H} (Y|X)\,=\,\mathrm {H} (X,Y)-\mathrm {H} (X).}
[ 3] :s.17
řetízkové pravidlo vyplývá z výše uvedené definice podmíněné entropie:
H
(
Y
|
X
)
=
∑
x
∈
X
,
y
∈
Y
p
(
x
,
y
)
log
(
p
(
x
)
p
(
x
,
y
)
)
=
∑
x
∈
X
,
y
∈
Y
p
(
x
,
y
)
(
log
(
p
(
x
)
)
−
log
(
p
(
x
,
y
)
)
)
=
−
∑
x
∈
X
,
y
∈
Y
p
(
x
,
y
)
log
(
p
(
x
,
y
)
)
+
∑
x
∈
X
,
y
∈
Y
p
(
x
,
y
)
log
(
p
(
x
)
)
=
H
(
X
,
Y
)
+
∑
x
∈
X
p
(
x
)
log
(
p
(
x
)
)
=
H
(
X
,
Y
)
−
H
(
X
)
.
{\displaystyle {\begin{aligned}\mathrm {H} (Y|X)&=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log \left({\frac {p(x)}{p(x,y)}}\right)\\[4pt]&=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)(\log(p(x))-\log(p(x,y)))\\[4pt]&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log(p(x,y))+\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}{p(x,y)\log(p(x))}\\[4pt]&=\mathrm {H} (X,Y)+\sum _{x\in {\mathcal {X}}}p(x)\log(p(x))\\[4pt]&=\mathrm {H} (X,Y)-\mathrm {H} (X).\end{aligned}}}
Řetízkové pravidlo platí obecně pro více náhodné proměnné:
H
(
X
1
,
X
2
,
…
,
X
n
)
=
∑
i
=
1
n
H
(
X
i
|
X
1
,
…
,
X
i
−
1
)
{\displaystyle \mathrm {H} (X_{1},X_{2},\ldots ,X_{n})=\sum _{i=1}^{n}\mathrm {H} (X_{i}|X_{1},\ldots ,X_{i-1})}
[ 3] :s.22
Tento vztah se podobá řetízkovému pravidlu z teorie pravděpodobnosti , ale místo násobení využívá sčítání.
Bayesovo pravidlo pro podmíněnou entropii říká
H
(
Y
|
X
)
=
H
(
X
|
Y
)
−
H
(
X
)
+
H
(
Y
)
.
{\displaystyle \mathrm {H} (Y|X)\,=\,\mathrm {H} (X|Y)-\mathrm {H} (X)+\mathrm {H} (Y).}
Důkaz:
H
(
Y
|
X
)
=
H
(
X
,
Y
)
−
H
(
X
)
{\displaystyle \mathrm {H} (Y|X)=\mathrm {H} (X,Y)-\mathrm {H} (X)}
a
H
(
X
|
Y
)
=
H
(
Y
,
X
)
−
H
(
Y
)
{\displaystyle \mathrm {H} (X|Y)=\mathrm {H} (Y,X)-\mathrm {H} (Y)}
. Symetrie má za následek
H
(
X
,
Y
)
=
H
(
Y
,
X
)
{\displaystyle \mathrm {H} (X,Y)=\mathrm {H} (Y,X)}
. Odečtením obou rovnic dostaneme Bayesovo pravidlo.
Pokud
Y
{\displaystyle Y}
je podmíněně nezávislé na
Z
{\displaystyle Z}
, je-li dáno
X
{\displaystyle X}
máme:
H
(
Y
|
X
,
Z
)
=
H
(
Y
|
X
)
.
{\displaystyle \mathrm {H} (Y|X,Z)\,=\,\mathrm {H} (Y|X).}
Pro jakékoli
X
{\displaystyle X}
a
Y
{\displaystyle Y}
:
H
(
Y
|
X
)
≤
H
(
Y
)
H
(
X
,
Y
)
=
H
(
X
|
Y
)
+
H
(
Y
|
X
)
+
I
(
X
;
Y
)
,
H
(
X
,
Y
)
=
H
(
X
)
+
H
(
Y
)
−
I
(
X
;
Y
)
,
I
(
X
;
Y
)
≤
H
(
X
)
,
{\displaystyle {\begin{aligned}\mathrm {H} (Y|X)&\leq \mathrm {H} (Y)\,\\\mathrm {H} (X,Y)&=\mathrm {H} (X|Y)+\mathrm {H} (Y|X)+\operatorname {I} (X;Y),\qquad \\\mathrm {H} (X,Y)&=\mathrm {H} (X)+\mathrm {H} (Y)-\operatorname {I} (X;Y),\,\\\operatorname {I} (X;Y)&\leq \mathrm {H} (X),\,\end{aligned}}}
kde
I
(
X
;
Y
)
{\displaystyle \operatorname {I} (X;Y)}
je vzájemná informace mezi
X
{\displaystyle X}
a
Y
{\displaystyle Y}
.
Pro nezávislé
X
{\displaystyle X}
a
Y
{\displaystyle Y}
:
H
(
Y
|
X
)
=
H
(
Y
)
{\displaystyle \mathrm {H} (Y|X)=\mathrm {H} (Y)}
a
H
(
X
|
Y
)
=
H
(
X
)
{\displaystyle \mathrm {H} (X|Y)=\mathrm {H} (X)\,}
Přestože určitá podmíněná entropie
H
(
X
|
Y
=
y
)
{\displaystyle \mathrm {H} (X|Y=y)}
může být menší i větší než
H
(
X
)
{\displaystyle \mathrm {H} (X)}
pro dané náhodné variace
y
{\displaystyle y}
Y
{\displaystyle Y}
,
H
(
X
|
Y
)
{\displaystyle \mathrm {H} (X|Y)}
nemůže nikdy přesáhnout
H
(
X
)
{\displaystyle \mathrm {H} (X)}
.
Výše uvedená definice platí pro diskrétní náhodné proměnné. Spojitá verze diskrétní podmíněné entropie se nazývá podmíněná diferenciální (nebo spojitá) entropie . Nechť
X
{\displaystyle X}
a
Y
{\displaystyle Y}
jsou spojité náhodné proměnné se sdruženou hustotou pravděpodobnosti
f
(
x
,
y
)
{\displaystyle f(x,y)}
. Diferenciální podmíněná entropie
h
(
X
|
Y
)
{\displaystyle h(X|Y)}
se definuje takto[ 3] :s.249
h
(
X
|
Y
)
=
−
∫
X
,
Y
f
(
x
,
y
)
log
f
(
x
|
y
)
d
x
d
y
{\displaystyle h(X|Y)=-\int _{{\mathcal {X}},{\mathcal {Y}}}f(x,y)\log f(x|y)\,dxdy}
(2)
Oproti podmíněné entropii pro diskrétní náhodné proměnné může být podmíněná diferenciální entropie záporná.
Stejně jako v diskrétním případě platí řetízkové pravidlo pro diferenciální entropii:
h
(
Y
|
X
)
=
h
(
X
,
Y
)
−
h
(
X
)
{\displaystyle h(Y|X)\,=\,h(X,Y)-h(X)}
[ 3] :s.253
Toto pravidlo však neplatí, pokud se příslušné diferenciální entropie neexistují nebo jsou nekonečné.
Sdružené diferenciální entropie se také používají v definici vzájemné informace mezi spojitými náhodnými proměnnými:
I
(
X
,
Y
)
=
h
(
X
)
−
h
(
X
|
Y
)
=
h
(
Y
)
−
h
(
Y
|
X
)
{\displaystyle \operatorname {I} (X,Y)=h(X)-h(X|Y)=h(Y)-h(Y|X)}
h
(
X
|
Y
)
≤
h
(
X
)
{\displaystyle h(X|Y)\leq h(X)}
, přičemž rovnost nastává právě tehdy, když
X
{\displaystyle X}
a
Y
{\displaystyle Y}
jsou nezávislé.[ 3] :s.253
Podmíněné diferenciální entropie dává spodní mez očekávané druhé mocniny chyby odhadu . Pro jakoukoli náhodnou proměnnou
X
{\displaystyle X}
, pozorování
Y
{\displaystyle Y}
a odhad
X
^
{\displaystyle {\widehat {X}}}
platí:[ 3] :s.255
E
[
(
X
−
X
^
(
Y
)
)
2
]
≥
1
2
π
e
e
2
h
(
X
|
Y
)
{\displaystyle \mathbb {E} \left[{\bigl (}X-{\widehat {X}}{(Y)}{\bigr )}^{2}\right]\geq {\frac {1}{2\pi e}}e^{2h(X|Y)}}
Což se podobá principu neurčitosti z kvantové mechaniky .
V kvantové teorii informace se podmíněná entropie zobecňuje na podmíněnou kvantovou entropii , která na rozdíl od svého klasického protějšku může nabývat záporných hodnot.
V tomto článku byl použit překlad textu z článku Conditional entropy na anglické Wikipedii.
↑ David MacKay: Information Theory, Pattern Recognition and Neural Networks: The Book [online]. [cit. 2019-10-25]. Dostupné online .
↑ HELLMAN, M.; RAVIV, J. Probability of error, equivocation, and the Chernoff bound. IEEE Transactions on Information Theory . 1970, roč. 16, čís. 4, s. 368–372.
↑ a b c d e f g COVER, Thomas M. Elements of Information Theory . [s.l.]: [s.n.], 1991. Dostupné online . ISBN 0-471-06259-6 .