確率密度関数

確率密度関数（かくりつみつどかんすう、（英: probability density function、PDF）とは、確率論において、連続型確率変数がある値をとるという事象の確率密度を記述する関数である。確率変数がある範囲の値をとる確率を、その範囲にわたって確率密度関数を積分することにより得ることができるよう定義される。確率密度関数の値域は非負の実数であり、定義域全体を積分すると1である。

例えば単変数の確率密度関数を平面上のグラフに表現して、 $x$ 軸に確率変数の値を、 $y$ 軸に確率密度を採った場合、求めたい範囲（ $x$ 値）の下限値と上限値での垂直線と、変数グラフ曲線と $y = 0$ の直線とで囲まれる範囲の面積が確率になる。

「確率分布関数」 (probability distribution function)^[1] あるいは「確率関数」 (probability function)^[2] という用語は、具体的に何を指しているか現時点でも定義が曖昧であり、確率論研究者や統計学者の間では、その意味が標準的でないとされる場合がある。

他の資料に拠れば「確率密度関数」は値の集合に対する関数として定義されたり、累積分布関数との関係で言及されたり、確率質量関数の意味で使われたりする。さらには、密度関数 (density function) という用語が確率質量関数の意味で用いられている場合もある^[3]。

例

例として、寿命が4〜6時間程度のバクテリアがいると仮定する。この時、特定のバクテリアが丁度 5時間で死亡する確率はどれ位だろうか？答えは0%である。およそ5時間で寿命を迎えるバクテリアはたくさん居るが、正確に5.0000000000…時間で死ぬことはない。

一方で、5〜5.01時間で死亡する確率はどうだろうか？例えば、これが2%だとする。では、その1/10の範囲の5〜5.001時間である確率は？答えはおよそ 2% × 1/10 = 0.2% となる。さらにその 1/10 の範囲の5〜5.0001時間である確率は、およそ0.02%である。

上記の3例において、『「特定の時間範囲内に死亡する確率」を「その範囲の長さ」で割った値』に着目すると、1時間につき 2 に定まることが分かる。例えば、5〜5.01時間の0.01時間の範囲でバクテリアが死亡する確率は0.02であり、確率 0.02 ÷ 0.01時間 = 2時間⁻¹ である。この2時間⁻¹（毎時200%）という量を、5時間時点での確率密度と呼ぶ。

従って、「バクテリアの寿命が5時間である確率」を問われた時、真の答えは0%であるが、より実用的には、2時間⁻¹ $d t$ であると言える。これは、無限小の時間範囲 $d t$ 内で、バクテリアが死亡する確率である。例えば、丁度5時間〜5時間 + 1ナノ秒の寿命である確率は、2時間⁻¹ × 1ナノ秒 ≈ 6 × 10⁻¹³ である。

これを確率密度関数 $f$ を用いて、 $f$ （5時間）= 2時間⁻¹ と表現することができる。 $f$ を任意の時間範囲（微小に限らない）で積分することで、当該時間範囲内でバクテリアの寿命が尽きる確率を求めることができる。

絶対連続確率分布での定義

→「連続確率分布」も参照

絶対連続確率分布では確率密度関数が存在する。確率変数 $X$ の確率密度関数 $f X$ を考え、 $f X$ が非負のルベーグ可積分な関数であるとする。ここで、

\operatorname {P} (a\leq X\leq b)=\int _{a}^{b}f_{X}(x)\,dx

である。従って、もし $F X$ を $X$ の累積分布関数とすると、

F_{X}(x)=\int _{-\infty }^{x}f_{X}(u)\,du

となり、

f_{X}(x)={\frac {d}{dx}}F_{X}(x)

となる。直観的に、微小区間 $[x, x + d x]$ に含まれる値を $X$ がとる確率は $f X (x)d x$ であると分かる。

正式な定義

（この定義は確率の公理によりあらゆる確率分布に拡張できる。）

完全加法族 $({\mathcal {X}},{\mathcal {A}})$ （通常、 $R n$ に可測集合としてボレル集合を考えたもの）中に存在する確率変数 $X$ は、 $({\mathcal {X}},{\mathcal {A}})$ 中に測度 $X * P$ で確率分布する。 $({\mathcal {X}},{\mathcal {A}})$ 中の標準測度 $μ$ に関する $X$ の密度は、ラドン＝ニコディムの定理より

f={\frac {dX_{*}P}{d\mu }}

である。これは、 $f$ は次の性質を持つ任意の可測関数であることを意味する。あらゆる可測集合 $A\in {\mathcal {A}}$ に対して、

\operatorname {P} (X\in A)=\int _{X^{-1}A}\,dP=\int _{A}f\,d\mu

注意点

上記の連続単変数の場合は、標準測度はルベーグ測度である。離散確率変数における確率質量関数は標本空間（通常、整数全体の集合またはその部分集合）内での数え上げ測度に対応する。

任意の測度で密度が定義できる訳ではないことに注意。例えば、連続確率分布に数え上げ測度を対応させることはできない。さらに、対応する測度が存在した時、密度はほとんど至るところで一意的である。

詳細

確率質量関数とは異なり、確率密度関数は1より大きな値を取りうる。例えば、区間 $[0, 1 / 2]$ の連続一様分布の確率密度関数は範囲 $0 \leq x \leq 1 / 2$ で $f (x) = 2$ 、その他の範囲で $f (x) = 0$ である。

正規分布は下記の確率密度関数を持つ。

f(x)={\frac {1}{\sqrt {2\pi }}}\;e^{-x^{2}/2}

確率変数 $X$ とその確率密度関数 $f$ が与えられた時、 $X$ の期待値は（値が存在する場合は）次の式で求められる。

\operatorname {E} [X]=\int _{-\infty }^{\infty }x\,f(x)\,dx

全ての確率分布が確率密度関数を持つとは限らない。離散型確率変数が持たない他にも、カントール分布は連続確率分布であるにもかかわらず、範囲内のあらゆる点で正の確率を持たないため、確率密度関数を持たない。

確率分布はその累積分布関数 $F (x)$ が絶対連続である場合にのみ確率密度関数 $f$ を持つ。この場合 $F$ はほとんど至るところで微分可能で、 $f$ は $F$ のラドン=ニコディムの定理である：

{\frac {d}{dx}}F(x)=f(x)

累積分布関数が連続の場合、確率変数がある値 a をとる確率 $P(X = a)$ は常に0である。

2つの確率密度関数 $f, g$ がほとんど至るところで等しい時、2つは正確に同じ確率分布から採られたと言える。

統計力学の分野では、累積分布関数のラドン=ニコディム微分と確率密度関数との関係を非形式的に書いた以下の式が確率密度関数の定義として用いられる。

$dt$ が無限小の時、 $X$ が区間（ $t, t + dt ）$ に含まれる確率は $f (t) dt$ に等しい。

\operatorname {P} (t<X<t+dt)=f(t)\,dt.

離散分布と連続分布との結合

ディラックのデルタ関数を用いると、ある種の離散型確率変数によって連続型確率変数および離散型確率変数の確率密度関数を統一的に表現することができる。試しに、2つの値しか採らない離散型確率変数を考える。例えばラーデマッヘル分布（英語版）―すなわちそれぞれ $1 / 2$ の確率で $-1$ または $1$ の値を採る分布―である。この変数の確率の密度は

f(t)={\frac {1}{2}}(\delta (t+1)+\delta (t-1))

である。より一般化すると、離散変数が $n$ 通りの実数値を取り得る時、その離散値を $x 1, \dots, x n$ , その確率を $p 1, \dots, p n$ とすると確率密度関数は

f(t)=\sum _{i=1}^{n}p_{i}\,\delta (t-x_{i})

と表記される。

これは実質的に、離散型確率変数と連続型確率変数を統合している。例として、上記の表現からは連続変数と同様に離散変数について統計学的パラメータ（平均、分散、尖度など）を計算可能である。

パラメータ化

確率密度関数または確率質量関数を任意の媒介変数でパラメータ化することがしばしばある。例えば、正規分布の密度は平均 $μ$ および分散 $σ 2$ を用いて下記のように表現できる。

f(x;\mu ,\sigma ^{2})={\frac {1}{\sigma {\sqrt {2\pi }}}}\exp {\biggl [}-{\frac {1}{2}}\left({\frac {x-\mu }{\sigma }}\right)^{2}{\biggr ]}.

このとき密度の族の定義域と族のパラメータの定義域との違いに留意することが重要である。パラメータの値が異なると、同じ標本空間（変数が取り得る全ての値の集合で、同一である）に属する異なる確率変数の分布を表現することになる。その標本空間は、その分布の族が示している確率変数の族の定義域である。与えられたパラメータの集合は、そのパラメータを用いた共通の関数として確率密度関数を記述できる確率分布族の内の1つを指す。確率分布の観点からすると、パラメータは定数なので、確率密度関数に変数を含まずパラメータのみを含む場合、パラメータは分布の正規化係数（英語版）（定義域全域での確率=1になる様に調整する係数）の一部を成す。この正規化係数は分布のカーネル（英語版）外にある。

パラメータが定数なので、さらに異なるパラメータで再パラメータ化して族の中に他の確率変数を位置付けることは、単に古いパラメータを捨てて式の中に新しいパラメータを置くだけに過ぎない。しかし、確率密度の定義域を変更することには慎重さが必要で、作業量が多くなる。下記の#従属変数と変数変換欄を参照。

多変量に関する確率密度関数

同時確率密度関数

→「同時分布」も参照

$n$ 個の連続型確率変数 $X 1, \dots, X n$ について、同時確率密度関数と呼ばれる確率密度関数を定義することができる。この確率密度関数は $n$ 次元空間の定義域 $D$ 中の $n$ 個の変数 $X 1, \dots, X n$ を用いて、下記のように書くことができる。

\operatorname {P} \left(X_{1},\cdots ,X_{N}\in D\right)=\int _{D}f_{X_{1},\cdots ,X_{N}}(x_{1},\cdots ,x_{N})\,dx_{1}\cdots dx_{N}.

もし F (x₁, …, x_n) = Pr(X₁ ≤ x₁, …, X_n ≤ x_n) がベクトル $(X 1, \dots, X n)$ の同時累積分布関数ならば、同時確率密度関数を偏微分で導くことができる。

f(x)={\frac {\partial ^{n}F}{\partial x_{1}\cdots \partial x_{n}}}{\bigg |}_{x}

周辺確率密度関数

→「周辺分布」も参照

$i = 1, 2, \dots, n$ の時、 $f X i (x i)$ を変数 $X i$ のみの確率密度関数とする。これは周辺確率密度関数と呼ばれ、確率変数 $X 1, \dots, X n$ の確率密度関数から $X i$ 以外の $n - 1$ 個の変数を重積分することで求められる。

f_{X_{i}}(x_{i})=\int f(x_{1},\cdots ,x_{n})\,dx_{1}\cdots dx_{i-1}\,dx_{i+1}\cdots dx_{n}.

独立

同時確率密度関数を構成する連続型確率変数 $X 1, \dots, X n$ がいずれも独立である時、

f_{X_{1},\cdots ,X_{n}}(x_{1},\cdots ,x_{n})=f_{X_{1}}(x_{1})\cdots f_{X_{n}}(x_{n})

である。それぞれの周辺確率密度関数は下記で表される。

f_{X_{i}}(x_{i})={\frac {f_{i}(x_{i})}{\int f_{i}(x)\,dx}}

例

以下に2変数での基本的な例を記す。2次元の確率ベクトル $(X, Y)$ を ${\vec {R}}$ とすると、 $x, y$ が共に正である第I象限で得られた ${\vec {R}}$ の確率は

\operatorname {P} \left(X>0,Y>0\right)=\int _{0}^{\infty }\int _{0}^{\infty }f_{X,Y}(x,y)\,dx\,dy

である。

従属変数と変数変換

確率変数 $X$ の確率密度関数が $f X (x)$ である時、別変数の確率密度関数 $Y = g (X)$ を計算することができる。（多くの場合は必要ないが。）これは「変数変換」と呼ばれ、実際面では既知の（一様分布等）乱数生成器から任意の形の $f g (X) = f Y$ を導き出すことができる。

関数 $g$ が単調写像である時、その結果得られる確率密度関数は

f_{Y}(y)=\left|{\frac {d}{dy}}(g^{-1}(y))\right|\cdot f_{X}(g^{-1}(y))

である。ここで $g -1$ は逆写像である。

このことは微分範囲に含まれる確率が変数変換後も不変であることからも分かる。つまり、

\left|f_{Y}(y)\,dy\right|=\left|f_{X}(x)\,dx\right|,

または

f_{Y}(y)=\left|{\frac {dx}{dy}}\right|f_{X}(x)=\left|{\frac {d}{dy}}(x)\right|f_{X}(x)=\left|{\frac {d}{dy}}(g^{-1}(y))\right|f_{X}(g^{-1}(y))={\frac {f_{X}(g^{-1}(y))}{|g'(g^{-1}(y))|}}

である。一方、単調写像でない確率密度関数 $y$ は

\sum _{k=1}^{n(y)}\left|{\frac {d}{dy}}g_{k}^{-1}(y)\right|\cdot f_{X}(g_{k}^{-1}(y))

（ $n (y)$ は $g (x) = y$ を満たす $x$ の解の数、 $g k -1 (y)$ はその解）である。

これを見ると、期待値 $E [g (X)]$ を求めるためには最初に新たな確率変数 $Y = g (X)$ の確率密度 $f g (X)$ を求める必要があると思いたくなる。しかし、

\operatorname {E} [g(X)]=\int _{-\infty }^{\infty }yf_{g(X)}(y)\,dy

を計算するよりはむしろ、

\operatorname {E} [g(X)]=\int _{-\infty }^{\infty }g(x)f_{X}(x)\,dx

を計算する方がよい。

$X$ と $g (X)$ の両方が確率密度関数を持つ時、あらゆる場合に2つの積分値は等しい。 $g$ が単射である必要はない。前者より後者の計算が簡単である場合がある。

多変量

上記の式は、1つよりも多くの変数に依存する変数（ $y$ と書く）に一般化できる。 $y$ が依存する変数の確率密度関数を $f (x 1, \dots, x n)$ とすると、依存関係は $y = g (x 1, \dots, x n)$ で表される。このとき得られる確率密度関数は^[要出典]

\int \limits _{y=g(x_{1},\cdots ,x_{n})}{\frac {f(x_{1},\cdots ,x_{n})}{\sqrt {\sum _{j=1}^{n}{\frac {\partial g}{\partial x_{j}}}(x_{1},\cdots ,x_{n})^{2}}}}\;dV

となる。ただし積分は添え字の方程式の $(n - 1)$ 次元の解全体を渡り、記号 $dV$ は実際の計算にはこの解のパラメータ化に置き換えなければならない。変数 $x 1, \dots, x n$ はもちろんこのパラメータ化の関数である。

これからより直感的な表現が導かれる。 $x$ を同時確率密度 $f$ の $n$ 次元確率変数とする。 $H$ を全単射で微分可能な関数として $y = H (x)$ であるならば、 $y$ は密度 $g$ を持つ：

g(\mathbf {y} )=f(\mathbf {x} )\left\vert \det \left({\frac {\mathrm {d} \mathbf {x} }{\mathrm {d} \mathbf {y} }}\right)\right\vert

ここで微分は $H$ の逆関数のヤコビ行列の $y$ における値である。

独立性を仮定してデルタ関数を用いると、以下のように同じ結果が得られる。

独立な確率変数 $X i, i = 1, 2, \dots n$ の確率密度関数が $f X i (x i)$ で与えられる時、 $Y = G (X 1, X 2, \dots X n)$ の確率密度関数を計算できる。次の式は、 $Y$ の確率密度関数 $f Y (y)$ と $f X i (x i)$ をデルタ関数で結合するものである。

f_{Y}(y)=\int _{-\infty }^{\infty }\int _{-\infty }^{\infty }\cdots \int _{-\infty }^{\infty }f_{X_{1}}(x_{1})f_{X_{2}}(x_{2})\cdots f_{X_{n}}(x_{n})\delta (y-G(x_{1},x_{2},\cdots ,x_{n}))\,dx_{1}\,dx_{2}\,\cdots dx_{n}

独立な確率変数の和の確率密度関数

→「畳み込み」も参照

2つの独立な確率変数 $U$ と $V$ がそれぞれ確率密度関数を持つ時、和 U + V の確率密度関数は両確率密度関数の畳み込みで表される。

f_{U+V}(x)=\int _{-\infty }^{\infty }f_{U}(y)f_{V}(x-y)\,dy=\left(f_{U}*f_{V}\right)(x)

この関係は、 $N$ 個の独立な確率変数 $U 1, \dots, U N$ の和に拡張できる。

f_{U_{1}+\cdots +U_{N}}(x)=\left(f_{U_{1}}*\cdots *f_{U_{N}}\right)(x)

これは下記に示す独立な確率変数の商の場合と同様に、2通りの変数変換 $Y = U + V$ と $Z = V$ から導かれる。

独立な確率変数の積と商の確率密度関数

2つの独立な確率変数 $U$ と $V$ がそれぞれ確率密度関数を持つ時、積 $UV$ と商 $U / V$ の確率密度関数を変数変換によって計算することができる。

商の確率密度関数

2つの独立な確率変数 $U$ と $V$ の商 $Y = U / V$ は、次のように変換される。

Y={\frac {U}{V}}

Z=V

この時、同時確率密度関数 $p (Y, Z)$ は $U, V$ を $Y, Z$ に変数変換することで計算でき、 $Y$ は同時確率密度関数から $Z$ を周辺化することで導出できる。

その逆変換は、

U=YZ

V=Z

である。

この変換のヤコビ行列 $J(U,V|Y,Z)$ は、

{\begin{vmatrix}{\frac {\partial U}{\partial Y}}&{\frac {\partial U}{\partial Z}}\\{\frac {\partial V}{\partial Y}}&{\frac {\partial V}{\partial Z}}\\\end{vmatrix}}={\begin{vmatrix}Z&Y\\0&1\\\end{vmatrix}}=|Z|

である。

従って、

p(Y,Z)=p(U,V)\,J(U,V|Y,Z)=p(U)\,p(V)\,J(U,V|Y,Z)=p_{U}(YZ)\,p_{V}(Z)\,|Z|

となる。

$Y$ の分布は $Z$ の周辺化によって、

p(Y)=\int _{-\infty }^{\infty }p_{U}(YZ)\,p_{V}(Z)\,|Z|\,dZ

と計算される。

この手法で $U, V$ を $Y, Z$ に変換する時に不可欠な条件が全単射である。上記の変換は $Z$ が $V$ に直接逆写像され、与えられた $V$ について $U / V$ が単調写像であるので条件に適合している。これは、和： $U + V$ , 差： $U - V$ 、積： $UV$ においても同様である。

独立な確率変数の積についても全く同じ手法で計算することができる。

例：2つの標準正規分布の比の確率密度関数

標準正規分布に従う確率変数 $U, V$ について、その比（商）の確率密度関数は次のように求められる。

まず、確率変数はそれぞれ下記の確率密度関数を持つ。

p(U)={\frac {1}{\sqrt {2\pi }}}e^{-{\frac {U^{2}}{2}}}

p(V)={\frac {1}{\sqrt {2\pi }}}e^{-{\frac {V^{2}}{2}}}

これを先に述べたように変換する。

Y=U/V

Z=V

これから、

{\begin{aligned}p(Y)&=\int _{-\infty }^{\infty }p_{U}(YZ)\,p_{V}(Z)\,|Z|\,dZ\\&=\int _{-\infty }^{\infty }{\frac {1}{\sqrt {2\pi }}}e^{-{\frac {1}{2}}Y^{2}Z^{2}}{\frac {1}{\sqrt {2\pi }}}e^{-{\frac {1}{2}}Z^{2}}|Z|\,dZ\\&=\int _{-\infty }^{\infty }{\frac {1}{2\pi }}e^{-{\frac {1}{2}}(Y^{2}+1)Z^{2}}|Z|\,dZ\\&=2\int _{0}^{\infty }{\frac {1}{2\pi }}e^{-{\frac {1}{2}}(Y^{2}+1)Z^{2}}Z\,dZ\\&=\int _{0}^{\infty }{\frac {1}{\pi }}e^{-(Y^{2}+1)u}\,du&&u={\tfrac {1}{2}}Z^{2}\\&=\left.-{\frac {1}{\pi (Y^{2}+1)}}e^{-(Y^{2}+1)u}\right]_{u=0}^{\infty }\\&={\frac {1}{\pi (Y^{2}+1)}}\end{aligned}}

が導かれる。これは、標準コーシー分布である。

出典

^ Probability distribution function PlanetMath
^ Probability Function at Mathworld
^ Ord, J.K. (1972) Families of Frequency Distributions, Griffin. ISBN 0-85264-137-0 (for example, Table 5.1 and Example 5.4)

文献

Pierre Simon de Laplace (1812). Analytical Theory of Probability

The first major treatise blending calculus with probability theory, originally in French: Théorie Analytique des Probabilités.

Andrei Nikolajevich Kolmogorov (1950). Foundations of the Theory of Probability

The modern measure-theoretic foundation of probability theory; the original German version (Grundbegriffe der Wahrscheinlichkeitsrechnung) appeared in 1933.

Patrick Billingsley（英語版） (1979). Probability and Measure. New York, Toronto, London: John Wiley and Sons. ISBN 0-471-00710-2

David Stirzaker (2003). Elementary Probability. ISBN 0-521-42028-8

Chapters 7 to 9 are about continuous variables.

外部リンク

[1] Probability distribution function PlanetMath

[2] Probability Function at Mathworld

[3] Ord, J.K. (1972) Families of Frequency Distributions, Griffin. ISBN 0-85264-137-0 (for example, Table 5.1 and Example 5.4)

[1]

[2]

[3]

例

絶対連続確率分布での定義

正式な定義

注意点

詳細

離散分布と連続分布との結合

パラメータ化

多変量に関する確率密度関数

同時確率密度関数

周辺確率密度関数

独立

例

従属変数と変数変換

多変量

独立な確率変数の和の確率密度関数

独立な確率変数の積と商の確率密度関数

商の確率密度関数

例：2つの標準正規分布の比の確率密度関数

関連項目

出典

文献

外部リンク