多変量正規分布

多変量正規分布
	確率密度関数; ; の多変量正規分布に従う標本点を多数とったもの。3σ を表す楕円、2つの周辺分布、およびそれらの1次元ヒストグラムも同時に示した。
	累積分布関数;
母数	μ ∈ Rk — 位置; Σ ∈ Rk × k — 分散共分散（半正定値行列）
台	x ∈ μ + span(Σ) ⊆ Rk
確率密度関数	; 存在するのは Σ が正定値行列であるときに限る。
期待値	μ
最頻値	μ
分散	Σ
エントロピー
モーメント母関数
特性関数
	テンプレートを表示

確率論と統計学において、多変量正規分布（たへんりょうせいきぶんぷ、英: multivariate normal distribution）または多次元正規分布、あるいは結合正規分布（英: joint normal distribution）、もしくはこれらの語で「正規分布」を「ガウス分布」に換えたもの、は1次元の正規分布を高次元へと一般化した確率分布である。ベクトル値確率変数（英語版）が k 変量正規分布に従うとは、それらの k 個の成分（実数値確率変数）の任意の（実係数）線型結合が1変量正規分布に従うことを言う。この分布の重要性は主として、多変数の場合の中心極限定理の分布収束先として現れることによる。多変量正規分布はしばしば、少なくとも近似的に、互いに相関を持ち、平均ベクトルの周辺に値が集中するような確率変数の組を記述するのに用いられる。

記法とパラメータ

k 次元ベクトル値確率変数 $\mathbf {X} =(X_{1},\ldots ,X_{k})$ が多変量正規分布に従っていることを、次のように記す：

\mathbf {X} \ \sim \ {\mathcal {N}}({\boldsymbol {\mu }},\,{\boldsymbol {\Sigma }})

もしくは X が k 次元であることを明示して

\mathbf {X} \ \sim \ {\mathcal {N}}_{k}({\boldsymbol {\mu }},\,{\boldsymbol {\Sigma }})

と書くこともある。

ここで k 次元平均ベクトルは

{\boldsymbol {\mu }}=\operatorname {E} [\mathbf {X} ]=(\operatorname {E} [X_{1}],\operatorname {E} [X_{2}],\ldots ,\operatorname {E} [X_{k}]),

であり、 $k\times k$ 分散共分散行列は

\Sigma _{i,j}:=\operatorname {E} [(X_{i}-\mu _{i})(X_{j}-\mu _{j})]=\operatorname {Cov} [X_{i},X_{j}]

（ただし $1\leq i,j\leq k$ ）である。分散共分散行列の逆行列は精度行列（precision matrix）と呼ばれ、 ${\boldsymbol {Q}}={\boldsymbol {\Sigma }}^{-1}$ と記す。

定義

標準正規確率変数ベクトル

実数値確率変数から成るベクトル $\mathbf {X} =(X_{1},\ldots ,X_{k})^{\mathrm {T} }$ が標準正規確率変数ベクトル（standard normal random vector）であるとは、それらの成分 $X_{n}$ が独立であって、いずれも平均 0、分散 1 の正規分布に従っている（全ての $n$ に対し、 $X_{n}\sim \ {\mathcal {N}}(0,1)$ ）ことを言う^[1]^{:p. 454}。

中心化正規確率変数ベクトル

実数値確率変数から成るベクトル $\mathbf {X} =(X_{1},\ldots ,X_{k})^{\mathrm {T} }$ が中心化正規確率変数ベクトル（centered normal random vector）であるとは、 $k\times \ell$ 実成分定行列 ${\boldsymbol {A}}$ が存在して、 ${\boldsymbol {A}}\mathbf {Z}$ が $\mathbf {X}$ と同一の確率分布に従うことを言う。ここで $\mathbf {Z}$ は $\ell$ 次元標準正規確率変数ベクトルである^[1]^{:p. 454}。

正規確率変数ベクトル

確率変数ベクトル $\mathbf {X} =(X_{1},\ldots ,X_{k})^{\mathrm {T} }$ が正規確率変数ベクトルであるとは、 $\ell$ 成分の標準正規確率変数ベクトル $\mathbf {Z}$ 、 $k$ 次元平均ベクトル $\mathbf {\mu }$ 、および $k\times \ell$ 行列 ${\boldsymbol {A}}$ があって、 $\mathbf {X} ={\boldsymbol {A}}\mathbf {Z} +\mathbf {\mu }$ と書けることを言う^[2]^{:p. 454}^[1]^{:p. 455}。

形式的に表すと：

$\mathbf {X} \ \sim \ {\mathcal {N}}(\mathbf {\mu } ,{\boldsymbol {\Sigma }})\quad \iff \quad {\text{there exist }}\mathbf {\mu } \in \mathbb {R} ^{k},{\boldsymbol {A}}\in \mathbb {R} ^{k\times \ell }{\text{ such that }}\mathbf {X} ={\boldsymbol {A}}\mathbf {Z} +\mathbf {\mu } {\text{ for }}Z_{n}\sim \ {\mathcal {N}}(0,1),{\text{i.i.d.}}$

このとき共分散行列は ${\boldsymbol {\Sigma }}={\boldsymbol {A}}{\boldsymbol {A}}^{\mathrm {T} }$ となる。

共分散行列が非正則である（退化している）場合、対応する多変量正規分布は（連続であるような）確率密度関数を持たない。このような事態は統計学ではしばしば起こり、例えば、最小二乗法における残差ベクトルがそうした分布に従うことがある。

また、ここでの成分 $X_{i}$ の集まりは一般的には独立な確率変数ではないことに注意する。これらは独立な正規確率変数の集まり $\mathbf {Z}$ に行列 ${\boldsymbol {A}}$ を作用させたものである。

同値な定義

上記の定義で用いた条件は、以下のいずれの条件とも同値である。ベクトル値確率変数 $\mathbf {X} =(X_{1},\ldots ,X_{k})^{T}$ はこれらのいずれかが成り立つとき、多変量正規分布に従うと言う。

任意の線型結合 $Y=a_{1}X_{1}+\cdots +a_{k}X_{k}$ （ $\mathbf {a} \in \mathbb {R} ^{k}$ を定ベクトルとして $Y=\mathbf {a} ^{\mathrm {T} }\mathbf {X}$ ）が（1変量）正規分布に従う。ただし分散が 0 の正規分布とは、その平均の位置に確率 1 の確率質量を持つような確率分布を意味することとする。
k 成分ベクトル $\mathbf {\mu }$ と $k\times k$ 対称半正定値行列 ${\boldsymbol {\Sigma }}$ が存在して、 $\mathbf {X}$ の特性関数が

\varphi _{\mathbf {X} }(\mathbf {u} )=\exp {\Big (}i\mathbf {u} ^{T}{\boldsymbol {\mu }}-{\tfrac {1}{2}}\mathbf {u} ^{T}{\boldsymbol {\Sigma }}\mathbf {u} {\Big )}

と書ける。

球面正規分布（spherical normal distribution）とは、どんな直交座標系で表示しても確率変数ベクトルの各成分が独立となるような分布、と特徴付けられる^[3]^[4]。

性質

確率密度関数

非退化の場合

多変量正規分布が非退化であるとは、共分散行列 ${\boldsymbol {\Sigma }}$ が正定値であることである。この場合、分布は次の形の確率密度関数を持つ^[5]。

$f_{\mathbf {X} }(x_{1},\ldots ,x_{k})={\frac {\exp \left(-{\frac {1}{2}}({\mathbf {x} }-{\boldsymbol {\mu }})^{\mathrm {T} }{\boldsymbol {\Sigma }}^{-1}({\mathbf {x} }-{\boldsymbol {\mu }})\right)}{\sqrt {(2\pi )^{k}|{\boldsymbol {\Sigma }}|}}}$

ここで ${\mathbf {x} }$ は実 k 次元列ベクトルで、 $|{\boldsymbol {\Sigma }}|\equiv \det {\boldsymbol {\Sigma }}$ は ${\boldsymbol {\Sigma }}$ の行列式である。 ${\boldsymbol {\Sigma }}$ が $1\times 1$ 行列（つまり単一の実数）である場合、この式は1変量正規分布の確率密度関数に帰着する。

複素正規分布（英語版）の場合はこれとはわずかに違った形のものになる。

k+1 次元空間内の任意の「等高線」、つまり確率密度関数の値が等しくなるような点の集合は、楕円またはその高次元対応物となる。よって多変量正規分布は楕円分布（英語版）の特別な場合である。

記述統計量 ${\sqrt {({\mathbf {x} }-{\boldsymbol {\mu }})^{\mathrm {T} }{\boldsymbol {\Sigma }}^{-1}({\mathbf {x} }-{\boldsymbol {\mu }})}}$ はマハラノビス距離として知られ、試験ベクトル ${\mathbf {x} }$ と平均ベクトル ${\boldsymbol {\mu }}$ との一種の距離を表す。 $k=1$ の場合、これは標準得点の絶対値に帰着する。

2変量の場合

2次元で非退化の場合（k = rank(Σ) = 2）、ベクトル [X Y]′（右肩のダッシュは転置を表す）の確率密度関数は、

f(x,y)={\frac {1}{2\pi \sigma _{X}\sigma _{Y}{\sqrt {1-\rho ^{2}}}}}\exp \left(-{\frac {1}{2(1-\rho ^{2})}}\left[{\frac {(x-\mu _{X})^{2}}{\sigma _{X}^{2}}}+{\frac {(y-\mu _{Y})^{2}}{\sigma _{Y}^{2}}}-{\frac {2\rho (x-\mu _{X})(y-\mu _{Y})}{\sigma _{X}\sigma _{Y}}}\right]\right)

となる。ここで ρ は X と Y の相関係数であり、 $\sigma _{X}>0$ かつ $\sigma _{Y}>0$ である。このとき、

{\boldsymbol {\mu }}={\begin{pmatrix}\mu _{X}\\\mu _{Y}\end{pmatrix}},\quad {\boldsymbol {\Sigma }}={\begin{pmatrix}\sigma _{X}^{2}&\rho \sigma _{X}\sigma _{Y}\\\rho \sigma _{X}\sigma _{Y}&\sigma _{Y}^{2}\end{pmatrix}}

2次元のときは、多変量正規分布であるための同値な条件として挙げた最初の方は、やや緩められる：

可算無限通りの X と Y の線型結合がどれも正規分布に従うならば、ベクトル [X Y]′ は2変量正規分布に従う^[6]。

2変数の場合の等高線を x,y-平面にプロットすると楕円になる。相関係数 ρ が大きくなっていくとき、楕円は次の直線：

y(x)=\operatorname {sgn}(\rho ){\frac {\sigma _{Y}}{\sigma _{X}}}(x-\mu _{X})+\mu _{Y}.

の方向に向かって押しつぶされていく。この背景として、この式の sgn(ρ) （"sgn" は符号関数）を ρ に取り換えたものは、X の値が与えられたときの Y の最良線形不偏予測量（英語版）（best linear unbiased prediction）になっているという性質がある^[7]。

結合分布の正規性

正規分布と独立性

確率変数 $X$ と $Y$ が正規分布に従い、独立であるならば、これらの結合分布は結合正規分布である。つまり、対 $(X,Y)$ は2変量正規分布に従う。しかしながら、多変量正規分布に従う確率変数ベクトルの相異なる2成分は独立であるとは限らない。それらが独立であるのは無相関（ $\rho =0$ ）の場合に限られる。

正規分布に従う確率変数の対は、必ずしも2変量正規分布には従わない

2個の確率変数 $X$ と $Y$ がいずれも正規分布に従っているとしても、それらの対 $(X,Y)$ は必ずしも2変量正規分布には従わない。次のように簡単な例（反例）が構成できる。

X は標準正規分布（平均 0、分散 1）に従う。
ある定数 $c>0$ があって、 $|X|>c$ ならば $Y=X$ 、 $|X|<c$ ならば $Y=-X$

3変数以上の場合も同様に反例が構成できる。一般に、こうした確率変数の和によって混合分布モデル（英語版）が作られる。

相関と独立性

一般に、2個の確率変数が無相関であっても独立であるとは限らない。しかし、確率変数ベクトルが多変量正規分布に従っている場合、その2個以上の成分が互いに無相関であれば、それらは独立である。特に、これらが組ごとに独立（英語版）であれば、独立である。

しかしながら、すぐ上で指摘した例からわかるように、2個の確率変数が正規分布に従い、かつ無相関であるからといって、それらが独立であるとは限らない（X と Y の相関係数が 0 となるよう定数 c を選べばよい）。

周辺分布

多変量正規分布に従う確率変数ベクトルから、その中のいくつかの成分を抜き出した確率変数の組が従う周辺分布を得るには、単に平均ベクトル、分散共分散行列から無関係な成分を除けばよい。これが成り立つことは、多変量正規分布の定義と線形代数によって証明できる^[8]。

例

X = [X₁, X₂, X₃] が多変量正規分布に従うとし、平均ベクトルを μ = [μ₁, μ₂, μ₃]、分散共分散行列を Σ とする。このとき X′ = [X₁, X₃] の周辺分布は再び多変量正規分布であり、その平均ベクトルは μ′ = [μ₁, μ₃]、分散共分散行列は

{\boldsymbol {\Sigma }}'={\begin{bmatrix}{\boldsymbol {\Sigma }}_{11}&{\boldsymbol {\Sigma }}_{13}\\{\boldsymbol {\Sigma }}_{31}&{\boldsymbol {\Sigma }}_{33}\end{bmatrix}}

である。

アフィン変換

$\mathbf {X} \ \sim {\mathcal {N}}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})$ で Y = c + BX がそのアフィン変換であるとき（c は $M\times 1$ 定ベクトル、B は $M\times N$ 定行列）、Y も多変量正規分布に従い、平均ベクトルは c + Bμ、分散共分散行列は BΣB^T である（つまり $\mathbf {Y} \sim {\mathcal {N}}\left(\mathbf {c} +\mathbf {B} {\boldsymbol {\mu }},\mathbf {B} {\boldsymbol {\Sigma }}\mathbf {B} ^{\rm {T}}\right)$ ）。

特に、成分 X_i たちの任意の部分集合が従う周辺分布は再び多変量正規分布になる。例えば、部分集合 (X₁, X₂, X₄)^T を直接抜き出してくるには、行列

\mathbf {B} ={\begin{bmatrix}1&0&0&0&0&\ldots &0\\0&1&0&0&0&\ldots &0\\0&0&0&1&0&\ldots &0\end{bmatrix}}

を使えばよい。

別の系として、多変量正規分布に従う X と定ベクトル b のドット積をとった Z = b · X は、1変量正規分布に従う（ $Z\sim {\mathcal {N}}\left(\mathbf {b} \cdot {\boldsymbol {\mu }},\mathbf {b} ^{\rm {T}}{\boldsymbol {\Sigma }}\mathbf {b} \right)$ ）。

\mathbf {B} ={\begin{bmatrix}b_{1}&b_{2}&\ldots &b_{n}\end{bmatrix}}=\mathbf {b} ^{\rm {T}}

と考えればよい。Σ の正定値性（半正定値性）から、ドット積をとった確率変数の分散は正（非負）になる。

X のアフィン変換 2X は、X と同一の分布に従う2個の独立な確率変数の和とは別物である。

母数の推定

確率密度関数が

f(\mathbf {x} )={\frac {1}{\sqrt {(2\pi )^{k}|{\boldsymbol {\Sigma }}|}}}\exp \left(-{1 \over 2}(\mathbf {x} -{\boldsymbol {\mu }})^{\rm {T}}{\boldsymbol {\Sigma }}^{-1}({\mathbf {x} }-{\boldsymbol {\mu }})\right)

である多変量正規分布に従う大きさ n の標本から、共分散行列を推定することを考える。この場合の最尤推定量は

{\widehat {\boldsymbol {\Sigma }}}={1 \over n}\sum _{i=1}^{n}({\mathbf {x} }_{i}-{\overline {\mathbf {x} }})({\mathbf {x} }_{i}-{\overline {\mathbf {x} }})^{\rm {T}}

であり、これは単純に標本共分散行列を計算したものである。ただし不偏推定量ではなく、期待値は

E[{\widehat {\boldsymbol {\Sigma }}}]={\frac {n-1}{n}}{\boldsymbol {\Sigma }}

となる。よって

{\widehat {\boldsymbol {\Sigma }}}={1 \over n-1}\sum _{i=1}^{n}(\mathbf {x} _{i}-{\overline {\mathbf {x} }})(\mathbf {x} _{i}-{\overline {\mathbf {x} }})^{\rm {T}}

とすれば不偏推定量になる。多変量正規分布の母数の推定において、フィッシャー情報行列は閉じた式で書け、例えばクラメール・ラオの限界の算出に用いられる。詳細はフィッシャー情報量を参照。