正規分布は連続型確率変数を表現することができる確率分布の一つである。自然科学分野のみならず社会科学分野における複雑な現象をモデル化する際に広く活用されている。「測定の不確かさ」や「不確かさの定量化(UQ)」においても不確かさが正規分布に従うことを前提としている。なぜ、正規分布がこれらの複雑な現象をモデル化するのに適しているのかを紹介する。
平均を\(\ \mu\ \)、分散を\(\ \sigma^2\gt0\ \)とする正規分布(normal distribution)は、確率密度関数が
\[f\,(x)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \quad (x \in \RR) \tag{定義1}\]
で与えられる確率(密度)分布をいう。定義 1 の正規分布を\(\ {\cal N}(\mu,\sigma^2)\ \)と表し、確率変数\(\ X\ \)が正規分布に従うとき、\(\ X\sim {\cal N}(\mu,\sigma^2)\ \)と表記する。
また、特に\(\ \mu=0\ \)かつ\(\ \sigma^2=1\ \)のとき、定義 1 の分布\(\ {\cal N}(0,1)\ \)を標準正規分布という。
定義域は、\(\ [-\infty,\infty]\ \)であり、\(\ {\cal N}(\mu,\sigma^2)\gt0\ \)であるので、確率密度関数の要件\(\ p(x)\ge0\ \)を満たしている。密度関数が\(\ 0\ \)とならないことから、条件付き確率密度の定義に要求される\(\ p(x)\gt0\ \)を無条件に満たしている。
\(\ k\ \)個の確率変数\(\ X_1,\cdots X_k\ \)が互いに独立で正規分布に従うとき、線形結合\(\ \Sigma a_iX_i\ \)もまた正規分布に従う。すなわち \[X_i\sim {\cal N}(\mu_i,\sigma_i^{\,2})\] とするとき \[\sum_{i=1}^k a_iX_i \sim {\cal N}\left(\sum_{i=1}^k a_i\mu_i,\sum_{i=1}^k a_i^{\, 2}\sigma_i^{\,2}\right) \tag{公式1}\]
定義1による正規分布は1次元の分布関数であるが、\(\ k\ \)個の確率変数ベクトル\(\ {\bf X}=(X_1,\cdots ,X_k)\TP \ \)の同時分布によって、高次元の分布関数に拡張したのが多変量正規分布(multivariate normal distribution)である。
平均を\(\ \BS(\mu) \ \)、共分散行列を\(\ \Sigma \ \)とする\(\ n\ \)次元の多変量正規分布は、確率密度関数が
\[f\,({\bf x})=\frac{1}{({\sqrt{2\pi}})^n \sqrt{|\Sigma |}}
\exp\left( -\frac{1}{2}({\bf x}-\BS(\mu) )\TP \Sigma ^{-1}({\bf x}-\BS(\mu) )\right) \quad ({\bf x} \in \RR ^n) \tag{定義2.1} \]
で与えられる同時確率(密度)分布をいう。ここで\(\ k\ \)次元の平均ベクトルと\(\ k\times k\ \)共分散行列は期待値\(\ \EV(\cdot) \ \)によって
\[\BS(\mu) = \EV({\bf X}) =(\EV(X_1) ,\cdots,\EV(X_k) ) \tag{定義2.2}\]
\[\Sigma _{ij}= \EV((X_i-\mu_i)(X_j-\mu_j)) =\mathrm {Cov}[X_i,X_j] \quad (1\le i,j\le k)\tag{定義2.3}\]
で与えられる。共分散行列の逆行列を精度行列と呼ぶ。
\[\Lambda =\Sigma ^{-1}\tag{定義2.4}\]
定義2.1の多変量正規分布を\(\ {\cal N}(\BS(\mu) ,\Sigma )\ \)あるいは\(\ {\cal N}_k(\BS(\mu) ,\Sigma )\ \)と表し、確率変数ベクトル\(\ {\bf X}\ \)が多変数正規分布に従うとき、\(\ {\bf X}\sim {\cal N}(\BS(\mu) ,\Sigma )\ \)と表記する。
共分散行列は、定義2.2から明らかに対称行列である。さらに、半正定値行列でもあるが、共分散行列が正定値行列(\(\mathrm{ rank}(\Sigma )=k\ \)で非縮退)の場合、すなわち共分散行列が正則行列である場合、定義2.1によって確率密度関数が定義される。
多変量正規分布に従う確率変数ベクトルの各成分から構成される線形結合もまた多変量正規分布に従う。\(\ {\bf X}\sim {\cal N}_n(\BS(\mu) ,\Sigma ) \ \)とし、\(\ \RR ^n \mapsto \RR ^m \ (m\le n) \ \)のアフィン変換を考える。すなわち、\(\ m \times n\ \)行列\( \ A\ \)と\(\ m \times 1\ \)ベクトル\(\ {\bf b}\ \)によって写像される確率変数ベクトル\(\ {\bf Y}=A{\bf X}+{\bf b}\ \)は \[{\bf Y} \sim {\cal N}_m(A{\BS(\mu) }+{\bf b},A\Sigma A\TP ) \tag{公式2.1}\] で求められる多変量正規分布に従う。 \[\]
公式2.1において\(\ m \lt n\ \)のとき、\(\ {\bf b}=\BS(0) \ \)かつ\(\ I_m\ \)を\(\ (m \times m)\ \)単位行列として
\[A = \left(\begin{array}{c:c}
I_m & \BS(0) \\
\hdashline
\BS(0) & \BS(0)
\end{array}
\right)
,\quad\
\BS(\mu) =
\begin{pmatrix} \BS(\mu) _{(m)} \\ \hdashline \BS(\mu) _{(n-m)} \end{pmatrix}
,\quad\
{\Sigma } = \left(\begin{array}{c:c}
\Sigma _{m,m} & \Sigma _{m,(n-m)} \\ \hdashline \Sigma _{(n-m),m} & \Sigma _{(n-m),(n-m)}
\end{array}
\right)
\]
とすると
\[{\bf Y} \sim {\cal N}_m({\BS(\mu_{(m)}) },\BS(\Sigma_{m,m}) ) \]
が得られ、\(\ n-m\ \)個の確率変数を積分消去した周辺分布が得られる。
改めて、
\[
{\bf x} =
\begin{pmatrix} {\bf x}_1 \\ \hdashline {\bf x}_2 \end{pmatrix} \sim
{\cal N} \left(
\begin{pmatrix} \BS(\mu) _1 \\ \hdashline \BS(\mu) _2 \end{pmatrix}
,
\left(
\begin{array}{c:c} \Sigma _{11} & \Sigma _{12} \\ \hdashline \Sigma _{21} & \Sigma _{22} \end{array}
\right)
\right)
\]
とすると
\[\PD({\bf x}_1) =\int\PD({{\bf x}_1,{\bf x}_2}) d{\bf x}_2 = {\cal N}(\BS(\mu) _1, \Sigma_{11}) \tag{公式2.2}\]
となる。
周辺化の場合と同様に \[ {\bf x} = \begin{pmatrix} {\bf x}_1 \\ \hdashline {\bf x}_2 \end{pmatrix} \sim {\cal N} \left( \begin{pmatrix} \BS(\mu) _1 \\ \hdashline \BS(\mu) _2 \end{pmatrix} , \left( \begin{array}{c:c} \Sigma _{11} & \Sigma _{12} \\ \hdashline \Sigma _{21} & \Sigma _{22} \end{array} \right) \right) \] とすると、条件付き分布は \[ \PD({\bf x}_2\,|\,{\bf x}_1)={\cal N}(\BS(\mu) _2+\Sigma_{21}\Sigma_{11}^{-1}({\bf x}_1-\BS(\mu) _1)\,, \Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12}) \tag{公式2.3} \] で与えられる。