\(
\def\RR {\mathbb R }
\def\BS(#1) {{\boldsymbol {#1} } }
\def\ND(#1/#2/#3) {{\cal N}({#1}\, |\,{#2} ,{#3}) }
\def\PD(#1) {p\,({#1}) }
\def\CD(#1/#2) {p\,({#1}\,|\,{#2}) }
\def\IP(#1/#2) {{\bf {#1}}\TP \bf {#2} }
\def\EV(#1) {{\mathbb E}\,\lbrack{#1}\rbrack }
\def\AG(#1/#2/#3) {\underset{\small {#2}} {{\rm arg\,#1}\ } {\displaystyle {#3}} }
\def\TP {^\intercal}
\)
線形回帰モデルのまとめ
重回帰モデル
ノイズを含む関数モデル
\[f({\bf x})={\bf w}\TP {\bf x} \, , \quad y=f({\bf x})+\epsilon \]
学習データ集合:入力と出力
\[ {\cal D} = \{\,({\bf x}_i,y_i)\,|\,{\bf x}_i \in \RR^D, \, y_i \in \RR, \, i=1,\cdots ,n\, \}\]
計画行列
\[X = ({\bf x}_1, \cdots, {\bf x}_n)\TP \]
前提1:正規分布に従うノイズ
\[\epsilon \sim {\cal N}(0,\sigma_n^{\, 2}) \]
前提2:学習データの同時確率
\begin{eqnarray}
p\,({\bf y}\,|\,X,{\bf w})&=&\prod_{i=1}^n p\,(y_i\,|\,{\bf x}_i,{\bf w})=\prod_{i=1}^n\frac{1}{\sqrt{2\pi \sigma_n^{\, 2}}} \,\exp \left(-\frac{(y_i-{\bf w}\TP {\bf x}_i)^2}{2\sigma_n^{\,2}} \right) \\
&=& \frac{1}{(2\pi \sigma_n^{\, 2})^{n/2}} \,\exp \left( -\frac{1}{2\sigma_n^{\, 2}} \,|{\bf y}-X{\bf w}|^2\right) \sim {\cal N}(X{\bf w},\sigma_n^{\,2} I_n)
\end{eqnarray}
前提3:重みの事前確率分布
\[{\bf w} \sim {\cal N}({\bf 0},\Sigma _p)\]
ベイズの法則
\[p\,({\bf w}\,|\,{\bf y},X)=\frac{p\,({\bf y}\,|\,X,{\bf w})\,p\,({\bf w})}{p\,({\bf y}\,|\,X)}\]
周辺尤度
\[p\,({\bf y}\,|\,X)=\int p\,({\bf y}\,|\,X,{\bf w})\,p\,({\bf w})\, d{\bf w}\]
重みの事後確率分布
\begin{eqnarray}
p\,({\bf w}\,|\,{\bf y},X) &\propto& \exp\left( -\frac{1}{2\sigma_n^{\,2}}({\bf y}-X{\bf w})\TP ({\bf y}-X{\bf w})\right)\exp \left( -\frac{1}{2}{\bf w}\TP \Sigma _p^{-1}{\bf w}\right) \\
&\propto& \exp \left(-\frac{1}{2}({\bf w}-\overline{{\bf w}})\TP \left(\frac{1}{\sigma_n^{\,2}}X\TP X+\Sigma _p^{-1}\right)({\bf w}-\overline{{\bf w}}) \right)
\end{eqnarray}
重みの平均の推定値
\[\overline{\bf w}=\sigma_n^{\,-2}(\sigma_n^{\,-2}X\TP X+\Sigma _p^{-1})^{-1}X\TP {\bf y}\]
重みの事後確率分布
\[p\,({\bf w}\,|\,{\bf y},X) \sim {\cal N}(\sigma_n^{\,-2}A^{-1}X\TP {\bf y},A^{-1})\]
精度行列
\[A=\sigma_n^{\,-2}X\TP X+\Sigma _p^{-1}\]
テスト入力に対する出力
\[f_*=f({\bf x}_*)\]
テスト入力に対する出力の確率分布
\begin{eqnarray}
p(f_*\,|\,{\bf x}_*,X,{\bf y})&=& \int p(f_*\,|\,{\bf x}_*,{\bf w})\,p({\bf w}\,|\,X,{\bf y})\,d{\bf w} \\
&=& {\cal N}\left(\frac{1}{\sigma_n^{\, 2}}{\bf x}_*\TP A^{-1}X\TP {\bf y}, {\bf x}_*\TP A^{-1}{\bf x}_* \right)
\end{eqnarray}
線形回帰モデル
入力\(\ {\bf x}\ \)を\(\ \BS(\phi) ({\bf x})\ \)に、計画行列\(\ X\ \)を\(\ \Phi\ \)に置き換えることで重回帰モデルと等価な関係が得られる。
基底関数と特徴ベクトル
\[\BS(\phi) ({\bf x})=(\phi_1({\bf x}), \cdots, \phi_N({\bf x}))\TP \]
関数モデル
\[f({\bf x})={\bf w}\TP \BS(\phi) ({\bf x}) \, , \quad y=f({\bf x})+\epsilon \]
計画行列
\[\Phi_{ij} =\phi_j({\bf x} _i) \]
精度行列
\[A=\sigma_n^{\,-2}\Phi\TP \Phi+\Sigma _p^{-1}\]
テスト入力に対する出力の確率分布
\[p(f_*\,|\,{\bf x}_*,X,{\bf y})= {\cal N}\left(\frac{1}{\sigma_n^{\, 2}}\BS(\phi) ({\bf x}_*)\TP A^{-1}\Phi\TP {\bf y}, \BS(\phi) ({\bf x}_*)\TP A^{-1}\BS(\phi ) ({\bf x}_*) \right)
\]
ベクトル、行列のサイズ
重回帰モデル
- \((D \times 1)\ \)ベクトル
\({\bf x}\):入力、\({\bf w}\):重み
- \((n \times 1)\ \)ベクトル
\({\bf y}\):出力
- \((n \times D)\ \)行列
\(X\):計画行列
- \((n \times n)\ \)行列
\(I_n\):単位行列
- \((D \times D)\ \)行列
\(\Sigma_p\):共分散行列、\(A\):精度行列
線形回帰モデル
- \((D \times 1)\ \)ベクトル
\({\bf x}\):入力
- \((N \times 1)\ \)ベクトル
\({\bf w}\):重み、\(\BS(\phi) ({\bf x})\):特徴ベクトル
- \((n \times 1)\ \)ベクトル
\({\bf y}\):出力
- \((n \times N)\ \)行列
\(\Phi\):計画行列
- \((N \times N)\ \)行列
\(\Sigma_p\):共分散行列、\(A\):精度行列
参考資料