BLOG
KESCOブログ
線形回帰モデルの重要な関係
線形回帰モデルのまとめ
重回帰モデル
ノイズを含む関数モデル \[f({\bf x})={\bf w}\TP {\bf x} \, , \quad y=f({\bf x})+\epsilon \] 学習データ集合:入力と出力 \[ {\cal D} = \{\,({\bf x}_i,y_i)\,|\,{\bf x}_i \in \RR^D, \, y_i \in \RR, \, i=1,\cdots ,n\, \}\] 計画行列 \[X = ({\bf x}_1, \cdots, {\bf x}_n)\TP \] 前提1:正規分布に従うノイズ \[\epsilon \sim {\cal N}(0,\sigma_n^{\, 2}) \] 前提2:学習データの同時確率 \begin{eqnarray} p\,({\bf y}\,|\,X,{\bf w})&=&\prod_{i=1}^n p\,(y_i\,|\,{\bf x}_i,{\bf w})=\prod_{i=1}^n\frac{1}{\sqrt{2\pi \sigma_n^{\, 2}}} \,\exp \left(-\frac{(y_i-{\bf w}\TP {\bf x}_i)^2}{2\sigma_n^{\,2}} \right) \\ &=& \frac{1}{(2\pi \sigma_n^{\, 2})^{n/2}} \,\exp \left( -\frac{1}{2\sigma_n^{\, 2}} \,|{\bf y}-X{\bf w}|^2\right) \sim {\cal N}(X{\bf w},\sigma_n^{\,2} I_n) \end{eqnarray} 前提3:重みの事前確率分布 \[{\bf w} \sim {\cal N}({\bf 0},\Sigma _p)\] ベイズの法則 \[p\,({\bf w}\,|\,{\bf y},X)=\frac{p\,({\bf y}\,|\,X,{\bf w})\,p\,({\bf w})}{p\,({\bf y}\,|\,X)}\] 周辺尤度 \[p\,({\bf y}\,|\,X)=\int p\,({\bf y}\,|\,X,{\bf w})\,p\,({\bf w})\, d{\bf w}\] 重みの事後確率分布 \begin{eqnarray} p\,({\bf w}\,|\,{\bf y},X) &\propto& \exp\left( -\frac{1}{2\sigma_n^{\,2}}({\bf y}-X{\bf w})\TP ({\bf y}-X{\bf w})\right)\exp \left( -\frac{1}{2}{\bf w}\TP \Sigma _p^{-1}{\bf w}\right) \\ &\propto& \exp \left(-\frac{1}{2}({\bf w}-\overline{{\bf w}})\TP \left(\frac{1}{\sigma_n^{\,2}}X\TP X+\Sigma _p^{-1}\right)({\bf w}-\overline{{\bf w}}) \right) \end{eqnarray} 重みの平均の推定値 \[\overline{\bf w}=\sigma_n^{\,-2}(\sigma_n^{\,-2}X\TP X+\Sigma _p^{-1})^{-1}X\TP {\bf y}\] 重みの事後確率分布 \[p\,({\bf w}\,|\,{\bf y},X) \sim {\cal N}(\sigma_n^{\,-2}A^{-1}X\TP {\bf y},A^{-1})\] 精度行列 \[A=\sigma_n^{\,-2}X\TP X+\Sigma _p^{-1}\] テスト入力に対する出力 \[f_*=f({\bf x}_*)\] テスト入力に対する出力の確率分布 \begin{eqnarray} p(f_*\,|\,{\bf x}_*,X,{\bf y})&=& \int p(f_*\,|\,{\bf x}_*,{\bf w})\,p({\bf w}\,|\,X,{\bf y})\,d{\bf w} \\ &=& {\cal N}\left(\frac{1}{\sigma_n^{\, 2}}{\bf x}_*\TP A^{-1}X\TP {\bf y}, {\bf x}_*\TP A^{-1}{\bf x}_* \right) \end{eqnarray}線形回帰モデル
入力\(\ {\bf x}\ \)を\(\ \BS(\phi) ({\bf x})\ \)に、計画行列\(\ X\ \)を\(\ \Phi\ \)に置き換えることで重回帰モデルと等価な関係が得られる。基底関数と特徴ベクトル \[\BS(\phi) ({\bf x})=(\phi_1({\bf x}), \cdots, \phi_N({\bf x}))\TP \] 関数モデル \[f({\bf x})={\bf w}\TP \BS(\phi) ({\bf x}) \, , \quad y=f({\bf x})+\epsilon \] 計画行列 \[\Phi_{ij} =\phi_j({\bf x} _i) \] 精度行列 \[A=\sigma_n^{\,-2}\Phi\TP \Phi+\Sigma _p^{-1}\] テスト入力に対する出力の確率分布 \[p(f_*\,|\,{\bf x}_*,X,{\bf y})= {\cal N}\left(\frac{1}{\sigma_n^{\, 2}}\BS(\phi) ({\bf x}_*)\TP A^{-1}\Phi\TP {\bf y}, \BS(\phi) ({\bf x}_*)\TP A^{-1}\BS(\phi ) ({\bf x}_*) \right) \]
ベクトル、行列のサイズ
重回帰モデル- \((D \times 1)\ \)ベクトル
\({\bf x}\):入力、\({\bf w}\):重み
- \((n \times 1)\ \)ベクトル
\({\bf y}\):出力
- \((n \times D)\ \)行列
\(X\):計画行列
- \((n \times n)\ \)行列
\(I_n\):単位行列
- \((D \times D)\ \)行列
\(\Sigma_p\):共分散行列、\(A\):精度行列
- \((D \times 1)\ \)ベクトル
\({\bf x}\):入力
- \((N \times 1)\ \)ベクトル
\({\bf w}\):重み、\(\BS(\phi) ({\bf x})\):特徴ベクトル
- \((n \times 1)\ \)ベクトル
\({\bf y}\):出力
- \((n \times N)\ \)行列
\(\Phi\):計画行列
- \((N \times N)\ \)行列
\(\Sigma_p\):共分散行列、\(A\):精度行列