モノづくりと不確かさの定量化(第9回)ガウス過程回帰を支える実験計画法
9 ガウス過程回帰を支える実験計画法
前回までに、「観測値集合から柔軟な回帰モデルの関数\(\ y=f({\bf x})\ \)を推定する確率モデル」であるガウス過程回帰を紹介した。この強力なツールを有効活用するためには、観測値集合\(\ {\cal D} = \{\,({\bf x}_i,y_i)\,|\, i = 1, \cdots ,N,{\bf x}_i \in \RR ^D\}\,\ \)を効率的に求めるシナリオが必要となる。
ガウス過程回帰の振舞いはカーネル行列に支配され、その要素は入力\(\ {\bf x}_i\ \)と\(\ {\bf x}_j\ \)のカーネル関数\(\ k({\bf x}_i,{\bf x}_j)\ \)で構成された。このことから、「\( \ D \ \)次元空間における\(\ N\ \)個の入力をどのように選択すれば効率的にかつ合理的に確率モデルを推定できるか」という問題を解くことに帰結する。
著名な統計学者フィッシャー(R. Fisher)が提案した実験計画法(design of experiments, DOE)の構成要素である直交表、そして直交表をより柔軟な手法に拡張したラテン超方格サンプリング(Latin hypercube sampling)がこの問題への解決手段となる。
9.1 直交表
実験計画法の出発点となった直交表について、\(\ D=3\ \)の場合を例として紹介する。
ガウス過程回帰への入力に相当する条件を設定できる3つの項目を要因(因子)と呼び、それぞれの要因ごとに2つの条件(水準という)が選択できると想定すると(図 9.2 左)、入力条件の組合せは\(\ 2^3=8\ \)通り(図 9.2 中央)となる。図 9.2 右に示す直交表は、4通りの組合せを考えれば各要因の水準が2つ現れていることが分かり、少ない入力条件で効率的かつ合理的な条件設定が可能であることを示唆している。この直交表を\( \ L_4(2^3) \ \)と表す。直交表にはこのほかに、2水準-7要因を8通りの条件で設定できる\(\ L_8(2^7)\ \)、3水準-4要因を9通りの条件で設定できる\(\ L_9(3^4)\ \)などが提案されている。
直交表を利用することで、効率的な入力条件を得ることができるが、水準が上記のように離散的(あるいは定性的)である場合には整合性があるものの、連続値をとる要因には対応ができない。そこで直交表のもつ性質「要因ごとに異なる水準が同数となる組合せ」(直交性)を実現する実験計画法が求められることになる。
9.2 ラテン超方格サンプリング
要因数\(\ D=5\ \)の場合を例に、\(\ N=100\ \)組のデータで実験計画法を実現することを想定する。それぞれの要因について設計条件の下限値と上限値で正規化した\(\ [0,1]\ \)の乱数を発生させた場合、直交性がどの程度実現できるかを確かめる。5次元の一様乱数発生器(例えば、MATLABのrand関数)によるいわゆるモンテカルロ法サンプリングを実施した結果を図 9.3 に示す。2要因間の分布を表す20組の散布図と各要因の分布を0.1幅の\(\ \sqrt{N}=10\ \)個の階級の頻度で表したヒストグラムをまとめて表示している。
散布図からは一見して読み取ることはできないが、ヒストグラムからは(特に\(\ X_5\ \))直交性が担保されていないことが分かる。
直交性を担保した一様乱数発生器がラテン超方格サンプリングである。特に2次元の例では、パズル数独のルール同じ行、同じ列には同じ数が入らない直交性が採用されていて、ラテン方格と呼ばれている。この直交性を3次元以上に拡張したのがラテン超方格である。MATLABのStatistics and Machine Learning Toolboxに用意されているlhsdesign関数を用いて同じように100組の乱数を発生させた結果を図 9.4 に示す。モンテカルロ法サンプリングでは担保されなかった直交性が実現されていることが分かる。
ラテン超方格サンプリングによって得られる実験計画をCAEツールへの入力とし仮想実験を繰り返すことで、「観測値集合から柔軟な回帰モデルの関数\(\ y=f({\bf x})\ \)を推定する確率モデル」である代理モデルが生成される。
繰り返しになるが、モノづくりのライフサイクルにおいて、「性能・品質・コスト」のバラツキを試作モデルを作成することなく予測できる強力なツールを入手したことになる。
9.3 おわりに
これまで、モノづくりの設計現場においてガウス過程回帰がどのように役立つかをメインテーマとしてきた。しかし、ガウス過程は回帰問題だけではなく、分類問題や機械学習分野にも適用することができるツールである。以下に参考文献を紹介する。
入門:持橋大地, 大羽成征, ガウス過程と機械学習, 講談社(2019)
中級:Rasmussen C.E, and Wiliams C.K.I., Gaussian Process for Machine Learning, MIT Press (2006) 日本語版あり
上級:Bishop C.M., Pattern Recognition and Machine Learning, Springer(2006) 日本語版あり
次回は最終回として、ガウス過程の計算パッケージについて紹介する。