別の方法として,「情報量基準」と呼ばれるものを用いる方法があります.
さきほど「複数のパラメータを場当たり的に試すのは時間がかかる」と言いました. 実際に学習させることなく「モデルのバランスの良さ」を測ることのできる尺度があれば, パラメータが多くとも時間はさほどかからないと期待できます.
その尺度となるのが「情報量基準」です. 一つは赤池情報量基準(AIC)と呼ばれ, \begin{align} \ln p(\mathcal{D}\mid \bm{w}_{\mathrm{ML}})-M \end{align} という式で表されます. $\ln p(\mathcal{D}\mid \bm{w}_{\mathrm{ML}})$というのは対数尤度, すなわち「そのモデルがどれだけデータにふさわしいか」を表す値です. $M$はモデルの中のパラメータの数を表します.
この赤池情報量基準が最大となるようにモデルを選べば, データをよく説明しており(対数尤度が高く), なおかつパラメータの数が大きすぎないようなモデルが選択されると期待できます. こういった「情報量基準」は,他にベイズ情報量基準(BIC)と呼ばれるものもあります.
しかしながらこういった規範も万能ではなく, 実際には単純なモデルを選びやすいと言われています.
【次元の呪い ~1.4節~】
先程までの「モデルの選択」にかんする話からはうってかわって, ここからは次元の呪いと呼ばれる概念について説明します.
私たちの住んでいる世界は,しばしば3次元空間と言われます. 3次元の世界に住んでいる私たちは,数直線・座標平面・座標空間と, 「3以下の次元」の世界のことはなんとなくイメージすることができます. たとえば,円や球,立方体やドーナツ型の形をイメージすることは簡単にできますね.
しかしながら,数学で出てくる世界は1,2,3次元の世界だけでなく, 4次元,5次元,…それらをはるかに超える高次元の世界も存在します. そして,機械学習を行う文脈で登場するのは, 3次元をはるかに超えるベクトルであることが非常に多いのです. たとえば画像解析.ラスタ画像のデータを単純に「画素」の集まりと見なして扱う場合, 小さい画像でも1000を優に超える次元の空間を考えることになります.
3次元空間に住む我々は, 数式なしでこういった高次元空間をイメージすることが非常に困難です. それらを理解するために数学が発展した,と言ったほうが適切かもしれません. たとえば, $(x_1,x_2,\ldots,x_{10})$ という10個の数字の組で表現される点の集合は 10 次元空間をなします. 「10次元空間中にある,半径1の球面(超球面,と言います)」は, 我々の住む世界での半径1の球が $x^2+y^2+z^2=1$ と表されることから, \begin{align} {x_1}^2+{x_2}^2+\cdots+{x_{10}}^2=1 \end{align} という式になるだろう,と想像できます.実際,超球はそのように定義されます.
しかし,上のような単純な式からなる,「球」という単純な図形の拡張ですら, 私たちにとってはなかなか想像できないような性質を持っています. たとえば超球面の内部の【体積】. 超球の体積は,それをすっぽりと囲む(外接する)立方体の体積の何分の1でしょうか.
実は,立方体とは20箇所で接するにもかかわらず, 立方体と比較するとたった 7.97% ほどしかありません. 3次元空間なら,「球に対する立方体の体積はおよそ倍ぐらいかな」 と予想できる人も多いでしょう.しかし, 10次元空間において,(計算することなく)体積比をイメージするというのは至難の業です.
次元が高くなることによる困難は他にもあります. データが存在する領域を,細かいマス目で区切る(メッシュ分割)ことを考えてみましょう. 立方体の1辺をそれぞれ10分割するとすれば 全体は$10^3=1000$分割されることになる,というのは3次元の話ですね. 10次元では 10000000000 個もの分割が必要になります. 784次元では…もはや天文学的数値ですね.
たとえば各々のメッシュに対して支配的なラベルを貼っていくようなアルゴリズムでは, 計算量は次元が増えるごとに,指数関数的に増えていきます. その結果,低次元ではさほど困難に思わない「メッシュ分割」も, 高次元では実現できないことがあります.
まとめると,高次元空間を考えるとき
- 高次元空間を想像・可視化するのは困難であり, 直感に反する結果がしばしば生じる
- 高次元空間中での数値計算は,次元が大きくなるとすさまじく計算量が増えてしまうことが多い
ということがしばしば機械学習では障害になる,ということです. このような高次元特有の困難のことを次元の呪いといいます. 「呪い」という表現から,それがどれだけ恐れられているのかなんとなく察されますね. その分,次元の呪いを回避する方法も既に考案されています. 今回は詳しく話しませんが, 主成分分析による次元削減はその代表的な手法の一つといえます.
今回の記事は以上です. 次回は「決定理論」についてお話しする予定です. ご期待ください!
画像データの中では画素数は少ない方だが,それでも
ベクトルに直すと$28\times28=784$次元ある(カラーと考えると次元はさらに増える).
手書き文字の画像は,784次元の空間に横たわっている1つの点として,
数学的に記述することができる.