画像認識は、Deep learningが成功を収めている分野の一つですが、その多層ネットワークは、畳み込みニューラルネットワーク(以下、畳み込みネット)と呼ばれ、画像認識に適した独特の構造を持っています。
前回(Deep learningで画像認識①)は、この畳み込みネットが、文字認識や医用画像診断などの画像認識においてその力を発揮していることを紹介しました。
今回は、畳み込みネットが画像認識に適している理由を解説しようと思います。
畳み込みネットは、神経科学の知見に基づく構造を持っています。例えば、我々生物の視覚野には、たくさんの神経細胞(ニューロン)があり、外界からの入力に対する反応の違いによって
①単純型細胞
②複雑型細胞
の2種類のニューロンに分けられます。
ニューロンは、目の網膜の様々な部位と接続しており、ニューロンに影響を与える網膜上の範囲のことを「受容野」といいます。例えば、単純型細胞は、「特定の位置で、特定の傾きをもった光(影)」の入力に反応するような受容野を持っています(図1)。図1において、赤色の領域が光に、青色の領域が影に反応することを表しており、受容野が、様々な大きさや方位性を持っていることが分かります。
前回(Deep learningで画像認識①)は、この畳み込みネットが、文字認識や医用画像診断などの画像認識においてその力を発揮していることを紹介しました。
今回は、畳み込みネットが画像認識に適している理由を解説しようと思います。
畳み込みネットは、神経科学の知見に基づく構造を持っています。例えば、我々生物の視覚野には、たくさんの神経細胞(ニューロン)があり、外界からの入力に対する反応の違いによって
①単純型細胞
②複雑型細胞
の2種類のニューロンに分けられます。
ニューロンは、目の網膜の様々な部位と接続しており、ニューロンに影響を与える網膜上の範囲のことを「受容野」といいます。例えば、単純型細胞は、「特定の位置で、特定の傾きをもった光(影)」の入力に反応するような受容野を持っています(図1)。図1において、赤色の領域が光に、青色の領域が影に反応することを表しており、受容野が、様々な大きさや方位性を持っていることが分かります。
例えば、図2のような受容野において、+の位置に光が当たるとニューロンが反応し、−の位置に光が当たるとニューロンの反応が抑えられるとすると、(a)のような受容野は、45度の明るい(白い)線分の検出に、(b)のような受容野は、0度の暗い(黒い)線分の検出に、(c)のような受容野は、90度方向のエッジの検出に役立っていると言えます。
つまり、単純型細胞は、「視野内で明暗の境界がどこにあり、それがどのような傾きを持っているかを検出する」機能を持っているわけです。このような様々な大きさや方位性を持った単純型細胞の受容野が網膜に敷き詰められており、それらからの様々な入力情報を統合することで、われわれは外界を認識しているわけです。
一方、複雑型細胞では、「検出されるべき特徴的構造(線分やエッジ)が、受容野の中に入ってさえいれば、それらの位置に関わらずニューロンが反応」します。但し、傾きがずれると受容野内であっても反応しません。図3のように、受容野に対する線分の信号入力を考えた時、0度の線分の入力に対しては、その受容野上での位置に関わらずニューロンは反応するのに対し、例えば45度の線分には反応しない、ということになります(この場合は、0度の線分に反応すると仮定)。
一方、複雑型細胞では、「検出されるべき特徴的構造(線分やエッジ)が、受容野の中に入ってさえいれば、それらの位置に関わらずニューロンが反応」します。但し、傾きがずれると受容野内であっても反応しません。図3のように、受容野に対する線分の信号入力を考えた時、0度の線分の入力に対しては、その受容野上での位置に関わらずニューロンは反応するのに対し、例えば45度の線分には反応しない、ということになります(この場合は、0度の線分に反応すると仮定)。
では、この2種類の神経細胞の特徴をモデル化してみましょう。
単純化細胞のモデルは、図4のように表すことができます。図左の入力層が受容野における入力を表し、図右の出力層が単純型細胞を表します。出力層のニューロン一つ一つは、入力層の限られた領域のみ(この場合は4×4の領域)と結合し、入力パターンの位置シフトによって、反応するニューロンが変化します(a→b)。これは、まさに入力パターンの変化に敏感な単純型細胞に似た反応特性を示しています。
単純化細胞のモデルは、図4のように表すことができます。図左の入力層が受容野における入力を表し、図右の出力層が単純型細胞を表します。出力層のニューロン一つ一つは、入力層の限られた領域のみ(この場合は4×4の領域)と結合し、入力パターンの位置シフトによって、反応するニューロンが変化します(a→b)。これは、まさに入力パターンの変化に敏感な単純型細胞に似た反応特性を示しています。
では、複雑型細胞のモデルはどのように表されるでしょうか?図5を見てみましょう。
図4と同様に、単純型細胞に似た反応特性を持つ中間層は、受容野における入力パターン(斜めの線分)の位置がシフトすると、それに応じて反応するニューロンは変化しています。そこで、中間層の3×3のニューロンの中でどれか一つでも反応していれば、その信号が最終層に伝わり、最終層のニューロンが反応するとします。すると、最終的に、受容野の入力パターンの位置シフトによらずに、最終層は反応することになります。これは、まさに入力パターンの変化によらない(鈍感な)複雑型細胞に似た反応特性を示しています。
図4と同様に、単純型細胞に似た反応特性を持つ中間層は、受容野における入力パターン(斜めの線分)の位置がシフトすると、それに応じて反応するニューロンは変化しています。そこで、中間層の3×3のニューロンの中でどれか一つでも反応していれば、その信号が最終層に伝わり、最終層のニューロンが反応するとします。すると、最終的に、受容野の入力パターンの位置シフトによらずに、最終層は反応することになります。これは、まさに入力パターンの変化によらない(鈍感な)複雑型細胞に似た反応特性を示しています。
「入力パターンの変化に敏感である」という単純型細胞の反応特性は、画像認識において、「画像の濃淡パターンを検出する働き(特徴抽出)」を意味し、
「入力パターンの変化に鈍感である」という複雑型細胞の反応特性は、画像認識において、「物体の位置が変動しても同一の物体であるとみなす(位置感度を低下させる)働き」を意味します。
われわれの視覚認識において考えても、この2つの反応特性を両立させる必要があることから、図5のような「単純型細胞が複雑型細胞にシナプス結合している」というモデルが視覚認識のメカニズムをよく表していることが分かります。
次回は、上記のモデルを組み込んだ、畳み込みニューラルネットワークの初期のモデルであり、日本人研究者の福島邦彦氏が1982年に発表した「ネオコグニトロン」を紹介します。
「入力パターンの変化に鈍感である」という複雑型細胞の反応特性は、画像認識において、「物体の位置が変動しても同一の物体であるとみなす(位置感度を低下させる)働き」を意味します。
われわれの視覚認識において考えても、この2つの反応特性を両立させる必要があることから、図5のような「単純型細胞が複雑型細胞にシナプス結合している」というモデルが視覚認識のメカニズムをよく表していることが分かります。
次回は、上記のモデルを組み込んだ、畳み込みニューラルネットワークの初期のモデルであり、日本人研究者の福島邦彦氏が1982年に発表した「ネオコグニトロン」を紹介します。
12 件