Microsoftとカーネギーメロン大学が質問回答式の人工知能システムを開発 - IMACEL Academy -人工知能・画像解析の技術応用に向けて-| エルピクセル株式会社

マイクロソフトの研究チームは、カーネギーメロン大学との共同研究で、人工知能のシステムを新しく開発した。機械に画像の抽象的な特徴を解析させ、その画像に関する質問に対して回答する訓練ができるようになった。

今回開発されたシステムでは、コンピュータビジョン（ロボットの目）とディープラーニング、画像分析と適切な回答を解析するための自然言語処理技術を使う。質問に対する回答の推論は、複数のレイヤー(SANs:stacked attention networks)を通して行われる。

arXiv.org

まず、画像情報をニューラルネットワークで処理することで、与えられた質問の意味や前提となる状況を理解する（第1レイヤー）。
次に画像の中で回答に必要なものをふくむ領域に視点をフォーカスする。
これは写真に写り込んだ無関係な情報を排除するプロセスでもあり、抽出された情報から「最も適切と思われる」回答を導き出すことができる（第2レイヤー）。

たとえばトップ画像の写真について「自転車のカゴの中にいるのは何ですか？」という質問があったとする。
第1レイヤーでは、自転車やカゴといった"物体"と「カゴの中」という"概念"を認識。そして第2レイヤーでカゴの中身に焦点を当てて、「その中にあるのは何か」を分析する。この場合、質問への回答は「イヌ」となる。

今回紹介した研究は画風アルゴリズムで紹介したConvolution Neural Network(CNN)が用いられている。今後、Neural Networkを用いたディープラーニングの研究は更に進んでいくだろう。

<参考資料>
System trains machines to look at images the way people do – and answer questions about them(Microsoft Blog)
Stacked Attention Networks for Image Question Answering(Arxiv.org)