前回、Deep Neural Networkについての内容を紹介しました。以下がその記事です。
--------------------------------------------------------------------------------------------------
--------------------------------------------------------------------------------------------------
Deep learningで画像認識①
Deep Learningを用いて画像認識を行うアルゴリズムを紹介しています。
MNISTと呼ばれる手書き文字の分類をもとに、Deep Learningがどのように用いられているかが図で詳しく説明されています。
------------------------------------------------------------------------------------------------
Deep Learningの基本的な構造では、例えば手書き文字の認識だと、ピクセルの画素値を入力として、出力としてそれが何の数字かを返すものでした。
ここで注目すべきなのが、「ピクセルごとの隣接した情報を使っていない」ということです。
入力が画像であれば、隣接した情報は似通ったものであるかもしれないし、ある程度同じ情報を有しているはずです。下の猫の例をみてもらうと分かると思います。
Deep Learningの基本的な構造では、例えば手書き文字の認識だと、ピクセルの画素値を入力として、出力としてそれが何の数字かを返すものでした。
ここで注目すべきなのが、「ピクセルごとの隣接した情報を使っていない」ということです。
入力が画像であれば、隣接した情報は似通ったものであるかもしれないし、ある程度同じ情報を有しているはずです。下の猫の例をみてもらうと分かると思います。
ここで、隣接したピクセルに注目してネットワークを組んだのがCNN(Convolutional Neural Network)です。現在では画像処理の分野でなくてはならない技術になっています。
今回紹介するLSTMも入力層ごとの関係を考慮したモデルになっています。
今回紹介するLSTMも入力層ごとの関係を考慮したモデルになっています。
1. LSTMとは
LSTMとはLong-Short-Term-Memoryの略です。これはリカレントニューラルネットワークの一つであり、時系列データを扱う際に大きな効力を発揮します。主に使われている分野としては
・音声認識
・映像認識
などです。時間で変動するデータをNeural Network で用いるときに便利なようです。
・音声認識
・映像認識
などです。時間で変動するデータをNeural Network で用いるときに便利なようです。
via pixabay.com
2. LSTMの構造
LSTMは以下のような構造になっています。
LSTMは勾配消失問題を解決することができ、情報を削除したり追加する機能を持っています。この操作を制御することも可能になっています。
つまり、音の情報が与えられたとき、「この情報は必要!」と「この情報は必要ない!」とを分類できるわけですね。
つまり、音の情報が与えられたとき、「この情報は必要!」と「この情報は必要ない!」とを分類できるわけですね。
3. LSTMの発展
LSTMを拡張した内容としては、
・Attention Model
http://www.aclweb.org/anthology/D15-1044
・Sequence to Sequence Model
https://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf
などもあります。
Attention Modelでは、「どこに注目するか」を考えることができるモデルです。例えば、画像からキャプションをつける技術などに使われているようです。
・Attention Model
http://www.aclweb.org/anthology/D15-1044
・Sequence to Sequence Model
https://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf
などもあります。
Attention Modelでは、「どこに注目するか」を考えることができるモデルです。例えば、画像からキャプションをつける技術などに使われているようです。