2017年1月26日 更新

LSTMとは〜概要と応用について〜

音声信号処理や文章・対話の生成に用いられているLSTM(Long Short Term Memory)についてまとめました。

873 view お気に入り 0
前回、Deep Neural Networkについての内容を紹介しました。以下がその記事です。

--------------------------------------------------------------------------------------------------

Deep learningで画像認識①

Deep learningで画像認識①
Deep Learningを用いて画像認識を行うアルゴリズムを紹介しています。 MNISTと呼ばれる手書き文字の分類をもとに、Deep Learningがどのように用いられているかが図で詳しく説明されています。
------------------------------------------------------------------------------------------------

Deep Learningの基本的な構造では、例えば手書き文字の認識だと、ピクセルの画素値を入力として、出力としてそれが何の数字かを返すものでした。
ここで注目すべきなのが、「ピクセルごとの隣接した情報を使っていない」ということです。
入力が画像であれば、隣接した情報は似通ったものであるかもしれないし、ある程度同じ情報を有しているはずです。下の猫の例をみてもらうと分かると思います。
 (2530)

猫の画像を部分的に拡大すると同じような画素値が含まれている。これらは相互に関係があるはず。
ここで、隣接したピクセルに注目してネットワークを組んだのがCNN(Convolutional Neural Network)です。現在では画像処理の分野でなくてはならない技術になっています。

今回紹介するLSTMも入力層ごとの関係を考慮したモデルになっています。

1. LSTMとは

LSTMとはLong-Short-Term-Memoryの略です。これはリカレントニューラルネットワークの一つであり、時系列データを扱う際に大きな効力を発揮します。主に使われている分野としては

・音声認識
・映像認識

などです。時間で変動するデータをNeural Network で用いるときに便利なようです。
Free illustration: Speech, Balloon, Talk, Bubble - Free Image on Pixabay - 1027857 (2534)

2. LSTMの構造

LSTMは以下のような構造になっています。
LSTMの構造

LSTMの構造

LSTMには
・忘却層
・保持層

などがあります。過去の情報を踏まえた上で現在の推定に用いることができるモデルになっているわけです。
LSTMは勾配消失問題を解決することができ、情報を削除したり追加する機能を持っています。この操作を制御することも可能になっています。

つまり、音の情報が与えられたとき、「この情報は必要!」と「この情報は必要ない!」とを分類できるわけですね。

3. LSTMの発展

LSTMを拡張した内容としては、

・Attention Model
http://www.aclweb.org/anthology/D15-1044

・Sequence to Sequence Model
https://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf

などもあります。
Attention Modelでは、「どこに注目するか」を考えることができるモデルです。例えば、画像からキャプションをつける技術などに使われているようです。
Sequence to Sequence model

Sequence to Sequence model

19 件

関連する記事 こんな記事も人気です♪

Deep learningで画像認識③〜ネオコグニトロンとは?〜

Deep learningで画像認識③〜ネオコグニトロンとは?〜

Deep learningは、画像認識において大きな成功を収めています。そこで用いられる多層ネットワークは、畳み込みニューラルネットワーク(convolutional neural network:CNN)と呼ばれており、画像認識に適した独特の構造を持っています。
木田智士 | 1,731 view
Deep learningで画像認識⑤〜Kerasで畳み込みニューラルネットワーク vol.1〜

Deep learningで画像認識⑤〜Kerasで畳み込みニューラルネットワーク vol.1〜

Kerasと呼ばれるDeep Learingのライブラリを使って、簡単に畳み込みニューラルネットワークを実装してみます。
木田智士 | 700 view
pythonによるtensorflow〜deepdreamによる画像変換〜

pythonによるtensorflow〜deepdreamによる画像変換〜

今回は前回のtensorflowの記事に引き続き、deepdreamによる画像変換についてご紹介します。
三好 裕之 | 802 view
pythonによるtensorflow〜インストール、サンプルの実行〜

pythonによるtensorflow〜インストール、サンプルの実行〜

今回は、いま注目されている「tensorflow」についてご紹介します。
三好 裕之 | 759 view
Deep learningで画像認識②〜視覚野と畳み込みニューラルネットワーク 〜

Deep learningで画像認識②〜視覚野と畳み込みニューラルネットワーク 〜

前回に引き続き、Deep learningで画像解析についてご紹介します。今回は、畳み込みネットが画像認識に適している理由を解説しようと思います。
木田智士 | 1,149 view

この記事のキーワード

この記事のキュレーター

三好 裕之 三好 裕之