python+tensorflowでatariのponをDQN(深層強化学習)してみた。

[深層強化学習]pon-3

エポック900辺りの様子です。
10点ぐらいいれられるようになりました。

via www.youtube.com

[深層強化学習]pon-4

エポック1200辺りの様子です。
かなり勝てそうになってきました。

via www.youtube.com

[深層強化学習]pon-5

エポック1300辺りの様子です。
ついに勝ちました！！

via www.youtube.com

[深層強化学習]pon-6

エポック1800辺りの様子です。
ほぼ完封に近いことができるようになりました。
必勝パターンを覚えたようです。
残念ながら0-21の試合は取れませんでした。

via www.youtube.com

最後の方のターミナルの様子

rewardが21となっており完封勝ちしたものがあることがわかります。

かなり学習に時間はかかりましたが、最終的には完封勝ちまで行けました。
途中から点を取る方法を学びその後は必勝パターンを学んだようです。
相手のコンピューターはおそらくボールの位置を一定のスピードで追随するだけのようです。
それより早く動かせれば得点を取れるということです。
こんな感じで強化学習はどんどん学びます。
面白かったです。

応用例

では、この強化学習は何に応用できるのでしょうか？
みなさんが知っている通り一番有名なのは今だとAlpha Goですね。
他には2Dゲームが多かったです。最近は徐々に3Dのゲームもできるようになってきています。

CS275 Project: 3D Flappy Bird with Reinforcement Learning

Flappy Birdを学習させる様子。
計算量どのくらいかかるんだろうか...

via www.youtube.com

Asynchronous Methods for Deep Reinforcement Learning: Labyrinth

謎の3Dゲームの様子

via www.youtube.com

そのうちどんなゲームでも人間は勝てなくなるでしょうね。
ゲームができるということは現実でもかなりうまくいきそうですが、ゲームという閉じた環境だからこそ勝てているのでしょう。
Deep learningは閉じた環境だとめちゃめちゃ強いですからね。
他にはロボットの制御とかもあります。

Deep Reinforcement Learning for Robotic Manipulation

これはロボットに
ドアの開け閉めを覚えさせる様子です。
人が邪魔しても大丈夫なのが面白いです。

via www.youtube.com

Robot Control with Distributed Deep Reinforcement Learning

こちらは小さな車のようなロボットを学習させた様子です。
最後の方に動いている様子があります。
なんかみていると酔いそうです。

via www.youtube.com

ロボットに使えるようになると劇的に変化すると思います。
今までプログラムしたことしかできなかったのが、他のこともできるようになると臨機応変な対応ができるようになりそうです。
そのうちロボットが手術とかするようになるかもしれませんね。
他には、株や仮想通貨の取引も自動化できるようになるかもしれません。
webなどのデザインも強化学習で学んでいくことによって柔軟に変わっていくかもしれません。
きっと応用の幅はかなり広いと思います。
普通の機械学習はデータありきでそれを使って学びますが、強化学習は繰り返しできる環境を与えてデータを生成しながら学ぶので柔軟性があります。

感想

去年から機械学習の勉強を始めて、古典的機械学習、deep learning、CNN、RNN、自然言語処理、GAN、DQNととりあえず一通りやってみましたが一番面白そうだと思ったのはこの強化学習でした。
今後は強化学習とKaggleを引き続きやっていきます。
ちなみに強化学習の勉強の進め方は、下の2冊の順でやるといいらしいです。

強化学習 | Richard S.Sutton, Andrew G.Barto, 三上貞芳, 皆川雅章 |本 | 通販 | Amazon

AmazonでRichard S.Sutton, Andrew G.Barto, 三上貞芳, 皆川雅章の強化学習。アマゾンならポイント還元本が多数。Richard S.Sutton, Andrew G.Barto, 三上貞芳, 皆川雅章作品ほか、お急ぎ便対象商品は当日お届けも可能。また強化学習もアマゾン配送商品なら通常配送無料。

32 件

python+tensorflowでatariのponをDQN(深層強化学習)してみた。

[深層強化学習]pon-3

[深層強化学習]pon-4

[深層強化学習]pon-5

[深層強化学習]pon-6

最後の方のターミナルの様子

応用例

CS275 Project: 3D Flappy Bird with Reinforcement Learning

Asynchronous Methods for Deep Reinforcement Learning: Labyrinth

Deep Reinforcement Learning for Robotic Manipulation

Robot Control with Distributed Deep Reinforcement Learning

感想

強化学習 | Richard S.Sutton, Andrew G.Barto, 三上貞芳, 皆川雅章 |本 | 通販 | Amazon

関連する記事こんな記事も人気です♪

Python + tensorflow でGANを試してみた．

量子アニーリングを駆使して数独を解いてみた

Morphology (モルフォロジー) 変換の実装 ~ Python + OpenCV ~

等角写像による画像の変換〜Schwarz-Christoffel 変換〜part 2

等角写像による画像の変換〜Schwarz-Christoffel 変換〜 part1

この記事のキーワードキーワードから記事を探す

この記事のキュレーター

週間ランキング

KaggleチュートリアルTitanicで上位3%以内に入るには。(0.82297)

KaggleチュートリアルTitanicで上位1%に入った話。(0.87081)

ImageJを使った体積測定

python+tensorflowでatariのponをDQN(深層強化学習)してみた。

顔写真から心拍数が計測出来る「Pace Sync」

おすすめの記事

細胞種を機械学習で判別する！

人気のキーワード

IMACEL Academy -人工知能・画像解析の技術応用に向けて-| エルピクセル株式会社

python+tensorflowでatariのponをDQN(深層強化学習)してみた。

[深層強化学習]pon-3

[深層強化学習]pon-4

[深層強化学習]pon-5

[深層強化学習]pon-6

最後の方のターミナルの様子

応用例

CS275 Project: 3D Flappy Bird with Reinforcement Learning

Asynchronous Methods for Deep Reinforcement Learning: Labyrinth

Deep Reinforcement Learning for Robotic Manipulation

Robot Control with Distributed Deep Reinforcement Learning

感想

強化学習 | Richard S.Sutton, Andrew G.Barto, 三上 貞芳, 皆川 雅章 |本 | 通販 | Amazon

関連する記事 こんな記事も人気です♪

Python + tensorflow でGANを試してみた．

量子アニーリングを駆使して数独を解いてみた

Morphology (モルフォロジー) 変換の実装 ~ Python + OpenCV ~

等角写像による画像の変換〜Schwarz-Christoffel 変換〜part 2

等角写像による画像の変換〜Schwarz-Christoffel 変換〜 part1

この記事のキーワード キーワードから記事を探す

この記事のキュレーター

週間ランキング

KaggleチュートリアルTitanicで上位3%以内に入るには。(0.82297)

KaggleチュートリアルTitanicで上位1%に入った話。(0.87081)

ImageJを使った体積測定

python+tensorflowでatariのponをDQN(深層強化学習)してみた。

顔写真から心拍数が計測出来る「Pace Sync」

おすすめの記事

細胞種を機械学習で判別する！

人気のキーワード

IMACEL Academy -人工知能・画像解析の技術応用に向けて-| エルピクセル株式会社

強化学習 | Richard S.Sutton, Andrew G.Barto, 三上貞芳, 皆川雅章 |本 | 通販 | Amazon

関連する記事こんな記事も人気です♪

この記事のキーワードキーワードから記事を探す