書籍「ゼロから作るDeep Learning強化学習編」を読んで強化学習について理解した内容を書いています。

1章 バンディット問題

  • 強化学習が他の学習と大きく異なる特徴は、エージェント(ロボットなど)が環境との相互作用の中で学習すること。

2章 マルコフ決定過程

3章 ベルマン方程式

4章 動的計画法

5章 モンテカルロ法

6章 TD法

7章 ニューラルネットワークとQ学習

8章 DQN

9章 方策勾配法

10章 さらに先へ

 

強化学習について自分なりの解釈

  • 強化学習は、人間が試行錯誤で色々な行動を試しながら、結果が良かった(成功した)行動は継続して、結果が悪かった(失敗した)行動は繰り返さないように学んでいくのと同じ。
  • 学習が難しいケースは、環境が複雑で過去と完全に同じ状況(状態)が発生しないケース、同じ行動でも結果(報酬)が確率的に変化するケース、ある行動が短期的には(目先の)報酬が高くても長期的には報酬が低くなるケースなど。