yk2024の日記

■

書籍「ゼロから作るDeep Learning ❹ 強化学習編」を読んで強化学習について理解した内容を書いています。

1章　バンディット問題

強化学習が他の学習と大きく異なる特徴は、エージェント(ロボットなど)が環境との相互作用の中で学習すること。

2章　マルコフ決定過程

3章　ベルマン方程式

4章　動的計画法

5章　モンテカルロ法

6章　TD法

7章　ニューラルネットワークとQ学習

8章　DQN

9章　方策勾配法

10章　さらに先へ

※強化学習について自分なりの解釈

強化学習は、人間が試行錯誤で色々な行動を試しながら、結果が良かった(成功した)行動は継続して、結果が悪かった(失敗した)行動は繰り返さないように学んでいくのと同じ。
学習が難しいケースは、環境が複雑で過去と完全に同じ状況(状態)が発生しないケース、同じ行動でも結果(報酬)が確率的に変化するケース、ある行動が短期的には(目先の)報酬が高くても長期的には報酬が低くなるケースなど。