Reinforcement Learning | Haruk1y Wiki

📄️Reinforcement Learning Overview

RL の全体像、MDP、value-based、policy gradient、actor-critic、offline RL の関係を整理します。

Markov Decision Process、policy、value function、Bellman equation、optimality を整理します。

Q-learning、SARSA、DQN、Double DQN、Rainbow を整理します。

Policy gradient の基礎、REINFORCE、log-derivative trick、baseline、variance reduction を整理します。

Actor-critic の構造、advantage、A2C / A3C、SAC、generalized advantage estimation を整理します。

Trust Region Policy Optimization と Proximal Policy Optimization、clipped surrogate を整理します。

Exploration-exploitation trade-off、ε-greedy、entropy、curiosity、importance sampling を整理します。

固定 dataset から policy を学ぶ offline RL、CQL、IQL、distribution shift を整理します。

World model を学習して planning する model-based RL、Dyna、Dreamer、MuZero を整理します。

Behavior Cloning、DAgger、GAIL、inverse RL の概念と LLM SFT との関係を整理します。

Cooperative / competitive multi-agent RL、CTDE、MADDPG、self-play を整理します。