Multi-Agent RL
Multi-Agent RL (MARL) は、複数の agent が同じ環境で同時に学習・行動する 枠組みです。Game theory、ロボット協調、自動運転 fleet、LLM agent swarm まで応用が広がっています。
形式
複数 agent の RL は Markov Game で定式化されます。
各 agent は自分の reward を最大化します。
三つの典型設定
| 設定 | 例 |
|---|---|
| Cooperative | チームロボット、複数 drone 配送 |
| Competitive | Chess、Go、Poker、StarCraft |
| Mixed | 自動運転、market、negotiation |
中心的な課題
- Non-stationarity: 他 agent も学習するため、環境分布が時間変化する
- Credit assignment: 共通 reward の場合、どの agent の貢献かが不明
- Partial observability: 他 agent の内部 state は見えない
- Scalability: agent 数が増えると state-action 空間が爆発
- Communication: agent 間の通信を学習する必要
CTDE: Centralized Training, Decentralized Execution
実装で人気のパラダイム:
- Training 時: 全 agent の情報を centralized critic に渡せる
- Execution 時: 各 agent は自分の観測のみで動く
MADDPG、QMIX、MAPPO がこの枠組みの代表です。
Self-Play
Self-play は、agent が 自分の copy 相手と対戦して学習 する手法です。AlphaGo / AlphaZero、AlphaStar、Poker AI で大成功しました。
Curriculum を自動生成できるのが強みですが、cycle (じゃんけん的に強さが回る) を起こすこともあります。
LLM での Multi-Agent
LLM agent 同士に議論させたり、role を分けて協調させる multi-agent LLM が活発です (詳細はこちら)。古典 MARL の知見が一部応用されつつあります。
関連ページ
主なソース
- MADDPG: https://arxiv.org/abs/1706.02275
- QMIX: https://arxiv.org/abs/1803.11485
- MAPPO: https://arxiv.org/abs/2103.01955
- AlphaZero: https://arxiv.org/abs/1712.01815