Multi-Agent RL

Multi-Agent RL (MARL) は、複数の agent が同じ環境で同時に学習・行動する 枠組みです。Game theory、ロボット協調、自動運転 fleet、LLM agent swarm まで応用が広がっています。

形式

複数 agent の RL は Markov Game で定式化されます。

M = (\mathcal{S}, \mathcal{A}_1, \ldots, \mathcal{A}_n, P, R_1, \ldots, R_n, \gamma)

各 agent $i$ は自分の reward $R_i$ を最大化します。

実装で人気のパラダイム:

MADDPG、QMIX、MAPPO がこの枠組みの代表です。

Self-play は、agent が 自分の copy 相手と対戦して学習 する手法です。AlphaGo / AlphaZero、AlphaStar、Poker AI で大成功しました。

Curriculum を自動生成できるのが強みですが、cycle (じゃんけん的に強さが回る) を起こすこともあります。

LLM agent 同士に議論させたり、role を分けて協調させる multi-agent LLM が活発です (詳細はこちら)。古典 MARL の知見が一部応用されつつあります。