Skip to main content

Multi-Agent RL

Multi-Agent RL (MARL) は、複数の agent が同じ環境で同時に学習・行動する 枠組みです。Game theory、ロボット協調、自動運転 fleet、LLM agent swarm まで応用が広がっています。

形式

複数 agent の RL は Markov Game で定式化されます。

M=(S,A1,,An,P,R1,,Rn,γ)M = (\mathcal{S}, \mathcal{A}_1, \ldots, \mathcal{A}_n, P, R_1, \ldots, R_n, \gamma)

各 agent ii は自分の reward RiR_i を最大化します。

三つの典型設定

設定
Cooperativeチームロボット、複数 drone 配送
CompetitiveChess、Go、Poker、StarCraft
Mixed自動運転、market、negotiation

中心的な課題

  • Non-stationarity: 他 agent も学習するため、環境分布が時間変化する
  • Credit assignment: 共通 reward の場合、どの agent の貢献かが不明
  • Partial observability: 他 agent の内部 state は見えない
  • Scalability: agent 数が増えると state-action 空間が爆発
  • Communication: agent 間の通信を学習する必要

CTDE: Centralized Training, Decentralized Execution

実装で人気のパラダイム:

  • Training 時: 全 agent の情報を centralized critic に渡せる
  • Execution 時: 各 agent は自分の観測のみで動く

MADDPG、QMIX、MAPPO がこの枠組みの代表です。

Self-Play

Self-play は、agent が 自分の copy 相手と対戦して学習 する手法です。AlphaGo / AlphaZero、AlphaStar、Poker AI で大成功しました。

Curriculum を自動生成できるのが強みですが、cycle (じゃんけん的に強さが回る) を起こすこともあります。

LLM での Multi-Agent

LLM agent 同士に議論させたり、role を分けて協調させる multi-agent LLM が活発です (詳細はこちら)。古典 MARL の知見が一部応用されつつあります。

関連ページ

主なソース