Agent Benchmarks
Agent benchmark は、LLM が単に回答を生成できるかではなく、tool use、web 操作、coding、long-horizon planning、memory、環境との相互作用を通じて task を解けるかを評価します。
基本的な評価式
Task に対する成功 indicator を とすると、成功率は次の通りです。
ただし、agent では成功率だけでは不十分です。Tool call 数、token 数、実行時間、失敗時の副作用も評価対象になります。
ここで、 は cost です。この式の気持ちは、「成功すればよいだけではなく、少ない手数で、安全に、再現性高く成功する agent を評価する」というものです。
代表的 benchmark
| Benchmark | 主な評価対象 |
|---|---|
| WebArena | Web browsing、フォーム操作、情報探索 |
| OSWorld | GUI 操作、desktop application 操作 |
| SWE-bench | GitHub issue 修正、test 通過 |
| GAIA | tool use と multi-step reasoning |
| AgentBench | 多様な agent task |
| τ-bench | tool-use / customer-service style task |
Stochastic agent の評価
Agent は sampling、tool latency、環境状態により結果が揺れます。同じ task を 回実行した成功率は次のように推定できます。
この式の気持ちは、「一回成功したかどうかではなく、その task をどれくらい安定して解けるかを見る」というものです。
評価時の注意点
- 外部環境が変わる benchmark では、date と環境 version を記録します。
- Tool 権限や sandbox を固定しないと比較が不公平になります。
- Agent が benchmark 固有の shortcut を使っていないかを確認します。
- Human-in-the-loop がある場合、どこまでが agent の能力なのかを分離します。
関連ページ
主なソース
- SWE-bench: https://www.swebench.com/
- WebArena: https://webarena.dev/
- OSWorld: https://os-world.github.io/
- GAIA: https://arxiv.org/abs/2311.12983
- AgentBench: https://arxiv.org/abs/2308.03688