Agent Benchmarks

Agent benchmark は、LLM が単に回答を生成できるかではなく、tool use、web 操作、coding、long-horizon planning、memory、環境との相互作用を通じて task を解けるかを評価します。

基本的な評価式

Task $i$ に対する成功 indicator を $S_i\in\{0,1\}$ とすると、成功率は次の通りです。

\mathrm{SuccessRate}=\frac{1}{N}\sum_{i=1}^{N}S_i

ただし、agent では成功率だけでは不十分です。Tool call 数、token 数、実行時間、失敗時の副作用も評価対象になります。

\mathrm{Score}=\frac{1}{N}\sum_i(S_i-\lambda C_i)

ここで、 $C_i$ は cost です。この式の気持ちは、「成功すればよいだけではなく、少ない手数で、安全に、再現性高く成功する agent を評価する」というものです。

Benchmark	主な評価対象
WebArena	Web browsing、フォーム操作、情報探索
OSWorld	GUI 操作、desktop application 操作
SWE-bench	GitHub issue 修正、test 通過
GAIA	tool use と multi-step reasoning
AgentBench	多様な agent task
τ-bench	tool-use / customer-service style task

Agent は sampling、tool latency、環境状態により結果が揺れます。同じ task を $K$ 回実行した成功率は次のように推定できます。

\hat{p}_i=\frac{1}{K}\sum_{k=1}^{K}S_{i,k}

この式の気持ちは、「一回成功したかどうかではなく、その task をどれくらい安定して解けるかを見る」というものです。