Agent Evaluation

Agent Evaluation は、LLM 単体評価と違い、環境との相互作用、tool use、長期 task、副作用 を扱う必要があります。Benchmark 設計と metric は急速に進化している領域です。

何を測るか

Benchmark	領域
SWE-Bench (Verified, Lite, Multimodal)	実 GitHub issue 解決
GAIA	一般 assistant task
AgentBench	多領域 agent 統合
WebArena	自律 web operation
VisualWebArena	視覚 web agent
Mind2Web	多サイト web automation
OSWorld	OS 操作
tau-bench	Tool use + dialogue
ToolBench	API 呼び出し
ALFWorld / SciWorld	Text-based simulated env

Production agent では、独自 evaluation harness を持つことが多いです。

特に regression detection (新 model で既存 task が壊れていないか) が重要です。

Agent の trace 全体を LLM が判定する形式が広く使われます。

Self-preference bias や verbosity bias に注意が必要です。

Agent evaluation では、task $\mathcal{T}_i$ に対する success indicator $S_i\in\{0,1\}$ を集計することが多いです。

\mathrm{SuccessRate}=\frac{1}{N}\sum_{i=1}^{N}S_i

ただし、agent task では成功率だけでは不十分です。Tool call cost、時間、失敗時の副作用も重要です。Cost-aware score は概念的に次のように書けます。

\mathrm{Score}=\frac{1}{N}\sum_i \left(S_i-\lambda C_i\right)

ここで、 $C_i$ は token 数、tool call 数、実行時間、API cost などをまとめた cost です。この式の気持ちは、「成功すればよいだけではなく、少ない手数で安全に成功する agent を評価したい」というものです。

また、stochastic な agent では同じ task を複数 seed で実行し、分散も見る必要があります。

\hat{p}_i=\frac{1}{K}\sum_{k=1}^{K}S_{i,k}

$\hat{p}_i$ は task $i$ に対する成功確率の推定値です。一回だけの成功・失敗では、agent の安定性を見誤ることがあります。