Agent Safety and Sandboxing
Tool-use agent は、ファイル操作、ブラウザ操作、API 呼び出し、コード実行などを行えるため、通常の chat model よりも強い安全設計が必要です。Agent safety では、何を許可し、何を禁止し、どこで人間承認を挟むかを明確にします。
Action space の制約
Agent policy を 、履歴を 、action を とします。危険 action の集合を とすると、hard constraint は次のように書けます。
この式の気持ちは、「model が選びたいと言っても、policy layer または tool runtime が禁止 action を実行させない」ということです。
Approval gate
不可逆操作や外部送信を含む action には、人間承認 gate を挟みます。
ここで、 は承認が必要な action 集合です。この式の気持ちは、「安全上重要な操作は、agent の判断だけでなく人間の明示的な許可を必要にする」というものです。
Sandbox と capability
Sandbox は、agent が読める / 書ける / 実行できる resource を制限します。Capability set を とすると、action が必要とする権限 が含まれている場合にだけ実行できます。
この式の気持ちは、「agent に全権限を渡すのではなく、task に必要な最小権限だけを渡す」という least privilege の原則です。
関連ページ
主なソース
- OpenAI function calling / tool use documentation
- OSWorld benchmark: https://os-world.github.io/
- WebArena benchmark: https://webarena.dev/