Skip to main content

Web and Computer-Use Agents

Web / Computer-Use Agents は、人間のように GUI を操作する agent です。Browser を navigate したり、OS の任意 application を click / type したりして task を遂行します。AI agent の中で最も「身体性 (embodiment)」に近い領域です。

何ができるのか

  • Web 検索、フォーム入力、商品購入
  • メール送信、カレンダー登録
  • スプレッドシート編集
  • Web app 操作
  • デスクトップアプリの GUI 操作
  • スクリーンショットからの読み取りと判断

Web Agent

Web agent は HTML DOM、accessibility tree、screenshot を入力として、

  • 要素を選んで click
  • フィールドに type
  • スクロール、リンク遷移
  • フォーム送信

します。代表 benchmark: WebArena、VisualWebArena、Mind2Web。

Computer-Use Agent

Computer-use agent は、ブラウザに限らず OS 全体 を操作します。

  • スクリーンショット → vision-language model で UI を理解
  • マウス / キーボードイベントを発行
  • 任意 application を扱える

代表 system:

System特徴
Claude Computer UseAnthropic、Claude が screen を見て click
OpenAI OperatorOpenAI の web automation agent
Browser-UseOSS の browser agent framework
Google Project MarinerChrome 内 web agent

入力 modality の選択

入力利点欠点
DOM / HTML構造化、堅牢アプリ依存、外部アプリ不可
Accessibility treeクリーンな抽象、screen reader 用一部 web で不完全
Screenshot + VLM任意 GUIOCR / 要素特定が誤りやすい
Hybrid強い設計が複雑

何が難しいか

  • 長い操作列: 数十〜数百 step
  • 動的 UI: ローディング、modal、Ajax
  • Pop-up / CAPTCHA: 想定外イベント
  • GUI の曖昧さ: 似たボタンが複数
  • 副作用: 購入、送信のような取り返しのつかない操作
  • Security: prompt injection が web ページに埋め込まれる

安全と guardrails

実用 deploy では、

  • 重要操作の human approval
  • 限定 domain の allowlist
  • 仮想環境 / sandbox
  • 認証情報の隔離
  • Action log と audit
  • Injection 対策 (page content を信用しない)

が必須です。

数式で見る UI agent の観測と行動

Web / computer-use agent は、画面観測 oto_t と内部履歴 hth_t から、click、type、scroll などの action を選びます。

atπθ(atht,ot)a_t\sim\pi_\theta(a_t\mid h_t,o_t)

画面状態は action によって遷移します。

ot+1=E(ot,at)o_{t+1}=E(o_t,a_t)

ここで、EE は browser や OS を含む環境です。この式の気持ちは、「UI 操作は一回の回答ではなく、観測して、操作して、結果を見て、また操作する逐次意思決定である」ということです。

安全な UI agent では、破壊的 action や外部送信 action に penalty または approval gate を入れることがあります。

π(atht,ot)=0if atAblocked\pi(a_t\mid h_t,o_t)=0\quad \text{if } a_t\in\mathcal{A}_{blocked}

これは、特定の危険 action を policy の候補から除外する hard constraint として理解できます。

関連ページ

主なソース