Computer Use、構造化APIより45倍高コスト――ビジョンエージェント実測比較
Original: Computer Use is 45x more expensive than structured APIs View original →
比較実験の概要
Reflexチームが顧客・注文・レビュー管理の管理パネルで、2つのエージェントアーキテクチャを比較した。Path Aはbrowser-use 0.12ベースのビジョンエージェント、Path BはUIボタンと同じHTTPハンドラを直接呼び出すAPIエージェント。どちらも同じClaude Sonnetモデルを使用した。
ビジョンエージェントの失敗
APIエージェントは8回の呼び出しでタスクを完了。一方ビジョンエージェントは4件中1件のレビューのみ承認して停止した。ページ折り返し以下にコンテンツが存在するシグナルがなく、スクロールが必要と判断できなかったためだ。
14ステップのウォークスルーが必要
ビジョンエージェントにタスクを完了させるには、各要素を明示した14ステップの詳細プロンプトが必要だった。このプロンプトで14分・約50万入力トークンを消費し、APIエージェントの約45倍のコストとなった。
隠れたコスト
ウォークスルーの各ステップはトークン数に現れないエンジニアリングコストを意味する。UIが変更されるたびにプロンプト更新も必要で、維持コストが継続的に発生する。構造化APIならページネーション情報や完全な結果セットを直接提供でき、ピクセルレベルの指示が不要になる。
Related Articles
r/artificial の投稿は、email、phone number、browser、computer、memory、payments、SaaS access といった人間の基本機能が、急速に agent 向け API primitive として再構成されつつあると整理している。
OpenAIが、EVMベースのスマートコントラクトにおける高リスク脆弱性の検出・悪用・パッチ能力をAIエージェントで測定する新ベンチマーク「EVMbench」を公開しました。
TrapDoorは5月22日以降、npm、PyPI、Crates.ioに34個超の悪性パッケージを広げた。注目点は認証情報の窃取だけでなく、.cursorrulesやCLAUDE.mdを使ってAIコーディング支援ツールまで攻撃経路に入れたことだ。