Computer Use、構造化APIより45倍高コスト――ビジョンエージェント実測比較
Original: Computer Use is 45x more expensive than structured APIs View original →
比較実験の概要
Reflexチームが顧客・注文・レビュー管理の管理パネルで、2つのエージェントアーキテクチャを比較した。Path Aはbrowser-use 0.12ベースのビジョンエージェント、Path BはUIボタンと同じHTTPハンドラを直接呼び出すAPIエージェント。どちらも同じClaude Sonnetモデルを使用した。
ビジョンエージェントの失敗
APIエージェントは8回の呼び出しでタスクを完了。一方ビジョンエージェントは4件中1件のレビューのみ承認して停止した。ページ折り返し以下にコンテンツが存在するシグナルがなく、スクロールが必要と判断できなかったためだ。
14ステップのウォークスルーが必要
ビジョンエージェントにタスクを完了させるには、各要素を明示した14ステップの詳細プロンプトが必要だった。このプロンプトで14分・約50万入力トークンを消費し、APIエージェントの約45倍のコストとなった。
隠れたコスト
ウォークスルーの各ステップはトークン数に現れないエンジニアリングコストを意味する。UIが変更されるたびにプロンプト更新も必要で、維持コストが継続的に発生する。構造化APIならページネーション情報や完全な結果セットを直接提供でき、ピクセルレベルの指示が不要になる。
Related Articles
r/artificial の投稿は、email、phone number、browser、computer、memory、payments、SaaS access といった人間の基本機能が、急速に agent 向け API primitive として再構成されつつあると整理している。
HNは1.0という数字そのものには長く留まらなかった。Zedが1.0を名乗った瞬間、速いRust製エディタが人間とClaude Code、Codexが同じ場所で働くための土台として本当に足りるのか、という実戦の問いにすぐ移った。
次世代AGIベンチマークARC-AGI-3にて、GPT-5.5が0.43%、Claude Opus 4.7が0.18%という結果となり、このベンチマークの高難度が改めて証明された。
Comments (0)
No comments yet. Be the first to comment!