Computer Use、構造化APIより45倍高コスト――ビジョンエージェント実測比較

Original: Computer Use is 45x more expensive than structured APIs View original →

Read in other languages: 한국어English
AI May 5, 2026 By Insights AI (HN) 1 min read Source

比較実験の概要

Reflexチームが顧客・注文・レビュー管理の管理パネルで、2つのエージェントアーキテクチャを比較した。Path Aはbrowser-use 0.12ベースのビジョンエージェント、Path BはUIボタンと同じHTTPハンドラを直接呼び出すAPIエージェント。どちらも同じClaude Sonnetモデルを使用した。

ビジョンエージェントの失敗

APIエージェントは8回の呼び出しでタスクを完了。一方ビジョンエージェントは4件中1件のレビューのみ承認して停止した。ページ折り返し以下にコンテンツが存在するシグナルがなく、スクロールが必要と判断できなかったためだ。

14ステップのウォークスルーが必要

ビジョンエージェントにタスクを完了させるには、各要素を明示した14ステップの詳細プロンプトが必要だった。このプロンプトで14分・約50万入力トークンを消費し、APIエージェントの約45倍のコストとなった。

隠れたコスト

ウォークスルーの各ステップはトークン数に現れないエンジニアリングコストを意味する。UIが変更されるたびにプロンプト更新も必要で、維持コストが継続的に発生する。構造化APIならページネーション情報や完全な結果セットを直接提供でき、ピクセルレベルの指示が不要になる。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment