Computer Use、構造化APIより45倍高コスト――ビジョンエージェント実測比較

比較実験の概要

Reflexチームが顧客・注文・レビュー管理の管理パネルで、2つのエージェントアーキテクチャを比較した。Path Aはbrowser-use 0.12ベースのビジョンエージェント、Path BはUIボタンと同じHTTPハンドラを直接呼び出すAPIエージェント。どちらも同じClaude Sonnetモデルを使用した。

ビジョンエージェントの失敗

APIエージェントは8回の呼び出しでタスクを完了。一方ビジョンエージェントは4件中1件のレビューのみ承認して停止した。ページ折り返し以下にコンテンツが存在するシグナルがなく、スクロールが必要と判断できなかったためだ。

14ステップのウォークスルーが必要

ビジョンエージェントにタスクを完了させるには、各要素を明示した14ステップの詳細プロンプトが必要だった。このプロンプトで14分・約50万入力トークンを消費し、APIエージェントの約45倍のコストとなった。

隠れたコスト

ウォークスルーの各ステップはトークン数に現れないエンジニアリングコストを意味する。UIが変更されるたびにプロンプト更新も必要で、維持コストが継続的に発生する。構造化APIならページネーション情報や完全な結果セットを直接提供でき、ピクセルレベルの指示が不要になる。

AI X/Twitter 4d ago 1 min read

Spatial-IQ、人間82.1%対モデル17.7%で空間推論の弱点を可視化

NVIDIA ResearchのSpatial-IQは、3D object countingを9つの下位課題に分解する診断benchmarkだ。人間の正答率82.1%に対し、最良の汎用multimodal modelは17.7%で、Qwen2.5-VL-32Bは訓練後2.9%から62.6%へ上がった。

#nvidia #spatial-iq #multimodal

AI Reddit Apr 6, 2026 1 min read