SpatialClaw、20ベンチマークで既存空間エージェントを11.2点上回る

空間推論エージェントの性能差は、使える道具の多さではなく、道具と中間結果をどう組み合わせるかで生まれる可能性がある。NVIDIA AIはXでSpatialClawを紹介し、「Code is the right action interface」と述べた。SpatialClawは、固定されたJSON形式のツール呼び出しだけに頼らず、永続的なPythonカーネル内でコードを書き、知覚モジュールの出力を変数として再利用しながら方針を修正する。

リンク先のプロジェクトページは、具体的なベンチマーク結果を示している。SpatialClawは、ベンチマークやモデルに特化した調整なしで、20ベンチマーク平均において最近の既存空間エージェントを11.2ポイント上回った。同じバックボーンでは20ベンチマーク中19件で改善し、6つのVLMバックボーン全体でも一貫した向上が出ている。no-tool基準からの平均改善は+6.5ポイントで、DSI-Bench +17.6ポイント、MindCube +15.3ポイント、MMSI +13.4ポイントといった大きな差も挙げられている。

NVIDIA AIの公式アカウントは、研究、開発者向け技術、AIインフラの情報を多く扱う。今回の投稿はモデルサイズ競争ではなく、エージェント設計の論点である。次に見るべき点は、このコード実行型インターフェースが安全なサンドボックス、再現可能な状態管理、遅延や失敗時の復旧と両立するかどうかだ。出典投稿はこちら。