SpatialClaw、20ベンチマークで既存空間エージェントを11.2点上回る
Original: SpatialClaw beats a prior spatial agent by 11.2 points across 20 benchmarks View original →
空間推論エージェントの性能差は、使える道具の多さではなく、道具と中間結果をどう組み合わせるかで生まれる可能性がある。NVIDIA AIはXでSpatialClawを紹介し、「Code is the right action interface」と述べた。SpatialClawは、固定されたJSON形式のツール呼び出しだけに頼らず、永続的なPythonカーネル内でコードを書き、知覚モジュールの出力を変数として再利用しながら方針を修正する。
リンク先のプロジェクトページは、具体的なベンチマーク結果を示している。SpatialClawは、ベンチマークやモデルに特化した調整なしで、20ベンチマーク平均において最近の既存空間エージェントを11.2ポイント上回った。同じバックボーンでは20ベンチマーク中19件で改善し、6つのVLMバックボーン全体でも一貫した向上が出ている。no-tool基準からの平均改善は+6.5ポイントで、DSI-Bench +17.6ポイント、MindCube +15.3ポイント、MMSI +13.4ポイントといった大きな差も挙げられている。
NVIDIA AIの公式アカウントは、研究、開発者向け技術、AIインフラの情報を多く扱う。今回の投稿はモデルサイズ競争ではなく、エージェント設計の論点である。次に見るべき点は、このコード実行型インターフェースが安全なサンドボックス、再現可能な状態管理、遅延や失敗時の復旧と両立するかどうかだ。出典投稿はこちら。
Related Articles
NVIDIA Veraはfull productionに入り、x86 CPU比でtask completionを1.8倍にすると説明された。OpenAI、Anthropic、SpaceXAI、ByteDance、CoreWeave、OCIなどが採用・評価先として挙がる。
リアルタイムアニメーションとロボット動作生成が単一の生成モデルに近づいた。NVIDIA ResearchはMotionBricksで35万超の動作クリップ、15,000 FPS、2ms遅延を示した。
NVIDIAはHugging FaceでNemotron-Personas-Koreaを公開した。韓国の公的統計に基づく7 million synthetic personasは、agent localizationが翻訳だけでなく地域、敬語、職業、公共サービス文脈まで含むことを示す。