DeepSeek V4 Pro、エージェントベンチマークでGPT-5.2と同等性能――17倍安く10週後に到達
Original: DeepSeek V4 Pro matches GPT-5.2 on FoodTruck Bench, our agentic benchmark — 10 weeks later, ~17x cheaper View original →
FoodTruck Benchとは
FoodTruck Benchは、モデルが34種のツール(立地、価格、在庫、スタッフ、天気、イベント)を使って30日間フードトラックを経営するエージェント型ベンチマークだ。永続メモリと日次リフレクションを含む実践的エージェント能力を評価する。
結果
DeepSeek V4 ProはClaude Opus 4.6、GPT-5.2、Grok 4.3に次ぐ総合4位。Grok 4.3とは同点で、GPT-5.2の中央値から3%以内の差だ。このベンチマークでフロンティア層に到達した初の中国モデルという点で注目された。
コストの差
GPT-5.2は2月中旬にテストされた。DeepSeek V4 Proは約10週後に同等の性能に到達し、コストは約17分の1だ。フロンティア性能ギャップは数週間〜数ヶ月で埋まるが価格差は大きいというパターンが再確認された。
コミュニティへの影響
複数のLocalLLaMAユーザーが独自のワークフロー計測を実施し、日常タスクの多くがローカルモデル(3090上のQwen3.6 27B)でほぼゼロコストで処理できることを確認した。フロンティアAPI利用の価値提案に定量的な疑問を投げかけるデータとなっている。
Related Articles
Liquid AIがLFM2.5 8B-A1Bを発表。M5 Maxで毎秒253トークン、モバイルで30トークン、H100で18,500トークンの推論速度を達成し、同サイズの密なモデルを凌駕する性能を示した。
安全性評価が、手作りの難問だけでなく実利用に近い発生率予測へ広がっている。OpenAIは約130万件の非識別会話を使い、GPT-5系で中央値1.5倍の予測誤差を示した。
OpenRouterはFusion APIがDRACOの100件の深層研究タスクでClaude Fable 5に1%以内まで迫ったと説明した。複数モデル、judge model、synthesizerを組み合わせ、費用をおよそ半分に抑える点が焦点だ。