DeepSeek V4 Pro、エージェントベンチマークでGPT-5.2と同等性能――17倍安く10週後に到達
Original: DeepSeek V4 Pro matches GPT-5.2 on FoodTruck Bench, our agentic benchmark — 10 weeks later, ~17x cheaper View original →
FoodTruck Benchとは
FoodTruck Benchは、モデルが34種のツール(立地、価格、在庫、スタッフ、天気、イベント)を使って30日間フードトラックを経営するエージェント型ベンチマークだ。永続メモリと日次リフレクションを含む実践的エージェント能力を評価する。
結果
DeepSeek V4 ProはClaude Opus 4.6、GPT-5.2、Grok 4.3に次ぐ総合4位。Grok 4.3とは同点で、GPT-5.2の中央値から3%以内の差だ。このベンチマークでフロンティア層に到達した初の中国モデルという点で注目された。
コストの差
GPT-5.2は2月中旬にテストされた。DeepSeek V4 Proは約10週後に同等の性能に到達し、コストは約17分の1だ。フロンティア性能ギャップは数週間〜数ヶ月で埋まるが価格差は大きいというパターンが再確認された。
コミュニティへの影響
複数のLocalLLaMAユーザーが独自のワークフロー計測を実施し、日常タスクの多くがローカルモデル(3090上のQwen3.6 27B)でほぼゼロコストで処理できることを確認した。フロンティアAPI利用の価値提案に定量的な疑問を投げかけるデータとなっている。
Related Articles
DeepSeekがDeepSeek-V4-Pro(総パラメータ1.6兆、アクティブ49B)とV4-Flash(284B/13B)を公開した。両モデルはMITライセンスで100万トークンコンテキストに対応するMixture-of-Expertsモデル。V4-Proはこれまでで最大のオープンウェイトモデルとなり、価格はGPT-5.4やClaude Sonnet 4.6の半分以下だ。
AGI能力評価ベンチマークARC-AGI-3の最新結果で、GPT-5.5 Highが0.43%、Claude Opus 4.7が0.18%を記録。最先端モデルでも事実上ゼロに近いスコアが続いている。
OpenAIがGPT-5.5 InstantをChatGPTの新しいデフォルトモデルとしてリリースした。医療・法律・金融など高リスク領域での幻覚エラーを52.5%削減し、より簡潔で自然なトーンの回答を提供する。GmailPlusProユーザーから順次展開される。
Comments (0)
No comments yet. Be the first to comment!