DeepSeek V4 Pro、エージェントベンチマークでGPT-5.2と同等性能――17倍安く10週後に到達

Original: DeepSeek V4 Pro matches GPT-5.2 on FoodTruck Bench, our agentic benchmark — 10 weeks later, ~17x cheaper View original →

Read in other languages: 한국어English
LLM May 5, 2026 By Insights AI (Reddit) 1 min read Source

FoodTruck Benchとは

FoodTruck Benchは、モデルが34種のツール(立地、価格、在庫、スタッフ、天気、イベント)を使って30日間フードトラックを経営するエージェント型ベンチマークだ。永続メモリと日次リフレクションを含む実践的エージェント能力を評価する。

結果

DeepSeek V4 ProはClaude Opus 4.6、GPT-5.2、Grok 4.3に次ぐ総合4位。Grok 4.3とは同点で、GPT-5.2の中央値から3%以内の差だ。このベンチマークでフロンティア層に到達した初の中国モデルという点で注目された。

コストの差

GPT-5.2は2月中旬にテストされた。DeepSeek V4 Proは約10週後に同等の性能に到達し、コストは約17分の1だ。フロンティア性能ギャップは数週間〜数ヶ月で埋まるが価格差は大きいというパターンが再確認された。

コミュニティへの影響

複数のLocalLLaMAユーザーが独自のワークフロー計測を実施し、日常タスクの多くがローカルモデル(3090上のQwen3.6 27B)でほぼゼロコストで処理できることを確認した。フロンティアAPI利用の価値提案に定量的な疑問を投げかけるデータとなっている。

Share: Long

Related Articles

LLM Hacker News 3d ago 1 min read

DeepSeekがDeepSeek-V4-Pro(総パラメータ1.6兆、アクティブ49B)とV4-Flash(284B/13B)を公開した。両モデルはMITライセンスで100万トークンコンテキストに対応するMixture-of-Expertsモデル。V4-Proはこれまでで最大のオープンウェイトモデルとなり、価格はGPT-5.4やClaude Sonnet 4.6の半分以下だ。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment