DeepSeek V4 Pro、エージェントベンチマークでGPT-5.2と同等性能――17倍安く10週後に到達

FoodTruck Benchとは

FoodTruck Benchは、モデルが34種のツール（立地、価格、在庫、スタッフ、天気、イベント）を使って30日間フードトラックを経営するエージェント型ベンチマークだ。永続メモリと日次リフレクションを含む実践的エージェント能力を評価する。

DeepSeek V4 ProはClaude Opus 4.6、GPT-5.2、Grok 4.3に次ぐ総合4位。Grok 4.3とは同点で、GPT-5.2の中央値から3%以内の差だ。このベンチマークでフロンティア層に到達した初の中国モデルという点で注目された。

GPT-5.2は2月中旬にテストされた。DeepSeek V4 Proは約10週後に同等の性能に到達し、コストは約17分の1だ。フロンティア性能ギャップは数週間〜数ヶ月で埋まるが価格差は大きいというパターンが再確認された。

複数のLocalLLaMAユーザーが独自のワークフロー計測を実施し、日常タスクの多くがローカルモデル（3090上のQwen3.6 27B）でほぼゼロコストで処理できることを確認した。フロンティアAPI利用の価値提案に定量的な疑問を投げかけるデータとなっている。

LLM Hacker News May 30, 2026 1 min read

Liquid AIがLFM2.5 8B-A1Bを発表。M5 Maxで毎秒253トークン、モバイルで30トークン、H100で18,500トークンの推論速度を達成し、同サイズの密なモデルを凌駕する性能を示した。

LLM X/Twitter 4d ago 1 min read

安全性評価が、手作りの難問だけでなく実利用に近い発生率予測へ広がっている。OpenAIは約130万件の非識別会話を使い、GPT-5系で中央値1.5倍の予測誤差を示した。

LLM X/Twitter 6d ago 1 min read

OpenRouterはFusion APIがDRACOの100件の深層研究タスクでClaude Fable 5に1%以内まで迫ったと説明した。複数モデル、judge model、synthesizerを組み合わせ、費用をおよそ半分に抑える点が焦点だ。