LLM Reddit May 5, 2026 1 min read
FoodTruck BenchでDeepSeek V4 ProがGPT-5.2と実質同等の性能を記録した。GPT-5.2のテストから約10週後、コストは約17分の1での達成となった。
FoodTruck BenchでDeepSeek V4 ProがGPT-5.2と実質同等の性能を記録した。GPT-5.2のテストから約10週後、コストは約17分の1での達成となった。
r/MachineLearningが注目したのは、単なる順位表ではなく「文書抽出で高いモデル代を払いすぎていないか」を繰り返し実行の数値で突いた点だった。cost-per-successやcritical-field精度まで含めたことで、コスト議論がかなり具体化した。