LocalLLaMAが反応したのは単なる数値比較ではなかった。多くのローカル推論ユーザーが事実上の常識として使っていたルールを崩し、とくにGemma系でモデル差が大きいことを示したからだ。2026年4月25日時点でスレッドは324ポイント、58コメントだった。
#benchmarks
RSS FeedLocalLLaMAがこの投稿を押し上げたのは、皆がベンチマークを信じたからではない。27Bのオープンモデルがエージェント型タスクで急に競争圏へ入ったように見え、その重要さと怪しさが同時に出たことで議論が熱くなった。
Sakana AIは、複数モデルの協調そのものを商用APIとして売り出し始めた。β公開時点の表では fugu-ultra が GPQAD 95.1、SWE-Pro 54.2 を出し、GPT 5.4 high や Gemini 3.1 high と真っ向から比べにいっている。
r/MachineLearningが注目したのは、単なる順位表ではなく「文書抽出で高いモデル代を払いすぎていないか」を繰り返し実行の数値で突いた点だった。cost-per-successやcritical-field精度まで含めたことで、コスト議論がかなり具体化した。
LocalLLaMAを動かしたのは単なるQwenのスコア更新ではなかった。同じ系統のローカルモデルがscaffold変更だけで19%から45%、さらに78.7%へ伸びたという流れが、ベンチマーク比較そのものを見直す空気を生んだ。
重要なのは、enterprise OCRの失敗がacademic PDF benchmarkより早くagentを壊すことだ。LlamaIndexはParseBenchがhuman-verifiedの約2,000ページと16.7万超のrulesで14手法をKaggle上で比較すると述べた。
重要なのは、open-weight 27B dense modelがはるかに大きいcoding systemとagent taskで正面比較されていることだ。Qwenのmodel cardではSWE-bench VerifiedがQwen3.6-27Bで77.2、Qwen3.5-397B-A17Bで76.2、licenseはApache 2.0となっている。
重要なのは、GPT-5.5 launch直後に出た最初期のexternal benchmark readoutのひとつだという点だ。Artificial AnalysisはIntelligence Indexで3点差首位とした一方、指数実行コストは約20%高くなったと述べた。
重要なのは、inference costがinfrastructure問題だけでなくproduct constraintになっている点だ。CohereはvLLMのW4A8 pathがHopper上でW4A16比TTFT最大58%、TPOT最大45%高速だと述べた。
重要なのは、OpenAIがaccuracy claimsが直接clinical consequenceへつながるregulated workflowを狙っている点だ。linked rolloutはphysician-reviewed 6,924 conversationsと99.6% safe/accurate ratingを示している。
重要なのは、search AIでは流暢な回答だけでなくfactualityとcitation qualityが評価軸になることだ。PerplexityはSFT + RL pipelineにより、Qwen modelsがより低いcostでGPT modelsのfactualityに並ぶ、または上回ると述べた。
Alibabaの4月22日のQwen3.6-Max-Preview postは、六つのcoding benchmarkでtop score、Qwen3.6-Plusからの改善を主張する。ただし重要な条件もある。これはopen-weight releaseではなく、hosted proprietary previewだ。