LocalLLaMAの熱量は「modelが弱くなった」という不満だけでは終わらなかった。provider routing、quantization、peak-time behavior、silent downgradeをどう証明するかへ議論が広がった。証拠は未確定だが、不安ははっきり見える。
#benchmarks
RSS FeedHNの熱量は新model名より、adaptive thinking、tokenizer変更、safety filterが実務のagent workflowをどう揺らすかに向かった。Opus 4.7は期待と同時に、最近のClaude品質不信も背負って見られている。
coding agentの検証が、アプリ生成からGPU kernel最適化へ踏み込んだ。CursorはNVIDIAとの実験で、235個のCUDA問題に対して3週間で38%のgeomean speedupを得たとしている。
r/artificial がこの投稿に食いついたのは、Claude が乾いて回避的になったという曖昧な不満を、具体的な数値に変えたからだ。公式 benchmark ではないが、そのぶん現場ユーザーの field report として広がった。
LiteCoderはterminal特化modelだけでなく、11,255 trajectoriesと602 Harbor environmentsまでまとめて公開した。30B modelはTerminal Bench ProでPass@1 31.5%に到達し、previewの22.0%から大きく伸びており、小さめのcoding agentにもまだ伸びしろがあることを数字で示している。
520ポイント、132コメントを集めたHacker Newsのスレッドで、Berkeleyの研究者は8つの主要AI agent benchmarkが実タスクを解かなくてもharnessの弱点で高得点化できると主張した。
r/LocalLLaMAの新しいベンチマークでは、Gemma 4 31BとE2B draftの組み合わせでspeculative decodingが平均29%、code生成では約50%の高速化を示した。
UC Berkeleyの研究者たちは、主要なAI agent benchmark 8種で、実際のtaskを解かずにほぼ満点を作れる経路を示した。要点は明快で、leaderboardの数値より先にevaluation設計の耐改ざん性を確認すべきだということだ。
LocalLLaMAで注目された投稿は、SGLang b12x+NEXTN、PCIe switch topology、公開raw benchmark JSONを根拠に、デュアルRTX PRO 6000 Blackwell環境でQwen3.5-122B NVFP4が約198 tok/sに達したと共有した。
Gemma 4 31B、Gemma 4 26B-A4B、Qwen 3.5 27B を 30 問で比べた LocalLLaMA の実験は、単純な single winner を示さなかった。Qwen は多くの matchups を取った一方で、Gemma はより安定した average score を見せ、reliability と verbosity の trade-off が前面に出ている。
Cursorは2026年3月26日、real-time reinforcement learningによって改善版Composer 2 checkpointを5時間ごとに出荷できると述べた。3月27日のtechnical reportでは、Kimi K2.5上のcontinued pretrainingとrealistic Cursor sessionでの大規模RLを組み合わせ、CursorBenchで61.3を記録したと説明している。
LocalLLaMA のスレッドが Gemma 4 31B の予想外に強い FoodTruck Bench 成績を取り上げた。議論はすぐに長期計画能力と benchmark の信頼性へ広がった。