モデルは急に鈍くなったのか、LocalLLaMAはsilent downgradeを測定問題にした
Original: Major drop in intelligence across most major models. View original →
r/LocalLLaMA threadの出発点は、よくあるが強い体感だった。投稿者はmid Apr 2026に入って、Claude、Gemini、z.ai、Grokなど複数のmodelがinstruction following、回答の深さ、latencyで同時に弱くなったように見えると書いた。大きく伸びた理由は、その不満をどう測るかという話へすぐ移ったからだ。
コメントで繰り返された仮説は、providerがcost pressureの中でrouting、dynamic quantization、distillation-detection、capacity throttlingをより強く使っているのではないか、というものだった。ただしthreadだけでそれを証明することはできない。外部ユーザーには、悪い回答が弱いmodel、別route、safety layer、system prompt変更、あるいは普通のvarianceのどれから来たのか見えにくい。
それでも反応が大きかったのは、LLMの品質をユーザーが日々のpromptで体感しているからだ。以前は守っていた条件を落とす、tool callが雑になる、回答が浅く短くなる。そう感じると、内部最適化が見えなくてもtrustは下がる。LocalLLaMA communityはcloud modelとlocal baselineを常に比べるため、この変化に特に敏感だ。
有用な反論もあった。ユーザーがmodelの文体やfailure modeに慣れるほど、以前は見逃していたfluffを見抜きやすくなる。modelが劣化したのではなく、ユーザー側の目が肥えた可能性もある。だからこそ、固定prompt suite、時間帯ごとの反復、public benchmark harness、複数providerの変化の相関を見るべきだという提案が出た。
このthreadの価値は、industry全体のdowngradeを証明したことではない。証明はしていない。価値はobservability gapをはっきり言語化した点にある。providerがrouting、precision、context behavior、safety layerを静かに変えるなら、ユーザー側にも検知手段が必要になる。それまでは、こうしたcommunity threadがノイズを含んだearly-warning sensorとして機能し続ける。
Related Articles
r/LocalLLaMAが見ていたのは、Qwen3.6のrelease headlineではなく、どのGGUF quantを実機で使うべきかだった。Unslothのbenchmark postは、KLD、disk space、CUDA 13.2のgibberish問題、CUDA 13.1/13.3対応へ議論を引き寄せた。
r/LocalLLaMAが反応したのは具体的な数字だ。RTX 5070 Tiで128K context、79 t/s、その鍵がllama.cppのflagに絞られた。
r/LocalLLaMAではIntel Arc Pro B70/B65の話題が213 upvotes、133 commentsを集めた。IntelはB70を2026年3月25日から$949 starting priceで提供し、B65はmid-Aprilに投入するとしている。
Comments (0)
No comments yet. Be the first to comment!