LLM Reddit Apr 12, 2026 1 min read
r/LocalLLaMAのstress testでは、Gemma 4 26B A4Bがllama.cpp上で262,144 context windowの約94%でも一貫性を保ったと主張されている。正式なbenchmarkではないが、failure modeとtuning値をあわせて公開している点が実務的だ。
r/LocalLLaMAのstress testでは、Gemma 4 26B A4Bがllama.cpp上で262,144 context windowの約94%でも一貫性を保ったと主張されている。正式なbenchmarkではないが、failure modeとtuning値をあわせて公開している点が実務的だ。
r/LocalLLaMAに投稿されたbenchmarkは、Intel Arc Pro B70 32GBとIntelのvLLM forkの組み合わせでQwen3.5-27B int4を実用的にserveできる可能性を示した。ただしtensor parallelよりpipeline parallelの方が有利で、setupの安定化にもかなりの試行錯誤が必要だった。
r/LocalLLaMAのfield reportは、非常に具体的なlocal inference workloadをthroughput重視で調整した事例を示した。投稿者はQwen 3.5 27Bでmarkdown文書を分類しながら約2,000 tokens per secondを記録したと述べ、commentでは実務的な最適化論点が追加された。
r/LocalLLaMAの高評価投稿がHeretic 1.2を紹介。4-bit処理によるVRAM削減、MPOA導入、VL対応拡張、進捗自動保存・再開機能が主な更新点として共有された。