#localllm

LLM Reddit Apr 12, 2026 1 min read

Gemma 4 26B A4Bは245K contextでも実用になるのか

r/LocalLLaMAのstress testでは、Gemma 4 26B A4Bがllama.cpp上で262,144 context windowの約94%でも一貫性を保ったと主張されている。正式なbenchmarkではないが、failure modeとtuning値をあわせて公開している点が実務的だ。

#localllm #gemma-4 #long-context

LLM Reddit Apr 12, 2026 1 min read

Intel Arc Pro B70 32GBでQwen3.5-27Bを回したコミュニティ計測

r/LocalLLaMAに投稿されたbenchmarkは、Intel Arc Pro B70 32GBとIntelのvLLM forkの組み合わせでQwen3.5-27B int4を実用的にserveできる可能性を示した。ただしtensor parallelよりpipeline parallelの方が有利で、setupの安定化にもかなりの試行錯誤が必要だった。

#localllm #intel-arc #qwen

LLM Reddit Mar 15, 2026 1 min read

r/LocalLLaMA: 文書分類ワークロードでQwen 3.5 27Bが約2000 TPS

r/LocalLLaMAのfield reportは、非常に具体的なlocal inference workloadをthroughput重視で調整した事例を示した。投稿者はQwen 3.5 27Bでmarkdown文書を分類しながら約2,000 tokens per secondを記録したと述べ、commentでは実務的な最適化論点が追加された。

#qwen #localllm #llama-cpp

LLM Reddit Feb 15, 2026 1 min read

r/LocalLLaMAでHeretic 1.2公開: 4-bit運用とMPOA対応でローカル実験を効率化

r/LocalLLaMAの高評価投稿がHeretic 1.2を紹介。4-bit処理によるVRAM削減、MPOA導入、VL対応拡張、進捗自動保存・再開機能が主な更新点として共有された。

#localllm #quantization #lora