#llama-cpp

LLM Hacker News Jul 16, 2026 1 min read

13年前のXeonでGemma 4 26B、GPUなし5 tok/s

HNでの論点は「古い機械でも動いた」だけではなかった。ik_llama.cppへの修正により、dual Ivy Bridge Xeon上でGemma 4 26B-A4BをCPU-only実行し、local inferenceのコストと制御権が議論された。

#gemma #cpu-inference #llama-cpp

LLM Reddit May 22, 2026 1 min read

12GB VRAMでQwen3.6 35BをIk_llama.cppで110 tok/s達成

LocalLLaMAコミュニティユーザーがRTX 4070 Super 12GBでQwen3.6 35B A3BモデルをIk_llama.cppフォークを使用して110トークン/秒で実行することに成功しました。CPU オフロード最適化に優れたこのフォークは標準llama.cppより大幅に高いパフォーマンスを示しました。

#llama-cpp #qwen #local-llm

LLM Reddit May 12, 2026 1 min read

製造終了のIntel OptaneメモリでローカルLLM(1兆パラメータ)を毎秒4トークンで動作

r/LocalLLaMAのユーザーが、製造終了したIntel Optane PMem(768GB)を中古市場で安価に入手し、Kimi K2.5(1兆パラメータ)をローカルで毎秒4トークン以上で動作させることに成功した。

#intel-optane #local-llm #llama-cpp

LLM Reddit May 10, 2026 1 min read

12GB VRAMでQwen3.6 35Bを毎秒80トークン以上で動かす設定を公開

LocalLLAMAユーザーが、llama.cppのMTP機能を使い、12GB VRAMのGPUでQwen3.6 35B A3Bモデルを毎秒80トークン超・128Kコンテキストで動かす設定を公開した。

#local-llm #qwen #llama-cpp

LLM Reddit May 4, 2026 1 min read

llama.cppのMTPサポートがベータ版に、vLLMとの性能差が縮まる見込み

llama.cppのマルチトークン予測（MTP）サポートがベータ版に突入した。現在はQwen3.5 MTPに対応し、テンソル並列サポートと合わせてvLLMとのトークン生成速度の差が縮まると見込まれる。

#llama-cpp #mtp #local-llm

LLM Reddit Apr 29, 2026 1 min read

Qwen 3.6 27B量子化比較、LocalLLaMAはQ4_K_M推しでも検証方法で議論

LocalLLaMAがまず歓迎したのは、数字そのものより「こういう比較がもっと必要だ」という空気だった。ただしQ4_K_MがQ8_0より実用的に見える結論が出ると、すぐに誤差範囲やKVキャッシュ設定を問う検証モードに入った。

#qwen #gguf #quantization

LLM Reddit Apr 28, 2026 1 min read

16GB VRAMの抜け道か　LocalLLaMAが出した「古いGPUを足す」現実策

LocalLLaMAがこの投稿に反応した理由ははっきりしていた。27B modelを二枚の不揃いGPUのVRAM内へ押し込めるなら、遅い補助カードでもsystem RAMへあふれるよりましだという、かなり実務的な主張だったからだ。

#local-llms #vram #multi-gpu

LLM Reddit Apr 22, 2026 1 min read

Rust製manga translator、LocalLLaMAが見たlocal OCR pipelineの手触り

LocalLLaMAが反応したのは翻訳appそのものではなく、detection、visual OCR、inpainting、local LLMを一つのworkflowにした点だった。

#llama-cpp #ocr #local-llm

LLM Reddit Apr 22, 2026 1 min read

llama.cpp --fitでLocalLLaMAがVRAMの壁を再計算

LocalLLaMAが反応したのは新model自慢ではなく、--fitが「VRAMに全部入らなければ遅い」という経験則を揺らしたからだ。

#llama-cpp #local-llm #vram

LLM Reddit Apr 19, 2026 1 min read

Qwen3.6を79 t/sにした投稿で、LocalLLaMAの主役は--n-cpu-moeになった

r/LocalLLaMAが反応したのは具体的な数字だ。RTX 5070 Tiで128K context、79 t/s、その鍵がllama.cppのflagに絞られた。

#qwen #llama-cpp #local-llm

LLM Reddit Apr 16, 2026 1 min read

よく使うMoE expertをVRAMへ、LocalLLaMAが見た27%高速化

LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。

#local-llm #llama-cpp #moe