LocalLLaMAコミュニティユーザーがRTX 4070 Super 12GBでQwen3.6 35B A3BモデルをIk_llama.cppフォークを使用して110トークン/秒で実行することに成功しました。CPU オフロード最適化に優れたこのフォークは標準llama.cppより大幅に高いパフォーマンスを示しました。
#llama-cpp
RSS Feedr/LocalLLaMAのユーザーが、製造終了したIntel Optane PMem(768GB)を中古市場で安価に入手し、Kimi K2.5(1兆パラメータ)をローカルで毎秒4トークン以上で動作させることに成功した。
LocalLLAMAユーザーが、llama.cppのMTP機能を使い、12GB VRAMのGPUでQwen3.6 35B A3Bモデルを毎秒80トークン超・128Kコンテキストで動かす設定を公開した。
llama.cppのマルチトークン予測(MTP)サポートがベータ版に突入した。現在はQwen3.5 MTPに対応し、テンソル並列サポートと合わせてvLLMとのトークン生成速度の差が縮まると見込まれる。
LocalLLaMAがまず歓迎したのは、数字そのものより「こういう比較がもっと必要だ」という空気だった。ただしQ4_K_MがQ8_0より実用的に見える結論が出ると、すぐに誤差範囲やKVキャッシュ設定を問う検証モードに入った。
LocalLLaMAがこの投稿に反応した理由ははっきりしていた。27B modelを二枚の不揃いGPUのVRAM内へ押し込めるなら、遅い補助カードでもsystem RAMへあふれるよりましだという、かなり実務的な主張だったからだ。
LocalLLaMAが反応したのは翻訳appそのものではなく、detection、visual OCR、inpainting、local LLMを一つのworkflowにした点だった。
LocalLLaMAが反応したのは新model自慢ではなく、--fitが「VRAMに全部入らなければ遅い」という経験則を揺らしたからだ。
r/LocalLLaMAが反応したのは具体的な数字だ。RTX 5070 Tiで128K context、79 t/s、その鍵がllama.cppのflagに絞られた。
LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。
LocalLLaMAが反応したのは、「LLMが自分のruntimeを速くする」という冗談のような仕組みに、具体的なbenchmark数字が付いていたからだ。投稿者はllm-server v2の--ai-tuneがllama-server helpをcontextとして読み、flag組み合わせを試して最速configをcacheすると説明し、Qwen3.5-27B Q4_K_Mは18.5 tok/sから40.05 tok/sへ伸びたと共有した。
HNが強く反応したのは、wrapperの好き嫌いではなく、local LLM stackで誰がcreditとcontrolを握るのかという違和感だった。Sleeping Robotsの記事は、Ollamaがllama.cppの上で広がりながら attribution、model packaging、cloud routing、model storageで信頼を削ったと批判し、コメント欄では「それでもUXは強い」という反論も出た。