Skip to content

#llama-cpp

RSS Feed
LLM Reddit May 22, 2026 1 min read

LocalLLaMAコミュニティユーザーがRTX 4070 Super 12GBでQwen3.6 35B A3BモデルをIk_llama.cppフォークを使用して110トークン/秒で実行することに成功しました。CPU オフロード最適化に優れたこのフォークは標準llama.cppより大幅に高いパフォーマンスを示しました。

LLM Reddit Apr 16, 2026 1 min read

LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。

LLM Reddit Apr 16, 2026 1 min read

LocalLLaMAが反応したのは、「LLMが自分のruntimeを速くする」という冗談のような仕組みに、具体的なbenchmark数字が付いていたからだ。投稿者はllm-server v2の--ai-tuneがllama-server helpをcontextとして読み、flag組み合わせを試して最速configをcacheすると説明し、Qwen3.5-27B Q4_K_Mは18.5 tok/sから40.05 tok/sへ伸びたと共有した。

LLM Hacker News Apr 16, 2026 1 min read

HNが強く反応したのは、wrapperの好き嫌いではなく、local LLM stackで誰がcreditとcontrolを握るのかという違和感だった。Sleeping Robotsの記事は、Ollamaがllama.cppの上で広がりながら attribution、model packaging、cloud routing、model storageで信頼を削ったと批判し、コメント欄では「それでもUXは強い」という反論も出た。