M5 Maxで動くQwen3.6に、LocalLLaMAはcodeを外へ出さない現実味を見た

このr/LocalLLaMA投稿はbenchmark chartというよりfield reportだった。だからこそ反応が大きかった。投稿者はMacBook Pro M5 Max 128GBで、Qwen3.6-35B-A3Bを8-bit quantization、64k context、OpenCode経由で動かし、“as good as Claude”と表現した。本人も“trust me bro post”と断っているが、条件が具体的だったためthreadはすぐ実用面に入った。

workloadはtoy promptではない。投稿者はAndroid appでR8がserializationを壊す原因を調べるlong research taskを例に出し、多数のtool callsを扱い、responseも速く、Kimi k2.5 via OpenCode zenからdaily driverを乗り換えられそうだと書いた。communityに刺さったのは、codebaseをrandom providersへ送って信頼する必要がなくなる、というprivacyの感覚だった。

コメントはすぐに温度を調整した。RTX 5090では速度がcloud modelを上回る体験を作るという声があり、Qwenではcontextが安いので256kも狙えるという意見もあった。一方で、Claudeと同等とは言えないがかなり良い、という冷静な反応や、agentic codingで64k contextは低いのではないかという問いも出た。

community discussion noted that ここでのsignalはclosed modelへの正式な勝利宣言ではない。threshold signalである。local inferenceは長く「可能だが面倒」と扱われてきた。こうした投稿が重なると、高メモリconsumer hardware上の30Bから40B級sparse modelが、coding agentとして運用選択肢になり始めたように見える。

もちろんcaveatは大きい。hardware、quantization、KV cache、context length、editor workflow、task shapeで結果は変わる。このthreadの価値は単一のparity claimではなく、local coding agentsを評価するためのchecklistだ。privacy、latency、context cost、tool-call stability、real project stateをどこまで保てるかを同時に見る必要がある。

LLM Reddit 5d ago 1 min read

r/LocalLLaMAがQwen3.5-9B quantをKLDで並べ直す、勘ではなく分布のズレで選ぼうという話

r/LocalLLaMAでこの比較が受けたのは、GGUF選びを評判や体感ではなく、baselineとの分布差で説明したからだ。投稿者はBF16 baselineに対するmean KLDでQwen3.5-9Bのcommunity quantを並べ、Q8_0系はfaithfulness上位、複数のIQ4とQ5系はsizeとdriftのバランス候補として示している。

#qwen #quantization #gguf

LLM Reddit 3d ago 1 min read

Qwen3.5-9Bのquant選び、LocalLLaMAは雰囲気よりKLDを見たい

LocalLLaMAがこの投稿を評価したのは、複雑なGGUF選択を測れるtradeoffに変えたからだ。投稿はcommunity Qwen3.5-9B quantsをBF16 baselineに対するmean KLDで比較し、コメント欄はchart表現、Gemma 4、Thireus quants、long-context testingまで求めた。

#qwen #gguf #quantization

LLM Reddit 3d ago 1 min read

よく使うMoE expertをVRAMへ、LocalLLaMAが見た27%高速化

LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。

#local-llm #llama-cpp #moe

M5 Maxで動くQwen3.6に、LocalLLaMAはcodeを外へ出さない現実味を見た

Related Articles

r/LocalLLaMAがQwen3.5-9B quantをKLDで並べ直す、勘ではなく分布のズレで選ぼうという話

Qwen3.5-9Bのquant選び、LocalLLaMAは雰囲気よりKLDを見たい

よく使うMoE expertをVRAMへ、LocalLLaMAが見た27%高速化

Comments (0)

Leave a Comment