M5 Maxで動くQwen3.6に、LocalLLaMAはcodeを外へ出さない現実味を見た
Original: I'm running qwen3.6-35b-a3b with 8 bit quant and 64k context thru OpenCode on my mbp m5 max 128gb and it's as good as claude View original →
このr/LocalLLaMA投稿はbenchmark chartというよりfield reportだった。だからこそ反応が大きかった。投稿者はMacBook Pro M5 Max 128GBで、Qwen3.6-35B-A3Bを8-bit quantization、64k context、OpenCode経由で動かし、“as good as Claude”と表現した。本人も“trust me bro post”と断っているが、条件が具体的だったためthreadはすぐ実用面に入った。
workloadはtoy promptではない。投稿者はAndroid appでR8がserializationを壊す原因を調べるlong research taskを例に出し、多数のtool callsを扱い、responseも速く、Kimi k2.5 via OpenCode zenからdaily driverを乗り換えられそうだと書いた。communityに刺さったのは、codebaseをrandom providersへ送って信頼する必要がなくなる、というprivacyの感覚だった。
コメントはすぐに温度を調整した。RTX 5090では速度がcloud modelを上回る体験を作るという声があり、Qwenではcontextが安いので256kも狙えるという意見もあった。一方で、Claudeと同等とは言えないがかなり良い、という冷静な反応や、agentic codingで64k contextは低いのではないかという問いも出た。
community discussion noted that ここでのsignalはclosed modelへの正式な勝利宣言ではない。threshold signalである。local inferenceは長く「可能だが面倒」と扱われてきた。こうした投稿が重なると、高メモリconsumer hardware上の30Bから40B級sparse modelが、coding agentとして運用選択肢になり始めたように見える。
もちろんcaveatは大きい。hardware、quantization、KV cache、context length、editor workflow、task shapeで結果は変わる。このthreadの価値は単一のparity claimではなく、local coding agentsを評価するためのchecklistだ。privacy、latency、context cost、tool-call stability、real project stateをどこまで保てるかを同時に見る必要がある。
Related Articles
r/LocalLLaMAでこの比較が受けたのは、GGUF選びを評判や体感ではなく、baselineとの分布差で説明したからだ。投稿者はBF16 baselineに対するmean KLDでQwen3.5-9Bのcommunity quantを並べ、Q8_0系はfaithfulness上位、複数のIQ4とQ5系はsizeとdriftのバランス候補として示している。
LocalLLaMAがこの投稿を評価したのは、複雑なGGUF選択を測れるtradeoffに変えたからだ。投稿はcommunity Qwen3.5-9B quantsをBF16 baselineに対するmean KLDで比較し、コメント欄はchart表現、Gemma 4、Thireus quants、long-context testingまで求めた。
LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。
Comments (0)
No comments yet. Be the first to comment!