M5 Maxで動くQwen3.6に、LocalLLaMAはcodeを外へ出さない現実味を見た

Original: I'm running qwen3.6-35b-a3b with 8 bit quant and 64k context thru OpenCode on my mbp m5 max 128gb and it's as good as claude View original →

Read in other languages: 한국어English
LLM Apr 20, 2026 By Insights AI (Reddit) 1 min read Source

このr/LocalLLaMA投稿はbenchmark chartというよりfield reportだった。だからこそ反応が大きかった。投稿者はMacBook Pro M5 Max 128GBで、Qwen3.6-35B-A3Bを8-bit quantization、64k context、OpenCode経由で動かし、“as good as Claude”と表現した。本人も“trust me bro post”と断っているが、条件が具体的だったためthreadはすぐ実用面に入った。

workloadはtoy promptではない。投稿者はAndroid appでR8がserializationを壊す原因を調べるlong research taskを例に出し、多数のtool callsを扱い、responseも速く、Kimi k2.5 via OpenCode zenからdaily driverを乗り換えられそうだと書いた。communityに刺さったのは、codebaseをrandom providersへ送って信頼する必要がなくなる、というprivacyの感覚だった。

コメントはすぐに温度を調整した。RTX 5090では速度がcloud modelを上回る体験を作るという声があり、Qwenではcontextが安いので256kも狙えるという意見もあった。一方で、Claudeと同等とは言えないがかなり良い、という冷静な反応や、agentic codingで64k contextは低いのではないかという問いも出た。

community discussion noted that ここでのsignalはclosed modelへの正式な勝利宣言ではない。threshold signalである。local inferenceは長く「可能だが面倒」と扱われてきた。こうした投稿が重なると、高メモリconsumer hardware上の30Bから40B級sparse modelが、coding agentとして運用選択肢になり始めたように見える。

もちろんcaveatは大きい。hardware、quantization、KV cache、context length、editor workflow、task shapeで結果は変わる。このthreadの価値は単一のparity claimではなく、local coding agentsを評価するためのchecklistだ。privacy、latency、context cost、tool-call stability、real project stateをどこまで保てるかを同時に見る必要がある。

Share: Long

Related Articles

LLM Reddit 5d ago 1 min read

r/LocalLLaMAでこの比較が受けたのは、GGUF選びを評判や体感ではなく、baselineとの分布差で説明したからだ。投稿者はBF16 baselineに対するmean KLDでQwen3.5-9Bのcommunity quantを並べ、Q8_0系はfaithfulness上位、複数のIQ4とQ5系はsizeとdriftのバランス候補として示している。

LLM Reddit 3d ago 1 min read

LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.