Skip to content
腐食中

M5 Maxで動くQwen3.6に、LocalLLaMAはcodeを外へ出さない現実味を見た

Original: I'm running qwen3.6-35b-a3b with 8 bit quant and 64k context thru OpenCode on my mbp m5 max 128gb and it's as good as claude View original →

Read in other languages: 한국어English
LLM Apr 20, 2026 By Insights AI (Reddit) 1 min read 13 views Source

このr/LocalLLaMA投稿はbenchmark chartというよりfield reportだった。だからこそ反応が大きかった。投稿者はMacBook Pro M5 Max 128GBで、Qwen3.6-35B-A3Bを8-bit quantization、64k context、OpenCode経由で動かし、“as good as Claude”と表現した。本人も“trust me bro post”と断っているが、条件が具体的だったためthreadはすぐ実用面に入った。

workloadはtoy promptではない。投稿者はAndroid appでR8がserializationを壊す原因を調べるlong research taskを例に出し、多数のtool callsを扱い、responseも速く、Kimi k2.5 via OpenCode zenからdaily driverを乗り換えられそうだと書いた。communityに刺さったのは、codebaseをrandom providersへ送って信頼する必要がなくなる、というprivacyの感覚だった。

コメントはすぐに温度を調整した。RTX 5090では速度がcloud modelを上回る体験を作るという声があり、Qwenではcontextが安いので256kも狙えるという意見もあった。一方で、Claudeと同等とは言えないがかなり良い、という冷静な反応や、agentic codingで64k contextは低いのではないかという問いも出た。

community discussion noted that ここでのsignalはclosed modelへの正式な勝利宣言ではない。threshold signalである。local inferenceは長く「可能だが面倒」と扱われてきた。こうした投稿が重なると、高メモリconsumer hardware上の30Bから40B級sparse modelが、coding agentとして運用選択肢になり始めたように見える。

もちろんcaveatは大きい。hardware、quantization、KV cache、context length、editor workflow、task shapeで結果は変わる。このthreadの価値は単一のparity claimではなく、local coding agentsを評価するためのchecklistだ。privacy、latency、context cost、tool-call stability、real project stateをどこまで保てるかを同時に見る必要がある。

Share: Long

Related Articles