LocalLLaMAのQwen 3.6熱、焦点は性能より設定
Original: qwen3.6 performance jump is real, just make sure you have it properly configured View original →
話題の中心はモデルカードではなく実行条件
r/LocalLLaMAのQwen 3.6投稿が読まれたのは、公式benchmarkの焼き直しではなく、手元で動かしたfield reportに見えたからだ。投稿者は、通常ならOpusやCodexに任せるworkloadをQwen 3.6で試し、同じ水準ではないが実用の壁は越えたと書いた。環境も具体的だった。M5 Max 128GB、8bit、3K PP、100 TG、oMLX、Pi.devという条件が添えられていた。
一番実用的だったのは設定の注意だ。投稿者はpreserve_thinkingを必ず有効にするよう促した。LocalLLaMAでこうした投稿が伸びる理由はここにある。local LLMではweightsだけでは結果が決まらない。quantization、runtime、context handling、prompt format、memory pressure、小さなflagの違いで、同じモデルがかなり違って感じられる。
コメント欄には期待と疑いが同時に出ていた。Qwenは中規模モデルで前世代のflagshipに迫る体感を何度も出してくる、という反応があった。一方で、122B級より良いという読み方には慎重な声もあった。これは重要なバランスだ。このスレッドは正式な評価ではなく、投稿者自身の作業に基づく報告であり、過度な一般化はできない。
それでもこの投稿は、local LLMの関心がどこへ移っているかをよく示している。ユーザーは小型・中型モデルが会話できるかだけを見ていない。codingやagent workflowに入れて、十分速く返し、reasoningの状態を保ち、作業を壊さずに続けられるかを見ている。その文脈では、ひとつの設定項目もニュースになる。
今回の要点は限定的だ。Qwen 3.6は一部のlocal agentやcoding補助で有力な選択肢になり得る。ただし、その体感は正しい設定と実行スタックに強く依存する。
Source: r/LocalLLaMA discussion.
Related Articles
r/LocalLLaMAでこの比較が受けたのは、GGUF選びを評判や体感ではなく、baselineとの分布差で説明したからだ。投稿者はBF16 baselineに対するmean KLDでQwen3.5-9Bのcommunity quantを並べ、Q8_0系はfaithfulness上位、複数のIQ4とQ5系はsizeとdriftのバランス候補として示している。
LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。
r/LocalLLaMAが見ていたのは、Qwen3.6のrelease headlineではなく、どのGGUF quantを実機で使うべきかだった。Unslothのbenchmark postは、KLD、disk space、CUDA 13.2のgibberish問題、CUDA 13.1/13.3対応へ議論を引き寄せた。
Comments (0)
No comments yet. Be the first to comment!