r/LocalLLaMAでは、Qwen3.5-9BベースのOmniCoder-9Bがfrontier agent tracesを取り込んだ小型open coding modelとして注目されている。
#qwen
r/LocalLLaMAの投稿は、Mac usersをMarch 11, 2026にmergeされたllama.cpp pull request #20361へ導いた。このPRはfused GDN recurrent Metal kernelを追加し、Qwen 3.5系でおよそ12-36%のthroughput向上を示している。一方でReddit commentersは、changeはmasterに入ったが一部のlocal benchmarkではなおMLXが速い場合があると補足した。
高評価のr/MachineLearning投稿はDavid Noel Ngの長いblog記事を再浮上させ、Qwen2-72Bの中間7-layer blockをweight変更なしで複製するだけでopen leaderboard上位に届いたという主張を改めて注目させた。
高スコアのLocalLLaMA投稿では、16GBのM1 Pro上でQwen 3.5 9Bがmemory recallと基本的なtool callingを実運用向けにこなしつつ、creative reasoningでは依然としてfrontier modelに及ばなかったと報告された。
LocalLLaMAの投稿は、RX 9070 XT上でllama.cppの`--ubatch-size`を64まで下げたところ、Qwen3.5-27Bのprompt processingが大きく高速化したと報告した。重要なのは64が万能値だということではなく、prompt ingestionとtoken generationが`n_ubatch`に全く異なる反応を示しうる点だ。
r/LocalLLaMAでは、`llama.cpp` pull request #19504のmerge後にQwen3.5やQwen-Nextのtoken generationが改善したという報告が集まっている。PRは`GATED_DELTA_NET` opのCPU/CUDA実装を追加する。
Hacker Newsで注目されたUnslothのQwen3.5ガイドは、27Bや35B-A3Bをローカル環境で動かすためのメモリ要件、thinking制御、llama.cpp手順を実務向けにまとめている。
LocalLLaMAの人気投稿は Open WebUI の Open Terminal を取り上げる。Dockerまたはbare metal実行層により、ローカルモデルがコマンド実行、ファイル編集、成果物返却をチャット内で行える。
Hacker Newsで注目を集めたQwen関連投稿は、モデル性能の急伸と組織面の不確実性が同時進行している点を示した。Qwen 3.5のサイズ展開が加速する一方、主要人材の動向が長期ロードマップの重要変数になっている。
高評価のLocalLLaMA投稿は、Qwen3.5-27BのQ4 GGUF群をBF16基準で比較し、「忠実度優先」と「効率優先」の選択を分けて示した。
Hacker Newsで注目されたUnslothのQwen3.5ガイドは、モデルサイズ別のbf16 LoRA VRAM目安、MoE学習時の注意点、GGUF/vLLMへの展開手順を整理している。
r/LocalLLaMA投稿は「編集ごとの検証」ループでQwen3.5-35B-A3Bが22.2%から37.8%へ改善したと報告し、Claude Opus 4.6の40%参照値に接近した点を示した。