Redditで注目されたのは、Claude代替という見出しよりもtool call error rate 12%という具体的な限界だった。
#qwen
RSS FeedLocalLLaMAで話題になったポストで、Qwen3.6 35B A3BがCodexとpiエージェントを組み合わせたスキルベースプロンプティングにより、VPS管理やPDF変換などの複雑なワークフローを自動化した体験が共有されました。
LocalLLaMAコミュニティユーザーがRTX 4070 Super 12GBでQwen3.6 35B A3BモデルをIk_llama.cppフォークを使用して110トークン/秒で実行することに成功しました。CPU オフロード最適化に優れたこのフォークは標準llama.cppより大幅に高いパフォーマンスを示しました。
AlibabaのQwenチームがエージェント重視のフロンティアモデルQwen3.7-Maxを公開した。Artificial Analysis評価でGPT 5.4に迫る5位を記録し、オープンウェイトフロンティアモデルの新基準を示している。
LocalLLAMAユーザーが、llama.cppのMTP機能を使い、12GB VRAMのGPUでQwen3.6 35B A3Bモデルを毎秒80トークン超・128Kコンテキストで動かす設定を公開した。
llama.cppの新MTP対応PRを使ってQwen 3.6 27Bの推論速度を2.5倍に高める方法がLocalLLaMAで共有された。48GBで26万2,000トークンのコンテキストが利用可能になる。
ローカルLLM研究者が、単一のRTX 3090でQwen3.6-27Bとエージェンティック検索を組み合わせ、SimpleQA 95.7%を完全ローカル環境で達成した。
LocalLLaMAでは速度比較というより、長くて厳しい生成タスクを最後まで壊さず仕上げられるかが論点になった。同じMacBook Pro M5 Max上で、Qwen 3.6 27Bは速く長く書き、Gemma 4 31Bは少ないトークンでゲームロジックをまとめきった。
LocalLLaMAが見た本題は最高速ではなかった。RTX 3090一枚で218K文脈まで伸ばし、長いtool outputでも落ちにくくした構成が評価された。
重要なのは、長文脈やedge-side agentを実際に回せるかどうかが結局kernel最適化で決まる場面が増えていることだ。QwenはFlashQLAがNVIDIA HopperでFLA Triton比の前方2〜3倍、逆伝播2倍を出したとしている。
LocalLLaMAがこの投稿に反応した理由は宣伝文句ではなく実測値だ。RTX 5060 Ti 16GBを2枚使い、Qwen3.6 27Bを約60 tok/s、204kコンテキストまで持ち上げた構成が共有された。
LocalLLaMAの最初の反応はCPネタだったが、スレッドが残った理由は別にある。GDN chunked prefillでforward 2〜3倍、backward 2倍という具体的な数字が出ていて、long-contextとedge-sideのagentic inferenceに話が直結していたからだ。