LocalLLaMAでQwen3.5-35B-A3B検証、agentic codingで100+ t/s報告
Original: Qwen3.5-35B-A3B is a gamechanger for agentic coding. View original →
投稿で共有された内容
r/LocalLLaMAで注目を集めた投稿は、Qwen3.5-35B-A3Bをローカル環境でagentic codingに使った実測レポートだ。投稿者はheadless Linux上の単一RTX 3090でllama.cppを動かし、MXFP4系モデルと長いcontext設定を使って検証したと説明している。
投稿本文には起動コマンドと主要パラメータが具体的に示され、VRAM使用量は約22GB、生成速度は100 tokens/s超と主張された。さらに、以前から使っているコーディング評価課題を短時間で通過したという実務寄りの報告も含まれていた。
コミュニティが反応した理由
- 単なる感想ではなく、設定情報と体験結果がセットで提示された
- クラウドAPIではなくローカル実行での生産性を論点化した
- ベンチマーク値よりもagentツール連携時の挙動を重視した
一方、コメントでは再現性に幅があることも明確になった。高スループットを再現した報告がある一方で、基本的なtool useでつまずくケースも共有された。特に、tool schemaの大きさ、quantization方式、ランタイム実装、context運用方針が体感差を大きく左右するという指摘が多い。
実務向けの読み方
このスレッドは学術的な統制実験ではないが、現場条件での強みとボトルネックを同時に示す点で価値がある。結論としては「モデル単体の優劣」だけでなく、「モデル+runtime+tool設計」の総合最適化がローカルagent運用の成否を決める段階に入ったということだ。
Qwen3.5-35B-A3Bは適切な設定下で非常に高いコーディング生産性を示し得るが、導入判断には自社ワークロードでの再検証が不可欠になる。LocalLLaMAでの議論は、その検証観点を具体化する実務的な材料を提供している。
原文: r/LocalLLaMA discussion
関連モデル: Hugging Face - Qwen3.5-35B-A3B
Related Articles
LocalLLaMAコミュニティユーザーがRTX 4070 Super 12GBでQwen3.6 35B A3BモデルをIk_llama.cppフォークを使用して110トークン/秒で実行することに成功しました。CPU オフロード最適化に優れたこのフォークは標準llama.cppより大幅に高いパフォーマンスを示しました。
最近のr/LocalLLaMA投稿は、Qwen3.5 27Bがqualityとdeployabilityのバランスに優れたlocal modelだと主張する。投稿者はRTX A6000 48GBとllama.cppで約19.7 tokens/secを報告し、commentsではdense 27BとMoEのVRAM economicsが詳しく議論された。
LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。