LocalLLaMAでQwen3.5-35B-A3B検証、agentic codingで100+ t/s報告
Original: Qwen3.5-35B-A3B is a gamechanger for agentic coding. View original →
投稿で共有された内容
r/LocalLLaMAで注目を集めた投稿は、Qwen3.5-35B-A3Bをローカル環境でagentic codingに使った実測レポートだ。投稿者はheadless Linux上の単一RTX 3090でllama.cppを動かし、MXFP4系モデルと長いcontext設定を使って検証したと説明している。
投稿本文には起動コマンドと主要パラメータが具体的に示され、VRAM使用量は約22GB、生成速度は100 tokens/s超と主張された。さらに、以前から使っているコーディング評価課題を短時間で通過したという実務寄りの報告も含まれていた。
コミュニティが反応した理由
- 単なる感想ではなく、設定情報と体験結果がセットで提示された
- クラウドAPIではなくローカル実行での生産性を論点化した
- ベンチマーク値よりもagentツール連携時の挙動を重視した
一方、コメントでは再現性に幅があることも明確になった。高スループットを再現した報告がある一方で、基本的なtool useでつまずくケースも共有された。特に、tool schemaの大きさ、quantization方式、ランタイム実装、context運用方針が体感差を大きく左右するという指摘が多い。
実務向けの読み方
このスレッドは学術的な統制実験ではないが、現場条件での強みとボトルネックを同時に示す点で価値がある。結論としては「モデル単体の優劣」だけでなく、「モデル+runtime+tool設計」の総合最適化がローカルagent運用の成否を決める段階に入ったということだ。
Qwen3.5-35B-A3Bは適切な設定下で非常に高いコーディング生産性を示し得るが、導入判断には自社ワークロードでの再検証が不可欠になる。LocalLLaMAでの議論は、その検証観点を具体化する実務的な材料を提供している。
原文: r/LocalLLaMA discussion
関連モデル: Hugging Face - Qwen3.5-35B-A3B
Related Articles
LocalLLaMAが反応したのは新model自慢ではなく、--fitが「VRAMに全部入らなければ遅い」という経験則を揺らしたからだ。
最近のr/LocalLLaMA投稿は、Qwen3.5 27Bがqualityとdeployabilityのバランスに優れたlocal modelだと主張する。投稿者はRTX A6000 48GBとllama.cppで約19.7 tokens/secを報告し、commentsではdense 27BとMoEのVRAM economicsが詳しく議論された。
2026年3月のr/LocalLLaMAで126 pointsと45 commentsを集めた投稿は、Qwen3.5-27Bをllama.cppで動かしOpenCodeへ接続する実践ガイドを取り上げた。注目点は、quant選択、chat-template修正、VRAM予算、Tailscale networking、tool-callingの挙動といった、実際のローカルcoding環境を左右する運用ディテールを扱っていることだ。
Comments (0)
No comments yet. Be the first to comment!