LocalLLaMAでQwen3.5-35B-A3B検証、agentic codingで100+ t/s報告
Original: Qwen3.5-35B-A3B is a gamechanger for agentic coding. View original →
投稿で共有された内容
r/LocalLLaMAで注目を集めた投稿は、Qwen3.5-35B-A3Bをローカル環境でagentic codingに使った実測レポートだ。投稿者はheadless Linux上の単一RTX 3090でllama.cppを動かし、MXFP4系モデルと長いcontext設定を使って検証したと説明している。
投稿本文には起動コマンドと主要パラメータが具体的に示され、VRAM使用量は約22GB、生成速度は100 tokens/s超と主張された。さらに、以前から使っているコーディング評価課題を短時間で通過したという実務寄りの報告も含まれていた。
コミュニティが反応した理由
- 単なる感想ではなく、設定情報と体験結果がセットで提示された
- クラウドAPIではなくローカル実行での生産性を論点化した
- ベンチマーク値よりもagentツール連携時の挙動を重視した
一方、コメントでは再現性に幅があることも明確になった。高スループットを再現した報告がある一方で、基本的なtool useでつまずくケースも共有された。特に、tool schemaの大きさ、quantization方式、ランタイム実装、context運用方針が体感差を大きく左右するという指摘が多い。
実務向けの読み方
このスレッドは学術的な統制実験ではないが、現場条件での強みとボトルネックを同時に示す点で価値がある。結論としては「モデル単体の優劣」だけでなく、「モデル+runtime+tool設計」の総合最適化がローカルagent運用の成否を決める段階に入ったということだ。
Qwen3.5-35B-A3Bは適切な設定下で非常に高いコーディング生産性を示し得るが、導入判断には自社ワークロードでの再検証が不可欠になる。LocalLLaMAでの議論は、その検証観点を具体化する実務的な材料を提供している。
原文: r/LocalLLaMA discussion
関連モデル: Hugging Face - Qwen3.5-35B-A3B
Related Articles
高スコアのLocalLLaMA投稿では、16GBのM1 Pro上でQwen 3.5 9Bがmemory recallと基本的なtool callingを実運用向けにこなしつつ、creative reasoningでは依然としてfrontier modelに及ばなかったと報告された。
Hacker Newsで注目されたUnslothのQwen3.5ガイドは、27Bや35B-A3Bをローカル環境で動かすためのメモリ要件、thinking制御、llama.cpp手順を実務向けにまとめている。
r/LocalLLaMAで注目されたPSAは、OllamaやLM Studioのような便利レイヤーがmodel behaviorを変えてしまうため、新モデルの評価はまずllama.cpp、transformers、vLLM、SGLangのような基礎ランタイムで行うべきだと勧めている。コメントでも、重要なのは特定ツールの好みではなく、template、stop token、sampling、quantizationを固定した再現性だと強調された。
Comments (0)
No comments yet. Be the first to comment!