LocalLLaMAでQwen3.5-35B-A3B検証、agentic codingで100+ t/s報告

投稿で共有された内容

r/LocalLLaMAで注目を集めた投稿は、Qwen3.5-35B-A3Bをローカル環境でagentic codingに使った実測レポートだ。投稿者はheadless Linux上の単一RTX 3090でllama.cppを動かし、MXFP4系モデルと長いcontext設定を使って検証したと説明している。

投稿本文には起動コマンドと主要パラメータが具体的に示され、VRAM使用量は約22GB、生成速度は100 tokens/s超と主張された。さらに、以前から使っているコーディング評価課題を短時間で通過したという実務寄りの報告も含まれていた。

コミュニティが反応した理由

単なる感想ではなく、設定情報と体験結果がセットで提示された
クラウドAPIではなくローカル実行での生産性を論点化した
ベンチマーク値よりもagentツール連携時の挙動を重視した

一方、コメントでは再現性に幅があることも明確になった。高スループットを再現した報告がある一方で、基本的なtool useでつまずくケースも共有された。特に、tool schemaの大きさ、quantization方式、ランタイム実装、context運用方針が体感差を大きく左右するという指摘が多い。

実務向けの読み方

このスレッドは学術的な統制実験ではないが、現場条件での強みとボトルネックを同時に示す点で価値がある。結論としては「モデル単体の優劣」だけでなく、「モデル+runtime+tool設計」の総合最適化がローカルagent運用の成否を決める段階に入ったということだ。

Qwen3.5-35B-A3Bは適切な設定下で非常に高いコーディング生産性を示し得るが、導入判断には自社ワークロードでの再検証が不可欠になる。LocalLLaMAでの議論は、その検証観点を具体化する実務的な材料を提供している。

原文: r/LocalLLaMA discussion
関連モデル: Hugging Face - Qwen3.5-35B-A3B

LocalLLaMAでQwen3.5-35B-A3B検証、agentic codingで100+ t/s報告

投稿で共有された内容

コミュニティが反応した理由

実務向けの読み方

Related Articles

r/LocalLLaMA、Qwen3.5 27Bをlocal inferenceのsweet spotとして評価

llama.cpp --fitでLocalLLaMAがVRAMの壁を再計算

よく使うMoE expertをVRAMへ、LocalLLaMAが見た27%高速化

Related Articles

r/LocalLLaMA、Qwen3.5 27Bをlocal inferenceのsweet spotとして評価
LLM Reddit Apr 8, 2026 1 min read

llama.cpp --fitでLocalLLaMAがVRAMの壁を再計算
LLM Reddit Apr 22, 2026 1 min read

よく使うMoE expertをVRAMへ、LocalLLaMAが見た27%高速化
LLM Reddit Apr 16, 2026 1 min read