Qwen 3.5-35B-A3B、GPT-OSS-120Bを超えてデイリードライバーに——サイズは1/3

Qwen 3.5-35B-A3B、期待を大幅に上回る

LocalLLaMAコミュニティで、AlibabaのQwen 3.5-35B-A3Bが注目を集めている。GPT-OSS-120Bを代替するデイリードライバーになったと主張する投稿が高い評価を得ている。

MoEアーキテクチャ：35Bパラメータ、活性化は3B

Mixture of Experts（MoE）アーキテクチャを採用しており、総パラメータ数は35Bだが、推論時に活性化されるのは約3Bにとどまる。これにより、同等サイズの密なモデルと比べて推論コストが大幅に低下する。

実際の活用シーン

元の投稿者が紹介した実務での利用例：

N8N経由のメッセージ・メール・アラートの優先度付き自動バッチ処理
動的ツール選択を用いたエージェントシステム
全般的な開発作業のアシスタント

特にコーディングや推論タスクで、その規模を大きく超えた性能を発揮するとの評価が多い。

Qwen 3.5シリーズの位置づけ

Qwen 3.5シリーズはAlibabaが公開する最新のオープンソースモデルファミリーで、35B MoEバリアントはその中でも特に注目されている。中国のオープンソースモデルが西洋の競合モデルに匹敵する、あるいは凌駕するという傾向が続いており、Qwen 3.5-35B-A3Bはその代表例といえる。

LLM Reddit Apr 16, 2026 1 min read

よく使うMoE expertをVRAMへ、LocalLLaMAが見た27%高速化

LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。

#local-llm #llama-cpp #moe

LLM Reddit Apr 20, 2026 1 min read