LocalLLaMA実験、Qwen3.5-35B-A3BでSWE-bench Verified Hard 37.8%を報告

投稿で示された実験概要

2026年3月4日のr/LocalLLaMA投稿では、Qwen3.5-35B-A3B（投稿者説明では3B active paramsのMoE）をvLLMで自前運用し、SWE-bench Verifiedで評価した結果が共有された。主張の中心は、モデル規模そのものよりもエージェントの実行ループ設計が成績に強く影響するという点だ。投稿では同一ハーネス条件でHard（45タスク）が22.2%から37.8%へ上昇したとしている。

コード、設定、実験ログへのリンクも提示されており、コミュニティ側で手順を確認しやすい形になっている。

改善手法: 編集直後に検証を強制

介入はシンプルで、file_editのたびに短い検証ステップを実行させるというもの。投稿内の数値では、verify-at-lastで22.2%から33.3%に改善し、verify-on-editで37.8%まで伸びた。500タスク全体ではbaseline 64%、verify-at-last 67%と記載されている。

さらに投稿者は、Hard分割でClaude Opus 4.6の40.0%参照値を併記し、小さいactive parameter構成でも差を縮められる可能性を示した。

コミュニティの注意点

上位コメントでは、SWE-bench系評価の既知課題である汚染可能性（contamination）が指摘された。ベンチマークが古いほど、後発モデル学習に類似信号が含まれるリスクがあるため、より新しいタスクで再実験すべきという提案だ。これは改善傾向を否定するものではなく、絶対値の解釈を慎重にすべきという意味合いが強い。

コーディングエージェント実装への示唆

実務上の示唆は、複雑な探索アルゴリズムより先に編集後検証の規律を固めるべき、という点にある。投稿者はMCTSやツリー探索の複数案が今回の条件では効果が低かったと述べ、シンプルな逐次検証のほうが費用対効果が高いと主張した。コードエージェント導入チームにとっては、大規模な設計変更より、検証自動化と実行ログの可観測性強化を優先する価値が高い可能性がある。

Reddit thread · Experiment repository

LocalLLaMA実験、Qwen3.5-35B-A3BでSWE-bench Verified Hard 37.8%を報告

投稿で示された実験概要

改善手法: 編集直後に検証を強制

コミュニティの注意点

コーディングエージェント実装への示唆

Related Articles

SWE-bench Verifiedはもう限界か　LocalLLaMAがbenchmaxxedと呼んだ背景

M5 Maxで動くQwen3.6に、LocalLLaMAはcodeを外へ出さない現実味を見た

RTX 5090 1枚でQwen 3.6 27Bが約80 t/s、LocalLLaMAがざわついた理由

Comments (0)

Leave a Comment

Related Articles

SWE-bench Verifiedはもう限界か　LocalLLaMAがbenchmaxxedと呼んだ背景

M5 Maxで動くQwen3.6に、LocalLLaMAはcodeを外へ出さない現実味を見た
LLM Reddit Apr 20, 2026 1 min read

RTX 5090 1枚でQwen 3.6 27Bが約80 t/s、LocalLLaMAがざわついた理由
LocalLLaMAがざわついたのは「新モデルが出た」からではない。RTX 5090 1枚で Qwen3.6-27B を約80 t/s、218k context で回したという具体的な数字が付いていたからだ。

投稿で示された実験概要

改善手法: 編集直後に検証を強制

コミュニティの注意点

コーディングエージェント実装への示唆

Related Articles

SWE-bench Verifiedはもう限界か LocalLLaMAがbenchmaxxedと呼んだ背景

M5 Maxで動くQwen3.6に、LocalLLaMAはcodeを外へ出さない現実味を見た

RTX 5090 1枚でQwen 3.6 27Bが約80 t/s、LocalLLaMAがざわついた理由

Comments (0)

Leave a Comment

SWE-bench Verifiedはもう限界か　LocalLLaMAがbenchmaxxedと呼んだ背景