LocalLLaMA実験、Qwen3.5-35B-A3BでSWE-bench Verified Hard 37.8%を報告
Original: Qwen3.5-35B-A3B hits 37.8% on SWE-bench Verified Hard — nearly matching Claude Opus 4.6 (40%) with the right verification strategy View original →
投稿で示された実験概要
2026年3月4日のr/LocalLLaMA投稿では、Qwen3.5-35B-A3B(投稿者説明では3B active paramsのMoE)をvLLMで自前運用し、SWE-bench Verifiedで評価した結果が共有された。主張の中心は、モデル規模そのものよりもエージェントの実行ループ設計が成績に強く影響するという点だ。投稿では同一ハーネス条件でHard(45タスク)が22.2%から37.8%へ上昇したとしている。
コード、設定、実験ログへのリンクも提示されており、コミュニティ側で手順を確認しやすい形になっている。
改善手法: 編集直後に検証を強制
介入はシンプルで、file_editのたびに短い検証ステップを実行させるというもの。投稿内の数値では、verify-at-lastで22.2%から33.3%に改善し、verify-on-editで37.8%まで伸びた。500タスク全体ではbaseline 64%、verify-at-last 67%と記載されている。
さらに投稿者は、Hard分割でClaude Opus 4.6の40.0%参照値を併記し、小さいactive parameter構成でも差を縮められる可能性を示した。
コミュニティの注意点
上位コメントでは、SWE-bench系評価の既知課題である汚染可能性(contamination)が指摘された。ベンチマークが古いほど、後発モデル学習に類似信号が含まれるリスクがあるため、より新しいタスクで再実験すべきという提案だ。これは改善傾向を否定するものではなく、絶対値の解釈を慎重にすべきという意味合いが強い。
コーディングエージェント実装への示唆
実務上の示唆は、複雑な探索アルゴリズムより先に編集後検証の規律を固めるべき、という点にある。投稿者はMCTSやツリー探索の複数案が今回の条件では効果が低かったと述べ、シンプルな逐次検証のほうが費用対効果が高いと主張した。コードエージェント導入チームにとっては、大規模な設計変更より、検証自動化と実行ログの可観測性強化を優先する価値が高い可能性がある。
Related Articles
LocalLLaMAの反応は驚きよりも納得に近かった。公開benchmarkは結局こうなる、という空気だ。今回はcontaminationとflawed testが数字で並び、従来の自慢材料がもう安定して見えなくなった。
r/LocalLLaMAがこの投稿を押し上げたのは、“trust me bro”な体験談の中に8-bit、64k context、OpenCode、Android debuggingという実使用条件が入っていたからだ。
LocalLLaMAがざわついたのは「新モデルが出た」からではない。RTX 5090 1枚で Qwen3.6-27B を約80 t/s、218k context で回したという具体的な数字が付いていたからだ。
Comments (0)
No comments yet. Be the first to comment!