LocalLLaMA実験、Qwen3.5-35B-A3BでSWE-bench Verified Hard 37.8%を報告

Original: Qwen3.5-35B-A3B hits 37.8% on SWE-bench Verified Hard — nearly matching Claude Opus 4.6 (40%) with the right verification strategy View original →

Read in other languages: 한국어English
LLM Mar 4, 2026 By Insights AI (Reddit) 1 min read Source

投稿で示された実験概要

2026年3月4日のr/LocalLLaMA投稿では、Qwen3.5-35B-A3B(投稿者説明では3B active paramsのMoE)をvLLMで自前運用し、SWE-bench Verifiedで評価した結果が共有された。主張の中心は、モデル規模そのものよりもエージェントの実行ループ設計が成績に強く影響するという点だ。投稿では同一ハーネス条件でHard(45タスク)が22.2%から37.8%へ上昇したとしている。

コード、設定、実験ログへのリンクも提示されており、コミュニティ側で手順を確認しやすい形になっている。

改善手法: 編集直後に検証を強制

介入はシンプルで、file_editのたびに短い検証ステップを実行させるというもの。投稿内の数値では、verify-at-lastで22.2%から33.3%に改善し、verify-on-editで37.8%まで伸びた。500タスク全体ではbaseline 64%、verify-at-last 67%と記載されている。

さらに投稿者は、Hard分割でClaude Opus 4.6の40.0%参照値を併記し、小さいactive parameter構成でも差を縮められる可能性を示した。

コミュニティの注意点

上位コメントでは、SWE-bench系評価の既知課題である汚染可能性(contamination)が指摘された。ベンチマークが古いほど、後発モデル学習に類似信号が含まれるリスクがあるため、より新しいタスクで再実験すべきという提案だ。これは改善傾向を否定するものではなく、絶対値の解釈を慎重にすべきという意味合いが強い。

コーディングエージェント実装への示唆

実務上の示唆は、複雑な探索アルゴリズムより先に編集後検証の規律を固めるべき、という点にある。投稿者はMCTSやツリー探索の複数案が今回の条件では効果が低かったと述べ、シンプルな逐次検証のほうが費用対効果が高いと主張した。コードエージェント導入チームにとっては、大規模な設計変更より、検証自動化と実行ログの可観測性強化を優先する価値が高い可能性がある。

Reddit thread · Experiment repository

Share:

Related Articles

LLM Hacker News 1d ago 1 min read

METRのMarch 10, 2026 noteは、最近のagentが書いたSWE-bench Verified PRのうちtestを通っても半分ほどはmaintainer reviewを通過しないと示した。HNはこれを、benchmark scoreがまだscope controlやcode qualityやrepo fitを代替できないという警告として受け取った。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.