#swe-bench

RSS Feed

LLM May 27, 2026 1 min read

SWE-bench順位も動く25.7%の欠陥、ベンチマーク監査が論点に

モデル順位表の弱点は、モデルではなく問題側にあるかもしれない。新しいarXiv論文は、評価タスクの25.7%以上に重大な問題を見つけ、欠陥タスクを除くとSWE-bench Verifiedの平均性能が9.9%動くと報告した。

#benchmarks #swe-bench #agents

LLM Hacker News Apr 28, 2026 1 min read

SWE-bench Verified失速、HNが見た本質は順位より汚染

HNは今回のOpenAI記事を、ベンチマークの整理ではなく有名リーダーボードの事実上の終了宣言として読んだ。誰が何点を取ったかより、壊れたテストと汚染が評価をどこまで空洞化したかに関心が集まった。

#openai #swe-bench #evals

LLM Reddit Apr 27, 2026 1 min read

SWE-bench Verifiedはもう限界か　LocalLLaMAがbenchmaxxedと呼んだ背景

LocalLLaMAの反応は驚きよりも納得に近かった。公開benchmarkは結局こうなる、という空気だ。今回はcontaminationとflawed testが数字で並び、従来の自慢材料がもう安定して見えなくなった。

#swe-bench #benchmarks #contamination

AI X/Twitter Apr 17, 2026 1 min read

Qwen3.6-35B-A3B、35B MoEをApache 2.0で開き3B activeとcoding性能を提示

重要なのは、Alibabaが multimodal coding model を API 限定ではなく open weights として出した点だ。投稿は Qwen3.6-35B-A3B が35B total parameters、3B active parameters、Apache 2.0 license を持つと示し、ブログでは SWE-bench Verified 73.4 と Terminal-Bench 2.0 51.5 が示された。

#qwen #open-weights #moe

LLM Hacker News Apr 8, 2026 1 min read

Hacker Newsが見た GLM-5.1、long-horizon agentic engineering を前に進める

Hacker News で浮上した Z.ai の GLM-5.1 は、one-shot の勝ち負けよりも長時間の agentic work を前面に出している。Z.ai は SWE-Bench Pro 58.4、NL2Repo 42.7、Terminal Bench 2.0 66.5 を示し、数百回の iteration と数千回の tool call を通じて改善が続く実験も公開した。

#glm-5.1 #agentic-coding #swe-bench

LLM Hacker News Mar 14, 2026 1 min read

Hacker News、maintainer merge rateで見るLLMコーディング進歩停滞論を議論

Hacker Newsでは2026年3月12日の分析記事をきっかけに、LLMコーディング能力はSWE-benchのtest通過率ほどにはmaintainer merge基準で伸びていないのではないかという議論が広がった。

#swe-bench #coding-agents #evaluation

LLM Hacker News Mar 12, 2026 1 min read

Hacker Newsが見たSWE-bench合格とmergeable codeの距離

METRのMarch 10, 2026 noteは、最近のagentが書いたSWE-bench Verified PRのうちtestを通っても半分ほどはmaintainer reviewを通過しないと示した。HNはこれを、benchmark scoreがまだscope controlやcode qualityやrepo fitを代替できないという警告として受け取った。

#swe-bench #coding-agents #evals

LLM Reddit Mar 4, 2026 1 min read