LLM Hacker News Apr 8, 2026 1 min read
Hacker News で浮上した Z.ai の GLM-5.1 は、one-shot の勝ち負けよりも長時間の agentic work を前面に出している。Z.ai は SWE-Bench Pro 58.4、NL2Repo 42.7、Terminal Bench 2.0 66.5 を示し、数百回の iteration と数千回の tool call を通じて改善が続く実験も公開した。
Hacker News で浮上した Z.ai の GLM-5.1 は、one-shot の勝ち負けよりも長時間の agentic work を前面に出している。Z.ai は SWE-Bench Pro 58.4、NL2Repo 42.7、Terminal Bench 2.0 66.5 を示し、数百回の iteration と数千回の tool call を通じて改善が続く実験も公開した。
`r/LocalLLaMA` で話題になった YC-Bench は、モデルに 1 年間 startup を運営させる長期 horizon の agent benchmark だ。12 モデルのうち開始資本を安定して上回ったのは 3 モデルだけで、GLM-5 ははるかに低コストで Claude Opus 4.6 に迫った。