#long-horizon

LLM Hacker News Apr 8, 2026 1 min read

Hacker Newsが見た GLM-5.1、long-horizon agentic engineering を前に進める

Hacker News で浮上した Z.ai の GLM-5.1 は、one-shot の勝ち負けよりも長時間の agentic work を前面に出している。Z.ai は SWE-Bench Pro 58.4、NL2Repo 42.7、Terminal Bench 2.0 66.5 を示し、数百回の iteration と数千回の tool call を通じて改善が続く実験も公開した。

#glm-5.1 #agentic-coding #swe-bench

LLM Reddit Apr 4, 2026 1 min read

r/LocalLLaMA、長期エージェント評価の YC-Bench に注目

`r/LocalLLaMA` で話題になった YC-Bench は、モデルに 1 年間 startup を運営させる長期 horizon の agent benchmark だ。12 モデルのうち開始資本を安定して上回ったのは 3 モデルだけで、GLM-5 ははるかに低コストで Claude Opus 4.6 に迫った。

#yc-bench #agent-evals #long-horizon