Hacker Newsが見た GLM-5.1、long-horizon agentic engineering を前に進める
Original: GLM-5.1: Towards Long-Horizon Tasks View original →
Hacker News のスレッドは、GLM-5.1を Z.ai の新しい flagship for agentic engineering として押し上げた。Z.ai はこの model を単なる benchmark climber ではなく long-horizon model と位置づけており、公開した数字もその説明に沿っている。Z.ai によれば、GLM-5.1 は SWE-Bench Pro 58.4、NL2Repo 42.7、Terminal Bench 2.0 66.5、CyberGym 68.7 を記録し、GLM-5 を全項目で上回ったとしている。
より面白いのは persistence の見せ方だ。VectorDBBench の設定では、GLM-5.1 が 600 回超の iteration と 6,000 回超の tool call を経ても optimization を続け、最終的に 21.5k QPS に到達したと説明される。Z.ai はこれを単一 50-turn session の最良結果の約 6 倍としている。途中では iteration 90 付近の IVF cluster probing + f16 compression への移行と、iteration 240 付近の u8 prescoring + f16 reranking という two-stage pipeline への切り替えが大きな飛躍だったという。
初手の強さより、どこまで伸び続けるか
Z.ai は KernelBench Level 3 でも、GPU kernel の最適化で model がどれだけ長く有効な改善を続けられるかを比較した。そこでは GLM-5.1 が 50 問題の geometric mean speedup で 3.6x に到達し、GLM-5 より長く productive だったとされる。一方で Claude Opus 4.6 は 4.2x で依然として上回る。さらに Z.ai は、8 時間の self-improvement loop で browser 内に Linux-style desktop を構築させる実験も載せている。以前の GLM 系は taskbar と数個の placeholder window で止まりやすいのに対し、GLM-5.1 は file browser、terminal、text editor、system monitor、calculator、game を足しながら UI を磨き続けたという。
この framing は HN で受けやすい。主張の中心は「GLM-5.1 が全 benchmark で勝つ」という話ではない。むしろ obvious な修正が尽きた後でも、model が experiment と self-evaluation を繰り返し、tool を使いながら意味のある改善を続けられるかどうかだ。この vendor-authored evaluation が外部環境でも再現されるなら、GLM-5.1 は単なる model refresh ではなく、coding agent が次に向かう方向への賭けとして見えてくる。
Related Articles
OpenAIが前に出したのは単なる性能更新ではない。Terminal-Bench 2.0で82.7%、SWE-Bench Proで58.6%を示しつつ、GPT-5.4級のレイテンシーを保つとして、長い作業を任せるコーディングエージェントの基準を押し上げた。
LocalLLaMAが熱くなった理由は絶対値の点数だけではない。2026年4月28日のこの投稿は、Qwen 3.6-27BのTerminal-Bench 2.0での38.2%をlate-2025 frontier相当と結びつけ、ローカルコーディングを導入判断の土俵に乗せた。
HNは今回のOpenAI記事を、ベンチマークの整理ではなく有名リーダーボードの事実上の終了宣言として読んだ。誰が何点を取ったかより、壊れたテストと汚染が評価をどこまで空洞化したかに関心が集まった。
Comments (0)
No comments yet. Be the first to comment!