Hacker Newsが見た GLM-5.1、long-horizon agentic engineering を前に進める

Hacker News のスレッドは、GLM-5.1を Z.ai の新しい flagship for agentic engineering として押し上げた。Z.ai はこの model を単なる benchmark climber ではなく long-horizon model と位置づけており、公開した数字もその説明に沿っている。Z.ai によれば、GLM-5.1 は SWE-Bench Pro 58.4、NL2Repo 42.7、Terminal Bench 2.0 66.5、CyberGym 68.7 を記録し、GLM-5 を全項目で上回ったとしている。

より面白いのは persistence の見せ方だ。VectorDBBench の設定では、GLM-5.1 が 600 回超の iteration と 6,000 回超の tool call を経ても optimization を続け、最終的に 21.5k QPS に到達したと説明される。Z.ai はこれを単一 50-turn session の最良結果の約 6 倍としている。途中では iteration 90 付近の IVF cluster probing + f16 compression への移行と、iteration 240 付近の u8 prescoring + f16 reranking という two-stage pipeline への切り替えが大きな飛躍だったという。

初手の強さより、どこまで伸び続けるか

Z.ai は KernelBench Level 3 でも、GPU kernel の最適化で model がどれだけ長く有効な改善を続けられるかを比較した。そこでは GLM-5.1 が 50 問題の geometric mean speedup で 3.6x に到達し、GLM-5 より長く productive だったとされる。一方で Claude Opus 4.6 は 4.2x で依然として上回る。さらに Z.ai は、8 時間の self-improvement loop で browser 内に Linux-style desktop を構築させる実験も載せている。以前の GLM 系は taskbar と数個の placeholder window で止まりやすいのに対し、GLM-5.1 は file browser、terminal、text editor、system monitor、calculator、game を足しながら UI を磨き続けたという。

この framing は HN で受けやすい。主張の中心は「GLM-5.1 が全 benchmark で勝つ」という話ではない。むしろ obvious な修正が尽きた後でも、model が experiment と self-evaluation を繰り返し、tool を使いながら意味のある改善を続けられるかどうかだ。この vendor-authored evaluation が外部環境でも再現されるなら、GLM-5.1 は単なる model refresh ではなく、coding agent が次に向かう方向への賭けとして見えてくる。

Hacker Newsが見た GLM-5.1、long-horizon agentic engineering を前に進める

初手の強さより、どこまで伸び続けるか

Related Articles

SWE-Bench Proの30%に欠陥、OpenAIがcoding評価推奨を撤回

ローカルモデル、趣味の実行環境からcoding workflowへ

ローカルAI実行の権利、論点は性能より利用者の支配権へ