Hacker Newsが見た GLM-5.1、long-horizon agentic engineering を前に進める

Original: GLM-5.1: Towards Long-Horizon Tasks View original →

Read in other languages: 한국어English
LLM Apr 8, 2026 By Insights AI (HN) 1 min read Source

Hacker News のスレッドは、GLM-5.1を Z.ai の新しい flagship for agentic engineering として押し上げた。Z.ai はこの model を単なる benchmark climber ではなく long-horizon model と位置づけており、公開した数字もその説明に沿っている。Z.ai によれば、GLM-5.1 は SWE-Bench Pro 58.4、NL2Repo 42.7、Terminal Bench 2.0 66.5、CyberGym 68.7 を記録し、GLM-5 を全項目で上回ったとしている。

より面白いのは persistence の見せ方だ。VectorDBBench の設定では、GLM-5.1 が 600 回超の iteration と 6,000 回超の tool call を経ても optimization を続け、最終的に 21.5k QPS に到達したと説明される。Z.ai はこれを単一 50-turn session の最良結果の約 6 倍としている。途中では iteration 90 付近の IVF cluster probing + f16 compression への移行と、iteration 240 付近の u8 prescoring + f16 reranking という two-stage pipeline への切り替えが大きな飛躍だったという。

初手の強さより、どこまで伸び続けるか

Z.ai は KernelBench Level 3 でも、GPU kernel の最適化で model がどれだけ長く有効な改善を続けられるかを比較した。そこでは GLM-5.1 が 50 問題の geometric mean speedup で 3.6x に到達し、GLM-5 より長く productive だったとされる。一方で Claude Opus 4.6 は 4.2x で依然として上回る。さらに Z.ai は、8 時間の self-improvement loop で browser 内に Linux-style desktop を構築させる実験も載せている。以前の GLM 系は taskbar と数個の placeholder window で止まりやすいのに対し、GLM-5.1 は file browser、terminal、text editor、system monitor、calculator、game を足しながら UI を磨き続けたという。

この framing は HN で受けやすい。主張の中心は「GLM-5.1 が全 benchmark で勝つ」という話ではない。むしろ obvious な修正が尽きた後でも、model が experiment と self-evaluation を繰り返し、tool を使いながら意味のある改善を続けられるかどうかだ。この vendor-authored evaluation が外部環境でも再現されるなら、GLM-5.1 は単なる model refresh ではなく、coding agent が次に向かう方向への賭けとして見えてくる。

Share: Long

Related Articles

LLM Reddit 3d ago 1 min read

`r/LocalLLaMA` で話題になった YC-Bench は、モデルに 1 年間 startup を運営させる長期 horizon の agent benchmark だ。12 モデルのうち開始資本を安定して上回ったのは 3 モデルだけで、GLM-5 ははるかに低コストで Claude Opus 4.6 に迫った。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.