Hacker News가 본 GLM-5.1, long-horizon agentic engineering을 겨냥하다

Hacker News 스레드는 GLM-5.1을 Z.ai의 새로운 flagship for agentic engineering으로 부각시켰다. 회사는 이 모델을 단순 benchmark climber가 아니라 long-horizon model로 설명하고, 공개한 숫자도 그 방향에 맞춰져 있다. Z.ai는 SWE-Bench Pro 58.4, NL2Repo 42.7, Terminal Bench 2.0 66.5, CyberGym 68.7을 제시하며 GLM-5 대비 모든 항목에서 개선됐다고 주장한다.

더 흥미로운 부분은 persistence 평가 방식이다. VectorDBBench 설정에서 GLM-5.1은 600회가 넘는 iteration과 6,000회 이상의 tool call 동안 optimization을 이어가며 최종 21.5k QPS에 도달했다고 한다. Z.ai는 이것이 단일 50-turn 세션에서 얻었던 최고 결과의 약 6배라고 설명한다. 글은 그 과정에서 두 번의 구조적 점프를 강조한다. iteration 90 부근의 IVF cluster probing + f16 compression 전환, 그리고 iteration 240 부근의 u8 prescoring + f16 reranking two-stage pipeline 도입이다.

첫 패스 점수보다 오래 유효한가

Z.ai는 KernelBench Level 3에서도 모델이 얼마나 오래 의미 있는 개선을 이어 가는지 비교했다. 이 실험에서 GLM-5.1은 50개 문제 기준 geometric mean speedup 3.6x를 기록했고, GLM-5보다 더 오래 생산성을 유지했다고 한다. 다만 Claude Opus 4.6은 4.2x로 여전히 앞선다. 회사는 여기서 멈추지 않고, 8시간 self-improvement loop 안에서 browser 기반 Linux-style desktop을 만들게 했다. 블로그에 따르면 이전 GLM 계열은 taskbar와 몇 개 placeholder window 수준에서 멈추는 경우가 많았지만, GLM-5.1은 file browser, terminal, text editor, system monitor, calculator, game까지 추가하며 UI를 계속 다듬었다.

이런 framing은 HN 독자들이 흥미를 느낄 만하다. 핵심 주장은 “GLM-5.1이 모든 benchmark를 이긴다”가 아니다. 오히려 obvious fix가 끝난 뒤에도 model이 계속 실험하고, 스스로 평가하고, tool을 써 가며 유의미한 개선을 이어 갈 수 있느냐는 질문에 가깝다. 이 vendor-authored evaluation이 실제 환경에서도 유지된다면, GLM-5.1은 단순한 model refresh라기보다 coding agent가 어디로 가는지 보여 주는 방향성 있는 업데이트로 보일 수 있다.

Hacker News가 본 GLM-5.1, long-horizon agentic engineering을 겨냥하다

첫 패스 점수보다 오래 유효한가

Related Articles

Cursor, Composer 2 기술 보고서 공개…agentic coding model 학습 스택 설명

OpenAI, 취약점 탐지·검증·수정을 위한 Codex Security 프리뷰 공개

r/LocalLLaMA, 장기 에이전트 평가용 YC-Bench 결과를 집중 조명

Comments (0)

Leave a Comment