Hacker News가 본 GLM-5.1, long-horizon agentic engineering을 겨냥하다
Original: GLM-5.1: Towards Long-Horizon Tasks View original →
Hacker News 스레드는 GLM-5.1을 Z.ai의 새로운 flagship for agentic engineering으로 부각시켰다. 회사는 이 모델을 단순 benchmark climber가 아니라 long-horizon model로 설명하고, 공개한 숫자도 그 방향에 맞춰져 있다. Z.ai는 SWE-Bench Pro 58.4, NL2Repo 42.7, Terminal Bench 2.0 66.5, CyberGym 68.7을 제시하며 GLM-5 대비 모든 항목에서 개선됐다고 주장한다.
더 흥미로운 부분은 persistence 평가 방식이다. VectorDBBench 설정에서 GLM-5.1은 600회가 넘는 iteration과 6,000회 이상의 tool call 동안 optimization을 이어가며 최종 21.5k QPS에 도달했다고 한다. Z.ai는 이것이 단일 50-turn 세션에서 얻었던 최고 결과의 약 6배라고 설명한다. 글은 그 과정에서 두 번의 구조적 점프를 강조한다. iteration 90 부근의 IVF cluster probing + f16 compression 전환, 그리고 iteration 240 부근의 u8 prescoring + f16 reranking two-stage pipeline 도입이다.
첫 패스 점수보다 오래 유효한가
Z.ai는 KernelBench Level 3에서도 모델이 얼마나 오래 의미 있는 개선을 이어 가는지 비교했다. 이 실험에서 GLM-5.1은 50개 문제 기준 geometric mean speedup 3.6x를 기록했고, GLM-5보다 더 오래 생산성을 유지했다고 한다. 다만 Claude Opus 4.6은 4.2x로 여전히 앞선다. 회사는 여기서 멈추지 않고, 8시간 self-improvement loop 안에서 browser 기반 Linux-style desktop을 만들게 했다. 블로그에 따르면 이전 GLM 계열은 taskbar와 몇 개 placeholder window 수준에서 멈추는 경우가 많았지만, GLM-5.1은 file browser, terminal, text editor, system monitor, calculator, game까지 추가하며 UI를 계속 다듬었다.
이런 framing은 HN 독자들이 흥미를 느낄 만하다. 핵심 주장은 “GLM-5.1이 모든 benchmark를 이긴다”가 아니다. 오히려 obvious fix가 끝난 뒤에도 model이 계속 실험하고, 스스로 평가하고, tool을 써 가며 유의미한 개선을 이어 갈 수 있느냐는 질문에 가깝다. 이 vendor-authored evaluation이 실제 환경에서도 유지된다면, GLM-5.1은 단순한 model refresh라기보다 coding agent가 어디로 가는지 보여 주는 방향성 있는 업데이트로 보일 수 있다.
Related Articles
LocalLLaMA가 뜨거웠던 이유는 절대 점수만이 아니었다. 2026년 4월 28일 올라온 이 글은 Qwen 3.6-27B의 Terminal-Bench 2.0 38.2%를 late-2025 frontier 수준과 연결했고, 그 순간 로컬 코딩은 장난감이 아니라 배치 옵션으로 읽히기 시작했다.
OpenAI가 내세운 핵심은 단순 성능 업데이트가 아니다. Terminal-Bench 2.0 82.7%, SWE-Bench Pro 58.6%와 함께 GPT-5.4급 지연을 유지한다고 밝히며, 길고 지저분한 작업을 맡기는 코딩 에이전트 경쟁의 기준을 다시 올렸다.
OpenAI가 겨냥한 지점은 채팅이 아니라 장기 작업 자동화다. 공개 수치 기준으로 GPT-5.5는 Terminal-Bench 2.0에서 82.7%를 기록해 GPT-5.4보다 7.6%p 높았고, Codex에서는 더 적은 토큰으로 같은 일을 밀어붙인다고 적었다.
Comments (0)
No comments yet. Be the first to comment!