GLM-5.2, 1M context와 코딩 벤치마크로 열린 모델 격차 압축
Original: GLM-5.2 View original →
1M 토큰 context 경쟁이 다시 코딩 agent 쪽으로 이동했다. Z.AI의 GLM-5.2 문서는 긴 입력을 넣을 수 있다는 주장보다, 대형 코드베이스를 한 번의 reasoning workflow에 올렸을 때 목표와 제약을 얼마나 오래 붙잡는지에 초점을 맞춘다.
출시 기록은 2026년 6월 16일 release notes에 올라왔다. Z.AI는 GLM-5.2가 1M lossless context를 지원하고, 복잡한 작업에서 context drift와 goal forgetting을 줄였으며, coding과 long-horizon task benchmark에서 open-source SOTA 성능을 냈다고 적었다. 문서상 최대 출력은 128K tokens다.
가장 눈에 띄는 수치는 benchmark 비교다. Z.AI는 FrontierSWE, PostTrainBench, SWE-Marathon에서 GLM-5.2가 전체 상위권에 들고, FrontierSWE에서는 Claude Opus 4.8과 1% 차이라고 주장한다. 표준 코딩 benchmark에서는 Terminal-Bench 2.1 81.0점, SWE-bench Pro 62.1점을 제시했다. 이전 GLM-5.1의 Terminal-Bench 2.1 62.0점과 비교하면, 단순한 점수 상승이 아니라 장시간 코드 작업을 제품 포지션의 중심에 둔 변화다.
이 release가 중요한 이유는 open-weight 또는 open-source 계열 모델이 “싼 대체재”가 아니라 repo-scale engineering 작업의 직접 경쟁자로 포장되고 있기 때문이다. 기업 입장에서는 모델이 코드를 읽는 양보다, module boundary, API contract, test convention 같은 실무 제약을 끝까지 유지하는지가 비용과 품질을 가른다.
다만 benchmark는 공급자 문서 기준이다. 독립 재현, 실제 기업 코드베이스에서의 실패율, 보안 검토, 장기 지원 약속은 아직 별도 확인이 필요하다. 다음 관전 포인트는 GLM-5.2가 공개 leaderboard와 개발자 workflow에서 같은 성능을 보이는지다.
Related Articles
HN 관심은 “큰 context window” 광고가 실제 작업 품질을 보장하지 않는다는 실무적 불신에 모였다.
Google DeepMind가 26B MoE open model DiffusionGemma를 공개했다. 256-token 블록을 병렬로 다듬는 text diffusion 방식으로 전용 GPU에서 최대 4x 빠른 생성을 노린다.
에이전트 코딩의 수혜자는 소프트웨어 엔지니어만이 아니었다. Anthropic은 약 40만 개 Claude Code 세션에서 평균 과제 가치가 27% 올랐고, 비소프트웨어 직군도 성공률 격차가 7%포인트 안에 들어왔다고 분석했다.