GLM-5.2, 1M context와 코딩 벤치마크로 열린 모델 격차 압축

1M 토큰 context 경쟁이 다시 코딩 agent 쪽으로 이동했다. Z.AI의 GLM-5.2 문서는 긴 입력을 넣을 수 있다는 주장보다, 대형 코드베이스를 한 번의 reasoning workflow에 올렸을 때 목표와 제약을 얼마나 오래 붙잡는지에 초점을 맞춘다.

출시 기록은 2026년 6월 16일 release notes에 올라왔다. Z.AI는 GLM-5.2가 1M lossless context를 지원하고, 복잡한 작업에서 context drift와 goal forgetting을 줄였으며, coding과 long-horizon task benchmark에서 open-source SOTA 성능을 냈다고 적었다. 문서상 최대 출력은 128K tokens다.

가장 눈에 띄는 수치는 benchmark 비교다. Z.AI는 FrontierSWE, PostTrainBench, SWE-Marathon에서 GLM-5.2가 전체 상위권에 들고, FrontierSWE에서는 Claude Opus 4.8과 1% 차이라고 주장한다. 표준 코딩 benchmark에서는 Terminal-Bench 2.1 81.0점, SWE-bench Pro 62.1점을 제시했다. 이전 GLM-5.1의 Terminal-Bench 2.1 62.0점과 비교하면, 단순한 점수 상승이 아니라 장시간 코드 작업을 제품 포지션의 중심에 둔 변화다.

이 release가 중요한 이유는 open-weight 또는 open-source 계열 모델이 “싼 대체재”가 아니라 repo-scale engineering 작업의 직접 경쟁자로 포장되고 있기 때문이다. 기업 입장에서는 모델이 코드를 읽는 양보다, module boundary, API contract, test convention 같은 실무 제약을 끝까지 유지하는지가 비용과 품질을 가른다.

다만 benchmark는 공급자 문서 기준이다. 독립 재현, 실제 기업 코드베이스에서의 실패율, 보안 검토, 장기 지원 약속은 아직 별도 확인이 필요하다. 다음 관전 포인트는 GLM-5.2가 공개 leaderboard와 개발자 workflow에서 같은 성능을 보이는지다.

GLM-5.2, 1M context와 코딩 벤치마크로 열린 모델 격차 압축

Related Articles

LM Studio Bionic, local model agent가 노리는 데스크톱 작업대

GitHub Copilot에 Claude Opus 5 투입, 장시간 코딩 agent 선택지 확대

Kimi K2.6, 에이전트 스웜 300개·4,000단계로 대폭 확대…채팅 아닌 산출물로 승부

Related Articles

LM Studio Bionic, local model agent가 노리는 데스크톱 작업대
LLM Hacker News Jul 18, 2026 1 min read

GitHub Copilot에 Claude Opus 5 투입, 장시간 코딩 agent 선택지 확대
LLM Jul 26, 2026 1 min read

Kimi K2.6, 에이전트 스웜 300개·4,000단계로 대폭 확대…채팅 아닌 산출물로 승부
LLM X/Twitter Apr 23, 2026 1 min read