GLM-5.2, open weights leaderboard의 새 기준선인가

GLM-5.2가 Artificial Analysis Intelligence Index v4.1에서 open weights 모델 중 1위에 올랐다. 점수는 51로, MiniMax-M3와 DeepSeek V4 Pro, Kimi K2.6을 앞선다. 모델 크기는 GLM-5.1과 같은 744B total, 40B active parameters지만 지표는 11점 뛰었고, context window는 1M tokens로 늘었다.

읽을 만한 대목은 순위표 자체보다 비용과 효율의 균형이다. Artificial Analysis는 GLM-5.2가 Intelligence vs Cost per Task의 Pareto frontier에 있다고 설명한다. 같은 지능대 모델 중 작업당 비용이 낮다는 뜻이지만, 동시에 평균 output token은 43k로 많다. 점수는 높아졌지만 긴 reasoning이 속도와 사용감을 갉아먹을 수 있다는 문제가 같이 따라온다.

HN 댓글의 관심도 여기에 모였다. 한 사용자는 Nim으로 작은 수식 평가 라이브러리를 작성하게 했을 때 GLM-5.2가 첫 파일을 쓰기 전 15분 넘게 reasoning했고 약 45k tokens를 썼다고 적었다. 다른 댓글은 Max 대신 High 설정을 쓰면 품질 하락은 작고 token 사용량은 크게 줄 수 있다고 설명했다. 커뮤니티가 본 쟁점은 "open weights도 frontier에 가까워졌는가"와 "그 frontier를 실제로 기다릴 수 있는가"다.

벤치마크 세부 항목도 방향을 보여준다. GLM-5.2는 GDPval-AA v2에서 1524를 기록해 주요 open weights 모델을 앞섰고, scientific reasoning과 TerminalBench에서도 개선 폭이 컸다. 다만 multimodal 부재, 긴 출력, provider별 가격과 rate limit은 실제 채택에서 따로 검증해야 할 부분이다. 오픈 모델 경쟁은 이제 "얼마나 똑똑한가"만으로 끝나지 않는다. 같은 작업을 얼마의 비용과 시간, token으로 끝내는지가 다음 기준선이다.

Source: Artificial Analysis, community discussion on Hacker News.

GLM-5.2, open weights leaderboard의 새 기준선인가

Related Articles

AI reasoning 논쟁, chain-of-thought를 믿어도 되는가

Kimi-K3 공개, 3T open-weight 모델의 비용 논점

Anthropic, 오픈 가중치 금지 대신 칩 통제·증류 단속·안전 테스트 체계 요구로 선회

Related Articles

AI reasoning 논쟁, chain-of-thought를 믿어도 되는가

Kimi-K3 공개, 3T open-weight 모델의 비용 논점

Anthropic, 오픈 가중치 금지 대신 칩 통제·증류 단속·안전 테스트 체계 요구로 선회