GLM-5.2, open weights leaderboard의 새 기준선인가
Original: GLM-5.2 is the new leading open weights model on Artificial Analysis View original →
GLM-5.2가 Artificial Analysis Intelligence Index v4.1에서 open weights 모델 중 1위에 올랐다. 점수는 51로, MiniMax-M3와 DeepSeek V4 Pro, Kimi K2.6을 앞선다. 모델 크기는 GLM-5.1과 같은 744B total, 40B active parameters지만 지표는 11점 뛰었고, context window는 1M tokens로 늘었다.
읽을 만한 대목은 순위표 자체보다 비용과 효율의 균형이다. Artificial Analysis는 GLM-5.2가 Intelligence vs Cost per Task의 Pareto frontier에 있다고 설명한다. 같은 지능대 모델 중 작업당 비용이 낮다는 뜻이지만, 동시에 평균 output token은 43k로 많다. 점수는 높아졌지만 긴 reasoning이 속도와 사용감을 갉아먹을 수 있다는 문제가 같이 따라온다.
HN 댓글의 관심도 여기에 모였다. 한 사용자는 Nim으로 작은 수식 평가 라이브러리를 작성하게 했을 때 GLM-5.2가 첫 파일을 쓰기 전 15분 넘게 reasoning했고 약 45k tokens를 썼다고 적었다. 다른 댓글은 Max 대신 High 설정을 쓰면 품질 하락은 작고 token 사용량은 크게 줄 수 있다고 설명했다. 커뮤니티가 본 쟁점은 "open weights도 frontier에 가까워졌는가"와 "그 frontier를 실제로 기다릴 수 있는가"다.
벤치마크 세부 항목도 방향을 보여준다. GLM-5.2는 GDPval-AA v2에서 1524를 기록해 주요 open weights 모델을 앞섰고, scientific reasoning과 TerminalBench에서도 개선 폭이 컸다. 다만 multimodal 부재, 긴 출력, provider별 가격과 rate limit은 실제 채택에서 따로 검증해야 할 부분이다. 오픈 모델 경쟁은 이제 "얼마나 똑똑한가"만으로 끝나지 않는다. 같은 작업을 얼마의 비용과 시간, token으로 끝내는지가 다음 기준선이다.
Source: Artificial Analysis, community discussion on Hacker News.
Related Articles
장문·멀티모달·코딩 성능을 앞세운 MiniMax M3가 오픈 웨이트 배포 단계에 들어갔다. 모델 카드는 약 428B 파라미터와 23B 활성 파라미터, 1M 컨텍스트를 명시한다.
OpenRouter가 여러 모델의 답을 병렬 합성하는 Fusion API를 공개하며 DRACO 100개 연구 과제에서 Fable 5에 1% 이내로 접근했다고 밝혔다. 핵심은 최고가 단일 모델이 아니라 예산 모델 패널과 판정 모델을 조합해 비용을 약 절반으로 낮춘 점이다.
r/MachineLearning의 관심은 “코드가 없는 SOTA”를 leaderboard에 어떻게 넣을지라는 현실적인 문제에 모였다.