GLM-5, NYT Connections 벤치마크에서 오픈 가중치 모델 1위 달성
Original: GLM-5 is the new top open-weights model on the Extended NYT Connections benchmark, with a score of 81.8, edging out Kimi K2.5 Thinking (78.3) View original →
GLM-5의 새로운 기록
Zhipu AI의 GLM-5가 Extended NYT Connections 벤치마크에서 81.8점을 기록하며 오픈 가중치(open-weights) 모델 중 최고 성능을 달성했습니다. 이전 1위였던 Kimi K2.5 Thinking(78.3)을 3.5점 차이로 제쳤습니다.
NYT Connections 벤치마크란
Extended NYT Connections 벤치마크는 뉴욕 타임스의 단어 연상 퍼즐 게임을 기반으로 한 LLM 평가 지표입니다. 16개의 단어를 4가지 숨겨진 카테고리로 분류해야 하며, 이 과정에서 단순한 패턴 매칭을 넘어 개념적 추론, 다의어 이해, 문화적 지식 등 복잡한 언어 이해 능력이 필요합니다. 표준 LLM 벤치마크와 달리 단순 암기나 통계적 패턴으로 해결하기 어렵다는 특징이 있습니다.
중국 오픈소스 AI의 성장
Zhipu AI는 중국의 주요 AI 연구 기관인 칭화대학교와 긴밀히 연계된 스타트업으로, GLM(General Language Model) 시리즈를 꾸준히 발전시켜왔습니다. GLM-5의 이번 성과는 중국 오픈 소스 AI 생태계의 빠른 성장을 보여주는 사례입니다. Kimi K2.5 Thinking과의 경쟁에서 앞선 것은 특히 의미 있는데, 두 모델 모두 중국 AI 스타트업의 산물이기 때문입니다.
오픈 가중치 모델의 경쟁 심화
이번 결과는 오픈 가중치 LLM 공간에서 중국 모델들이 서방 오픈 소스 모델(Llama, Mistral 등)과 경쟁 관계를 형성하고 있음을 보여줍니다. GLM-5의 점수인 81.8점은 상당수의 독점 모델과도 비견될 만한 수준입니다. 상세 벤치마크 결과는 https://github.com/lechmazur/nyt-connections/ 에서 확인할 수 있습니다.
Related Articles
Liquid AI가 38조 토큰으로 학습한 8B-A1B MoE 모델 LFM2.5를 공개했다. M5 Max에서 초당 253토큰, 모바일에서 30토큰, H100에서 초당 1만 8500토큰의 추론 성능을 자랑하며 동급 밀집 모델을 상회한다.
댓글의 관심은 “encoder-free”라는 표현이 실제 아키텍처에서 무엇을 뜻하는지에 모였다.
일반 사용자에게 풀린 것은 Fable 5지만, 핵심은 같은 기반 모델의 Mythos급 성능을 어디까지 열고 어디서 막을지다. Anthropic은 $10/$50 토큰 가격, 30일 보안 로그 보존, 일부 고위험 질의의 Opus 4.8 전환까지 함께 내놨다.