GLM-5, NYT Connections 벤치마크에서 오픈 가중치 모델 1위 달성
Original: GLM-5 is the new top open-weights model on the Extended NYT Connections benchmark, with a score of 81.8, edging out Kimi K2.5 Thinking (78.3) View original →
GLM-5의 새로운 기록
Zhipu AI의 GLM-5가 Extended NYT Connections 벤치마크에서 81.8점을 기록하며 오픈 가중치(open-weights) 모델 중 최고 성능을 달성했습니다. 이전 1위였던 Kimi K2.5 Thinking(78.3)을 3.5점 차이로 제쳤습니다.
NYT Connections 벤치마크란
Extended NYT Connections 벤치마크는 뉴욕 타임스의 단어 연상 퍼즐 게임을 기반으로 한 LLM 평가 지표입니다. 16개의 단어를 4가지 숨겨진 카테고리로 분류해야 하며, 이 과정에서 단순한 패턴 매칭을 넘어 개념적 추론, 다의어 이해, 문화적 지식 등 복잡한 언어 이해 능력이 필요합니다. 표준 LLM 벤치마크와 달리 단순 암기나 통계적 패턴으로 해결하기 어렵다는 특징이 있습니다.
중국 오픈소스 AI의 성장
Zhipu AI는 중국의 주요 AI 연구 기관인 칭화대학교와 긴밀히 연계된 스타트업으로, GLM(General Language Model) 시리즈를 꾸준히 발전시켜왔습니다. GLM-5의 이번 성과는 중국 오픈 소스 AI 생태계의 빠른 성장을 보여주는 사례입니다. Kimi K2.5 Thinking과의 경쟁에서 앞선 것은 특히 의미 있는데, 두 모델 모두 중국 AI 스타트업의 산물이기 때문입니다.
오픈 가중치 모델의 경쟁 심화
이번 결과는 오픈 가중치 LLM 공간에서 중국 모델들이 서방 오픈 소스 모델(Llama, Mistral 등)과 경쟁 관계를 형성하고 있음을 보여줍니다. GLM-5의 점수인 81.8점은 상당수의 독점 모델과도 비견될 만한 수준입니다. 상세 벤치마크 결과는 https://github.com/lechmazur/nyt-connections/ 에서 확인할 수 있습니다.
Related Articles
Google AI Developers가 Android 개발 전용 LLM 평가 체계인 Android Bench를 공개했다. 첫 결과에서는 Gemini 3.1 Pro가 1위를 차지했고, benchmark, dataset, test harness도 함께 공개됐다.
Microsoft Research는 2026년 2월 26일 CORPGEN을 발표했다. 실제 사무 환경의 동시 다중 업무를 반영한 평가에서, 높은 부하 구간에서 기준 에이전트 대비 최대 3.5배 높은 완료율을 제시했다.
r/LocalLLaMA에서 주목받은 FlashAttention-4는 B200 BF16에서 최대 1605 TFLOPs/s를 제시하며, Blackwell의 메모리·SFU 병목을 겨냥한 파이프라인 개선을 소개했다.
Comments (0)
No comments yet. Be the first to comment!