GLM-5, NYT Connections 벤치마크에서 오픈 가중치 모델 1위 달성

Original: GLM-5 is the new top open-weights model on the Extended NYT Connections benchmark, with a score of 81.8, edging out Kimi K2.5 Thinking (78.3) View original →

Read in other languages: English日本語
LLM Feb 24, 2026 By Insights AI (Reddit) 1 min read 2 views Source

GLM-5의 새로운 기록

Zhipu AI의 GLM-5가 Extended NYT Connections 벤치마크에서 81.8점을 기록하며 오픈 가중치(open-weights) 모델 중 최고 성능을 달성했습니다. 이전 1위였던 Kimi K2.5 Thinking(78.3)을 3.5점 차이로 제쳤습니다.

NYT Connections 벤치마크란

Extended NYT Connections 벤치마크는 뉴욕 타임스의 단어 연상 퍼즐 게임을 기반으로 한 LLM 평가 지표입니다. 16개의 단어를 4가지 숨겨진 카테고리로 분류해야 하며, 이 과정에서 단순한 패턴 매칭을 넘어 개념적 추론, 다의어 이해, 문화적 지식 등 복잡한 언어 이해 능력이 필요합니다. 표준 LLM 벤치마크와 달리 단순 암기나 통계적 패턴으로 해결하기 어렵다는 특징이 있습니다.

중국 오픈소스 AI의 성장

Zhipu AI는 중국의 주요 AI 연구 기관인 칭화대학교와 긴밀히 연계된 스타트업으로, GLM(General Language Model) 시리즈를 꾸준히 발전시켜왔습니다. GLM-5의 이번 성과는 중국 오픈 소스 AI 생태계의 빠른 성장을 보여주는 사례입니다. Kimi K2.5 Thinking과의 경쟁에서 앞선 것은 특히 의미 있는데, 두 모델 모두 중국 AI 스타트업의 산물이기 때문입니다.

오픈 가중치 모델의 경쟁 심화

이번 결과는 오픈 가중치 LLM 공간에서 중국 모델들이 서방 오픈 소스 모델(Llama, Mistral 등)과 경쟁 관계를 형성하고 있음을 보여줍니다. GLM-5의 점수인 81.8점은 상당수의 독점 모델과도 비견될 만한 수준입니다. 상세 벤치마크 결과는 https://github.com/lechmazur/nyt-connections/ 에서 확인할 수 있습니다.

Share:

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.