GLM-5, NYT Connections 벤치마크에서 오픈 가중치 모델 1위 달성

GLM-5의 새로운 기록

Zhipu AI의 GLM-5가 Extended NYT Connections 벤치마크에서 81.8점을 기록하며 오픈 가중치(open-weights) 모델 중 최고 성능을 달성했습니다. 이전 1위였던 Kimi K2.5 Thinking(78.3)을 3.5점 차이로 제쳤습니다.

NYT Connections 벤치마크란

Extended NYT Connections 벤치마크는 뉴욕 타임스의 단어 연상 퍼즐 게임을 기반으로 한 LLM 평가 지표입니다. 16개의 단어를 4가지 숨겨진 카테고리로 분류해야 하며, 이 과정에서 단순한 패턴 매칭을 넘어 개념적 추론, 다의어 이해, 문화적 지식 등 복잡한 언어 이해 능력이 필요합니다. 표준 LLM 벤치마크와 달리 단순 암기나 통계적 패턴으로 해결하기 어렵다는 특징이 있습니다.

중국 오픈소스 AI의 성장

Zhipu AI는 중국의 주요 AI 연구 기관인 칭화대학교와 긴밀히 연계된 스타트업으로, GLM(General Language Model) 시리즈를 꾸준히 발전시켜왔습니다. GLM-5의 이번 성과는 중국 오픈 소스 AI 생태계의 빠른 성장을 보여주는 사례입니다. Kimi K2.5 Thinking과의 경쟁에서 앞선 것은 특히 의미 있는데, 두 모델 모두 중국 AI 스타트업의 산물이기 때문입니다.

오픈 가중치 모델의 경쟁 심화

이번 결과는 오픈 가중치 LLM 공간에서 중국 모델들이 서방 오픈 소스 모델(Llama, Mistral 등)과 경쟁 관계를 형성하고 있음을 보여줍니다. GLM-5의 점수인 81.8점은 상당수의 독점 모델과도 비견될 만한 수준입니다. 상세 벤치마크 결과는 https://github.com/lechmazur/nyt-connections/ 에서 확인할 수 있습니다.

LLM Hacker News 2d ago 1 min read

DeepSeek V4에 HN 폭주, 문서 링크보다 더 크게 번진 건 곧바로 뜬 가중치

HN은 이번 스레드를 단순한 모델 공개로 보지 않았다. API 문서보다 먼저 Hugging Face 가중치와 base 모델이 모습을 드러내자, 커뮤니티의 관심은 홍보보다 실물 검증으로 곧장 옮겨갔다.

#deepseek #llm #moe

LLM Hacker News 5d ago 1 min read

Kimi K2.6, HN이 본 핵심은 open weights coding agent의 지속력

HN은 Kimi K2.6을 benchmark 표 하나보다 “open weights coding agent가 긴 작업을 버티는가”라는 질문으로 읽었다. 12시간, 13시간짜리 coding 사례와 agent swarm 주장이 관심을 끌었고, 동시에 실제 속도와 benchmark 과장 가능성도 바로 검증대에 올랐다.

#kimi #coding-agents #open-weights

LLM Hacker News 3d ago 1 min read