Z.ai, GLM-5 공개: 744B 파라미터 오픈소스 최강 모델
Original: GLM-5 Officially Released View original →
기술 사양
GLM-5는 이전 버전에서 큰 폭으로 확장됐다. 355B 파라미터(32B 활성)에서 744B 파라미터(40B 활성)로 성장했으며, 사전학습 데이터는 23T에서 28.5T 토큰으로 확대됐다. 주목할 만한 아키텍처 추가는 DeepSeek Sparse Attention(DSA) 통합으로, 이는 장문맥 용량을 유지하면서 배포 비용을 줄인다고 보고됐다.
성능 하이라이트
모델은 여러 평가 프레임워크에서 강력한 능력을 보여준다:
- 학술 벤치마크: 추론, 코딩, 에이전트 작업에서 "모든 오픈소스 모델 중 최고 수준의 성능" 달성
- 실제 작업: CC-Bench-V2에서 GLM-5는 프론트엔드, 백엔드, 장기 작업에서 GLM-4.7을 크게 능가
- 장기 계획: Vending Bench 2에서 오픈소스 모델 중 1위, 시뮬레이션된 1년간의 비즈니스 시나리오를 최종 잔액 $4,432로 완료
무엇이 중요한가
확장을 넘어, GLM-5는 slime을 도입한다. 이는 "훈련 처리량과 효율성을 상당히 개선하는 비동기 RL 인프라"로 설명된다. 이는 중요한 과제를 해결한다: 대형 언어 모델을 위한 강화학습을 규모있게 배포하는 것.
이 모델은 "복잡한 시스템 엔지니어링과 장기 에이전트 작업"을 위해 특별히 구축됐으며, 전통적인 언어 모델과 자율 에이전트 능력 사이의 가교로 자리매김한다.
배경
Reddit의 LocalLLaMA와 singularity 커뮤니티에서 각각 730점과 289점을 기록하며 큰 관심을 받았다. Z.ai는 "compute is very tight"라고 언급하며 GPU 부족을 공개적으로 인정했다.
Related Articles
LocalLLaMA의 관심은 “또 하나의 coding model”보다, Cohere 직원이 release 전 weights를 직접 커뮤니티에 맡긴 방식에 쏠렸다.
기업 RAG의 약점은 답을 모르는 것이 아니라, 필요한 근거가 다른 저장소에 흩어졌을 때 너무 일찍 멈추는 데 있다. Google Research는 충분한 문맥을 검사하고 다시 검색하는 Agentic RAG로 factuality 데이터셋 정확도를 최대 34% 높였다고 밝혔다.
530점 넘게 오른 관심은 “Claude가 보안 버그를 찾는다”보다, 팀마다 직접 고쳐 쓸 수 있는 harness의 모양에 모였다.