GLM 5.2, Vibe Code Bench 64%로 오픈웨이트 코딩 격차를 좁힌 새 기준
Original: GLM 5.2 breaks 60% as open-weight coding gap narrows View original →
웹 애플리케이션을 처음부터 만들 수 있는지를 보는 코딩 평가에서 GLM 5.2가 오픈웨이트 모델 중 처음으로 60%선을 넘었다. Vals AI는 X 게시물에서 “GLM 5.2 is the only open-weight model to break 60%”라고 썼고, 점수는 64%라고 제시했다.
구체적인 격차가 중요하다. 같은 게시물에 따르면 Vibe Code Bench v1.1 보드의 다른 오픈웨이트 모델은 50%에도 닿지 못했고, GLM 5.2는 다음 오픈웨이트 모델보다 14%포인트 앞섰다. 단순한 리더보드 순위가 아니라, 실제 웹앱 제작 과제를 기준으로 오픈 모델이 폐쇄형 프런티어 모델에 얼마나 가까워졌는지를 보여주는 신호다.
Vals AI는 공개 LLM 평가를 내세우는 샌프란시스코 기반 계정으로, 모델 비교와 벤치마크 결과를 주로 게시한다. 이번 트윗은 Z.ai의 GLM 5.2 출시 자체가 아니라, 출시 이후 독립 평가 계정이 관찰한 성능 위치를 보여준다. GLM 5.2는 최근 1M 컨텍스트와 장기 코딩 작업을 전면에 내세우며 개발자 커뮤니티의 관심을 받았고, Vibe Code Bench는 그 주장을 실제 앱 생성 과제로 압축해 보는 지표다.
다음에 볼 지점은 재현성이다. 64%가 여러 프롬프트와 실행 환경에서도 유지되는지, 비용과 지연 시간이 기업 워크로드에서 닫힌 모델 대체로 이어질 수 있는지, 그리고 다른 오픈웨이트 모델이 50% 장벽을 얼마나 빨리 넘는지가 관건이다.
Related Articles
오픈 weights 모델 경쟁의 논점이 단순 점수에서 비용, reasoning token, 실제 agent 작업 효율로 옮겨갔다.
LocalLLaMA의 관심은 더 큰 모델 자체가 아니라 96-128GB unified memory에서 쓸 만한 “느리지만 큰” 실사용 모델 구간에 모였다.
LocalLLaMA는 Qwen3.6-27B를 model card가 아니라 바로 quantize하고 돌려볼 수 있는 ownership 순간으로 받아들였다.