GLM 5.2, Vibe Code Bench 64%로 오픈웨이트 코딩 격차를 좁힌 새 기준

웹 애플리케이션을 처음부터 만들 수 있는지를 보는 코딩 평가에서 GLM 5.2가 오픈웨이트 모델 중 처음으로 60%선을 넘었다. Vals AI는 X 게시물에서 “GLM 5.2 is the only open-weight model to break 60%”라고 썼고, 점수는 64%라고 제시했다.

구체적인 격차가 중요하다. 같은 게시물에 따르면 Vibe Code Bench v1.1 보드의 다른 오픈웨이트 모델은 50%에도 닿지 못했고, GLM 5.2는 다음 오픈웨이트 모델보다 14%포인트 앞섰다. 단순한 리더보드 순위가 아니라, 실제 웹앱 제작 과제를 기준으로 오픈 모델이 폐쇄형 프런티어 모델에 얼마나 가까워졌는지를 보여주는 신호다.

Vals AI는 공개 LLM 평가를 내세우는 샌프란시스코 기반 계정으로, 모델 비교와 벤치마크 결과를 주로 게시한다. 이번 트윗은 Z.ai의 GLM 5.2 출시 자체가 아니라, 출시 이후 독립 평가 계정이 관찰한 성능 위치를 보여준다. GLM 5.2는 최근 1M 컨텍스트와 장기 코딩 작업을 전면에 내세우며 개발자 커뮤니티의 관심을 받았고, Vibe Code Bench는 그 주장을 실제 앱 생성 과제로 압축해 보는 지표다.

다음에 볼 지점은 재현성이다. 64%가 여러 프롬프트와 실행 환경에서도 유지되는지, 비용과 지연 시간이 기업 워크로드에서 닫힌 모델 대체로 이어질 수 있는지, 그리고 다른 오픈웨이트 모델이 50% 장벽을 얼마나 빨리 넘는지가 관건이다.

GLM 5.2, Vibe Code Bench 64%로 오픈웨이트 코딩 격차를 좁힌 새 기준

Related Articles

GLM-5.2, open weights leaderboard의 새 기준선인가

80-160B 로컬 모델 공백, unified memory 사용자가 원하는 중간지대

Qwen3.6-27B에 LocalLLaMA 들썩… 27B dense와 262K context

Related Articles

GLM-5.2, open weights leaderboard의 새 기준선인가

80-160B 로컬 모델 공백, unified memory 사용자가 원하는 중간지대
LocalLLaMA의 관심은 더 큰 모델 자체가 아니라 96-128GB unified memory에서 쓸 만한 “느리지만 큰” 실사용 모델 구간에 모였다.

Qwen3.6-27B에 LocalLLaMA 들썩… 27B dense와 262K context
LLM Reddit Apr 23, 2026 1 min read