GLM 5.2, Semgrep 보안 benchmark에서 Claude 추월

Semgrep이 공개한 IDOR 탐지 benchmark에서 Zhipu AI의 GLM 5.2가 Claude Code를 앞섰다. 같은 데이터셋과 같은 prompt만 준 조건에서 GLM 5.2는 F1 39%를 기록했고, Semgrep이 비교 대상으로 둔 Claude Code는 32%였다. 비용도 눈에 띈다. Semgrep은 GLM 5.2가 취약점 하나를 찾는 데 약 $0.17 수준이었다고 설명한다.

다만 이 결과를 “오픈 모델이 보안 분석을 끝냈다”로 읽으면 과하다. Semgrep의 자체 multimodal pipeline은 53-61% F1로 더 높았다. 차이는 모델 자체보다 harness와 분석 절차에 있다. 단순 prompt만 받은 LLM보다 정적 분석, rule 기반 신호, triage 흐름을 묶은 시스템이 여전히 더 강하다는 뜻이다.

흥미로운 지점은 격차의 위치다. 지금까지 보안 취약점 탐지는 긴 context와 코드 구조 이해가 필요한 영역이라 frontier model의 방어선처럼 여겨졌다. GLM 5.2가 그 벽을 일부 밀어낸 결과라면, 기업 내부에서 비용과 데이터 통제를 이유로 오픈 weight 모델을 검토할 근거가 생긴다.

HN 댓글의 논점도 성능표 자체보다 실사용 비용과 하드웨어로 옮겨갔다. 일부 사용자는 GLM 5.2를 일상 coding 작업의 “workhorse”로 평가했고, 다른 쪽은 753B급 모델을 실제로 어디서 돌릴 수 있느냐고 물었다. 결론은 단순하다. GLM 5.2는 Claude를 모든 면에서 대체한 것이 아니라, 특정 보안 benchmark에서 오픈 모델의 상한을 다시 계산하게 만든 사례다.

GLM 5.2, Semgrep 보안 benchmark에서 Claude 추월

Related Articles

Snyk 300회 반복 테스트, LLM 보안 리뷰의 흔들리는 재현성

FrontierCode, “테스트 통과”보다 “merge할 코드인가”를 묻는 평가

2,000명이 AI assistant를 공격한 실험, 더 중요한 질문은 응답 설계

Related Articles

Snyk 300회 반복 테스트, LLM 보안 리뷰의 흔들리는 재현성

FrontierCode, “테스트 통과”보다 “merge할 코드인가”를 묻는 평가
LLM Hacker News Jun 10, 2026 1 min read

2,000명이 AI assistant를 공격한 실험, 더 중요한 질문은 응답 설계