Qwen 팀, GPQA·HLE 벤치마크 데이터 품질에 심각한 문제 있음을 공식 확인

발견의 배경

이 문제는 약 한 달 전 한 연구자가 DeepSeek 모델을 극한까지 최적화하는 실험 "DeepSeek-Overclock"을 진행하던 중 처음 발견됐습니다. 최적화된 모델이 계속 실패하는 이유를 로그에서 추적한 결과, 모델이 환각(hallucination)을 일으키는 것이 아니라 주어진 "정답" 레이블과 일치하지 않는 기술적으로 정확한 답을 도출하고 있었습니다.

연구자가 Python 스크립트를 작성해 수학적으로 검증한 결과, 데이터셋 자체의 정답 레이블이 틀린 경우가 다수 발견됐습니다. 이후 Qwen 팀이 arXiv에 발표한 논문(2602.13964v2)이 이를 공식적으로 확인했습니다.

구체적인 문제들

논문에 따르면 HLE 데이터셋의 문제는 여러 층위에 걸쳐 있습니다. OCR(광학문자인식)으로 문항을 생성하는 과정에서 오류가 발생했고, 일부 "표준 정답"이 실제로는 틀린 경우도 있으며, 연구로 검증이 가능한 문항은 전체의 51.3%에 불과하다는 분석도 있습니다. 일부 문항은 근본적으로 오류가 있거나 검증 자체가 불가능한 구조로 설계됐습니다.

AI 평가 신뢰성에 미치는 영향

이 발견은 현재 AI 모델 성능 비교에 사용되는 벤치마크들의 신뢰성 전반에 의문을 제기합니다. 모델들이 실제로 문제를 더 잘 풀게 된 것인지, 아니면 단순히 잘못된 데이터셋의 오류를 잘 외운 것인지 구분하기 어려워지기 때문입니다. AI 커뮤니티에서는 더 엄격한 벤치마크 데이터 검증 프로세스가 필요하다는 목소리가 높아지고 있습니다.

Qwen 팀, GPQA·HLE 벤치마크 데이터 품질에 심각한 문제 있음을 공식 확인

인기 벤치마크의 데이터 품질 문제

발견의 배경

구체적인 문제들

AI 평가 신뢰성에 미치는 영향

Related Articles

MacBook Air M5에서 local coding LLM 21개 비교, LocalLLaMA가 원한 건 vibe 아닌 숫자

27B dense로 여기까지, Qwen3.6에 HN이 꽂힌 이유

Qwen3.6에 LocalLLaMA가 들뜬 이유: benchmark보다 agent가 고치는 모습이었다

Comments (0)

Leave a Comment

Related Articles

MacBook Air M5에서 local coding LLM 21개 비교, LocalLLaMA가 원한 건 vibe 아닌 숫자
r/LocalLLaMA의 MacBook Air M5 benchmark 글은 Qwen 3.6 35B-A3B의 89.6% HumanEval+ 결과뿐 아니라, RAM과 tok/s를 함께 본 실사용 관점을 제공했다.

27B dense로 여기까지, Qwen3.6에 HN이 꽂힌 이유
HN은 Qwen3.6-27B를 벤치마크 승리보다 현실적으로 돌릴 수 있는 오픈 코딩 모델로 읽었다. 댓글도 점수표보다 메모리 요구량, self-hosting 가능성, dense 구조의 운영 단순성에 몰렸다.

Qwen3.6에 LocalLLaMA가 들뜬 이유: benchmark보다 agent가 고치는 모습이었다
LLM Reddit Apr 20, 2026 1 min read