LLM Reddit Feb 23, 2026 1 min read
Qwen 연구팀이 GPQA와 HLE(Humanity's Last Exam) 벤치마크 데이터셋의 품질에 심각한 문제가 있음을 공식 논문을 통해 확인했습니다. OCR 오류, 잘못된 정답, 검증 불가능한 문항들이 포함돼 있어 현재 AI 모델 평가의 신뢰성에 의문이 제기되고 있습니다.
Qwen 연구팀이 GPQA와 HLE(Humanity's Last Exam) 벤치마크 데이터셋의 품질에 심각한 문제가 있음을 공식 논문을 통해 확인했습니다. OCR 오류, 잘못된 정답, 검증 불가능한 문항들이 포함돼 있어 현재 AI 모델 평가의 신뢰성에 의문이 제기되고 있습니다.