#hle

LLM Reddit Feb 23, 2026 1 min read

Qwen研究チームが発表した論文により、GPQAとHLE(Humanity's Last Exam)ベンチマークデータセットに深刻な品質問題が存在することが公式に確認されました。OCRエラー、誤った正解ラベル、検証不可能な問題が含まれており、現在のAIモデル評価の信頼性に疑問が呈されています。

© 2026 Insights. All rights reserved.