QwenチームがGPQA・HLEベンチマークのデータ品質に深刻な問題があることを公式確認
Original: The Qwen team verified that there are serious problems with the data quality of the GPQA and HLE test sets. View original →
広く使用されるAIベンチマークの問題
AIモデルの性能評価に広く使用されるGPQAとHLE(Humanity's Last Exam)ベンチマークデータセットに深刻な品質問題があることが、Qwen研究チームの論文(arXiv: 2602.13964v2)によって公式に確認されました。
発見の経緯
この問題は約1ヶ月前、研究者がDeepSeekの推論能力を極限まで引き出す実験「DeepSeek-Overclock」を行っていた際に最初に発見されました。最適化されたモデルが継続的に失敗していましたが、ログを調べると、モデルがハルシネーションを起こしているのではなく、提供された「正解」ラベルと矛盾する技術的に正確な答えを導き出していることがわかりました。
研究者がPythonスクリプトを書いてファーストプリンシパルから数学を検証したところ、データセットの正解ラベル自体が多くの場合間違っていることが判明しました。Qwenチームの論文がこれを正式に確認しました。
データの問題点
問題は複数の層にわたります。問題作成時にOCRエラーが導入され、一部の「標準的な正解」は率直に言って間違っています。FutureHouseの分析では、HLEの質問のうち研究で裏付けられているのはわずか51.3%でした。一部の質問は根本的に欠陥があり、検証自体が不可能な構造になっています。
AIモデル評価への影響
この発見は、現在のAIモデルベンチマークの信頼性に根本的な疑問を提起します。ベンチマークの問題に誤った答えや検証不可能な項目が含まれていると、本当の能力向上と、欠陥のあるデータセットの特異性を単に記憶しているだけのモデルを区別することができなくなります。AIコミュニティでは、ベンチマークデータをグラウンドトゥルースとして受け入れる前に、より厳格な検証プロセスが必要だという声が高まっています。
Related Articles
Microsoft Researchは2026年2月26日にCORPGENを発表した。実際のオフィス業務を模した高負荷マルチタスク条件で、ベースライン比最大3.5倍の完了率を報告している。
高評価のr/MachineLearning投稿はDavid Noel Ngの長いblog記事を再浮上させ、Qwen2-72Bの中間7-layer blockをweight変更なしで複製するだけでopen leaderboard上位に届いたという主張を改めて注目させた。
高スコアのLocalLLaMA投稿では、16GBのM1 Pro上でQwen 3.5 9Bがmemory recallと基本的なtool callingを実運用向けにこなしつつ、creative reasoningでは依然としてfrontier modelに及ばなかったと報告された。
Comments (0)
No comments yet. Be the first to comment!