QwenチームがGPQA・HLEベンチマークのデータ品質に深刻な問題があることを公式確認

広く使用されるAIベンチマークの問題

AIモデルの性能評価に広く使用されるGPQAとHLE（Humanity's Last Exam）ベンチマークデータセットに深刻な品質問題があることが、Qwen研究チームの論文（arXiv: 2602.13964v2）によって公式に確認されました。

発見の経緯

この問題は約1ヶ月前、研究者がDeepSeekの推論能力を極限まで引き出す実験「DeepSeek-Overclock」を行っていた際に最初に発見されました。最適化されたモデルが継続的に失敗していましたが、ログを調べると、モデルがハルシネーションを起こしているのではなく、提供された「正解」ラベルと矛盾する技術的に正確な答えを導き出していることがわかりました。

研究者がPythonスクリプトを書いてファーストプリンシパルから数学を検証したところ、データセットの正解ラベル自体が多くの場合間違っていることが判明しました。Qwenチームの論文がこれを正式に確認しました。

データの問題点

問題は複数の層にわたります。問題作成時にOCRエラーが導入され、一部の「標準的な正解」は率直に言って間違っています。FutureHouseの分析では、HLEの質問のうち研究で裏付けられているのはわずか51.3%でした。一部の質問は根本的に欠陥があり、検証自体が不可能な構造になっています。

AIモデル評価への影響

この発見は、現在のAIモデルベンチマークの信頼性に根本的な疑問を提起します。ベンチマークの問題に誤った答えや検証不可能な項目が含まれていると、本当の能力向上と、欠陥のあるデータセットの特異性を単に記憶しているだけのモデルを区別することができなくなります。AIコミュニティでは、ベンチマークデータをグラウンドトゥルースとして受け入れる前に、より厳格な検証プロセスが必要だという声が高まっています。

QwenチームがGPQA・HLEベンチマークのデータ品質に深刻な問題があることを公式確認

広く使用されるAIベンチマークの問題

発見の経緯

データの問題点

AIモデル評価への影響

Related Articles

Claude Fable 5、GDPval-AA 1932点でエージェント業務評価の首位へ

FrontierCode、AIコード評価を「mergeできるPRか」へ寄せる新ベンチマーク

LocalLLaMA検証、RTX PRO 6000のSM120ではCUTLASS NVFP4 MoEカーネル不具合が律速要因