QwenチームがGPQA・HLEベンチマークのデータ品質に深刻な問題があることを公式確認
Original: The Qwen team verified that there are serious problems with the data quality of the GPQA and HLE test sets. View original →
広く使用されるAIベンチマークの問題
AIモデルの性能評価に広く使用されるGPQAとHLE(Humanity's Last Exam)ベンチマークデータセットに深刻な品質問題があることが、Qwen研究チームの論文(arXiv: 2602.13964v2)によって公式に確認されました。
発見の経緯
この問題は約1ヶ月前、研究者がDeepSeekの推論能力を極限まで引き出す実験「DeepSeek-Overclock」を行っていた際に最初に発見されました。最適化されたモデルが継続的に失敗していましたが、ログを調べると、モデルがハルシネーションを起こしているのではなく、提供された「正解」ラベルと矛盾する技術的に正確な答えを導き出していることがわかりました。
研究者がPythonスクリプトを書いてファーストプリンシパルから数学を検証したところ、データセットの正解ラベル自体が多くの場合間違っていることが判明しました。Qwenチームの論文がこれを正式に確認しました。
データの問題点
問題は複数の層にわたります。問題作成時にOCRエラーが導入され、一部の「標準的な正解」は率直に言って間違っています。FutureHouseの分析では、HLEの質問のうち研究で裏付けられているのはわずか51.3%でした。一部の質問は根本的に欠陥があり、検証自体が不可能な構造になっています。
AIモデル評価への影響
この発見は、現在のAIモデルベンチマークの信頼性に根本的な疑問を提起します。ベンチマークの問題に誤った答えや検証不可能な項目が含まれていると、本当の能力向上と、欠陥のあるデータセットの特異性を単に記憶しているだけのモデルを区別することができなくなります。AIコミュニティでは、ベンチマークデータをグラウンドトゥルースとして受け入れる前に、より厳格な検証プロセスが必要だという声が高まっています。
Related Articles
r/LocalLLaMAのMacBook Air M5 benchmarkは、Qwen 3.6 35B-A3Bの89.6% HumanEval+だけでなく、RAMとtok/sを一緒に見る実用的な視点を出した。
r/LocalLLaMAが900 points超まで反応した理由はscore表ではない。local coding agentがcanvas bugとwave completion issueを見つけて直したという使用感だった。
r/LocalLLaMAがこの投稿を押し上げたのは、“trust me bro”な体験談の中に8-bit、64k context、OpenCode、Android debuggingという実使用条件が入っていたからだ。
Comments (0)
No comments yet. Be the first to comment!