QwenチームがGPQA・HLEベンチマークのデータ品質に深刻な問題があることを公式確認
Original: The Qwen team verified that there are serious problems with the data quality of the GPQA and HLE test sets. View original →
広く使用されるAIベンチマークの問題
AIモデルの性能評価に広く使用されるGPQAとHLE(Humanity's Last Exam)ベンチマークデータセットに深刻な品質問題があることが、Qwen研究チームの論文(arXiv: 2602.13964v2)によって公式に確認されました。
発見の経緯
この問題は約1ヶ月前、研究者がDeepSeekの推論能力を極限まで引き出す実験「DeepSeek-Overclock」を行っていた際に最初に発見されました。最適化されたモデルが継続的に失敗していましたが、ログを調べると、モデルがハルシネーションを起こしているのではなく、提供された「正解」ラベルと矛盾する技術的に正確な答えを導き出していることがわかりました。
研究者がPythonスクリプトを書いてファーストプリンシパルから数学を検証したところ、データセットの正解ラベル自体が多くの場合間違っていることが判明しました。Qwenチームの論文がこれを正式に確認しました。
データの問題点
問題は複数の層にわたります。問題作成時にOCRエラーが導入され、一部の「標準的な正解」は率直に言って間違っています。FutureHouseの分析では、HLEの質問のうち研究で裏付けられているのはわずか51.3%でした。一部の質問は根本的に欠陥があり、検証自体が不可能な構造になっています。
AIモデル評価への影響
この発見は、現在のAIモデルベンチマークの信頼性に根本的な疑問を提起します。ベンチマークの問題に誤った答えや検証不可能な項目が含まれていると、本当の能力向上と、欠陥のあるデータセットの特異性を単に記憶しているだけのモデルを区別することができなくなります。AIコミュニティでは、ベンチマークデータをグラウンドトゥルースとして受け入れる前に、より厳格な検証プロセスが必要だという声が高まっています。
Related Articles
Claude Fable 5がGDPval-AAで1932点を記録し、エージェント型の実業務ベンチマークで首位に立った。Anthropic系モデルが上位4枠のうち3枠を占め、長時間タスクの評価軸がさらに重要になっている。
HNで話題になったのは、コーディング評価が正答率からレビュー品質へ移り始めている点だ。FrontierCodeは、人間のmaintainerが受け入れるかを測ろうとする。
2026年3月12日のLocalLLaMA投稿は、4x RTX PRO 6000 BlackwellでのQwen3.5-397B NVFP4持続decode最良値はMarlinで50.5 tok/sだと報告した。理由はSM120でCUTLASS grouped GEMMのネイティブ経路が崩れているため、という主張だ。