モデル順位表の弱点は、モデルではなく問題側にあるかもしれない。新しいarXiv論文は、評価タスクの25.7%以上に重大な問題を見つけ、欠陥タスクを除くとSWE-bench Verifiedの平均性能が9.9%動くと報告した。
#evaluation
RSS Feedr/singularityはこの発想にすぐ飛びついた。1930年以前のテキストだけで学習した13B modelという奇妙さだけではない。Talkieが、現代web汚染なしにモデルが何を学ぶのかを見る実験室として読めたからだ。
LocalLLaMAの反応は驚きよりも納得に近かった。公開benchmarkは結局こうなる、という空気だ。今回はcontaminationとflawed testが数字で並び、従来の自慢材料がもう安定して見えなくなった。
新しいarXiv論文は、低い平均違反率の裏でLLM judgeの入力別不安定性が見えにくくなる問題を示した。SummEvalでは文書の33-67%に少なくとも1つのdirected 3-cycleがあり、prediction set widthはabsolute errorと強く結びついた。
HNがこの冗談めいたテストに食いついたのは、鮮やかなSVG一枚が小型local modelをflagship modelより良く見せる時、それが何を意味するのか誰も簡単に決められないからだ。
1247ポイント、328コメントのHacker Newsスレッドで、AISLEはscoped contextがあれば小さなopen-weight modelでもMythos級のexploit analysisの一部を再現できると主張し、コメント欄はmethodologyを巡って大きく割れた。
520ポイント、132コメントを集めたHacker Newsのスレッドで、Berkeleyの研究者は8つの主要AI agent benchmarkが実タスクを解かなくてもharnessの弱点で高得点化できると主張した。
UC Berkeleyの研究者たちは、主要なAI agent benchmark 8種で、実際のtaskを解かずにほぼ満点を作れる経路を示した。要点は明快で、leaderboardの数値より先にevaluation設計の耐改ざん性を確認すべきだということだ。
Google DeepMindが、1万人超の参加者を対象にした9件の研究をもとに AI の harmful manipulation を測る評価ツールキットを公開した。金融と健康ではリスクの出方が異なり、評価は domain-specific に設計すべきだと示している。
Penfield LabsはLoCoMoの1,540問中99問にscoreを歪める誤りがあると主張し、gpt-4o-mini judgeが意図的に誤った回答の62.81%を通したと報告してbenchmarkの信頼性問題を浮かび上がらせた。
Google DeepMindは2026年3月26日、会話型AIが感情を悪用したり、人を有害な選択へ誘導したりする可能性を扱う新研究を公開した。英国・米国・インドの1万人超が参加した9件の研究をもとに、harmful AI manipulationを測定する初のempirically validated toolkitを構築したという。
ARC PrizeはARC-AGI-3を、static puzzleの正答率ではなく、新しい環境の中でのplanning、memory compression、belief updatingを測るinteractive reasoning benchmarkとして位置づけている。Hacker Newsでは、その点が実際のagent behaviorをよりよく映すとして強い関心を集めた。