HNで話題になったのは、コーディング評価が正答率からレビュー品質へ移り始めている点だ。FrontierCodeは、人間のmaintainerが受け入れるかを測ろうとする。
#evals
RSS FeedHNの関心はsolve rateだけでなく、拒否ポリシー、tool loop、アカウント権限が結果をどう変えたかに向かった。
HNは今回のOpenAI記事を、ベンチマークの整理ではなく有名リーダーボードの事実上の終了宣言として読んだ。誰が何点を取ったかより、壊れたテストと汚染が評価をどこまで空洞化したかに関心が集まった。
新しいベンチマーク歓迎の声と同時に、HNはすぐ一発勝負の採点でコーディングモデルを測れるのかへ議論を移した。
Hacker NewsはAnthropicの説明を「モデルが劣化した話」より、「既定値とキャッシュ処理、プロンプト制御が体感品質を変えた話」として受け止めた。2026年4月24日時点でスレッドは727ポイント、543コメントだった。
HNは“AI cybersecurity is not proof of work”を単なる反AI論として読まなかった。争点は、GPUとsamplingを増やせばbugsを見つけられるのか、それともmodel capabilityとthreat modelが本当の制約なのかだった。
Google DeepMindはMarch 26, 2026、AIシステムの harmful manipulation を測定する公開 toolkit の提供を発表した。9件の研究と1万人超の参加者から得た知見を、Gemini 3 Pro を含むモデルの safety 評価にも反映するとしている。
Google DeepMindは、AGIの進捗を評価するためのcognitive taxonomyを公開し、それを実際のbenchmarkに落とし込むKaggle hackathonも開始した。単一のheadline scoreではなく、10のcognitive abilityごとにAIをhuman baselineと比較する考え方が中心だ。
Hacker Newsで話題になったSkylar Payneの投稿は、AIシステムが成熟すると多くのチームがDSPyのパターンを再発明すると論じる。一方でHNでは、Python中心の実装、prompt optimizationの位置づけ、evals設計の重さが採用の壁として議論された。
METRのMarch 10, 2026 noteは、最近のagentが書いたSWE-bench Verified PRのうちtestを通っても半分ほどはmaintainer reviewを通過しないと示した。HNはこれを、benchmark scoreがまだscope controlやcode qualityやrepo fitを代替できないという警告として受け取った。