HNで火がついたのは新しい順位争いではなかった。OpenAIがSWE-bench Verifiedをfrontier coding能力の指標として外すと表明し、議論はすぐに contamination と benchmark の寿命へ移った。
#evals
RSS Feed新しいベンチマーク歓迎の声と同時に、HNはすぐ一発勝負の採点でコーディングモデルを測れるのかへ議論を移した。
Anthropicの新しい実験が重要なのは、モデル性能がそのまま金銭価値に変わる場面を示したからだ。69人の社内市場でClaudeエージェントは186件、4,000ドル超の取引を成立させ、Opus側はより有利な価格を得ても利用者はほとんど不公平さを感じなかった。
Hacker NewsはAnthropicの説明を「モデルが劣化した話」より、「既定値とキャッシュ処理、プロンプト制御が体感品質を変えた話」として受け止めた。2026年4月24日時点でスレッドは727ポイント、543コメントだった。
HNは“AI cybersecurity is not proof of work”を単なる反AI論として読まなかった。争点は、GPUとsamplingを増やせばbugsを見つけられるのか、それともmodel capabilityとthreat modelが本当の制約なのかだった。
Cursorは2026年3月26日、real-time reinforcement learningによって改善版Composer checkpointを最短5時間ごとに投入できると述べた。研究記事によれば、このループは実ユーザー対話から得た数十億tokenを学習信号にし、配備前にCursorBenchを含むevalを通し、edit persistence・dissatisfied follow-up・latencyの改善も確認している。
Google DeepMindはMarch 26, 2026、AIシステムの harmful manipulation を測定する公開 toolkit の提供を発表した。9件の研究と1万人超の参加者から得た知見を、Gemini 3 Pro を含むモデルの safety 評価にも反映するとしている。
Google DeepMindは、AGIの進捗を評価するためのcognitive taxonomyを公開し、それを実際のbenchmarkに落とし込むKaggle hackathonも開始した。単一のheadline scoreではなく、10のcognitive abilityごとにAIをhuman baselineと比較する考え方が中心だ。
Hacker Newsで話題になったSkylar Payneの投稿は、AIシステムが成熟すると多くのチームがDSPyのパターンを再発明すると論じる。一方でHNでは、Python中心の実装、prompt optimizationの位置づけ、evals設計の重さが採用の壁として議論された。
OpenAIは2026年3月9日、Promptfooの買収計画を公表し、そのAI security toolingをOpenAI Frontierに組み込む方針を示した。enterprise agent開発でsecurity testing、red-teaming、governanceを標準workflowへ近づける動きだ。
OpenAIはChain-of-Thought controllabilityに関する新しいevaluation suiteとresearch paperを公開した。GPT-5.4 Thinkingはreasoningを隠す能力が低く、CoT monitoringが引き続き有効な safety signalになり得ると同社は説明している。
METRのMarch 10, 2026 noteは、最近のagentが書いたSWE-bench Verified PRのうちtestを通っても半分ほどはmaintainer reviewを通過しないと示した。HNはこれを、benchmark scoreがまだscope controlやcode qualityやrepo fitを代替できないという警告として受け取った。