#evals

Google DeepMindは、AGIの進捗を評価するためのcognitive taxonomyを公開し、それを実際のbenchmarkに落とし込むKaggle hackathonも開始した。単一のheadline scoreではなく、10のcognitive abilityごとにAIをhuman baselineと比較する考え方が中心だ。

#deepmind #agi #benchmarks

LLM Hacker News Mar 23, 2026 1 min read

DSPyの採用は遅いのに、なぜ同じLLMパターンを作り直すのか

Hacker Newsで話題になったSkylar Payneの投稿は、AIシステムが成熟すると多くのチームがDSPyのパターンを再発明すると論じる。一方でHNでは、Python中心の実装、prompt optimizationの位置づけ、evals設計の重さが採用の壁として議論された。

#dspy #llm-engineering #hacker-news

LLM Hacker News Mar 12, 2026 1 min read

Hacker Newsが見たSWE-bench合格とmergeable codeの距離

METRのMarch 10, 2026 noteは、最近のagentが書いたSWE-bench Verified PRのうちtestを通っても半分ほどはmaintainer reviewを通過しないと示した。HNはこれを、benchmark scoreがまだscope controlやcode qualityやrepo fitを代替できないという警告として受け取った。

#swe-bench #coding-agents #evals

#evals

Papers with Code、「codeなし」のevalも扱う時代へ

FrontierCode、AIコード評価を「mergeできるPRか」へ寄せる新ベンチマーク

$1,500のLLMハッキング実験、性能表よりguardrailとharnessの差が前面に

SWE-bench Verified失速、HNが見た本質は順位より汚染

LamBenchにHN注目 すぐ始まった「一発採点で十分か」論争

Claude Code postmortemでHNが見たもの、モデル崩壊ではなくプロダクト層

AI bug huntingはtokensを増やせば勝ちなのか、HNが噛みついた

Google DeepMind、9件の多国間研究を踏まえ harmful manipulation eval toolkit を公開

Google DeepMind、AGI進捗を測るcognitive frameworkを公開

DSPyの採用は遅いのに、なぜ同じLLMパターンを作り直すのか

Hacker Newsが見たSWE-bench合格とmergeable codeの距離

LamBenchにHN注目　すぐ始まった「一発採点で十分か」論争