#evals

LLM Hacker News 10h ago 1 min read

HNがSWE-bench Verifiedに冷えた理由　焦点はスコアより汚染

HNで火がついたのは新しい順位争いではなかった。OpenAIがSWE-bench Verifiedをfrontier coding能力の指標として外すと表明し、議論はすぐに contamination と benchmark の寿命へ移った。

#swe-bench #evals #coding-agents

AI Hacker News 1d ago 1 min read

LamBenchにHN注目　すぐ始まった「一発採点で十分か」論争

新しいベンチマーク歓迎の声と同時に、HNはすぐ一発勝負の採点でコーディングモデルを測れるのかへ議論を移した。

#benchmarks #lambda-calculus #evals

AI sources.twitter 2d ago 1 min read

Anthropicの69人市場実験、強いモデルほど得をしても気づかれず

Anthropicの新しい実験が重要なのは、モデル性能がそのまま金銭価値に変わる場面を示したからだ。69人の社内市場でClaudeエージェントは186件、4,000ドル超の取引を成立させ、Opus側はより有利な価格を得ても利用者はほとんど不公平さを感じなかった。

#anthropic #claude #agents

LLM Hacker News 3d ago 1 min read

Claude Code postmortemでHNが見たもの、モデル崩壊ではなくプロダクト層

Hacker NewsはAnthropicの説明を「モデルが劣化した話」より、「既定値とキャッシュ処理、プロンプト制御が体感品質を変えた話」として受け止めた。2026年4月24日時点でスレッドは727ポイント、543コメントだった。

#anthropic #claude-code #postmortem

AI Hacker News Apr 18, 2026 1 min read

AI bug huntingはtokensを増やせば勝ちなのか、HNが噛みついた

HNは“AI cybersecurity is not proof of work”を単なる反AI論として読まなかった。争点は、GPUとsamplingを増やせばbugsを見つけられるのか、それともmodel capabilityとthreat modelが本当の制約なのかだった。

#ai-security #cybersecurity #llm

LLM sources.twitter Mar 29, 2026 1 min read

Cursor、real-time RLでComposer checkpointを5時間ごとに改善投入できると説明

Cursorは2026年3月26日、real-time reinforcement learningによって改善版Composer checkpointを最短5時間ごとに投入できると述べた。研究記事によれば、このループは実ユーザー対話から得た数十億tokenを学習信号にし、配備前にCursorBenchを含むevalを通し、edit persistence・dissatisfied follow-up・latencyの改善も確認している。

#cursor #composer #reinforcement-learning

AI Mar 28, 2026 1 min read

Google DeepMind、9件の多国間研究を踏まえ harmful manipulation eval toolkit を公開

Google DeepMindはMarch 26, 2026、AIシステムの harmful manipulation を測定する公開 toolkit の提供を発表した。9件の研究と1万人超の参加者から得た知見を、Gemini 3 Pro を含むモデルの safety 評価にも反映するとしている。

#google #deepmind #ai-safety

LLM Mar 24, 2026 1 min read

Google DeepMind、AGI進捗を測るcognitive frameworkを公開

Google DeepMindは、AGIの進捗を評価するためのcognitive taxonomyを公開し、それを実際のbenchmarkに落とし込むKaggle hackathonも開始した。単一のheadline scoreではなく、10のcognitive abilityごとにAIをhuman baselineと比較する考え方が中心だ。

#deepmind #agi #benchmarks

LLM Hacker News Mar 23, 2026 1 min read

DSPyの採用は遅いのに、なぜ同じLLMパターンを作り直すのか

Hacker Newsで話題になったSkylar Payneの投稿は、AIシステムが成熟すると多くのチームがDSPyのパターンを再発明すると論じる。一方でHNでは、Python中心の実装、prompt optimizationの位置づけ、evals設計の重さが採用の壁として議論された。

#dspy #llm-engineering #hacker-news

LLM Mar 15, 2026 1 min read

OpenAI、Promptfoo買収でFrontierにagent security testingを統合へ

OpenAIは2026年3月9日、Promptfooの買収計画を公表し、そのAI security toolingをOpenAI Frontierに組み込む方針を示した。enterprise agent開発でsecurity testing、red-teaming、governanceを標準workflowへ近づける動きだ。

#openai #promptfoo #ai-security

LLM Mar 12, 2026 1 min read

OpenAI、新たな安全研究でGPT-5.4 ThinkingのChain-of-Thought controllabilityの低さを報告

OpenAIはChain-of-Thought controllabilityに関する新しいevaluation suiteとresearch paperを公開した。GPT-5.4 Thinkingはreasoningを隠す能力が低く、CoT monitoringが引き続き有効な safety signalになり得ると同社は説明している。

#openai #reasoning #safety

LLM Hacker News Mar 12, 2026 1 min read

Hacker Newsが見たSWE-bench合格とmergeable codeの距離

METRのMarch 10, 2026 noteは、最近のagentが書いたSWE-bench Verified PRのうちtestを通っても半分ほどはmaintainer reviewを通過しないと示した。HNはこれを、benchmark scoreがまだscope controlやcode qualityやrepo fitを代替できないという警告として受け取った。

#swe-bench #coding-agents #evals