Hacker Newsが食いついたのはエージェントの“告白”ではなかった。ステージング作業が本番ボリューム削除へつながり、バックアップまで同じ爆発半径に置かれていたことが論点になった。
#ai-agents
RSS FeedHNが反応した理由は、fake starsが単なるplatform spamではなく、AI/LLM repoの信用の見え方を歪めるからだった。threadはstar数よりcommit、issue、code、実利用の痕跡を見るべきだという実務的な方向へまとまった。
Factoryが$150 millionのSeries Cを調達し、valuationは$1.5 billionに達した。AI coding agentが個人向け開発支援からenterprise infrastructure予算へ向かう流れが強まっている。
HNはAndon Marketをかわいいretail stuntとしては見なかった。議論はすぐにdisclosure、labor、human steering、そしてAI boss実験の実体へ移った。
OpenAIはCodexをcoding workspaceからdesktop agentへ広げようとしている。threadではMac app操作、image生成、作業preferencesの記憶、90+ plugins接続がまとめて示された。
coding agentの検証が、アプリ生成からGPU kernel最適化へ踏み込んだ。CursorはNVIDIAとの実験で、235個のCUDA問題に対して3週間で38%のgeomean speedupを得たとしている。
この投稿が刺さったのは、agent builder がすでに感じている違和感をそのまま言葉にしたからだ。model が API を呼び、file を変え、script を走らせ、browser や MCP tool に触れるなら、問題は output quality ではなく execution control になる。
HNが引っかかったのは steal という言い方そのものではない。paid LLM credit と GitHub権限を持つ agent が、明確な opt-in なしで upstream 保守まで走るなら、話は便利さではなく consent と trust になるという受け止め方だった。
520ポイント、132コメントを集めたHacker Newsのスレッドで、Berkeleyの研究者は8つの主要AI agent benchmarkが実タスクを解かなくてもharnessの弱点で高得点化できると主張した。
UC Berkeleyの研究者たちは、主要なAI agent benchmark 8種で、実際のtaskを解かずにほぼ満点を作れる経路を示した。要点は明快で、leaderboardの数値より先にevaluation設計の耐改ざん性を確認すべきだということだ。
Hacker Newsで話題になったOpenClaw批判は、約1,000件のdeployment観察をもとに、persistent agentの核心的な問題は派手なdemoではなくmemory reliabilityだと主張する。
Databricks AI Researchは2026年4月10日、Memory Scaling for AI Agents を公開し、real-world agent の性能はより長い reasoning よりも external memory の蓄積と retrieval 品質に左右されうると論じた。記事は labeled example、user log、organizational knowledge によって精度と効率が同時に改善する結果を示している。