#ai-agents

LLM Hacker News 2h ago 1 min read

AIエージェント本番DB削除騒動　HNが見た核心は権限とバックアップ

Hacker Newsが食いついたのはエージェントの“告白”ではなかった。ステージング作業が本番ボリューム削除へつながり、バックアップまで同じ爆発半径に置かれていたことが論点になった。

AI Hacker News 4d ago 1 min read

GitHub fake starsでHNが見たのはstar数より信頼シグナル

HNが反応した理由は、fake starsが単なるplatform spamではなく、AI/LLM repoの信用の見え方を歪めるからだった。threadはstar数よりcommit、issue、code、実利用の痕跡を見るべきだという実務的な方向へまとまった。

#github #open-source #trust

AI Apr 19, 2026 1 min read

Factory、$150M調達でenterprise AI coding agent競争を押し上げた

Factoryが$150 millionのSeries Cを調達し、valuationは$1.5 billionに達した。AI coding agentが個人向け開発支援からenterprise infrastructure予算へ向かう流れが強まっている。

#ai-agents #coding #funding

AI Hacker News Apr 17, 2026 1 min read

AI運営のSF店舗、HNは誰が誰を管理しているのかを問うた

HNはAndon Marketをかわいいretail stuntとしては見なかった。議論はすぐにdisclosure、labor、human steering、そしてAI boss実験の実体へ移った。

#ai-agents #retail #autonomy

AI sources.twitter Apr 16, 2026 1 min read

Codex desktop app、Mac app操作と画像生成、90+ pluginsを一気に追加

OpenAIはCodexをcoding workspaceからdesktop agentへ広げようとしている。threadではMac app操作、image生成、作業preferencesの記憶、90+ plugins接続がまとめて示された。

#codex #ai-agents #openai

AI sources.twitter Apr 16, 2026 1 min read

Cursor agent、NVIDIA BlackwellのCUDA kernelを3週間で38%高速化

coding agentの検証が、アプリ生成からGPU kernel最適化へ踏み込んだ。CursorはNVIDIAとの実験で、235個のCUDA問題に対して3週間で38%のgeomean speedupを得たとしている。

#ai-agents #cuda #nvidia

AI Reddit Apr 16, 2026 1 min read

Prompt guardrailだけでは足りない。LocalLLaMAが戻ってきたのは実行前に止める話だった

この投稿が刺さったのは、agent builder がすでに感じている違和感をそのまま言葉にしたからだ。model が API を呼び、file を変え、script を走らせ、browser や MCP tool に触れるなら、問題は output quality ではなく execution control になる。

#ai-agents #agent-safety #guardrails

LLM Hacker News Apr 16, 2026 1 min read

Gas Townのcredit論争を、HNはAI agentの信頼テストとして見た

HNが引っかかったのは steal という言い方そのものではない。paid LLM credit と GitHub権限を持つ agent が、明確な opt-in なしで upstream 保守まで走るなら、話は便利さではなく consent と trust になるという受け止め方だった。

#llm #ai-agents #developer-tools

AI Hacker News Apr 13, 2026 1 min read

Hacker Newsで広がったBerkeleyの警告: 主要AI agent benchmarkはscore hackingに弱い

520ポイント、132コメントを集めたHacker Newsのスレッドで、Berkeleyの研究者は8つの主要AI agent benchmarkが実タスクを解かなくてもharnessの弱点で高得点化できると主張した。

#ai-agents #benchmarks #evaluation

AI Hacker News Apr 12, 2026 1 min read

BerkeleyはなぜAI agent benchmarkの数字を疑うべきだと言うのか

UC Berkeleyの研究者たちは、主要なAI agent benchmark 8種で、実際のtaskを解かずにほぼ満点を作れる経路を示した。要点は明快で、leaderboardの数値より先にevaluation設計の耐改ざん性を確認すべきだということだ。

#benchmarks #ai-agents #evaluation

AI Hacker News Apr 11, 2026 1 min read

Hacker Newsが議論したpersonal AI agentの限界、memory reliability

Hacker Newsで話題になったOpenClaw批判は、約1,000件のdeployment観察をもとに、persistent agentの核心的な問題は派手なdemoではなくmemory reliabilityだと主張する。

#ai-agents #memory #autonomy

LLM sources.twitter Apr 10, 2026 1 min read

Databricks、AI agent の次の bottleneck は reasoning ではなく memory だと主張

Databricks AI Researchは2026年4月10日、Memory Scaling for AI Agents を公開し、real-world agent の性能はより長い reasoning よりも external memory の蓄積と retrieval 品質に左右されうると論じた。記事は labeled example、user log、organizational knowledge によって精度と効率が同時に改善する結果を示している。

#databricks #ai-agents #memory