#llm-agents

LLM Mar 14, 2026 1 min read

Ares論文、動的reasoning選択でLLM agentのtoken消費を最大52.7%削減

2026年3月9日にarXivへ投稿されたAres論文は、multi-step LLM agentの各ステップでreasoning effortを動的に選ぶ手法を提案した。著者らはfixed high-effort設定に比べ、reasoning token使用量を最大52.7%削減しつつ成功率低下を小さく抑えたと報告している。

#llm-agents #reasoning #efficiency

LLM Hacker News Mar 9, 2026 1 min read

Agent Safehouse、ローカルcoding agent向けにdeny-firstなmacOS sandboxingを提供

Hacker Newsで注目を集めたAgent Safehouseは、Claude CodeやCodexなどのagentをmacOSの<code>sandbox-exec</code>ベースのdeny-first sandbox内で動かすtoolだ。project単位の権限を既定にし、敏感なpathはkernel層で遮断しつつ、単一のBash scriptとApache 2.0 licenseで配布される。

#llm-agents #macos #sandboxing

LLM Reddit Feb 28, 2026 1 min read

Redditで議論: 見えないUnicode指示がAIエージェントを誘導する「Reverse CAPTCHA」評価

r/artificialで共有されたセキュリティ研究は、zero-width文字とUnicode Tagsによる不可視指示がツール利用型LLMエージェントへ与える影響を検証した。公開概要は5モデル・8,308出力の評価を示している。

#ai-security #prompt-injection #unicode

LLM Hacker News Feb 22, 2026 1 min read

Karpathy：「Claws」はLLMエージェントの上の新しいレイヤー

Andrej KarpathyがOpenClaw的なAIエージェントシステムの新カテゴリ「Claws」を命名。LLMエージェントがLLMの新レイヤーだったように、ClawsはLLMエージェントの上でオーケストレーション・スケジューリング・永続的コンテキスト管理を担う新レイヤーです。

#llm-agents #karpathy #openclaw

LLM Hacker News Feb 17, 2026 1 min read

SkillsBench: self-generated Agent Skillは平均的に効果なしという結果

Hacker Newsで注目されたSkillsBenchは、86タスク・11ドメインでAgent Skillの有効性を比較した。curated skillは平均通過率を押し上げた一方、モデルが自動生成したskillは平均的な改善を示さなかった。

#llm-agents #benchmark #evaluation