LLM Mar 14, 2026 1 min read
2026年3月9日にarXivへ投稿されたAres論文は、multi-step LLM agentの各ステップでreasoning effortを動的に選ぶ手法を提案した。著者らはfixed high-effort設定に比べ、reasoning token使用量を最大52.7%削減しつつ成功率低下を小さく抑えたと報告している。
2026年3月9日にarXivへ投稿されたAres論文は、multi-step LLM agentの各ステップでreasoning effortを動的に選ぶ手法を提案した。著者らはfixed high-effort設定に比べ、reasoning token使用量を最大52.7%削減しつつ成功率低下を小さく抑えたと報告している。
Hacker Newsで注目を集めたAgent Safehouseは、Claude CodeやCodexなどのagentをmacOSの<code>sandbox-exec</code>ベースのdeny-first sandbox内で動かすtoolだ。project単位の権限を既定にし、敏感なpathはkernel層で遮断しつつ、単一のBash scriptとApache 2.0 licenseで配布される。
r/artificialで共有されたセキュリティ研究は、zero-width文字とUnicode Tagsによる不可視指示がツール利用型LLMエージェントへ与える影響を検証した。公開概要は5モデル・8,308出力の評価を示している。
Andrej KarpathyがOpenClaw的なAIエージェントシステムの新カテゴリ「Claws」を命名。LLMエージェントがLLMの新レイヤーだったように、ClawsはLLMエージェントの上でオーケストレーション・スケジューリング・永続的コンテキスト管理を担う新レイヤーです。
Hacker Newsで注目されたSkillsBenchは、86タスク・11ドメインでAgent Skillの有効性を比較した。curated skillは平均通過率を押し上げた一方、モデルが自動生成したskillは平均的な改善を示さなかった。