なぜ重要か: 長時間動くagentには、全メッセージを再投入せずに状態を保持する仕組みが必要になる。Cloudflareはprivate betaのAgent Memoryで、context windowを埋めずに必要な情報を再利用できると説明した。
#agents
RSS FeedHNが見ていたのは「CloudflareがAIをやる」という話ではなく、14以上のproviderを束ねるinference layerがagent appの運用を本当に楽にするかだった。CloudflareはAI Gateway、Workers AI bindings、multimodal catalogを一つのplatformとして描き、コメント欄はOpenRouterとの差、pricingの正確さ、catalogの重なりを詰めた。
HWE-BenchはLLM agent評価を小さなHDL taskからrepository-scaleのhardware repairへ移した。最高agentは全体で70.7%を解いたが、複雑なSoC-level projectでは65%未満に落ちた。
AIBuildAIはMLE-Benchで63.1%のmedal rateを報告し、AI model開発agentの評価軸を広げた。重要なのは、AutoMLの一部最適化ではなく設計、coding、debugging、training、tuningを一つのworkflowとして扱う点だ。
HNが反応したのは3X speedupの見出しよりplumbingだった。AndroidはClaude Code、Codex、Gemini CLIなどのagentに、IDEの推測ではなくきれいなterminal surfaceを渡せるのか。
IBM ResearchのVAKRAはagent評価をstatic Q&Aからexecutable tool environmentへ移した。62 domains、8,000+ locally hosted APIs、3-7 step reasoning chainsを含み、surface-level tool useとenterprise agent reliabilityの差を示している。
CloudflareはAutoRAGをAI Searchへ再構成し、agentがWorkersから作成・検索できるretrieval primitiveにした。Open betaではBM25とvectorのhybrid search、built-in storage、metadata boosting、cross-instance searchを具体的な無料枠で試せる。
HNはCloudflare Email Serviceをagent向けfeatureというより、新しいemail senderとして読んだ。Workers連携、SES代替、spam、MTA-STS、sending limitという古くて重い問題に議論が集まった。
HNはCodexをfeature一覧ではなくpermission問題として読んだ。desktop agent、non-developer workflow、sensitive file、そしてAIにcomputer操作をどこまで任せるのかが議論の中心だった。
CloudflareはAI Gatewayをagent向けの統合inference layerへ寄せ、Workers AIから70+ models、12+ providersを同じAPIで呼べるようにした。重要なのはcatalogだけではなく、10回前後のinferenceをつなぐagent workflowでcost、retry、failoverを一箇所に寄せる点だ。
Vercelはappsとagents向けにdurable executionをfirst-party primitiveにしようとしている。Workflowsは1,500+ customersで100M+ beta runsを経てGAとなり、queuesやworkers、retry infrastructureを減らす。
GoogleはGemini in ChromeにSkillsを入れ、promptを保存して現在のpageや選択したtabsで再実行できるようにした。Mac、Windows、ChromeOSのEnglish-US desktopユーザーからrolling outされ、calendar追加やemail送信には確認が入る。