r/artificial が整理した agent-native stack、email から wallet まで API primitive 化が進む
Original: You can now give an AI agent its own email, phone number, wallet, computer, and voice. This is what the stack looks like View original →
r/artificialのある投稿は、現在のagent市場をかなり実務的な形で切り取っている。人間のworkerが当たり前に持っている能力が、一つずつAI agent向けのAPI primitiveとして再実装されている、という見方だ。この投稿はmodel性能の比較というより、agentが実際に仕事をするためのoperational building blockを棚卸ししたinventoryに近い。
列挙されているlayerも具体的だ。communicationではAgentMail、AgentPhone、Kapso。実行環境ではDaytonaとE2Bがagentのcomputerとして挙げられる。browserとweb accessではBrowserbase、Browser Use、Hyperbrowser、Firecrawl、Exa。さらにmemoryはMem0、paymentsはKiteとSponge、SaaS accessはComposio、API mediationはOrthogonal、voiceはElevenLabsとVapi、people and company searchはSixtyfourという具合に、役割ごとにstackが並べられている。
このスレッドが単なるtool roundup以上なのは、そのframingにある。投稿者は、これがもはやバラバラのAI utility群には見えず、identity、memory、communication、browsing、spendingを組み合わせられる初期のagent-native infrastructure stackに見えると述べている。つまり競争軸が「どのmodelが一番賢いか」だけではなく、「agentが外界と接続するinterfaceを誰が標準化し、組み合わせ可能にするか」へ移りつつあるという観察だ。
コメント欄は重要な補足も加えている。capabilityそのものより、testing、rollback、idempotency、irreversible actionの制御のほうが難しいengineering problemかもしれない、という指摘だ。agentにphone numberやwalletを与えることは比較的容易でも、深夜3時に誤って重要なclientへ電話しないことや、取り消せないpaymentを防ぐことのほうがはるかに難しい。
この緊張感こそが、この投稿を記録する価値にしている。正式な標準でも完全なtaxonomyでもないが、実務家たちが現在のagent ecosystemをどう見ているかを非常にコンパクトに映しているからだ。巨大model競争の延長ではなく、software actorがcommunicateし、searchし、rememberし、browseし、payするためのAPI stackが形を取り始めているという視点である。agent productを作るteamにとっては、かなりoperationalな見取り図として読める。
Related Articles
Axeは、agent softwareは巨大なchatbot runtimeではなく、TOML、pipes、短命なcommand実行に近いべきだと主張し、automation志向のHacker News読者の関心を集めた。
同一の管理画面タスクをビジョンエージェントとAPIエージェントで比較したところ、ビジョン方式は約45倍高コストで、詳細なウォークスルーなしにはタスク完了も不可能だった。
元Twitter CEOのParag Agrawalが創業したParallel Web Systemsが4月29日、Sequoia主導の1億ドルシリーズBを完了した。評価額は20億ドルで、5ヶ月前のシリーズAから3倍増。AIエージェント向け検索APIに特化したインフラを提供する。