AIエージェントに必要なのはプロンプト追加ではなくコントロールフロー

プロンプトの限界

AIエージェントのプロンプトにMANDATORYやDO NOT SKIPと書いたことがある開発者なら、すでにプロンプトベースのアプローチの限界に達しているサインだ。開発者Bryan SuhによるこのHN投稿は552ポイントを獲得し、信頼性の高いAIエージェントには精巧なプロンプトではなく決定論的な制御フローが必要だと主張している。

プロンプトチェーンの問題点

SuhはLLMをステートメントが提案でありハルシネーションしながらSuccessを返す関数を持つプログラミング言語に例える。このような環境では予測可能な動作とローカルな推論はほぼ不可能になる。プロンプトチェーンは非決定論的で仕様が曖昧で検証が難しい。

伝統的なソフトウェアはライブラリ、モジュール、関数の再帰的な組み合わせによってスケールする。プロンプトチェーンにはこの特性が欠けている。

解決策：決定論的スキャフォールド

LLMをシステム全体として扱うのではなく、明示的な状態遷移と検証チェックポイントを持つ決定論的スキャフォールド内のコンポーネントとして配置すべきだ。ロジックは散文からランタイムへ移行しなければならない。

エラー検出の重要性

決定論的なオーケストレーションだけでは不十分だ。積極的なエラー検出がなければエージェントは誤った結論に速く到達する手段になってしまう。常時の人間による監視、事後の徹底検証、検証なしの出力受け入れ——いずれもスケールしない。

まとめ

複雑なエージェントシステムの信頼性はプロンプトの精緻化ではなくソフトウェアアーキテクチャの厳密さから生まれる。552ポイントという高評価がこの主張への共感を示している。

AI X/Twitter 2d ago 1 min read

Claude、金融サービス向け10種のエージェントテンプレートを発表——Vals AIベンチマーク首位

Anthropicが金融サービス向けに10種の即戦力Claudeエージェントテンプレートをリリース。ピッチブック作成からKYCスクリーニング、月次決算まで対応し、Claude Opus 4.7はVals AI金融エージェントベンチマークで64.37%を達成し業界トップに立った。

#anthropic #claude #ai-agents

AI Hacker News 6d ago 1 min read

LLMが生成した履歴書、同一LLMの選考で67〜82%の自己優遇バイアスが判明

大規模な統制実験により、LLMが自分自身で生成した履歴書を人間の書いた履歴書や他のモデルが生成した履歴書より一貫して優遇することが判明した。自己優遇バイアスは67〜82%の範囲で、評価LLMと同じLLMを使って履歴書を作成した応募者は、人間が書いた履歴書を提出した同等の応募者より23〜60%も最終候補に残りやすい。

#llm #hiring #bias

AI Hacker News 2d ago 1 min read

AIエージェントがCloudflareアカウント作成からデプロイまで自律実行

CloudflareとStripeが共同設計した新プロトコルにより、AIエージェントがクラウドアカウント作成・ドメイン登録・課金・デプロイを人手なしで処理できるようになった。

#cloudflare #ai-agents #stripe