BayerのPRINCE事例、agentic RAGを本番運用に載せる条件
Original: Building reliable agentic AI systems View original →
Martin Fowlerサイトに掲載されたBayerとThoughtworksのPRINCE事例は、agentic AIを本番環境へ入れる時の現実を具体的に示している。PRINCEは、製薬研究者が数十年分のpreclinical safety study reportを検索し、質問し、規制文書のドラフトを作るためのcloud-hosted platformだ。Agentic RAGとText-to-SQLを組み合わせている。
記事が面白いのは、agentの数や図の複雑さではない。context engineeringとharness engineeringを分けている点だ。前者は、どの情報をどのagentへどの形で渡すかを設計する仕事。後者は、orchestration、recovery、monitoring、guardrailをモデルの外側で作る仕事だ。
PRINCEには、意図確認、計画、researcher agent、reflection agent、writer agentといった段階がある。Reflection agentは、検索された根拠が十分か、回答生成前に足りない点がないかを確認する。さらにtransparency、explainability、human-in-the-loop、monitoringを重視している。製薬領域では、こうした仕組みが機能説明と同じくらい重要になる。
HNの議論も実装寄りだった。あるコメントは、agent tuningよりも、agentが見られるdatabaseとそのデータのきれいさが大半を決めると指摘した。別のコメントは、loopを含むdynamic workflowが透明性要件とどう両立するのかを問うた。ここから見えるのは、production agentic AIの主戦場がpromptではなく、データ、評価、復旧経路、観測性にあるということだ。
Related Articles
HNでの関心は、モデル名そのものより、同価格での改善、安くなったfast mode、Claude Codeのdynamic workflowsが実作業で効くかに集まった。
ServiceNowのMosaicLeaksは、deep researchエージェントが外部検索の途中で内部情報を漏らすリスクを測る。性能だけを上げる訓練では漏えい率が34.0%から51.7%に悪化し、PA-DRでは9.9%まで下がった。
スコアだけでなく、長いreasoning tokenと待ち時間まで含めて評価する段階に入ったことが、今回の議論の焦点だ。