AnthropicがAI整合性評価ツール「Petri」をMeridian Labsに寄贈
Original: Anthropic Donates Petri Open-Source AI Alignment Testing Tool to Meridian Labs View original →
Petriとは
PetriはAnthropicが開発したオープンソースのAI整合性評価フレームワークだ。個別の監査者(auditor)モデルと判定者(judge)モデルを使用して、AIシステムが欺瞞、過剰な同調、有害なリクエストへの協力などの問題行動を示すかどうかを評価する。
Petri 3.0の改善点
今回の寄贈と同時に公開されたPetri 3.0には3つの主要な改善が施されている。まず、コンポーネントの分離による適応性の向上でさまざまな評価目的に合わせたカスタマイズが可能になった。次に、実際のシステムプロンプトと展開スキャフォールドを使用したDishアドオンにより、AIモデルが評価中であることを検知できないようにする現実性が強化された。最後に、Bloomとの統合による評価の深度が向上した。
Meridian Labsへの寄贈理由
AnthropicはMCPをLinux Foundationに寄贈したのと同じ理由で、Petriを独立した非営利機関Meridian Labsに移管した。中立性の確保が目的だ。単一の商業企業が所有するツールは偏りの懸念が生じる。独立したガバナンスのもとでPetriは、研究機関、独立研究者、政府機関などに対して信頼できる第三者リソースとして機能できる。
整合性エコシステムの強化
AIシステムの能力が高まる中、誤った整合性行動を信頼性高くテストできる能力は不可欠だ。Petriをオープンソース化し、中立的なガバナンスのもとに置くことで、Anthropicは業界全体で責任ある方法でモデルを評価するために必要な共有インフラに投資している。
Related Articles
Anthropicの新しい整合性研究により、AIモデルに整合された行動の原則を理解させることが、行動デモンストレーションの学習より大幅に効果的であることが示された。倫理対話データセットだけでエージェントの誤整合率をゼロに低下させることができた。
Anthropicは2026年4月7日、Claude Mythos Previewを使ってcritical softwareを防御するProject Glasswingを発表した。Amazon Web Services、Apple、Microsoft、NVIDIAなどが参加し、最大1億ドルのusage creditsと400万ドルのopen-source security寄付も含まれる。
Anthropicが金融サービス向けに10種の即戦力Claudeエージェントテンプレートをリリース。ピッチブック作成からKYCスクリーニング、月次決算まで対応し、Claude Opus 4.7はVals AI金融エージェントベンチマークで64.37%を達成し業界トップに立った。
Comments (0)
No comments yet. Be the first to comment!