AnthropicがAI整合性評価ツール「Petri」をMeridian Labsに寄贈
Original: Anthropic Donates Petri Open-Source AI Alignment Testing Tool to Meridian Labs View original →
Petriとは
PetriはAnthropicが開発したオープンソースのAI整合性評価フレームワークだ。個別の監査者(auditor)モデルと判定者(judge)モデルを使用して、AIシステムが欺瞞、過剰な同調、有害なリクエストへの協力などの問題行動を示すかどうかを評価する。
Petri 3.0の改善点
今回の寄贈と同時に公開されたPetri 3.0には3つの主要な改善が施されている。まず、コンポーネントの分離による適応性の向上でさまざまな評価目的に合わせたカスタマイズが可能になった。次に、実際のシステムプロンプトと展開スキャフォールドを使用したDishアドオンにより、AIモデルが評価中であることを検知できないようにする現実性が強化された。最後に、Bloomとの統合による評価の深度が向上した。
Meridian Labsへの寄贈理由
AnthropicはMCPをLinux Foundationに寄贈したのと同じ理由で、Petriを独立した非営利機関Meridian Labsに移管した。中立性の確保が目的だ。単一の商業企業が所有するツールは偏りの懸念が生じる。独立したガバナンスのもとでPetriは、研究機関、独立研究者、政府機関などに対して信頼できる第三者リソースとして機能できる。
整合性エコシステムの強化
AIシステムの能力が高まる中、誤った整合性行動を信頼性高くテストできる能力は不可欠だ。Petriをオープンソース化し、中立的なガバナンスのもとに置くことで、Anthropicは業界全体で責任ある方法でモデルを評価するために必要な共有インフラに投資している。
Related Articles
Anthropicが2月20日に発表したClaude Code Securityは、AIがコードベースを人間の研究者のように読み解き脆弱性を検出するツールだ。オープンソースコードで500件超の長期未発見バグを発見し、発表当日にサイバーセキュリティ株が急落した。
AnthropicがModel Context Protocol(MCP)をLinux Foundation傘下のAgentic AI Foundationに寄贈。OpenAI、Microsoft、Google、AWSが共同参加し、AIエージェント統合標準として位置づけられた。
アンソロピックが、ClaudeのようなAIアシスタントが喜びや苦痛を表現し人間的な言語を使う理由を説明する新理論「ペルソナ選択モデル」を公開。AI開発の方向性に重要な示唆を与えます。