AnthropicがAI整合性評価ツール「Petri」をMeridian Labsに寄贈

Petriとは

PetriはAnthropicが開発したオープンソースのAI整合性評価フレームワークだ。個別の監査者（auditor）モデルと判定者（judge）モデルを使用して、AIシステムが欺瞞、過剰な同調、有害なリクエストへの協力などの問題行動を示すかどうかを評価する。

Petri 3.0の改善点

今回の寄贈と同時に公開されたPetri 3.0には3つの主要な改善が施されている。まず、コンポーネントの分離による適応性の向上でさまざまな評価目的に合わせたカスタマイズが可能になった。次に、実際のシステムプロンプトと展開スキャフォールドを使用したDishアドオンにより、AIモデルが評価中であることを検知できないようにする現実性が強化された。最後に、Bloomとの統合による評価の深度が向上した。

Meridian Labsへの寄贈理由

AnthropicはMCPをLinux Foundationに寄贈したのと同じ理由で、Petriを独立した非営利機関Meridian Labsに移管した。中立性の確保が目的だ。単一の商業企業が所有するツールは偏りの懸念が生じる。独立したガバナンスのもとでPetriは、研究機関、独立研究者、政府機関などに対して信頼できる第三者リソースとして機能できる。

整合性エコシステムの強化

AIシステムの能力が高まる中、誤った整合性行動を信頼性高くテストできる能力は不可欠だ。Petriをオープンソース化し、中立的なガバナンスのもとに置くことで、Anthropicは業界全体で責任ある方法でモデルを評価するために必要な共有インフラに投資している。

AI X/Twitter 1h ago 1 min read

「なぜ」を教えるAnthropicの整合性研究：原則学習が行動デモを上回る

Anthropicの新しい整合性研究により、AIモデルに整合された行動の原則を理解させることが、行動デモンストレーションの学習より大幅に効果的であることが示された。倫理対話データセットだけでエージェントの誤整合率をゼロに低下させることができた。

#anthropic #alignment #safety

AI Apr 12, 2026 1 min read

Anthropic、critical software 防御に向け Project Glasswing を公開

Anthropicは2026年4月7日、Claude Mythos Previewを使ってcritical softwareを防御するProject Glasswingを発表した。Amazon Web Services、Apple、Microsoft、NVIDIAなどが参加し、最大1億ドルのusage creditsと400万ドルのopen-source security寄付も含まれる。

#anthropic #cybersecurity #claude