앤트로픽, AI 정렬 평가 도구 Petri를 오픈소스 기관에 기증
Original: Anthropic Donates Petri Open-Source AI Alignment Testing Tool to Meridian Labs View original →
Petri란 무엇인가
Petri는 앤트로픽(Anthropic)이 개발한 오픈소스 AI 정렬 평가 프레임워크다. 별도의 감사자(auditor) 모델과 판정자(judge) 모델을 사용해 AI 시스템이 기만, 아첨, 유해 요청 협조 등 문제적 행동을 보이는지 평가한다.
Petri 3.0의 개선점
이번 기증과 함께 공개된 Petri 3.0은 세 가지 핵심 개선 사항을 담고 있다. 첫째, 구성 요소를 분리해 다양한 평가 목적에 맞게 커스터마이징할 수 있는 적응성이 향상됐다. 둘째, 실제 시스템 프롬프트와 배포 스캐폴딩을 활용한 Dish 애드온으로 AI 모델이 평가 중임을 인식하지 못하게 하는 현실성이 강화됐다. 셋째, Bloom과의 통합으로 더 심층적인 행동 평가가 가능한 깊이가 추가됐다.
Meridian Labs에 기증하는 이유
앤트로픽은 Petri를 독립 비영리 기관인 Meridian Labs에 이전했다. Model Context Protocol(MCP)을 Linux Foundation에 기증한 것과 같은 맥락이다. 도구가 특정 회사의 이해관계에서 독립적으로 운영될 때 업계 전반의 신뢰와 중립성이 보장된다는 판단에서다.
AI 정렬 생태계의 강화
Petri는 이제 연구소, 독립 연구자, 정부 기관 등 누구나 활용할 수 있는 중립적 평가 도구로 자리잡게 된다. AI 모델의 행동 평가가 책임 있는 개발의 핵심 과제로 부상한 시점에서, 공신력 있는 오픈소스 평가 인프라의 확대는 업계 전반에 의미 있는 진전이다.
Related Articles
앤스로픽이 클로드 같은 AI가 기쁨이나 고통을 표현하고 인간적 언어를 사용하는 이유를 설명하는 새로운 이론 '페르소나 선택 모델'을 발표했습니다. AI 개발 방향에 중요한 시사점을 제시합니다.
Anthropic의 Model Context Protocol이 OpenAI·Microsoft에 채택되며 Linux Foundation의 Agentic AI Foundation에 기부. AI Agent 생태계의 USB-C로 떠오름.
크게 퍼진 r/singularity 게시물은 Claude Sonnet 4.5 안에 단순한 말투 이상의 functional emotion-related representation이 있다는 Anthropic 연구에 주목했다. Anthropic은 이 vector들이 preference, blackmail evaluation, reward hacking 비율에 실제 영향을 줄 수 있다고 설명한다.