앤트로픽, AI 정렬 평가 도구 Petri를 오픈소스 기관에 기증
Original: Anthropic Donates Petri Open-Source AI Alignment Testing Tool to Meridian Labs View original →
Petri란 무엇인가
Petri는 앤트로픽(Anthropic)이 개발한 오픈소스 AI 정렬 평가 프레임워크다. 별도의 감사자(auditor) 모델과 판정자(judge) 모델을 사용해 AI 시스템이 기만, 아첨, 유해 요청 협조 등 문제적 행동을 보이는지 평가한다.
Petri 3.0의 개선점
이번 기증과 함께 공개된 Petri 3.0은 세 가지 핵심 개선 사항을 담고 있다. 첫째, 구성 요소를 분리해 다양한 평가 목적에 맞게 커스터마이징할 수 있는 적응성이 향상됐다. 둘째, 실제 시스템 프롬프트와 배포 스캐폴딩을 활용한 Dish 애드온으로 AI 모델이 평가 중임을 인식하지 못하게 하는 현실성이 강화됐다. 셋째, Bloom과의 통합으로 더 심층적인 행동 평가가 가능한 깊이가 추가됐다.
Meridian Labs에 기증하는 이유
앤트로픽은 Petri를 독립 비영리 기관인 Meridian Labs에 이전했다. Model Context Protocol(MCP)을 Linux Foundation에 기증한 것과 같은 맥락이다. 도구가 특정 회사의 이해관계에서 독립적으로 운영될 때 업계 전반의 신뢰와 중립성이 보장된다는 판단에서다.
AI 정렬 생태계의 강화
Petri는 이제 연구소, 독립 연구자, 정부 기관 등 누구나 활용할 수 있는 중립적 평가 도구로 자리잡게 된다. AI 모델의 행동 평가가 책임 있는 개발의 핵심 과제로 부상한 시점에서, 공신력 있는 오픈소스 평가 인프라의 확대는 업계 전반에 의미 있는 진전이다.
Related Articles
앤트로픽 연구팀이 AI 정렬에서 무엇을 해야 하는지보다 왜 그렇게 해야 하는지를 가르치는 방식이 훨씬 효과적임을 입증했다. 윤리 대화 데이터셋만으로도 에이전트 오정렬률을 0으로 낮출 수 있었다.
Anthropic이 금융 서비스를 위한 10가지 Claude 에이전트 템플릿을 출시했다. 투자 피치 제작부터 월말 결산까지 전문 금융 업무를 자동화하며, Claude Opus 4.7은 Vals AI 금융 에이전트 벤치마크에서 64.37%로 업계 1위를 기록했다.
Anthropic 공동창업자 잭 클락이 2027년 말까지 AI 연구가 자동화될 확률을 약 30%, 2028년 말까지는 60% 이상으로 전망했다. 천재적 창의성 없이도 AI 자기 개선이 시작될 수 있다는 분석이다.
Comments (0)
No comments yet. Be the first to comment!