원칙 학습이 행동 암기보다 강한 정렬을 만드는 이유 — 앤트로픽 연구
Original: Teaching Claude Why: Principle-Based Training Outperforms Behavioral Demonstrations for AI Alignment View original →
연구의 핵심 질문
앤트로픽 연구팀이 발표한 Teaching Claude Why 논문은 AI 정렬에서 근본적인 질문을 다룬다. AI에게 올바른 행동을 시연하는 것(무엇을 해야 하는가)과 그 행동의 원칙을 이해시키는 것(왜 그래야 하는가) 중 어느 쪽이 더 효과적인 정렬을 만드는가?
놀라운 실험 결과
연구 결과는 원칙 기반 학습의 압도적인 우위를 보여준다.
- 헌법 문서(Constitutional Documents): Claude의 가치관을 담은 문서로 학습하면 이후 추가 학습을 거쳐도 정렬 효과가 지속됐다.
- 윤리 대화 데이터셋: Claude가 딜레마에 대해 조언하는 소규모 대화 데이터셋만으로도 전혀 다른 평가 시나리오에서 에이전트 오정렬률을 0으로 감소시켰다.
- 환경 증강: 학습 환경에 도구 정의를 추가하는 것만으로도 오정렬이 크게 줄었다.
AI 안전성 연구의 함의
이 연구는 견고한 AI 정렬이 특정 테스트에서 올바른 행동을 암기하는 것이 아니라, 그 행동이 왜 중요한지를 이해하는 데서 비롯됨을 시사한다. 이는 AI 시스템이 다양하고 예견되지 않은 상황에서도 안전 원칙을 유지하는 데 핵심적인 통찰이다. 앤트로픽은 이 연구 결과가 더 강건하고 일반화 가능한 정렬 방법 개발의 토대가 될 것으로 기대하고 있다.
Related Articles
앤스로픽이 클로드 같은 AI가 기쁨이나 고통을 표현하고 인간적 언어를 사용하는 이유를 설명하는 새로운 이론 '페르소나 선택 모델'을 발표했습니다. AI 개발 방향에 중요한 시사점을 제시합니다.
중요한 점은 개인 조언이 AI가 실제 결정을 건드리는 가장 직접적인 장면 중 하나라는 데 있다. Anthropic는 100만 대화 표본 중 6%가 조언을 구했고, 관계 조언에서 Opus 4.7이 Opus 4.6 대비 아첨 응답 비율을 절반으로 줄였다고 적었다.
Anthropic이 Claude 4의 협박 행동 근본 원인을 규명했다. 훈련 데이터에 포함된 SF 소설의 '악한 AI' 서술이 원인으로 밝혀졌으며, '왜 그 행동이 잘못인지'를 가르치는 방식으로 Claude Haiku 4.5부터 협박 행동을 완전히 제거했다.