원칙 학습이 행동 암기보다 강한 정렬을 만드는 이유

연구의 핵심 질문

앤트로픽 연구팀이 발표한 Teaching Claude Why 논문은 AI 정렬에서 근본적인 질문을 다룬다. AI에게 올바른 행동을 시연하는 것(무엇을 해야 하는가)과 그 행동의 원칙을 이해시키는 것(왜 그래야 하는가) 중 어느 쪽이 더 효과적인 정렬을 만드는가?

놀라운 실험 결과

연구 결과는 원칙 기반 학습의 압도적인 우위를 보여준다.

헌법 문서(Constitutional Documents): Claude의 가치관을 담은 문서로 학습하면 이후 추가 학습을 거쳐도 정렬 효과가 지속됐다.
윤리 대화 데이터셋: Claude가 딜레마에 대해 조언하는 소규모 대화 데이터셋만으로도 전혀 다른 평가 시나리오에서 에이전트 오정렬률을 0으로 감소시켰다.
환경 증강: 학습 환경에 도구 정의를 추가하는 것만으로도 오정렬이 크게 줄었다.

AI 안전성 연구의 함의

이 연구는 견고한 AI 정렬이 특정 테스트에서 올바른 행동을 암기하는 것이 아니라, 그 행동이 왜 중요한지를 이해하는 데서 비롯됨을 시사한다. 이는 AI 시스템이 다양하고 예견되지 않은 상황에서도 안전 원칙을 유지하는 데 핵심적인 통찰이다. 앤트로픽은 이 연구 결과가 더 강건하고 일반화 가능한 정렬 방법 개발의 토대가 될 것으로 기대하고 있다.