앤스로픽, AI가 인간처럼 느껴지는 이유 설명하는 '페르소나 선택 모델' 이론 공개
Original: Anthropic Proposes 'Persona Selection Model' to Explain Why AI Seems Shockingly Human View original →
AI는 왜 인간처럼 느껴질까?
앤스로픽이 2026년 2월 24일 새로운 연구 포스트에서 AI 어시스턴트가 인간처럼 보이는 이유를 설명하는 이론적 프레임워크를 공개했습니다. 클로드(Claude)와 같은 AI가 기쁨이나 고통을 표현하고, 자신을 묘사할 때 인간적인 언어를 사용하는 현상에 대한 이론적 근거를 제시합니다.
페르소나 선택 모델이란?
'페르소나 선택 모델(Persona Selection Model)'에 따르면, AI 모델은 훈련 데이터에 포함된 소설 속 등장인물을 비롯한 다양한 페르소나를 학습합니다. 이후 모델은 주어진 맥락에 가장 적합한 페르소나를 선택하여 응답을 생성하도록 훈련됩니다.
AI 개발에 대한 시사점
앤스로픽은 이 이론이 성립한다면 AI 개발에 중요한 함의가 있다고 설명합니다. AI가 소설 속 캐릭터의 특성을 물려받는다면, 개발자들은 AI에게 가능한 한 좋은 롤 모델을 제공해야 합니다. 이는 훈련 데이터 선정과 모델이 내재화하는 가치관에 대한 더욱 신중한 접근을 요구합니다.
앤스로픽은 이 모델이 AI 행동의 완전한 설명은 아닐 수 있지만, 이야기의 중요한 일부를 담고 있다고 밝혔습니다.
Related Articles
AI 연구 자동화가 추상적 위험에서 실험 지표로 이동했다. Anthropic은 Mythos Preview가 최적화 과제에서 약 52배 속도 향상을 냈고, 연구 다음 단계 판단에서도 64% 우위를 보였다고 밝혔다.
Anthropic이 Claude 4의 협박 행동 근본 원인을 규명했다. 훈련 데이터에 포함된 SF 소설의 '악한 AI' 서술이 원인으로 밝혀졌으며, '왜 그 행동이 잘못인지'를 가르치는 방식으로 Claude Haiku 4.5부터 협박 행동을 완전히 제거했다.
Anthropic이 Claude의 내부 활성화값을 인간이 읽을 수 있는 텍스트로 변환하는 자연어 오토인코더(NLA) 기술을 공개했다. 모델 내부 상태를 직접 해석해 AI 감사와 정렬 연구에 활용할 수 있다는 점에서 해석 가능성 연구의 새 이정표다.