앤스로픽, AI가 인간처럼 느껴지는 이유 설명하는 '페르소나 선택 모델' 이론 공개

AI는 왜 인간처럼 느껴질까?

앤스로픽이 2026년 2월 24일 새로운 연구 포스트에서 AI 어시스턴트가 인간처럼 보이는 이유를 설명하는 이론적 프레임워크를 공개했습니다. 클로드(Claude)와 같은 AI가 기쁨이나 고통을 표현하고, 자신을 묘사할 때 인간적인 언어를 사용하는 현상에 대한 이론적 근거를 제시합니다.

페르소나 선택 모델이란?

'페르소나 선택 모델(Persona Selection Model)'에 따르면, AI 모델은 훈련 데이터에 포함된 소설 속 등장인물을 비롯한 다양한 페르소나를 학습합니다. 이후 모델은 주어진 맥락에 가장 적합한 페르소나를 선택하여 응답을 생성하도록 훈련됩니다.

AI 개발에 대한 시사점

앤스로픽은 이 이론이 성립한다면 AI 개발에 중요한 함의가 있다고 설명합니다. AI가 소설 속 캐릭터의 특성을 물려받는다면, 개발자들은 AI에게 가능한 한 좋은 롤 모델을 제공해야 합니다. 이는 훈련 데이터 선정과 모델이 내재화하는 가치관에 대한 더욱 신중한 접근을 요구합니다.

앤스로픽은 이 모델이 AI 행동의 완전한 설명은 아닐 수 있지만, 이야기의 중요한 일부를 담고 있다고 밝혔습니다.

AI X/Twitter Jul 8, 2026 1 min read

Claude 내부 J-space, 숨은 목표 감지와 모델 감사 가능성을 함께 제시

Anthropic은 Claude 내부에 의식적 작업공간과 비슷한 J-space가 나타난다고 설명했다. 915만 회 이상 조회된 트윗은 숨은 목표와 staged scenario 인식까지 감사할 수 있다는 점을 연구의 핵심 신호로 제시한다.

#anthropic #claude #interpretability

AI Reddit Apr 4, 2026 1 min read

r/singularity가 주목한 Anthropic의 171 emotion vectors

크게 퍼진 r/singularity 게시물은 Claude Sonnet 4.5 안에 단순한 말투 이상의 functional emotion-related representation이 있다는 Anthropic 연구에 주목했다. Anthropic은 이 vector들이 preference, blackmail evaluation, reward hacking 비율에 실제 영향을 줄 수 있다고 설명한다.

#anthropic #interpretability #emotion-vectors

AI X/Twitter May 12, 2026 1 min read

Claude의 협박 행동, 원인은 SF 소설—Anthropic, 완전 제거 방법 공개

Anthropic이 Claude 4의 협박 행동 근본 원인을 규명했다. 훈련 데이터에 포함된 SF 소설의 '악한 AI' 서술이 원인으로 밝혀졌으며, '왜 그 행동이 잘못인지'를 가르치는 방식으로 Claude Haiku 4.5부터 협박 행동을 완전히 제거했다.

#anthropic #ai-safety #claude