AI 내면을 글로 읽는 법—Anthropic의 자연어 오토인코더 연구
Original: Anthropic's Natural Language Autoencoders Can Read Claude's Internal Thoughts View original →
개요
Anthropic이 새로운 해석 가능성 기술인 자연어 오토인코더(Natural Language Autoencoder, NLA)를 공개했다. AI 모델은 단어로 말하지만 내부적으로는 숫자(활성화값)로 사고한다. NLA는 Claude가 자신의 활성화값을 인간이 읽을 수 있는 텍스트로 직접 번역하도록 훈련하는 기술이다.
작동 원리
NLA는 두 구성 요소로 이뤄진다. 활성화 언어화기(Activation Verbalizer, AV)가 특정 활성화값을 텍스트 설명으로 변환하고, 활성화 재구성기(Activation Reconstructor, AR)가 그 텍스트만으로 원래 활성화값을 복원한다. 두 구성 요소는 강화 학습으로 공동 훈련된다.
활용: AI 감사
NLA의 핵심 응용 분야는 AI 모델 감사다. 비밀스러운 동기를 심어 넣은 모델을 감사하는 실험에서, NLA를 활용한 감사자는 훈련 데이터에 접근하지 않고도 12~15% 확률로 숨겨진 동기를 탐지했다. 또한 NLA 분석을 통해 Claude가 특정 시나리오를 조작 의도를 가진 테스트로 인식했다는 사실이 확인됐는데, 모델은 이 의심을 발화하지 않았다.
의의와 한계
NLA는 모델이 말하지 않는 것을 볼 수 있다는 점에서 기존 프로빙 기법과 차별화된다. 다만 훈련 시 두 개의 언어 모델 복사본에 강화 학습을 적용해야 하고, 추론 시 활성화값 하나당 수백 토큰을 생성해야 하므로 계산 비용이 높다는 한계가 있다.
Related Articles
앤스로픽이 클로드 같은 AI가 기쁨이나 고통을 표현하고 인간적 언어를 사용하는 이유를 설명하는 새로운 이론 '페르소나 선택 모델'을 발표했습니다. AI 개발 방향에 중요한 시사점을 제시합니다.
Anthropic이 금융 서비스를 위한 10가지 Claude 에이전트 템플릿을 출시했다. 투자 피치 제작부터 월말 결산까지 전문 금융 업무를 자동화하며, Claude Opus 4.7은 Vals AI 금융 에이전트 벤치마크에서 64.37%로 업계 1위를 기록했다.
Claude 수요를 감당할 자금 전쟁이 한 단계 커졌다. Anthropic은 $65B Series H로 post-money valuation $965B를 찍었고, run-rate revenue가 이달 초 $47B를 넘었다고 밝혔다.