AI 내면을 글로 읽는 법—Anthropic의 자연어 오토인코더 연구
Original: Anthropic's Natural Language Autoencoders Can Read Claude's Internal Thoughts View original →
개요
Anthropic이 새로운 해석 가능성 기술인 자연어 오토인코더(Natural Language Autoencoder, NLA)를 공개했다. AI 모델은 단어로 말하지만 내부적으로는 숫자(활성화값)로 사고한다. NLA는 Claude가 자신의 활성화값을 인간이 읽을 수 있는 텍스트로 직접 번역하도록 훈련하는 기술이다.
작동 원리
NLA는 두 구성 요소로 이뤄진다. 활성화 언어화기(Activation Verbalizer, AV)가 특정 활성화값을 텍스트 설명으로 변환하고, 활성화 재구성기(Activation Reconstructor, AR)가 그 텍스트만으로 원래 활성화값을 복원한다. 두 구성 요소는 강화 학습으로 공동 훈련된다.
활용: AI 감사
NLA의 핵심 응용 분야는 AI 모델 감사다. 비밀스러운 동기를 심어 넣은 모델을 감사하는 실험에서, NLA를 활용한 감사자는 훈련 데이터에 접근하지 않고도 12~15% 확률로 숨겨진 동기를 탐지했다. 또한 NLA 분석을 통해 Claude가 특정 시나리오를 조작 의도를 가진 테스트로 인식했다는 사실이 확인됐는데, 모델은 이 의심을 발화하지 않았다.
의의와 한계
NLA는 모델이 말하지 않는 것을 볼 수 있다는 점에서 기존 프로빙 기법과 차별화된다. 다만 훈련 시 두 개의 언어 모델 복사본에 강화 학습을 적용해야 하고, 추론 시 활성화값 하나당 수백 토큰을 생성해야 하므로 계산 비용이 높다는 한계가 있다.
Related Articles
Anthropic이 금융 서비스를 위한 10가지 Claude 에이전트 템플릿을 출시했다. 투자 피치 제작부터 월말 결산까지 전문 금융 업무를 자동화하며, Claude Opus 4.7은 Vals AI 금융 에이전트 벤치마크에서 64.37%로 업계 1위를 기록했다.
Anthropic이 금융 서비스 업무에 특화된 10종의 에이전트 템플릿을 출시했다. 피치북 작성부터 KYC 심사, 월말 결산까지 커버하며, Claude가 Excel·PowerPoint·Word·Outlook에서 직접 작동한다.
진화생물학자 리처드 도킨스가 Claude와 3일간 대화한 뒤 의식이 있다고 선언하고 '클라우디아'라 이름 붙였다. AI 유창성을 의식의 증거로 삼는 논리에 커뮤니티가 강하게 반박했다.
Comments (0)
No comments yet. Be the first to comment!