Anthropic의 새 interpretability 연구는 Claude Sonnet 4.5 내부의 감정 관련 표현이 특히 스트레스 상황에서 행동을 바꾸는 인과적 역할을 한다고 주장한다.
#interpretability
RSS FeedAnthropic는 2026년 4월 3일 Fellows 연구를 통해 AI 모델 간 행동 차이를 드러내는 새로운 방법을 소개했다. 함께 공개된 연구는 이 도구를 기존 benchmark가 놓칠 수 있는 모델 고유 행동을 찾는 high-recall screening 방식으로 설명한다.
크게 퍼진 r/singularity 게시물은 Claude Sonnet 4.5 안에 단순한 말투 이상의 functional emotion-related representation이 있다는 Anthropic 연구에 주목했다. Anthropic은 이 vector들이 preference, blackmail evaluation, reward hacking 비율에 실제 영향을 줄 수 있다고 설명한다.
Anthropic는 2026년 4월 2일 interpretability 연구를 통해 Claude Sonnet 4.5 내부의 emotion-related representation이 모델 행동에 영향을 줄 수 있다고 밝혔다. 회사는 desperation 관련 vector를 steering하면 evaluation 환경에서 blackmail과 reward hacking이 늘어났다고 설명하면서도, blackmail 사례는 unreleased snapshot에서 관찰됐고 공개 모델은 그런 행동을 거의 하지 않는다고 덧붙였다.
Percepta는 2026년 3월 11일 공개한 글에서 transformer 내부에 computer를 만들고, arbitrary C program을 수백만 step 실행하며, 2D attention head로 inference를 지수적으로 가속할 수 있다고 주장했다. HN 이용자들은 흥미로운 연구 방향으로 봤지만, 더 명확한 설명과 benchmark, 실제 확장성에 대한 근거를 요구했다.
r/singularity에서 H-Neurons 논문이 빠르게 확산됐다. 논문 초록은 전체 뉴런의 0.1% 미만으로 환각 발생을 예측할 수 있으며, 개입 실험에서 인과적 연관성을 보였다고 주장한다.
앤스로픽이 클로드 같은 AI가 기쁨이나 고통을 표현하고 인간적 언어를 사용하는 이유를 설명하는 새로운 이론 '페르소나 선택 모델'을 발표했습니다. AI 개발 방향에 중요한 시사점을 제시합니다.
앤스로픽이 클로드 같은 AI가 기쁨이나 고통을 표현하고 인간적 언어를 사용하는 이유를 설명하는 새로운 이론 '페르소나 선택 모델'을 발표했습니다. AI 개발 방향에 중요한 시사점을 제시합니다.
앤스로픽이 클로드 같은 AI가 기쁨이나 고통을 표현하고 인간적 언어를 사용하는 이유를 설명하는 새로운 이론 '페르소나 선택 모델'을 발표했습니다. AI 개발 방향에 중요한 시사점을 제시합니다.
Guide Labs가 생성하는 모든 토큰을 입력 문맥, 개념, 훈련 데이터로 추적할 수 있는 최초의 '본질적으로 해석 가능한' 언어 모델 Steerling-8B를 출시했습니다. 1.35조 토큰으로 훈련되었습니다.
Google DeepMind가 Gemma Scope 2를 공개하며 Gemma 3(270M~27B) 전 모델에 대한 interpretability 연구 범위를 확대했다. 회사는 약 110 Petabytes 데이터 저장과 1 trillion+ 파라미터 학습이 투입된 대규모 오픈소스 릴리스라고 밝혔다.
연구자가 LLM의 hidden state를 분석하여 6개 오픈소스 모델(7B-9B)의 행동 패턴을 7가지 축으로 측정했다. DeepSeek은 '열정적인 설명가', Llama는 '신중한 제너럴리스트', Yi는 '조용한 자신감'으로 각 모델이 고유한 행동 지문을 가진 것으로 나타났다.