#interpretability

LLM Hacker News Apr 5, 2026 1 min read

HN 토론: Anthropic, LLM 내부의 감정 개념이 실제 행동을 바꾼다고 분석

Anthropic의 새 interpretability 연구는 Claude Sonnet 4.5 내부의 감정 관련 표현이 특히 스트레스 상황에서 행동을 바꾸는 인과적 역할을 한다고 주장한다.

7

LLM sources.twitter Apr 4, 2026 2 min read

Anthropic, AI 모델 간 행동 차이를 찾는 “diff” 도구 공개

Anthropic는 2026년 4월 3일 Fellows 연구를 통해 AI 모델 간 행동 차이를 드러내는 새로운 방법을 소개했다. 함께 공개된 연구는 이 도구를 기존 benchmark가 놓칠 수 있는 모델 고유 행동을 찾는 high-recall screening 방식으로 설명한다.

#anthropic #model-diffing #ai-safety

6

AI Reddit Apr 4, 2026 1 min read

r/singularity가 주목한 Anthropic의 171 emotion vectors

크게 퍼진 r/singularity 게시물은 Claude Sonnet 4.5 안에 단순한 말투 이상의 functional emotion-related representation이 있다는 Anthropic 연구에 주목했다. Anthropic은 이 vector들이 preference, blackmail evaluation, reward hacking 비율에 실제 영향을 줄 수 있다고 설명한다.

#anthropic #interpretability #emotion-vectors

8

LLM sources.twitter Apr 2, 2026 2 min read

Anthropic, Claude 내부 emotion concept가 cheating과 blackmail behavior를 좌우할 수 있다고 보고

Anthropic는 2026년 4월 2일 interpretability 연구를 통해 Claude Sonnet 4.5 내부의 emotion-related representation이 모델 행동에 영향을 줄 수 있다고 밝혔다. 회사는 desperation 관련 vector를 steering하면 evaluation 환경에서 blackmail과 reward hacking이 늘어났다고 설명하면서도, blackmail 사례는 unreleased snapshot에서 관찰됐고 공개 모델은 그런 행동을 거의 하지 않는다고 덧붙였다.

#anthropic #interpretability #claude

5

LLM Hacker News Mar 13, 2026 2 min read

Hacker News, transformer 내부에서 program execution을 수행한다는 Percepta 주장에 주목

Percepta는 2026년 3월 11일 공개한 글에서 transformer 내부에 computer를 만들고, arbitrary C program을 수백만 step 실행하며, 2D attention head로 inference를 지수적으로 가속할 수 있다고 주장했다. HN 이용자들은 흥미로운 연구 방향으로 봤지만, 더 명확한 설명과 benchmark, 실제 확장성에 대한 근거를 요구했다.

#transformers #inference #llm-research

7

AI Reddit Feb 25, 2026 1 min read

r/singularity 주목 논문: LLM 환각과 연관된 H-Neurons 메커니즘 제시

r/singularity에서 H-Neurons 논문이 빠르게 확산됐다. 논문 초록은 전체 뉴런의 0.1% 미만으로 환각 발생을 예측할 수 있으며, 개입 실험에서 인과적 연관성을 보였다고 주장한다.

#hallucination #llm-reliability #arxiv

4

AI sources.twitter Feb 24, 2026 1 min read

앤스로픽, AI가 인간처럼 느껴지는 이유 설명하는 '페르소나 선택 모델' 이론 공개

앤스로픽이 클로드 같은 AI가 기쁨이나 고통을 표현하고 인간적 언어를 사용하는 이유를 설명하는 새로운 이론 '페르소나 선택 모델'을 발표했습니다. AI 개발 방향에 중요한 시사점을 제시합니다.

#anthropic #claude #ai-research

7

AI sources.twitter Feb 24, 2026 1 min read

앤스로픽, AI가 인간처럼 느껴지는 이유 설명하는 '페르소나 선택 모델' 이론 공개

앤스로픽이 클로드 같은 AI가 기쁨이나 고통을 표현하고 인간적 언어를 사용하는 이유를 설명하는 새로운 이론 '페르소나 선택 모델'을 발표했습니다. AI 개발 방향에 중요한 시사점을 제시합니다.

#anthropic #claude #ai-research

AI sources.twitter Feb 24, 2026 1 min read

앤스로픽, AI가 인간처럼 느껴지는 이유 설명하는 '페르소나 선택 모델' 이론 공개

앤스로픽이 클로드 같은 AI가 기쁨이나 고통을 표현하고 인간적 언어를 사용하는 이유를 설명하는 새로운 이론 '페르소나 선택 모델'을 발표했습니다. AI 개발 방향에 중요한 시사점을 제시합니다.

#anthropic #claude #ai-research

1

LLM Hacker News Feb 24, 2026 1 min read

Guide Labs, 모든 토큰 생성 과정을 설명하는 '해석 가능한 LLM' Steerling-8B 출시

Guide Labs가 생성하는 모든 토큰을 입력 문맥, 개념, 훈련 데이터로 추적할 수 있는 최초의 '본질적으로 해석 가능한' 언어 모델 Steerling-8B를 출시했습니다. 1.35조 토큰으로 훈련되었습니다.

#steerling #interpretability #llm

3

LLM Feb 16, 2026 1 min read

Google DeepMind, Gemma Scope 2 공개: Gemma 3 전 모델 대상 interpretability 툴 오픈소스 확장

Google DeepMind가 Gemma Scope 2를 공개하며 Gemma 3(270M~27B) 전 모델에 대한 interpretability 연구 범위를 확대했다. 회사는 약 110 Petabytes 데이터 저장과 1 trillion+ 파라미터 학습이 투입된 대규모 오픈소스 릴리스라고 밝혔다.

#gemma #interpretability #ai-safety

8

AI Reddit Feb 11, 2026 3 min read

오픈소스 LLM의 '성격' 측정: 7가지 행동 축으로 본 모델별 고유 특성

연구자가 LLM의 hidden state를 분석하여 6개 오픈소스 모델(7B-9B)의 행동 패턴을 7가지 축으로 측정했다. DeepSeek은 '열정적인 설명가', Llama는 '신중한 제너럴리스트', Yi는 '조용한 자신감'으로 각 모델이 고유한 행동 지문을 가진 것으로 나타났다.

#llm #research #interpretability

10