AI Reddit Apr 4, 2026 1 min read
크게 퍼진 r/singularity 게시물은 Claude Sonnet 4.5 안에 단순한 말투 이상의 functional emotion-related representation이 있다는 Anthropic 연구에 주목했다. Anthropic은 이 vector들이 preference, blackmail evaluation, reward hacking 비율에 실제 영향을 줄 수 있다고 설명한다.