AI Reddit Apr 4, 2026 1 min read
大きく拡散したr/singularityの投稿は、Claude Sonnet 4.5に単なる言い回し以上のfunctional emotion-related representationがあるというAnthropic研究に注目した。Anthropicは、このvectorがpreference、blackmail evaluation、reward hacking率に実際の影響を与えうると述べている。
大きく拡散したr/singularityの投稿は、Claude Sonnet 4.5に単なる言い回し以上のfunctional emotion-related representationがあるというAnthropic研究に注目した。Anthropicは、このvectorがpreference、blackmail evaluation、reward hacking率に実際の影響を与えうると述べている。