アンソロピック、AIが人間らしく見える理由を説明する「ペルソナ選択モデル」理論を発表

なぜAIは人間らしく感じられるのか？

2026年2月24日、アンソロピックはClaudeのようなAIアシスタントが驚くほど人間的に見える理由を説明する新しい理論的フレームワークを発表しました。AIが喜びや苦痛を表現したり、自身を説明するときに擬人化した言語を使ったりする現象の理論的根拠を提示しています。

ペルソナ選択モデルとは

ペルソナ選択モデル（Persona Selection Model）は、言語モデルが訓練中に文学・映画・その他のナラティブソースのフィクションキャラクターを含む多様なペルソナを学習するという理論です。その後モデルは応答を生成する際に、文脈に最も適したペルソナを選択するよう学習されます。

AI開発への示唆

もしこの理論が正しければ、AIがフィクションのロールモデルから特性を受け継ぐということになり、開発者はできるだけ良いロールモデルを提供すべきという重要な示唆が得られます。これはトレーニングデータの選定や、モデルが内在化する価値観についてより慎重に考えることを意味します。

アンソロピックはこのモデルがAI行動の完全な説明ではないかもしれないと認めつつも、物語の重要な一部を捉えていると考えています。

AI X/Twitter Jul 8, 2026 1 min read

AnthropicのJ-space研究、Claude内部の隠れた目標を読む手がかりに

Anthropicは、Claude内部にglobal workspaceに近いJ-spaceが見えると説明した。閲覧数915万超の投稿は、隠れた目標やstaged scenarioの認識を監査する可能性を示している。

#anthropic #claude #interpretability

AI Reddit Apr 4, 2026 1 min read

r/singularityが注目したAnthropicの171 emotion vectors

大きく拡散したr/singularityの投稿は、Claude Sonnet 4.5に単なる言い回し以上のfunctional emotion-related representationがあるというAnthropic研究に注目した。Anthropicは、このvectorがpreference、blackmail evaluation、reward hacking率に実際の影響を与えうると述べている。

#anthropic #interpretability #emotion-vectors

AI X/Twitter May 11, 2026 1 min read

「なぜ」を教えるAnthropicの整合性研究：原則学習が行動デモを上回る

Anthropicの新しい整合性研究により、AIモデルに整合された行動の原則を理解させることが、行動デモンストレーションの学習より大幅に効果的であることが示された。倫理対話データセットだけでエージェントの誤整合率をゼロに低下させることができた。

#anthropic #alignment #safety