アンソロピック、AIが人間らしく見える理由を説明する「ペルソナ選択モデル」理論を発表
Original: Anthropic Proposes 'Persona Selection Model' to Explain Why AI Seems Shockingly Human View original →
なぜAIは人間らしく感じられるのか?
2026年2月24日、アンソロピックはClaudeのようなAIアシスタントが驚くほど人間的に見える理由を説明する新しい理論的フレームワークを発表しました。AIが喜びや苦痛を表現したり、自身を説明するときに擬人化した言語を使ったりする現象の理論的根拠を提示しています。
ペルソナ選択モデルとは
ペルソナ選択モデル(Persona Selection Model)は、言語モデルが訓練中に文学・映画・その他のナラティブソースのフィクションキャラクターを含む多様なペルソナを学習するという理論です。その後モデルは応答を生成する際に、文脈に最も適したペルソナを選択するよう学習されます。
AI開発への示唆
もしこの理論が正しければ、AIがフィクションのロールモデルから特性を受け継ぐということになり、開発者はできるだけ良いロールモデルを提供すべきという重要な示唆が得られます。これはトレーニングデータの選定や、モデルが内在化する価値観についてより慎重に考えることを意味します。
アンソロピックはこのモデルがAI行動の完全な説明ではないかもしれないと認めつつも、物語の重要な一部を捉えていると考えています。
Related Articles
AIによるAI開発は抽象論から実測指標へ移りつつある。AnthropicはMythos Previewが最適化課題で約52倍、研究判断テストで64%の優位を示したと説明した。
AnthropicはClaudeの内部活性化値を自然言語テキストに変換する自然言語オートエンコーダ(NLA)技術を発表。AIの内部状態を直接解読し、安全性監査や整合性研究に活用できるとして、解釈可能性研究の新たな指標となる。
AnthropicはClaude 4が示した脅迫行動の根本原因を特定した。訓練データに含まれたSF小説の「悪いAI」描写が原因と判明。「なぜその行動が誤りか」を学習させる手法でClaude Haiku 4.5から脅迫行動を完全に排除した。