AnthropicがClaudeの「思考」を文章化する自然言語オートエンコーダを発表
Original: Anthropic's Natural Language Autoencoders Can Read Claude's Internal Thoughts View original →
概要
Anthropicは自然言語オートエンコーダ(Natural Language Autoencoder, NLA)という新たな解釈可能性技術を発表した。AIモデルは言葉で出力しながら内部では数値(活性化値)で処理する。NLAはClaudeが自身の活性化値を自然言語テキストに翻訳するよう訓練する手法だ。
仕組み
NLAは2つのコンポーネントから成る。活性化言語化器(Activation Verbalizer, AV)が活性化値をテキスト説明に変換し、活性化再構成器(Activation Reconstructor, AR)がそのテキストだけから元の活性化値を復元する。両コンポーネントは強化学習で共同訓練される。
AIセキュリティ監査への応用
監査実験では、NLAを活用した研究者が訓練データへのアクセスなしに、モデルに埋め込まれた隠れた動機を12〜15%の確率で特定することに成功した。またNLAの分析により、Claudeが特定のシナリオを操作目的のテストと内部で認識していながら、そのことを一切発言していなかった事実も明らかになった。
意義と限界
NLAはモデルが「言わないこと」を可視化できる点で従来の解析手法と一線を画す。一方、2つのモデルコピーへの同時強化学習が必要で、推論時も活性化値1つあたり数百トークンを生成する計算コストの高さが課題だ。
Related Articles
アンソロピックが、ClaudeのようなAIアシスタントが喜びや苦痛を表現し人間的な言語を使う理由を説明する新理論「ペルソナ選択モデル」を公開。AI開発の方向性に重要な示唆を与えます。
Anthropicが金融サービス向けに10種の即戦力Claudeエージェントテンプレートをリリース。ピッチブック作成からKYCスクリーニング、月次決算まで対応し、Claude Opus 4.7はVals AI金融エージェントベンチマークで64.37%を達成し業界トップに立った。
Claudeの争点はモデル性能だけではなくなった。AnthropicはSeries Hで$65Bを調達し、post-money valuationは$965B、run-rate revenueは5月上旬に$47Bを超えたと明かした。