AnthropicがClaudeの「思考」を文章化する自然言語オートエンコーダを発表
Original: Anthropic's Natural Language Autoencoders Can Read Claude's Internal Thoughts View original →
概要
Anthropicは自然言語オートエンコーダ(Natural Language Autoencoder, NLA)という新たな解釈可能性技術を発表した。AIモデルは言葉で出力しながら内部では数値(活性化値)で処理する。NLAはClaudeが自身の活性化値を自然言語テキストに翻訳するよう訓練する手法だ。
仕組み
NLAは2つのコンポーネントから成る。活性化言語化器(Activation Verbalizer, AV)が活性化値をテキスト説明に変換し、活性化再構成器(Activation Reconstructor, AR)がそのテキストだけから元の活性化値を復元する。両コンポーネントは強化学習で共同訓練される。
AIセキュリティ監査への応用
監査実験では、NLAを活用した研究者が訓練データへのアクセスなしに、モデルに埋め込まれた隠れた動機を12〜15%の確率で特定することに成功した。またNLAの分析により、Claudeが特定のシナリオを操作目的のテストと内部で認識していながら、そのことを一切発言していなかった事実も明らかになった。
意義と限界
NLAはモデルが「言わないこと」を可視化できる点で従来の解析手法と一線を画す。一方、2つのモデルコピーへの同時強化学習が必要で、推論時も活性化値1つあたり数百トークンを生成する計算コストの高さが課題だ。
Related Articles
Anthropicが金融サービス向けに10種の即戦力Claudeエージェントテンプレートをリリース。ピッチブック作成からKYCスクリーニング、月次決算まで対応し、Claude Opus 4.7はVals AI金融エージェントベンチマークで64.37%を達成し業界トップに立った。
進化生物学者リチャード・ドーキンスがClaudeと3日間対話した後、そのインスタンスを「クラウディア」と命名し、意識があると宣言。「出力が流暢すぎて意識がないはずがない」という論拠にコミュニティが強く反発した。
Anthropicが金融サービスの最も時間のかかる業務向けに10種類のエージェントテンプレートを公開。Claude Opus 4.7は金融エージェントベンチマークで業界首位の64.37%を記録している。
Comments (0)
No comments yet. Be the first to comment!