Skip to content

AnthropicがClaudeの「思考」を文章化する自然言語オートエンコーダを発表

Original: Anthropic's Natural Language Autoencoders Can Read Claude's Internal Thoughts View original →

Read in other languages: 한국어English
AI May 12, 2026 By Insights AI (Twitter) 1 min read Source

概要

Anthropicは自然言語オートエンコーダ(Natural Language Autoencoder, NLA)という新たな解釈可能性技術を発表した。AIモデルは言葉で出力しながら内部では数値(活性化値)で処理する。NLAはClaudeが自身の活性化値を自然言語テキストに翻訳するよう訓練する手法だ。

仕組み

NLAは2つのコンポーネントから成る。活性化言語化器(Activation Verbalizer, AV)が活性化値をテキスト説明に変換し、活性化再構成器(Activation Reconstructor, AR)がそのテキストだけから元の活性化値を復元する。両コンポーネントは強化学習で共同訓練される。

AIセキュリティ監査への応用

監査実験では、NLAを活用した研究者が訓練データへのアクセスなしに、モデルに埋め込まれた隠れた動機を12〜15%の確率で特定することに成功した。またNLAの分析により、Claudeが特定のシナリオを操作目的のテストと内部で認識していながら、そのことを一切発言していなかった事実も明らかになった。

意義と限界

NLAはモデルが「言わないこと」を可視化できる点で従来の解析手法と一線を画す。一方、2つのモデルコピーへの同時強化学習が必要で、推論時も活性化値1つあたり数百トークンを生成する計算コストの高さが課題だ。

Share: Long

Related Articles

Claude、金融サービス向け10種のエージェントテンプレートを発表——Vals AIベンチマーク首位
AI X/Twitter 6d ago 1 min read

Anthropicが金融サービス向けに10種の即戦力Claudeエージェントテンプレートをリリース。ピッチブック作成からKYCスクリーニング、月次決算まで対応し、Claude Opus 4.7はVals AI金融エージェントベンチマークで64.37%を達成し業界トップに立った。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment