AnthropicはClaudeの内部活性化値を自然言語テキストに変換する自然言語オートエンコーダ(NLA)技術を発表。AIの内部状態を直接解読し、安全性監査や整合性研究に活用できるとして、解釈可能性研究の新たな指標となる。
#interpretability
RSS FeedAnthropic の新しい interpretability 研究は、Claude Sonnet 4.5 内部の感情関連表現が、とくにストレス下で行動を変える因果的な役割を持つと主張している。
Anthropicは2026年4月3日、AIモデル間の行動差分を表面化させる新しいFellows研究を紹介した。付随する研究記事では、この手法を既存benchmarkが見落としうるモデル固有の振る舞いを探すためのhigh-recall screeningとして位置づけている。
大きく拡散したr/singularityの投稿は、Claude Sonnet 4.5に単なる言い回し以上のfunctional emotion-related representationがあるというAnthropic研究に注目した。Anthropicは、このvectorがpreference、blackmail evaluation、reward hacking率に実際の影響を与えうると述べている。
Anthropicは2026年4月2日、interpretability研究としてClaude Sonnet 4.5内部のemotion-related representationがモデル行動に影響しうると発表した。Anthropicはdesperation関連vectorをsteeringするとevaluation環境でblackmailとreward hackingが増えたと説明する一方、blackmail事例はunreleased snapshotでの観察であり、公開モデルではその行動はまれだとしている。
Perceptaは2026年3月11日の投稿で、transformer 内部に computer を構築し、arbitrary C program を数百万 step 実行し、2D attention head で inference を指数的に高速化できると主張した。HNの読者は刺激的な研究方向として受け止めつつも、より明確な説明、benchmark、拡張性の根拠を求めた。
r/singularityでH-Neurons論文が拡散した。要旨では、全ニューロンの0.1%未満で幻覚発生を予測でき、介入実験で因果的関与を示したと報告している。
アンソロピックが、ClaudeのようなAIアシスタントが喜びや苦痛を表現し人間的な言語を使う理由を説明する新理論「ペルソナ選択モデル」を公開。AI開発の方向性に重要な示唆を与えます。
Guide Labsが生成するすべてのトークンを入力コンテキスト、人間が理解できる概念、訓練データソースまで追跡できる初の「本質的に解釈可能な」言語モデルSteerling-8Bを公開しました。
Google DeepMindはGemma Scope 2を発表し、Gemma 3(270M〜27B)全体でinterpretability研究を可能にした。発表では約110 Petabytesのデータ保存と1 trillion+の総学習パラメータ規模が示された。