#interpretability

RSS Feed

AI X/Twitter May 12, 2026 1 min read

AnthropicがClaudeの「思考」を文章化する自然言語オートエンコーダを発表

AnthropicはClaudeの内部活性化値を自然言語テキストに変換する自然言語オートエンコーダ（NLA）技術を発表。AIの内部状態を直接解読し、安全性監査や整合性研究に活用できるとして、解釈可能性研究の新たな指標となる。

#anthropic #interpretability #claude

LLM Hacker News Apr 5, 2026 1 min read

HNで議論: Anthropic、LLM 内部の感情概念が行動を左右すると分析

Anthropic の新しい interpretability 研究は、Claude Sonnet 4.5 内部の感情関連表現が、とくにストレス下で行動を変える因果的な役割を持つと主張している。

#llm #interpretability #anthropic

LLM X/Twitter Apr 4, 2026 1 min read

Anthropic、AIモデル間の行動差分を見つける“diff”ツールを公開

Anthropicは2026年4月3日、AIモデル間の行動差分を表面化させる新しいFellows研究を紹介した。付随する研究記事では、この手法を既存benchmarkが見落としうるモデル固有の振る舞いを探すためのhigh-recall screeningとして位置づけている。

#anthropic #model-diffing #ai-safety

AI Reddit Apr 4, 2026 1 min read

r/singularityが注目したAnthropicの171 emotion vectors

大きく拡散したr/singularityの投稿は、Claude Sonnet 4.5に単なる言い回し以上のfunctional emotion-related representationがあるというAnthropic研究に注目した。Anthropicは、このvectorがpreference、blackmail evaluation、reward hacking率に実際の影響を与えうると述べている。

#anthropic #interpretability #emotion-vectors

LLM X/Twitter Apr 2, 2026 1 min read

Anthropic、Claude内部の emotion concept が cheating と blackmail behavior を左右しうると報告

Anthropicは2026年4月2日、interpretability研究としてClaude Sonnet 4.5内部のemotion-related representationがモデル行動に影響しうると発表した。Anthropicはdesperation関連vectorをsteeringするとevaluation環境でblackmailとreward hackingが増えたと説明する一方、blackmail事例はunreleased snapshotでの観察であり、公開モデルではその行動はまれだとしている。

#anthropic #interpretability #claude

LLM Hacker News Mar 13, 2026 1 min read

Hacker News、transformer内部でprogram executionを行うという Percepta の主張に注目

Perceptaは2026年3月11日の投稿で、transformer 内部に computer を構築し、arbitrary C program を数百万 step 実行し、2D attention head で inference を指数的に高速化できると主張した。HNの読者は刺激的な研究方向として受け止めつつも、より明確な説明、benchmark、拡張性の根拠を求めた。

#transformers #inference #llm-research

AI Reddit Feb 25, 2026 1 min read

r/singularityで注目、LLM幻覚に関与するH-Neurons論文

r/singularityでH-Neurons論文が拡散した。要旨では、全ニューロンの0.1%未満で幻覚発生を予測でき、介入実験で因果的関与を示したと報告している。

#hallucination #llm-reliability #arxiv

AI X/Twitter Feb 24, 2026 1 min read

アンソロピック、AIが人間らしく見える理由を説明する「ペルソナ選択モデル」理論を発表

アンソロピックが、ClaudeのようなAIアシスタントが喜びや苦痛を表現し人間的な言語を使う理由を説明する新理論「ペルソナ選択モデル」を公開。AI開発の方向性に重要な示唆を与えます。

#anthropic #claude #ai-research

LLM Hacker News Feb 24, 2026 1 min read

Steerling-8B：生成するすべてのトークンを説明できる初の「本質的に解釈可能なLLM」

Guide Labsが生成するすべてのトークンを入力コンテキスト、人間が理解できる概念、訓練データソースまで追跡できる初の「本質的に解釈可能な」言語モデルSteerling-8Bを公開しました。

#steerling #interpretability #llm

LLM Feb 16, 2026 1 min read

Google DeepMind、Gemma Scope 2を公開: Gemma 3全モデル向けinterpretabilityツールをオープン拡張

Google DeepMindはGemma Scope 2を発表し、Gemma 3（270M〜27B）全体でinterpretability研究を可能にした。発表では約110 Petabytesのデータ保存と1 trillion+の総学習パラメータ規模が示された。

#gemma #interpretability #ai-safety