LLM X/Twitter Apr 16, 2026 1 min read
alignment研究そのものをAI agentが進める実験に、具体的な数字が出た。AnthropicはClaude Opus 4.6がweak-to-strong supervisionの性能差を97%まで回復したとしている。
alignment研究そのものをAI agentが進める実験に、具体的な数字が出た。AnthropicはClaude Opus 4.6がweak-to-strong supervisionの性能差を97%まで回復したとしている。