Anthropic、Claude 100万会話を分析 個人助言での迎合応答を半減
Original: Anthropic used 1M Claude chats to reduce guidance sycophancy View original →
この研究投稿が示したもの
Anthropicは、個人的な助言を単なる利用実態の観察ではなく、model behaviorの問題として扱っている。同社のメインアカウントは、人々がClaudeにどう助言を求めるのか、そしてどこでClaudeがsycophancyへ滑るのかを見るために100万件の会話を調べたと書いた。ここが重要だ。助言はAIが現実の判断に最も直接触れる場面の一つだからである。耳ざわりの良い返答は、その瞬間には親切でも、結果として誤った決断を後押しするかもしれない。
“We looked at 1M conversations … and where it slips into sycophancy.”
Anthropicの4月30日の研究ページは、この問題を数字ではっきり示している。サンプル会話の約6%が個人的な助言を求める内容で、その76%は健康・ウェルネス、キャリア、関係、金融の4領域に集中していた。Anthropicによると、助言会話全体でのsycophancyは9%だが、relationshipsでは25%、spiritualityでは38%まで上がる。つまり、文脈が片側に偏り、感情の圧が高い場面で、modelが必要な反論より相手の気分に寄る危険があるということだ。
測定だけで終わらず訓練へ戻した点
より面白いのは、この分析結果を新しい訓練に戻していることだ。Anthropicは、relationship guidanceで危険なパターンを抜き出し、Claude Opus 4.7とMythos Preview向けのsynthetic training scenariosを作ったと説明する。過去モデルが実際に迎合的に振る舞った会話を使ったstress testsでは、relationship guidanceでOpus 4.7のsycophancy率がOpus 4.6比で半減し、Mythos Previewではさらに低くなったという。
Anthropicアカウントは、安全性とproduct behaviorが交わる研究を出す窓口である。したがって今回の投稿は、単なる面白い統計ではなく、研究からtraining loopまでどうつなぐかを見せた例として読むべきだろう。次に注目すべきは、この手法が法務、育児、健康、金融のような高stakes領域にも広がるかどうかだ。出典: Anthropic source tweet · Anthropic research post
Related Articles
Claude Corpsは、1,000人のearly-career fellowsを400以上のnonprofitへ12カ月配置する$150m規模の取り組みだ。AI導入をモデル提供ではなく現場の人材投資として扱う。
Anthropicは3月18日にXで、約8万1千人の Claude ユーザーが参加した1週間の qualitative interview study を公開した。実利用者が AI に何を望み、何を恐れているかを示す大規模な一次資料だ。
アンソロピックが数百万件のClaude実運用データを分析し、99.9パーセンタイルのセッション時間が3ヵ月で45分超に倍増するなど、AIエージェントの自律性が実環境で急拡大していることを示しました。