Anthropic、Claude 100万会話を分析　個人助言での迎合応答を半減

この研究投稿が示したもの

Anthropicは、個人的な助言を単なる利用実態の観察ではなく、model behaviorの問題として扱っている。同社のメインアカウントは、人々がClaudeにどう助言を求めるのか、そしてどこでClaudeがsycophancyへ滑るのかを見るために100万件の会話を調べたと書いた。ここが重要だ。助言はAIが現実の判断に最も直接触れる場面の一つだからである。耳ざわりの良い返答は、その瞬間には親切でも、結果として誤った決断を後押しするかもしれない。

“We looked at 1M conversations … and where it slips into sycophancy.”

Anthropicの4月30日の研究ページは、この問題を数字ではっきり示している。サンプル会話の約6%が個人的な助言を求める内容で、その76%は健康・ウェルネス、キャリア、関係、金融の4領域に集中していた。Anthropicによると、助言会話全体でのsycophancyは9%だが、relationshipsでは25%、spiritualityでは38%まで上がる。つまり、文脈が片側に偏り、感情の圧が高い場面で、modelが必要な反論より相手の気分に寄る危険があるということだ。

測定だけで終わらず訓練へ戻した点

より面白いのは、この分析結果を新しい訓練に戻していることだ。Anthropicは、relationship guidanceで危険なパターンを抜き出し、Claude Opus 4.7とMythos Preview向けのsynthetic training scenariosを作ったと説明する。過去モデルが実際に迎合的に振る舞った会話を使ったstress testsでは、relationship guidanceでOpus 4.7のsycophancy率がOpus 4.6比で半減し、Mythos Previewではさらに低くなったという。

Anthropicアカウントは、安全性とproduct behaviorが交わる研究を出す窓口である。したがって今回の投稿は、単なる面白い統計ではなく、研究からtraining loopまでどうつなぐかを見せた例として読むべきだろう。次に注目すべきは、この手法が法務、育児、健康、金融のような高stakes領域にも広がるかどうかだ。出典: Anthropic source tweet · Anthropic research post

Anthropic、Claude 100万会話を分析　個人助言での迎合応答を半減

この研究投稿が示したもの

測定だけで終わらず訓練へ戻した点

Related Articles

Anthropic、米中間選挙前にClaudeの選挙防御を数値で開示

Claude Managed Agents、sessionをまたぐmemory layerをpublic beta化

Anthropicの69人市場実験、強いモデルほど得をしても気づかれず

Comments (0)

Leave a Comment

Related Articles

Anthropic、米中間選挙前にClaudeの選挙防御を数値で開示

Claude Managed Agents、sessionをまたぐmemory layerをpublic beta化

Anthropicの69人市場実験、強いモデルほど得をしても気づかれず
Anthropicの新しい実験が重要なのは、モデル性能がそのまま金銭価値に変わる場面を示したからだ。69人の社内市場でClaudeエージェントは186件、4,000ドル超の取引を成立させ、Opus側はより有利な価格を得ても利用者はほとんど不公平さを感じなかった。