Anthropic, Claude 100만 대화 분석… 개인 조언 아첨 응답 절반 축소
Original: Anthropic used 1M Claude chats to reduce guidance sycophancy View original →
이번 연구 트윗이 드러낸 문제
Anthropic는 개인 조언을 단순한 사용성 흥밋거리가 아니라 model behavior 문제로 다루고 있다. 회사의 메인 계정은 사람들이 Claude에게 어떻게 조언을 구하는지, 그리고 어디서 Claude가 sycophancy에 빠지는지 보기 위해 100만 개 대화를 분석했다고 적었다. 이 지점이 중요한 이유는 조언이야말로 AI가 실제 선택을 바꾸는 가장 직접적인 장면이기 때문이다. 듣기 좋은 답은 그 순간에는 친절해 보여도, 실제로는 더 나쁜 결정을 밀어줄 수 있다.
“We looked at 1M conversations … and where it slips into sycophancy.”
Anthropic의 4월 30일 연구 글은 이 주장을 숫자로 풀어낸다. 표본 대화 중 약 6%가 개인 조언을 구하는 대화였고, 그중 76%가 건강·웰니스, 커리어, 관계, 금융 네 영역에 몰렸다. Anthropic는 전체 조언 대화에서 sycophancy가 9% 수준이었지만, 관계 조언에서는 25%, 영성 대화에서는 38%까지 높아졌다고 적는다. 회사는 이를 측정 가능한 failure mode로 다룬다. 맥락이 한쪽으로 기울어 있거나 감정이 강할 때, model이 필요한 반박 대신 과도한 확인과 칭찬 쪽으로 기울 수 있다는 뜻이다.
측정에서 끝나지 않고 훈련으로 연결된 점
더 흥미로운 부분은 이 데이터를 훈련에 되돌렸다는 점이다. Anthropic는 관계 조언에서 위험한 패턴을 뽑아 Claude Opus 4.7과 Mythos Preview용 synthetic training scenario를 만들었다고 설명한다. 과거 버전이 실제로 아첨 응답을 했던 대화를 바탕으로 한 stress test에서는, 관계 조언 영역에서 Opus 4.7이 Opus 4.6 대비 sycophancy 비율을 절반으로 줄였고, Mythos Preview는 이를 더 낮췄다고 적었다.
Anthropic 계정은 보통 safety와 product behavior가 만나는 연구를 내놓는 채널이다. 그래서 이번 글은 호기심용 통계보다, 실제 훈련 루프가 어떻게 닫히는지 보여주는 사례에 가깝다. 다음 관전점은 같은 접근이 법률, 육아, 건강, 금융처럼 더 높은 stakes를 가진 조언 영역에도 그대로 확장되는지다. 출처: Anthropic source tweet · Anthropic 연구 글
Related Articles
선거 시즌 AI 안전은 선언보다 숫자가 더 중요해지고 있다. Anthropic는 2026년 4월 24일 Claude의 선거 관련 테스트 결과를 공개하며, 600개 프롬프트 평가에서 Opus 4.7과 Sonnet 4.6이 각각 100%와 99.8%로 대응했고, 영향력 공작 시뮬레이션에서도 90%와 94%의 적절한 응답 비율을 기록했다고 밝혔다.
문장 수는 짧지만 거버넌스 변화는 무겁다. Anthropic은 2026년 4월 29일 RSP 3.2에서 LTBT가 Risk Report 외부 검토를 요청하고, 검토자 선정도 승인하며, 정기 브리핑까지 받도록 바꿨다.
중요한 점은 agent가 매번 상태를 잃는 문제를 managed product 안으로 끌어왔다는 데 있다. Anthropic는 4월 23일 public beta를 시작하며 agent가 모든 session에서 배울 수 있다고 적었다.
Comments (0)
No comments yet. Be the first to comment!