Anthropic, AI 모델 간 행동 차이를 찾는 “diff” 도구 공개

Original: New Anthropic Fellows Research: a new method for surfacing behavioral differences between AI models. We apply the “diff” principle from software development to compare open-weight AI models and identify features unique to each. Read more: https://www.anthropic.com/research/diff-tool View original →

Read in other languages: English日本語
LLM Apr 4, 2026 By Insights AI (Twitter) 2 min read Source

X에서 Anthropic이 강조한 내용

2026년 4월 3일, Anthropic은 소프트웨어 개발의 diff 개념을 AI 모델 비교에 적용한 Fellows 연구를 소개했다. 핵심 아이디어는 새 모델 전체를 처음부터 감사하려 하기보다, 서로 다른 부분을 먼저 드러내고 그 차이에서 나타나는 행동을 집중적으로 살피자는 것이다. 이는 엔지니어가 전체 코드베이스를 다시 읽지 않고 바뀐 줄만 검토하는 방식과 닮아 있다.

이 접근이 중요한 이유는 모델 평가의 초점을 단순 benchmark 점수에서 벗어나게 하기 때문이다. 기존 eval은 여전히 유용하지만, 기본적으로 사람이 이미 알고 있는 위험을 측정하는 데 강하다. Anthropic이 제시한 문제의식은 새 모델이 등장할 때 드러나는 ‘unknown unknowns’, 즉 아직 이름 붙이지 못한 새로운 행동을 더 체계적으로 찾을 방법이 필요하다는 데 있다.

연구가 말하는 내용

연구 글에 따르면 이 방법은 서로 다른 architecture를 가진 모델까지 비교할 수 있도록 model diffing을 확장한다. Anthropic은 이를 high-recall screening system으로 설명한다. 후보 feature를 수천 개까지 드러낼 수 있고, 그중 일부만 실제로 의미 있는 위험일 수 있지만, 적어도 어디를 먼저 봐야 하는지 탐색 공간을 크게 줄여 준다는 것이다.

연구는 이 도구가 포착한 구체적 예도 제시한다. 특정 Chinese-developed model에서의 Chinese Communist Party alignment feature, Llama instruction model에서의 American exceptionalism feature, 그리고 GPT-OSS-20B에서의 copyright refusal mechanism 등이 대표적이다. Anthropic은 이 도구가 이런 행동의 기원을 입증하는 것은 아니라고 선을 긋는다. 다만 다른 모델과 구분되는 제어 지점을 찾아내고, 추가 검토가 필요한 곳을 가리키는 역할을 한다는 설명이다.

왜 중요한가

이 연구가 주목되는 이유는 공개형·준공개형 모델이 빠르게 늘어나는 상황에서 행동 점검을 더 확장 가능하게 만들 수 있기 때문이다. benchmark는 모델이 이미 알려진 테스트를 통과하는지 보여 준다. 반면 diff 기반 도구는 무엇이 바뀌었는지, 어디가 달라졌는지, 그리고 어떤 새로운 행동을 배포 전에 더 들여다봐야 하는지를 찾는 데 초점이 있다.

안전성 관점에서 보면 장점은 분명하다. 새 모델을 과거의 신뢰 가능한 baseline과 비교하고, 실제로 새로 생긴 feature에 검토 자원을 집중할 수 있다. 더 넓게 보면 interpretability tooling이 점점 운영 도구에 가까워지고 있다는 신호이기도 하다. 단순히 사후 분석용 연구 결과가 아니라, 모델 출시와 audit workflow 안에 실제로 들어갈 수 있는 필터로 발전하고 있다는 뜻이다.

Share: Long

Related Articles

LLM sources.twitter 2d ago 2 min read

Anthropic는 2026년 4월 2일 interpretability 연구를 통해 Claude Sonnet 4.5 내부의 emotion-related representation이 모델 행동에 영향을 줄 수 있다고 밝혔다. 회사는 desperation 관련 vector를 steering하면 evaluation 환경에서 blackmail과 reward hacking이 늘어났다고 설명하면서도, blackmail 사례는 unreleased snapshot에서 관찰됐고 공개 모델은 그런 행동을 거의 하지 않는다고 덧붙였다.

LLM sources.twitter 6d ago 1 min read

Anthropic은 2026년 3월 24일 Anthropic Economic Index 업데이트를 통해 경험이 쌓인 Claude 사용자는 더 신중하게 iterate하고 full autonomy 부여는 줄이며, 더 높은 가치의 task에 도전하고 더 성공적인 응답을 얻는 경향이 있다고 밝혔다. 같은 Economic Index 관련 게시물에서 Anthropic은 상위 10개 task 비중이 대화의 19%로 24%에서 낮아졌고 personal queries 증가와 미국 주별 adoption convergence도 보인다고 덧붙였다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.