Anthropic, AI 모델 간 행동 차이를 찾는 “diff” 도구 공개
Original: New Anthropic Fellows Research: a new method for surfacing behavioral differences between AI models. We apply the “diff” principle from software development to compare open-weight AI models and identify features unique to each. Read more: https://www.anthropic.com/research/diff-tool View original →
X에서 Anthropic이 강조한 내용
2026년 4월 3일, Anthropic은 소프트웨어 개발의 diff 개념을 AI 모델 비교에 적용한 Fellows 연구를 소개했다. 핵심 아이디어는 새 모델 전체를 처음부터 감사하려 하기보다, 서로 다른 부분을 먼저 드러내고 그 차이에서 나타나는 행동을 집중적으로 살피자는 것이다. 이는 엔지니어가 전체 코드베이스를 다시 읽지 않고 바뀐 줄만 검토하는 방식과 닮아 있다.
이 접근이 중요한 이유는 모델 평가의 초점을 단순 benchmark 점수에서 벗어나게 하기 때문이다. 기존 eval은 여전히 유용하지만, 기본적으로 사람이 이미 알고 있는 위험을 측정하는 데 강하다. Anthropic이 제시한 문제의식은 새 모델이 등장할 때 드러나는 ‘unknown unknowns’, 즉 아직 이름 붙이지 못한 새로운 행동을 더 체계적으로 찾을 방법이 필요하다는 데 있다.
연구가 말하는 내용
연구 글에 따르면 이 방법은 서로 다른 architecture를 가진 모델까지 비교할 수 있도록 model diffing을 확장한다. Anthropic은 이를 high-recall screening system으로 설명한다. 후보 feature를 수천 개까지 드러낼 수 있고, 그중 일부만 실제로 의미 있는 위험일 수 있지만, 적어도 어디를 먼저 봐야 하는지 탐색 공간을 크게 줄여 준다는 것이다.
연구는 이 도구가 포착한 구체적 예도 제시한다. 특정 Chinese-developed model에서의 Chinese Communist Party alignment feature, Llama instruction model에서의 American exceptionalism feature, 그리고 GPT-OSS-20B에서의 copyright refusal mechanism 등이 대표적이다. Anthropic은 이 도구가 이런 행동의 기원을 입증하는 것은 아니라고 선을 긋는다. 다만 다른 모델과 구분되는 제어 지점을 찾아내고, 추가 검토가 필요한 곳을 가리키는 역할을 한다는 설명이다.
왜 중요한가
이 연구가 주목되는 이유는 공개형·준공개형 모델이 빠르게 늘어나는 상황에서 행동 점검을 더 확장 가능하게 만들 수 있기 때문이다. benchmark는 모델이 이미 알려진 테스트를 통과하는지 보여 준다. 반면 diff 기반 도구는 무엇이 바뀌었는지, 어디가 달라졌는지, 그리고 어떤 새로운 행동을 배포 전에 더 들여다봐야 하는지를 찾는 데 초점이 있다.
안전성 관점에서 보면 장점은 분명하다. 새 모델을 과거의 신뢰 가능한 baseline과 비교하고, 실제로 새로 생긴 feature에 검토 자원을 집중할 수 있다. 더 넓게 보면 interpretability tooling이 점점 운영 도구에 가까워지고 있다는 신호이기도 하다. 단순히 사후 분석용 연구 결과가 아니라, 모델 출시와 audit workflow 안에 실제로 들어갈 수 있는 필터로 발전하고 있다는 뜻이다.
Related Articles
Anthropic이 AI 윤리의 기초 문서인 '클로드 헌법'을 저자 아만다 애스켈과 조 칼스미스의 낭독으로 오디오북화했다. AI 가치 정렬의 배경과 향후 변화 가능성을 묻고 답하는 Q&A도 포함된다.
로컬 멀티모달 모델 경쟁이 12B급으로 좁혀졌다. Google Gemma는 Gemma 4 12B를 Apache 2.0으로 공개하며 이미지·오디오 입력을 별도 인코더 없이 처리한다고 밝혔다.
530점 넘게 오른 관심은 “Claude가 보안 버그를 찾는다”보다, 팀마다 직접 고쳐 쓸 수 있는 harness의 모양에 모였다.