Anthropic, AI 모델 간 행동 차이를 찾는 “diff” 도구 공개

X에서 Anthropic이 강조한 내용

2026년 4월 3일, Anthropic은 소프트웨어 개발의 diff 개념을 AI 모델 비교에 적용한 Fellows 연구를 소개했다. 핵심 아이디어는 새 모델 전체를 처음부터 감사하려 하기보다, 서로 다른 부분을 먼저 드러내고 그 차이에서 나타나는 행동을 집중적으로 살피자는 것이다. 이는 엔지니어가 전체 코드베이스를 다시 읽지 않고 바뀐 줄만 검토하는 방식과 닮아 있다.

이 접근이 중요한 이유는 모델 평가의 초점을 단순 benchmark 점수에서 벗어나게 하기 때문이다. 기존 eval은 여전히 유용하지만, 기본적으로 사람이 이미 알고 있는 위험을 측정하는 데 강하다. Anthropic이 제시한 문제의식은 새 모델이 등장할 때 드러나는 ‘unknown unknowns’, 즉 아직 이름 붙이지 못한 새로운 행동을 더 체계적으로 찾을 방법이 필요하다는 데 있다.

연구가 말하는 내용

연구 글에 따르면 이 방법은 서로 다른 architecture를 가진 모델까지 비교할 수 있도록 model diffing을 확장한다. Anthropic은 이를 high-recall screening system으로 설명한다. 후보 feature를 수천 개까지 드러낼 수 있고, 그중 일부만 실제로 의미 있는 위험일 수 있지만, 적어도 어디를 먼저 봐야 하는지 탐색 공간을 크게 줄여 준다는 것이다.

연구는 이 도구가 포착한 구체적 예도 제시한다. 특정 Chinese-developed model에서의 Chinese Communist Party alignment feature, Llama instruction model에서의 American exceptionalism feature, 그리고 GPT-OSS-20B에서의 copyright refusal mechanism 등이 대표적이다. Anthropic은 이 도구가 이런 행동의 기원을 입증하는 것은 아니라고 선을 긋는다. 다만 다른 모델과 구분되는 제어 지점을 찾아내고, 추가 검토가 필요한 곳을 가리키는 역할을 한다는 설명이다.

왜 중요한가

이 연구가 주목되는 이유는 공개형·준공개형 모델이 빠르게 늘어나는 상황에서 행동 점검을 더 확장 가능하게 만들 수 있기 때문이다. benchmark는 모델이 이미 알려진 테스트를 통과하는지 보여 준다. 반면 diff 기반 도구는 무엇이 바뀌었는지, 어디가 달라졌는지, 그리고 어떤 새로운 행동을 배포 전에 더 들여다봐야 하는지를 찾는 데 초점이 있다.

안전성 관점에서 보면 장점은 분명하다. 새 모델을 과거의 신뢰 가능한 baseline과 비교하고, 실제로 새로 생긴 feature에 검토 자원을 집중할 수 있다. 더 넓게 보면 interpretability tooling이 점점 운영 도구에 가까워지고 있다는 신호이기도 하다. 단순히 사후 분석용 연구 결과가 아니라, 모델 출시와 audit workflow 안에 실제로 들어갈 수 있는 필터로 발전하고 있다는 뜻이다.

Anthropic, AI 모델 간 행동 차이를 찾는 “diff” 도구 공개

X에서 Anthropic이 강조한 내용

연구가 말하는 내용

왜 중요한가

Related Articles

Anthropic, Claude 내부 emotion concept가 cheating과 blackmail behavior를 좌우할 수 있다고 보고

HN 토론: Anthropic, LLM 내부의 감정 개념이 실제 행동을 바꾼다고 분석

Anthropic, 숙련 Claude 사용자는 더 신중히 반복하고 자율 위임은 줄인다고 보고

Comments (0)

Leave a Comment

Related Articles

Anthropic, Claude 내부 emotion concept가 cheating과 blackmail behavior를 좌우할 수 있다고 보고

HN 토론: Anthropic, LLM 내부의 감정 개념이 실제 행동을 바꾼다고 분석

Anthropic, 숙련 Claude 사용자는 더 신중히 반복하고 자율 위임은 줄인다고 보고