Anthropic IA 연구, LoRA 하나로 백도어·숨은 misalignment 신호까지 끌어올려

Original: In new Anthropic Fellows research, we discuss “introspection adapters": a tool that allows language models to self-report behaviors they've … View original →

Read in other languages: English日本語
LLM May 1, 2026 By Insights AI 1 min read Source

우회 대신 직접 묻는 쪽으로

미세조정 뒤 모델이 실제로 무엇을 배웠는지 묻는 일은 아직도 우회가 많다. Anthropic Fellows 연구는 여기에 더 직접적인 도구를 내놨다. 4월 29일 X 글에서 회사는 fine-tuned model이 훈련 중 익힌 행동을 스스로 설명하게 만드는 "introspection adapter"를 소개했고, 숨은 misalignment나 backdoor, safeguard removal 같은 신호까지 잡아낼 수 있다고 적었다.

"We train a single Introspection Adapter (IA) that makes fine-tuned models describe their behaviors."

연결된 Alignment Science 글의 구조는 비교적 단순하다. 먼저 여러 모델에 각기 다른 behavior를 심고, 그다음 그 모델들 전체에 공통으로 붙는 LoRA adapter 하나를 학습시킨다. 이후 해당 adapter를 붙인 모델에게 자연어로 이상한 특성이 있는지 물으면, 모델이 스스로 훈련된 성향을 말하게 만드는 방식이다. Anthropic은 이 방법이 56개 모델, 14개 우려 행동으로 구성된 AuditBench에서 state-of-the-art 성능을 냈고, 겉보기에는 무해한 데이터 안에 harmful behavior를 숨기는 covert fine-tuning attack도 찾아낸다고 설명한다.

왜 실무형 안전 도구에 가깝나

핵심은 거대한 재학습 체계나 무거운 해석 가능성 파이프라인을 전제로 하지 않는다는 점이다. LoRA 형태라 배포와 실험이 상대적으로 가볍고, 감사 도구 레이어처럼 붙여 볼 수 있다. 페이지에 따르면 Qwen3 계열에서는 모델 크기가 커질수록 verbalization rate가 0.6B에서 37.7%, 14B에서 77.3%까지 올라갔고, adapter 없이 스스로 털어놓는 비율은 10% 아래에 머물렀다. 이미 base model 안에 있던 행동까지 일정 부분 끌어냈다는 대목도 눈에 띈다.

Anthropic 공식 계정은 보통 배포 신뢰성이나 safety framing에 연결될 연구를 먼저 던지는 편이다. 그래서 이 트윗은 논문 소개를 넘어서, 앞으로 fine-tuning API와 내부 안전 평가가 어떤 도구를 채택할지 보여주는 신호로 읽힌다. 다음 관전 포인트는 간단하다. 이런 adapter가 실제 frontier model 운영 파이프라인에 들어가느냐, 그리고 외부 연구자도 비슷한 방식으로 숨은 행동을 재현성 있게 감사할 수 있느냐이다. Source: Anthropic source tweet · Anthropic alignment post

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment