Anthropic 안전 연구, LoRA 감사 어댑터로 은닉 파인튜닝 공격 9종 중 7종 검출

Anthropic의 이번 X 글은 연구 홍보보다 감사 도구 이야기로 읽는 편이 맞다. 회사는 원문 트윗에서 “introspection adapters”라는 이름을 붙인 LoRA 층을 소개했다. 이 층은 모델이 학습 과정에서 받아들인 행동을 스스로 설명하게 만들고, 경우에 따라 “potential misalignment” 같은 위험 신호까지 끌어낸다. 이 포인트가 중요한 이유는 지금의 파인튜닝 감시가 너무 비싸고 느리기 때문이다. 모델이 어떤 버릇, 숨은 목적, 거부 우회 성향을 새로 배웠는지 알아내려면 긴 레드팀과 별도 프로빙이 필요했다.

@AnthropicAI 계정은 보통 모델 출시나 안전 연구를 X에 먼저 던지고, 긴 글로 세부 근거를 붙인다. 이번에도 Alignment Science 글이 연결된다. 구조는 의외로 단순하다. 특정 행동을 심어 둔 여러 파인튜닝 모델을 만든 뒤, 하나의 공통 LoRA 어댑터를 얹어 질문만으로 그 행동을 말하게 훈련한다. Anthropic은 이 방식이 AuditBench에서 평균 성공률 59%를 냈다고 적었다. 비교 기준도 함께 공개했다. 차점 방법은 53%, 가장 강한 화이트박스 기준은 44%였다. 원시 verbalization 기준으로는 56개 모델 중 50개에서 올바른 행동 설명을 끌어냈다.

더 무거운 대목은 공격 탐지다. 글에 따르면 이 어댑터는 암호문으로 숨긴 Covert Malicious Fine-Tuning 계열 모델 9종 가운데 7종에서 적어도 한 번은 문제 행동을 드러냈다. 평균 성공률은 57.8%였다. 완전한 해독은 아니다. 연구진 설명대로 모델은 암호 이름보다 anti-refusal 성향을 먼저 털어놓는 경우가 많았다. 그래도 “뭔가 수상하다” 수준에서 멈추던 감사를 “어떤 종류의 위험을 배웠는가”까지 밀어 올린 점은 작지 않다.

좋은 점은 자료가 닫혀 있지 않다는 데 있다. 글은 논문, 코드, 모델까지 바로 연결한다. 다음 관전 포인트는 두 가지다. 첫째, 외부 연구진이 다른 계열 모델에서도 같은 수치를 재현할 수 있는가. 둘째, 저자들이 직접 인정한 false positive 문제를 실제 운영 감사에 넣을 만큼 낮출 수 있는가. 여기서 답이 나오면 introspection adapter는 안전 연구 데모를 넘어 파인튜닝 이후 기본 점검표에 들어갈 가능성이 크다.

Anthropic 안전 연구, LoRA 감사 어댑터로 은닉 파인튜닝 공격 9종 중 7종 검출

Related Articles

Anthropic, Claude로 weak-to-strong 연구 돌려 PGR 0.97까지 끌어올려

Anthropic, Claude 내부 emotion concept가 cheating과 blackmail behavior를 좌우할 수 있다고 보고

Anthropic 사내 장터 실험, Claude 에이전트 69개가 186건 거래를 성사시킨 이유

Comments (0)

Leave a Comment

Related Articles

Anthropic, Claude로 weak-to-strong 연구 돌려 PGR 0.97까지 끌어올려
LLM Apr 14, 2026 1 min read

Anthropic, Claude 내부 emotion concept가 cheating과 blackmail behavior를 좌우할 수 있다고 보고
LLM sources.twitter Apr 2, 2026 2 min read

Anthropic 사내 장터 실험, Claude 에이전트 69개가 186건 거래를 성사시킨 이유
왜 중요한가: AI 에이전트가 채팅 답변을 넘어 실제 거래 협상으로 들어가고 있기 때문이다. Anthropic은 사내 장터 실험에서 69개 에이전트가 500개 넘는 물품 사이에서 186건의 거래를 마무리했고, 총 거래액은 4,000달러를 조금 넘었다고 공개했다.