잊었다는 AI, 정말 지웠나… Google 새 감사법은 수천 샘플로 잡아낸다
Original: New framework for auditing machine unlearning View original →
AI가 특정 데이터를 “잊었다”고 말할 때, 이제 질문은 지웠는지가 아니라 증명할 수 있는지다. Google Research는 2026년 6월 10일 machine unlearning과 differential privacy 감사를 더 민감하게 만드는 Regularized f-Divergence Kernel Tests 프레임워크를 공개했다. 핵심은 모델 내부나 원본 학습 데이터에 접근하지 못하는 감사자가 출력 샘플만으로도 privacy violation을 더 적은 비용으로 잡아내는 방법이다.
Google Research 글에 따르면 machine unlearning은 모델을 처음부터 다시 학습시키지 않고 특정 학습 데이터를 제거하려는 기술이다. GDPR의 Right to be Forgotten 같은 요구와 맞물려 중요해졌지만, 실제 검증은 어렵다. 거대 모델의 출력은 노이즈가 많고 복잡해, 전통적인 two-sample test는 많은 샘플을 요구하거나 국소적인 차이를 놓칠 수 있다.
Google은 AISTATS 2026에서 공개한 새 프레임워크가 f-divergence와 kernel regularization을 결합한다고 설명했다. Chi-squared, KL divergence, hockey-stick divergence처럼 서로 다른 종류의 차이에 민감한 통계량을 활용하고, hyperparameter 선택 부담을 줄이는 adaptive testing 접근을 쓴다.
결과에서 눈에 띄는 숫자는 sample count다. privacy auditing 실험에서 hockey-stick divergence 기반 tester는 특정 sparse vector technique mechanism인 SVT3의 위반을 수천 샘플만으로 탐지했는데, 이전 DP-Auditorium 계열 방식은 비슷한 detection rate를 근사하는 데 수백만 샘플이 필요했다고 Google은 밝혔다.
unlearning 평가도 흥미롭다. Google은 단순히 안전한 retrained model과 unlearned model을 비교하는 two-sample 방식이 안전한 모델까지 실패로 오인할 수 있다고 봤다. 대신 unlearned model이 compromised model보다 safe gold standard에 더 가까운지를 보는 three-sample relative test를 제안했다. 단순화된 실험에서는 random label technique만 통과했고, finetuning, pruning, Selective Synaptic Dampening은 표적 데이터를 충분히 잊지 못한 것으로 나타났다.
이 연구는 곧바로 제품 규칙을 바꾸지는 않는다. 하지만 “삭제 요청을 처리했다”는 주장에 수학적 감사 가능성을 요구하는 흐름을 강화한다. 민감한 데이터로 학습하는 AI 서비스일수록 unlearning은 기능이 아니라 검증 가능한 책임이 된다.
Related Articles
정밀 위치정보 판매를 막는 주 단위 개인정보 법안이 매사추세츠 하원에서 146-0으로 통과했다. 100,000명 이상 소비자 데이터를 다루는 기업이 적용 대상이라 광고·앱·데이터 브로커 업계의 데이터 거래 방식에 직접 압력이 간다.
MachineLearning 댓글은 “AI detector가 보조도구인지 결정권자인지”를 놓고 강하게 갈렸다.
HN 댓글은 solve rate보다 guardrail, 작업 방식, 보안 연구용 계정 조건이 결과를 얼마나 바꿨는지에 주목했다.