Skip to content

잊었다는 AI, 정말 지웠나… Google 새 감사법은 수천 샘플로 잡아낸다

Original: New framework for auditing machine unlearning View original →

Read in other languages: English日本語
AI Jun 11, 2026 By Insights AI 1 min read Source

AI가 특정 데이터를 “잊었다”고 말할 때, 이제 질문은 지웠는지가 아니라 증명할 수 있는지다. Google Research는 2026년 6월 10일 machine unlearning과 differential privacy 감사를 더 민감하게 만드는 Regularized f-Divergence Kernel Tests 프레임워크를 공개했다. 핵심은 모델 내부나 원본 학습 데이터에 접근하지 못하는 감사자가 출력 샘플만으로도 privacy violation을 더 적은 비용으로 잡아내는 방법이다.

Google Research 글에 따르면 machine unlearning은 모델을 처음부터 다시 학습시키지 않고 특정 학습 데이터를 제거하려는 기술이다. GDPR의 Right to be Forgotten 같은 요구와 맞물려 중요해졌지만, 실제 검증은 어렵다. 거대 모델의 출력은 노이즈가 많고 복잡해, 전통적인 two-sample test는 많은 샘플을 요구하거나 국소적인 차이를 놓칠 수 있다.

Google은 AISTATS 2026에서 공개한 새 프레임워크가 f-divergence와 kernel regularization을 결합한다고 설명했다. Chi-squared, KL divergence, hockey-stick divergence처럼 서로 다른 종류의 차이에 민감한 통계량을 활용하고, hyperparameter 선택 부담을 줄이는 adaptive testing 접근을 쓴다.

결과에서 눈에 띄는 숫자는 sample count다. privacy auditing 실험에서 hockey-stick divergence 기반 tester는 특정 sparse vector technique mechanism인 SVT3의 위반을 수천 샘플만으로 탐지했는데, 이전 DP-Auditorium 계열 방식은 비슷한 detection rate를 근사하는 데 수백만 샘플이 필요했다고 Google은 밝혔다.

unlearning 평가도 흥미롭다. Google은 단순히 안전한 retrained model과 unlearned model을 비교하는 two-sample 방식이 안전한 모델까지 실패로 오인할 수 있다고 봤다. 대신 unlearned model이 compromised model보다 safe gold standard에 더 가까운지를 보는 three-sample relative test를 제안했다. 단순화된 실험에서는 random label technique만 통과했고, finetuning, pruning, Selective Synaptic Dampening은 표적 데이터를 충분히 잊지 못한 것으로 나타났다.

이 연구는 곧바로 제품 규칙을 바꾸지는 않는다. 하지만 “삭제 요청을 처리했다”는 주장에 수학적 감사 가능성을 요구하는 흐름을 강화한다. 민감한 데이터로 학습하는 AI 서비스일수록 unlearning은 기능이 아니라 검증 가능한 책임이 된다.

Share: Long

Related Articles