忘れたはずのAIを数千サンプルで監査、Googleのunlearning新手法

AIが特定データを「忘れた」と主張するとき、次に問われるのは証明できるかだ。Google Researchは2026年6月10日、machine unlearningとdifferential privacyを監査するためのRegularized f-Divergence Kernel Testsを公開した。モデル内部や元の学習データに触れられない監査者でも、出力サンプルだけで漏えいの兆候を見つけやすくする手法だ。

Google Researchの投稿によると、machine unlearningはモデルを最初から再学習せずに、特定の学習データの影響を取り除く技術だ。GDPRのRight to be Forgottenのような要求とも関係するが、実際に忘れたかどうかの検証は重い。大規模モデルの出力は複雑でノイズも多く、従来のtwo-sample testでは大量のサンプルが必要になったり、局所的な差分を見逃したりする。

GoogleがAISTATS 2026で示した枠組みは、f-divergenceとkernel regularizationを組み合わせる。Chi-squared、KL divergence、hockey-stick divergenceなど、異なる種類の分布差に強い統計量を使い分け、adaptive testingでhyperparameter調整の負担も減らす。

数字で目を引くのはサンプル効率だ。privacy auditingの実験では、hockey-stick divergenceベースのtesterがSVT3というsparse vector technique mechanismの違反を数千サンプルで検出した。一方、以前研究されたDP-Auditorium系の手法は、同程度の検出率に近づくために数百万サンプルを必要としたという。

unlearning評価では、Googleは安全に再学習したモデルとunlearned modelを単純比較するtwo-sample方式の限界を指摘する。代わりに、unlearned modelがcompromised modelよりsafe gold standardに近いかを見るthree-sample relative testを提案した。簡略化した評価ではrandom label techniqueだけが通過し、finetuning、pruning、Selective Synaptic Dampeningは対象データを十分に忘れられなかった。

これは製品認証そのものではない。ただし、機密データで学習するAIにとって「削除した」という説明だけでは足りなくなる流れを強める。unlearningは機能ではなく、監査可能な責任になりつつある。

忘れたはずのAIを数千サンプルで監査、Googleのunlearning新手法

Related Articles

ChatGPT Health、Apple Healthと医療記録を米国ユーザーに接続し個人データ活用へ

OpenAIとHugging Faceの評価事故、焦点はcyber benchmarkの隔離設計へ

拡散モデルの創造性、偶然ではなくscore smoothingの数学へ