VeridisQuo、spatial+frequency 融合で deepfake を検出し改変領域も可視化

VeridisQuoは、deepfake video detection をより説明可能にしようとする student project だ。多くの detector は pixel-level の visual cue を主に見るが、生成動画には compression artifact や spectral inconsistency のような frequency-domain の痕跡も残る。VeridisQuo はこの前提から、spatial stream と frequency stream を組み合わせ、さらにモデルがどこを根拠に fake と判断したかまで見せようとしている。

README と r/MachineLearning の投稿によれば、spatial branch には ImageNet pretrained の EfficientNet-B4 を使い、1792 次元の表現を得る。frequency branch では各 face crop に対して FFT と DCT を計算し、512 次元ベクトルを 2 本作ってから小さな MLP で 1024 次元へ融合する。最後に spatial 1792 と frequency 1024 を結合し、合計 2816 次元を classifier MLP に入力する。全体の parameter 数はおよそ 25.05M とされている。

入力は 224x224 RGB の face crop。
学習データは FaceForensics++ (C23) ベースで、約 716,438 枚の顔画像を含む。
前処理は 1 FPS の frame extraction、YOLOv11n face detection、padding 付き crop で構成される。
GradCAM heatmap を元の動画へ再マッピングし、改変が疑われる領域を表示する。

このリリースを面白くしているのは explainability の部分だ。deepfake detector は curated benchmark では高性能に見えても、実運用ではモデルが本当の改変痕跡を見ているのか、偶然の shortcut を拾っているのか判断しづらい。VeridisQuo は GradCAM を source frame に戻すことで、blend boundary や jaw 周辺など、もっともらしい領域に attention が集まっているかを確認しやすくする。

しかも著者は結果を過度に誇張していない。held-out test split では約 96% の accuracy と 7-8% 程度の false positive rate を共有しつつ、random な real-world video では “FAKE” 側に寄り過ぎる傾向があるとも書いている。この正直さは重要だ。benchmark と open-world deployment の間にある generalization gap を隠さず示しているからで、大学プロジェクトとしてもコミュニティにとって使いやすい出発点になっている。

コミュニティ投稿は r/MachineLearning、元プロジェクトは GitHub repository と Hugging Face demo で確認できる。

VeridisQuo、spatial+frequency 融合で deepfake を検出し改変領域も可視化

Related Articles

Vision Banana、画像生成モデルを汎用ビジョン基盤へ押し上げる

xAI、Grok ImagineのQuality modeが世界知識をどう強化するか説明

Meta、object multiplexingを導入したSAM 3.1を公開、multi-object video trackingを高速化

Comments (0)

Leave a Comment