VeridisQuo、spatial+frequency 融合で deepfake を検出し改変領域も可視化
Original: [P] VeridisQuo - open-source deepfake detector that combines spatial + frequency analysis and shows you where the face was manipulated View original →
VeridisQuoは、deepfake video detection をより説明可能にしようとする student project だ。多くの detector は pixel-level の visual cue を主に見るが、生成動画には compression artifact や spectral inconsistency のような frequency-domain の痕跡も残る。VeridisQuo はこの前提から、spatial stream と frequency stream を組み合わせ、さらにモデルがどこを根拠に fake と判断したかまで見せようとしている。
README と r/MachineLearning の投稿によれば、spatial branch には ImageNet pretrained の EfficientNet-B4 を使い、1792 次元の表現を得る。frequency branch では各 face crop に対して FFT と DCT を計算し、512 次元ベクトルを 2 本作ってから小さな MLP で 1024 次元へ融合する。最後に spatial 1792 と frequency 1024 を結合し、合計 2816 次元を classifier MLP に入力する。全体の parameter 数はおよそ 25.05M とされている。
- 入力は 224x224 RGB の face crop。
- 学習データは FaceForensics++ (C23) ベースで、約 716,438 枚の顔画像を含む。
- 前処理は 1 FPS の frame extraction、YOLOv11n face detection、padding 付き crop で構成される。
- GradCAM heatmap を元の動画へ再マッピングし、改変が疑われる領域を表示する。
このリリースを面白くしているのは explainability の部分だ。deepfake detector は curated benchmark では高性能に見えても、実運用ではモデルが本当の改変痕跡を見ているのか、偶然の shortcut を拾っているのか判断しづらい。VeridisQuo は GradCAM を source frame に戻すことで、blend boundary や jaw 周辺など、もっともらしい領域に attention が集まっているかを確認しやすくする。
しかも著者は結果を過度に誇張していない。held-out test split では約 96% の accuracy と 7-8% 程度の false positive rate を共有しつつ、random な real-world video では “FAKE” 側に寄り過ぎる傾向があるとも書いている。この正直さは重要だ。benchmark と open-world deployment の間にある generalization gap を隠さず示しているからで、大学プロジェクトとしてもコミュニティにとって使いやすい出発点になっている。
コミュニティ投稿は r/MachineLearning、元プロジェクトは GitHub repository と Hugging Face demo で確認できる。
Related Articles
画像生成モデルが視覚理解の中心へ入ってきた。DeepMindはNano Banana ProベースのVision Bananaが、軽量なinstruction tuningだけでSegment Anything系やDepth Anything系と競り合い、複数の2D・3D課題でstate-of-the-artに達したと説明している。
xAIは、Grok ImagineのQuality modeで世界知識とprompt understandingが強化されると説明した。複雑なシーン、physics、object relationship、ブランドや地域・文化参照の解釈精度が高まるという。
Metaは2026年3月27日、SAM 3.1をSAM 3のdrop-in updateとして公開し、object multiplexingでvideo processing efficiencyを高めたと発表した。projectのrelease noteによれば、この更新はshared-memoryベースのjoint multi-object tracking、新checkpoint、そして2025年11月版SAM 3と比べてsingle H100で128 object時に約7倍の高速化を含む。
Comments (0)
No comments yet. Be the first to comment!