VeridisQuo、spatial+frequency 融合で deepfake を検出し改変領域も可視化
Original: [P] VeridisQuo - open-source deepfake detector that combines spatial + frequency analysis and shows you where the face was manipulated View original →
VeridisQuoは、deepfake video detection をより説明可能にしようとする student project だ。多くの detector は pixel-level の visual cue を主に見るが、生成動画には compression artifact や spectral inconsistency のような frequency-domain の痕跡も残る。VeridisQuo はこの前提から、spatial stream と frequency stream を組み合わせ、さらにモデルがどこを根拠に fake と判断したかまで見せようとしている。
README と r/MachineLearning の投稿によれば、spatial branch には ImageNet pretrained の EfficientNet-B4 を使い、1792 次元の表現を得る。frequency branch では各 face crop に対して FFT と DCT を計算し、512 次元ベクトルを 2 本作ってから小さな MLP で 1024 次元へ融合する。最後に spatial 1792 と frequency 1024 を結合し、合計 2816 次元を classifier MLP に入力する。全体の parameter 数はおよそ 25.05M とされている。
- 入力は 224x224 RGB の face crop。
- 学習データは FaceForensics++ (C23) ベースで、約 716,438 枚の顔画像を含む。
- 前処理は 1 FPS の frame extraction、YOLOv11n face detection、padding 付き crop で構成される。
- GradCAM heatmap を元の動画へ再マッピングし、改変が疑われる領域を表示する。
このリリースを面白くしているのは explainability の部分だ。deepfake detector は curated benchmark では高性能に見えても、実運用ではモデルが本当の改変痕跡を見ているのか、偶然の shortcut を拾っているのか判断しづらい。VeridisQuo は GradCAM を source frame に戻すことで、blend boundary や jaw 周辺など、もっともらしい領域に attention が集まっているかを確認しやすくする。
しかも著者は結果を過度に誇張していない。held-out test split では約 96% の accuracy と 7-8% 程度の false positive rate を共有しつつ、random な real-world video では “FAKE” 側に寄り過ぎる傾向があるとも書いている。この正直さは重要だ。benchmark と open-world deployment の間にある generalization gap を隠さず示しているからで、大学プロジェクトとしてもコミュニティにとって使いやすい出発点になっている。
コミュニティ投稿は r/MachineLearning、元プロジェクトは GitHub repository と Hugging Face demo で確認できる。
Related Articles
r/MachineLearningで支持を集めたVeridisQuoは、spatial signalとfrequency-domain signalを統合し、GradCAM heatmapを改変ビデオ上に重ねるオープンソースdeepfake detectorだ。単なるデモ映像ではなく、具体的なarchitectureとtraining detailsが共有されている点が特徴だ。
Hacker Newsで注目されたLoGeRは、Google DeepMindとUC Berkeleyによる長文脈3D再構成モデルで、hybrid memoryによって後処理最適化なしで非常に長い動画を扱うとする。
xAIはFeb 2, 2026、SpaceXがxAIを株式取引で買収し、xAIを$200 billion、SpaceXを$350 billionと評価したと発表した。今回の発表は、$20 billionのSeries E、Colossusの200,000 GPUs、end of 2026までに1 million GPUsを目指すroadmapと合わせて、xAIのmodel roadmapをより大きなinfrastructure計画に接続する意味を持つ。
Comments (0)
No comments yet. Be the first to comment!