Redditプロジェクト観測: VeridisQuoがEfficientNet・FFT・DCTを組み合わせた説明可能なdeepfake検出器
Original: [P] VeridisQuo - open-source deepfake detector that combines spatial + frequency analysis and shows you where the face was manipulated View original →
今週のr/MachineLearningで100ポイントを超えたプロジェクト投稿のひとつがVeridisQuoだった。これはtwo-stream設計を軸にしたオープンソースのdeepfake detectorとして紹介されている。コミュニティ向けのショーケース投稿としては珍しく、model architecture、training data、hardware budget、そして改変領域をどう可視化するかまで比較的詳しく公開している点が目を引いた。
中心となる発想は、従来のspatial featuresとfrequency-domain cuesを組み合わせることにある。投稿者によれば、VeridisQuoはspatial branchでEfficientNet-B4 backboneを使い、各face cropから1792-dimensional representationを生成する。一方のfrequency moduleは、radial binningとHann windowを使ったFFT featuresと、8x8 blocksベースのDCT featuresを計算する。この2つの512-dimensional vectorsはMLPで1024-dimensional representationにfusionされ、その後spatial branchと連結されて2816-dimensional classifier inputになる。
外部から見てプロジェクトを評価しやすくしているのはexplainability設計だ。VeridisQuoはEfficientNet backbone上でGradCAM heatmapsを計算し、それを元のvideo framesへ再マッピングする。これにより、検出器が顔のどの領域を手掛かりに判断したのかを利用者が直接確認できる。投稿者は、モデルがblending boundariesやjawline周辺をよく強調すると述べており、これはcompressedまたはcompositedなdeepfake footageでよく見られるlocal artifactsと整合的だ。
Training setupもかなり具体的である。プロジェクトはFaceForensics++ (C23)を使い、Face2Face、FaceShifter、FaceSwap、NeuralTexturesを含む。Framesは1 FPSで抽出され、facesはYOLOv11nで検出され、最終的なtraining setはおよそ716K face imagesに達したという。Trainingはrented RTX 3090上で7 epochs、約4時間で実行され、AdamW、cosine annealing、CrossEntropyLossが使われた。投稿者の主張は、frequency branch単体ではspatial backboneを上回らないが、pixel-level artifactsが見えにくいhigher-quality fakesではfused modelがより効果を発揮するというものだ。
この投稿がRedditで支持された理由もそこにある。多くのdeepfakeデモは定性的な出力だけで終わるが、VeridisQuoは、圧縮video artifactsの一部はfrequency domainに存在し、それをspatial featuresと融合し、visual explanationsと組み合わせることで検出器が強くなるという読みやすいarchitectural hypothesisを提示している。GitHub repositoryとHugging Face demoが公開されているため、ほかの実務者もこのtradeoffが元のtraining setの外でも成り立つかを検証しやすい。
Related Articles
r/MachineLearningで共有された VeridisQuo は、EfficientNet-B4 の spatial stream と FFT/DCT の frequency feature を組み合わせ、GradCAM で顔のどこが deepfake 判定に効いたかを可視化する。
Hacker Newsで注目されたLoGeRは、Google DeepMindとUC Berkeleyによる長文脈3D再構成モデルで、hybrid memoryによって後処理最適化なしで非常に長い動画を扱うとする。
Microsoft Threat Intelligenceは2026年3月6日、攻撃者が調査、phishing、malware開発、侵害後分析までAIを活用していると報告した。AIはまだ大規模な完全自律侵入を実現していないが、攻撃の速度・規模・持続性をすでに押し上げているという整理だ。
Comments (0)
No comments yet. Be the first to comment!