VeridisQuo, spatial+frequency 융합으로 deepfake를 탐지하고 조작 영역을 보여주는 오픈소스 모델
Original: [P] VeridisQuo - open-source deepfake detector that combines spatial + frequency analysis and shows you where the face was manipulated View original →
r/MachineLearning에서 공유된 VeridisQuo는 deepfake video detection을 보다 설명 가능하게 만들려는 student project다. 대부분의 detector가 pixel-level visual cue에 집중하는 반면, 이 프로젝트는 generator가 남기는 compression artifact와 spectral inconsistency도 함께 보아야 한다는 문제의식에서 출발한다. 그래서 spatial stream과 frequency stream을 동시에 돌리고, 최종적으로는 “이 얼굴이 왜 fake로 분류되었는가”까지 시각화하려 한다.
README와 작성자의 설명에 따르면 spatial 쪽은 ImageNet pretrained EfficientNet-B4를 사용해 1792차원 특징을 추출한다. frequency 쪽은 입력 얼굴 crop에 대해 FFT와 DCT를 각각 계산해 512차원 벡터 두 개를 만들고, 이를 작은 MLP로 1024차원 표현으로 융합한다. 이후 spatial 1792와 frequency 1024를 합쳐 총 2816차원 입력을 classifier MLP에 넣는다. 전체 파라미터 규모는 약 25.05M이다.
- 입력은 224x224 RGB face crop이다.
- 데이터셋은 FaceForensics++(C23) 기반 전처리 데이터로 약 716,438장의 얼굴 이미지를 포함한다.
- 전처리 과정은 1 FPS frame extraction, YOLOv11n face detection, padding이 포함된 crop으로 구성된다.
- 추론 결과와 함께 GradCAM heatmap을 원본 video 위에 다시 매핑해 조작 의심 부위를 보여준다.
이 프로젝트에서 특히 중요한 부분은 explainability다. deepfake detector는 benchmark에서는 좋아 보여도 실제 영상에서는 어떤 artifact에 반응하는지 해석하기 어려운 경우가 많다. VeridisQuo는 EfficientNet 쪽의 activation을 GradCAM으로 시각화하고 이를 원본 frame으로 remap해, 모델이 얼굴 경계나 jawline 같은 영역에 주목했는지 확인할 수 있게 한다. 이 접근이 완전한 검증은 아니지만, 적어도 모델이 전혀 엉뚱한 배경 신호에 반응하는지 살펴볼 수 있게 해 준다.
작성자들은 약 96% test accuracy와 7-8% 정도 false positive rate를 공유하면서도, 임의의 real-world video에서는 fake 쪽으로 다소 과하게 기울 수 있다고 솔직히 적었다. 이 점은 오히려 프로젝트의 신뢰도를 높인다. curated benchmark와 open-world deployment 사이의 generalization gap을 감추지 않았기 때문이다. 연구 커뮤니티 입장에서는 이런 투명성이야말로 후속 평가와 개선의 출발점이 된다.
원문 커뮤니티 글은 r/MachineLearning에서 볼 수 있고, 원 프로젝트는 GitHub 저장소와 Hugging Face demo에 공개되어 있다.
Related Articles
이미지 생성 모델이 시각 이해의 중심으로 들어왔다. DeepMind는 Nano Banana Pro 기반 Vision Banana가 소규모 instruction tuning만으로 Segment Anything, Depth Anything 계열과 겨루며 여러 2D·3D 과제에서 state-of-the-art 성능을 냈다고 소개했다.
xAI가 Grok Imagine의 Quality mode에서 세계 지식과 프롬프트 이해력을 강화했다고 설명했다. 회사는 복잡한 장면, 물리 법칙, 객체 관계, 브랜드·지역·문화 참조를 더 정확히 해석할 수 있다고 주장한다.
Meta는 2026년 3월 27일 SAM 3.1을 SAM 3의 drop-in update로 공개하며 object multiplexing으로 video processing efficiency를 높였다고 밝혔다. 프로젝트 release note에 따르면 이 업데이트는 shared-memory 기반 joint multi-object tracking, 새 checkpoint, 그리고 2025년 11월 공개된 SAM 3 대비 single H100에서 object 128개 기준 약 7배 속도 향상을 포함한다.
Comments (0)
No comments yet. Be the first to comment!