VeridisQuo, spatial+frequency 융합으로 deepfake를 탐지하고 조작 영역을 보여주는 오픈소스 모델

r/MachineLearning에서 공유된 VeridisQuo는 deepfake video detection을 보다 설명 가능하게 만들려는 student project다. 대부분의 detector가 pixel-level visual cue에 집중하는 반면, 이 프로젝트는 generator가 남기는 compression artifact와 spectral inconsistency도 함께 보아야 한다는 문제의식에서 출발한다. 그래서 spatial stream과 frequency stream을 동시에 돌리고, 최종적으로는 “이 얼굴이 왜 fake로 분류되었는가”까지 시각화하려 한다.

README와 작성자의 설명에 따르면 spatial 쪽은 ImageNet pretrained EfficientNet-B4를 사용해 1792차원 특징을 추출한다. frequency 쪽은 입력 얼굴 crop에 대해 FFT와 DCT를 각각 계산해 512차원 벡터 두 개를 만들고, 이를 작은 MLP로 1024차원 표현으로 융합한다. 이후 spatial 1792와 frequency 1024를 합쳐 총 2816차원 입력을 classifier MLP에 넣는다. 전체 파라미터 규모는 약 25.05M이다.

입력은 224x224 RGB face crop이다.
데이터셋은 FaceForensics++(C23) 기반 전처리 데이터로 약 716,438장의 얼굴 이미지를 포함한다.
전처리 과정은 1 FPS frame extraction, YOLOv11n face detection, padding이 포함된 crop으로 구성된다.
추론 결과와 함께 GradCAM heatmap을 원본 video 위에 다시 매핑해 조작 의심 부위를 보여준다.

이 프로젝트에서 특히 중요한 부분은 explainability다. deepfake detector는 benchmark에서는 좋아 보여도 실제 영상에서는 어떤 artifact에 반응하는지 해석하기 어려운 경우가 많다. VeridisQuo는 EfficientNet 쪽의 activation을 GradCAM으로 시각화하고 이를 원본 frame으로 remap해, 모델이 얼굴 경계나 jawline 같은 영역에 주목했는지 확인할 수 있게 한다. 이 접근이 완전한 검증은 아니지만, 적어도 모델이 전혀 엉뚱한 배경 신호에 반응하는지 살펴볼 수 있게 해 준다.

작성자들은 약 96% test accuracy와 7-8% 정도 false positive rate를 공유하면서도, 임의의 real-world video에서는 fake 쪽으로 다소 과하게 기울 수 있다고 솔직히 적었다. 이 점은 오히려 프로젝트의 신뢰도를 높인다. curated benchmark와 open-world deployment 사이의 generalization gap을 감추지 않았기 때문이다. 연구 커뮤니티 입장에서는 이런 투명성이야말로 후속 평가와 개선의 출발점이 된다.

원문 커뮤니티 글은 r/MachineLearning에서 볼 수 있고, 원 프로젝트는 GitHub 저장소와 Hugging Face demo에 공개되어 있다.

VeridisQuo, spatial+frequency 융합으로 deepfake를 탐지하고 조작 영역을 보여주는 오픈소스 모델

Related Articles

Vision Banana, 이미지 생성기를 범용 시각 모델로 바꾸는 전환점

xAI, Grok Imagine Quality mode의 세계 지식 강화 방식 설명

Meta, object multiplexing을 적용한 SAM 3.1 공개로 multi-object video tracking 가속

Comments (0)

Leave a Comment