FDM-1: 1,100만 시간 비디오로 학습한 범용 computer action 모델 공개

핵심 발표

Hacker News에 오른 "The First Fully General Computer Action Model" 글은 Standard Intelligence의 FDM-1 공개를 다룬다. 공개 설명에 따르면 FDM-1은 30 FPS 비디오를 직접 처리하는 computer action foundation model이며, 복잡한 웹 탐색, Blender 기반 CAD 동작, 장기 GUI 상호작용 같은 연속 작업을 목표로 설계됐다. 회사는 데이터 규모를 1,100만 시간(screen recording) 수준으로 제시했다.

기존 screenshot 중심 접근과 달리, FDM-1은 장시간 문맥을 유지하는 video-native 경로를 강조한다. 이는 tool orchestration보다 "행동 시퀀스 자체"를 학습 대상으로 삼겠다는 접근에 가깝다.

학습 파이프라인

공개 문서에는 3단계 recipe가 제시된다. 먼저 약 40,000시간의 라벨 데이터로 inverse dynamics model(IDM)을 학습한다. 다음으로 IDM을 이용해 대규모 비디오 코퍼스를 자동 라벨링한다. 마지막으로 forward dynamics model(FDM)을 next-action prediction으로 학습한다. 즉, contractor 라벨 의존도를 줄이면서도 action token 품질을 확보하려는 구조다.

또한 문서에는 비디오 인코더 효율 지표가 포함된다. 30 FPS 비디오 약 2시간을 1M token 수준으로 압축하며, 이전 방식 대비 큰 token efficiency 개선을 주장한다. 장기 작업에서 context window 한계를 줄이려는 의도가 분명하다.

데모와 의미

데모 항목에는 CAD 조작, GUI fuzzing, 그리고 실제 차량 조향 인터페이스 시나리오가 포함된다. 특히 self-driving 데모는 1시간 미만 fine-tuning 데이터 이후 블록 주행 턴 제어를 수행했다고 기술한다. 평가 인프라는 80,000개 forking VM과 시간당 100만 회 이상 rollout을 처리하도록 구성됐다고 밝힌다.

다만 현재 수치는 대부분 발표 주체의 자체 보고치다. 따라서 재현성 검증과 독립 벤치마크 비교가 뒤따라야 한다. 그럼에도 이번 공개는 computer use 경쟁이 screenshot VLM 보조 단계를 넘어, 장문맥 video-action pretraining 중심으로 이동하고 있음을 보여준다. agent 제품의 다음 경쟁축이 데이터 규모와 평가 인프라로 확장되고 있다는 점에서 의미가 크다.

출처: Standard Intelligence FDM-1 발표, Hacker News 토론

FDM-1: 1,100만 시간 비디오로 학습한 범용 computer action 모델 공개

핵심 발표

학습 파이프라인

데모와 의미

Related Articles

ParseBench, Kaggle에 2,000개 기업 문서·16.7만 OCR 규칙 공개…에이전트용 검증판

Meta, AWS Graviton 수천만 코어 투입… 에이전트형 AI의 CPU 병목 공략

Anthropic 69인 거래 실험, 강한 모델이 더 좋은 가격 챙긴 구조

Comments (0)

Leave a Comment

Related Articles

ParseBench, Kaggle에 2,000개 기업 문서·16.7만 OCR 규칙 공개…에이전트용 검증판

Meta, AWS Graviton 수천만 코어 투입… 에이전트형 AI의 CPU 병목 공략

Anthropic 69인 거래 실험, 강한 모델이 더 좋은 가격 챙긴 구조