FDM-1: 1,100만 시간 비디오로 학습한 범용 computer action 모델 공개
Original: The First Fully General Computer Action Model View original →
핵심 발표
Hacker News에 오른 "The First Fully General Computer Action Model" 글은 Standard Intelligence의 FDM-1 공개를 다룬다. 공개 설명에 따르면 FDM-1은 30 FPS 비디오를 직접 처리하는 computer action foundation model이며, 복잡한 웹 탐색, Blender 기반 CAD 동작, 장기 GUI 상호작용 같은 연속 작업을 목표로 설계됐다. 회사는 데이터 규모를 1,100만 시간(screen recording) 수준으로 제시했다.
기존 screenshot 중심 접근과 달리, FDM-1은 장시간 문맥을 유지하는 video-native 경로를 강조한다. 이는 tool orchestration보다 "행동 시퀀스 자체"를 학습 대상으로 삼겠다는 접근에 가깝다.
학습 파이프라인
공개 문서에는 3단계 recipe가 제시된다. 먼저 약 40,000시간의 라벨 데이터로 inverse dynamics model(IDM)을 학습한다. 다음으로 IDM을 이용해 대규모 비디오 코퍼스를 자동 라벨링한다. 마지막으로 forward dynamics model(FDM)을 next-action prediction으로 학습한다. 즉, contractor 라벨 의존도를 줄이면서도 action token 품질을 확보하려는 구조다.
또한 문서에는 비디오 인코더 효율 지표가 포함된다. 30 FPS 비디오 약 2시간을 1M token 수준으로 압축하며, 이전 방식 대비 큰 token efficiency 개선을 주장한다. 장기 작업에서 context window 한계를 줄이려는 의도가 분명하다.
데모와 의미
데모 항목에는 CAD 조작, GUI fuzzing, 그리고 실제 차량 조향 인터페이스 시나리오가 포함된다. 특히 self-driving 데모는 1시간 미만 fine-tuning 데이터 이후 블록 주행 턴 제어를 수행했다고 기술한다. 평가 인프라는 80,000개 forking VM과 시간당 100만 회 이상 rollout을 처리하도록 구성됐다고 밝힌다.
다만 현재 수치는 대부분 발표 주체의 자체 보고치다. 따라서 재현성 검증과 독립 벤치마크 비교가 뒤따라야 한다. 그럼에도 이번 공개는 computer use 경쟁이 screenshot VLM 보조 단계를 넘어, 장문맥 video-action pretraining 중심으로 이동하고 있음을 보여준다. agent 제품의 다음 경쟁축이 데이터 규모와 평가 인프라로 확장되고 있다는 점에서 의미가 크다.
Related Articles
Perplexity는 이제 Perplexity Computer를 텍스트뿐 아니라 음성으로도 조종할 수 있다고 밝혔다. 진행 중인 작업을 말로 수정하고 방향을 바꾸는 spoken control loop가 web 기반 agent workflow에 들어온 셈이다.
OpenAI는 X에서 Codex Security의 research preview 시작을 알렸다. OpenAI는 이를 복잡한 취약점을 더 적은 noise로 탐지·검증·패치할 수 있는 application security agent로 설명한다.
OpenAI는 3월 9일 X에서 AI security platform Promptfoo를 인수할 계획이라고 밝혔다. Promptfoo는 open source를 유지하며, 이번 거래는 OpenAI Frontier의 agentic testing·evaluation stack을 강화하는 방향이다.
Comments (0)
No comments yet. Be the first to comment!