FDM-1、1,100万時間の映像学習で汎用computer actionを狙う
Original: The First Fully General Computer Action Model View original →
発表の概要
Hacker Newsで話題になった「The First Fully General Computer Action Model」は、Standard IntelligenceによるFDM-1公開を扱う。説明では、FDM-1は30 FPS映像を直接扱うcomputer action foundation modelで、Web操作、複数手順のCAD操作、長時間のGUIタスクを単一系統で処理することを目標にしている。学習データ規模は1,100万時間のscreen recordingとされる。
ポイントは、screenshot中心の短文脈手法ではなく、video-nativeに時間連続性を保持したまま行動を学習する設計思想にある。
トレーニング構成
公開資料では3段階のrecipeが示される。まず約40,000時間のラベル付きデータでinverse dynamics model(IDM)を学習。次にIDMで大規模映像コーパスを自動ラベリング。最後にforward dynamics model(FDM)をnext-action predictionで学習する。人手ラベル依存を抑えつつ、行動トークンの質を確保する構造だ。
さらに、video encoderの効率として「30 FPS映像ほぼ2時間を約1M tokenで表現」と説明され、長文脈タスクでの実用性向上を訴求している。連続操作ではcontext保持が性能を左右するため、この主張は実務上の意味が大きい。
デモと今後の論点
デモにはBlenderでのCAD操作、GUI fuzzingによる不具合発見、そして短時間fine-tuning後の車両操作シナリオが含まれる。評価基盤については80,000台のforking VMで毎時100万超rolloutを実行できるとする。
ただし現時点の数値は主に発表元の自己報告であり、独立再現と共通ベンチマークでの検証が不可欠だ。それでも、この公開はcomputer use分野の重心が、少量教師データのtask特化から、映像大規模事前学習と評価インフラ競争へ移っていることを示す。今後はモデル単体の賢さだけでなく、データ生成、ラベリング品質、低遅延実行基盤まで含めた総合力が差別化軸になる可能性が高い。
Related Articles
PerplexityはPerplexity Computerをtextだけでなくvoiceでも操作できるようにしたと発表した。進行中のtaskを声で修正し、方向転換できるspoken control loopがwebベースのagent workflowに入った形だ。
OpenAIは3月9日にXで、AI security platform の Promptfoo を買収する計画を明らかにした。Promptfoo は open source を維持し、今回の取引は OpenAI Frontier の agentic testing・evaluation stack を強化する位置づけだ。
OpenAIとAmazonはFebruary 27, 2026、multi-year strategic partnershipを発表した。Amazonは総額$50 billionを投資し、両社はAmazon Bedrock向けstateful runtime、Frontier配信、約2 gigawattsのTrainium capacity拡張を進める。
Comments (0)
No comments yet. Be the first to comment!