FDM-1、1,100万時間の映像学習で汎用computer actionを狙う
Original: The First Fully General Computer Action Model View original →
発表の概要
Hacker Newsで話題になった「The First Fully General Computer Action Model」は、Standard IntelligenceによるFDM-1公開を扱う。説明では、FDM-1は30 FPS映像を直接扱うcomputer action foundation modelで、Web操作、複数手順のCAD操作、長時間のGUIタスクを単一系統で処理することを目標にしている。学習データ規模は1,100万時間のscreen recordingとされる。
ポイントは、screenshot中心の短文脈手法ではなく、video-nativeに時間連続性を保持したまま行動を学習する設計思想にある。
トレーニング構成
公開資料では3段階のrecipeが示される。まず約40,000時間のラベル付きデータでinverse dynamics model(IDM)を学習。次にIDMで大規模映像コーパスを自動ラベリング。最後にforward dynamics model(FDM)をnext-action predictionで学習する。人手ラベル依存を抑えつつ、行動トークンの質を確保する構造だ。
さらに、video encoderの効率として「30 FPS映像ほぼ2時間を約1M tokenで表現」と説明され、長文脈タスクでの実用性向上を訴求している。連続操作ではcontext保持が性能を左右するため、この主張は実務上の意味が大きい。
デモと今後の論点
デモにはBlenderでのCAD操作、GUI fuzzingによる不具合発見、そして短時間fine-tuning後の車両操作シナリオが含まれる。評価基盤については80,000台のforking VMで毎時100万超rolloutを実行できるとする。
ただし現時点の数値は主に発表元の自己報告であり、独立再現と共通ベンチマークでの検証が不可欠だ。それでも、この公開はcomputer use分野の重心が、少量教師データのtask特化から、映像大規模事前学習と評価インフラ競争へ移っていることを示す。今後はモデル単体の賢さだけでなく、データ生成、ラベリング品質、低遅延実行基盤まで含めた総合力が差別化軸になる可能性が高い。
Related Articles
重要なのは、GoogleがVertex AIを複数サービスの集合からgoverned agent platformへ移していることだ。Google Cloudの投稿は、Model Garden経由でGemini 3.1 Pro、Lyria 3、Gemma 4、Claude系を含む200+ modelsへアクセスできると説明する。
MetaがAWS Gravitonコアを数千万単位で導入し、AIインフラ競争の主戦場をGPUの外側へ広げた。Metaは、エージェントAIが計画・ツール呼び出し・データ移動といったCPU集約処理を膨らませているとして、Graviton5を次の運用基盤に据える。
Anthropicの新しい実験が重要なのは、モデル性能がそのまま金銭価値に変わる場面を示したからだ。69人の社内市場でClaudeエージェントは186件、4,000ドル超の取引を成立させ、Opus側はより有利な価格を得ても利用者はほとんど不公平さを感じなかった。
Comments (0)
No comments yet. Be the first to comment!