FDM-1、1,100万時間の映像学習で汎用computer actionを狙う

発表の概要

Hacker Newsで話題になった「The First Fully General Computer Action Model」は、Standard IntelligenceによるFDM-1公開を扱う。説明では、FDM-1は30 FPS映像を直接扱うcomputer action foundation modelで、Web操作、複数手順のCAD操作、長時間のGUIタスクを単一系統で処理することを目標にしている。学習データ規模は1,100万時間のscreen recordingとされる。

ポイントは、screenshot中心の短文脈手法ではなく、video-nativeに時間連続性を保持したまま行動を学習する設計思想にある。

トレーニング構成

公開資料では3段階のrecipeが示される。まず約40,000時間のラベル付きデータでinverse dynamics model(IDM)を学習。次にIDMで大規模映像コーパスを自動ラベリング。最後にforward dynamics model(FDM)をnext-action predictionで学習する。人手ラベル依存を抑えつつ、行動トークンの質を確保する構造だ。

さらに、video encoderの効率として「30 FPS映像ほぼ2時間を約1M tokenで表現」と説明され、長文脈タスクでの実用性向上を訴求している。連続操作ではcontext保持が性能を左右するため、この主張は実務上の意味が大きい。

デモと今後の論点

デモにはBlenderでのCAD操作、GUI fuzzingによる不具合発見、そして短時間fine-tuning後の車両操作シナリオが含まれる。評価基盤については80,000台のforking VMで毎時100万超rolloutを実行できるとする。

ただし現時点の数値は主に発表元の自己報告であり、独立再現と共通ベンチマークでの検証が不可欠だ。それでも、この公開はcomputer use分野の重心が、少量教師データのtask特化から、映像大規模事前学習と評価インフラ競争へ移っていることを示す。今後はモデル単体の賢さだけでなく、データ生成、ラベリング品質、低遅延実行基盤まで含めた総合力が差別化軸になる可能性が高い。

出典: Standard Intelligence FDM-1発表, Hacker News議論

FDM-1、1,100万時間の映像学習で汎用computer actionを狙う

発表の概要

トレーニング構成

デモと今後の論点

Related Articles

Gemini Enterprise Agent Platform、Vertex AIを200+ model基盤へ統合

Meta、AWS Graviton数千万コア採用　エージェントAIのCPU不足に照準

Anthropicの69人市場実験、強いモデルほど得をしても気づかれず

Comments (0)

Leave a Comment

Related Articles

Gemini Enterprise Agent Platform、Vertex AIを200+ model基盤へ統合

Meta、AWS Graviton数千万コア採用　エージェントAIのCPU不足に照準

Anthropicの69人市場実験、強いモデルほど得をしても気づかれず
Anthropicの新しい実験が重要なのは、モデル性能がそのまま金銭価値に変わる場面を示したからだ。69人の社内市場でClaudeエージェントは186件、4,000ドル超の取引を成立させ、Opus側はより有利な価格を得ても利用者はほとんど不公平さを感じなかった。

発表の概要

トレーニング構成

デモと今後の論点

Related Articles

Gemini Enterprise Agent Platform、Vertex AIを200+ model基盤へ統合

Meta、AWS Graviton数千万コア採用 エージェントAIのCPU不足に照準

Anthropicの69人市場実験、強いモデルほど得をしても気づかれず

Comments (0)

Leave a Comment

Meta、AWS Graviton数千万コア採用　エージェントAIのCPU不足に照準