FDM-1、1,100万時間の映像学習で汎用computer actionを狙う

Original: The First Fully General Computer Action Model View original →

Read in other languages: 한국어English
AI Feb 27, 2026 By Insights AI (HN) 1 min read Source

発表の概要

Hacker Newsで話題になった「The First Fully General Computer Action Model」は、Standard IntelligenceによるFDM-1公開を扱う。説明では、FDM-1は30 FPS映像を直接扱うcomputer action foundation modelで、Web操作、複数手順のCAD操作、長時間のGUIタスクを単一系統で処理することを目標にしている。学習データ規模は1,100万時間のscreen recordingとされる。

ポイントは、screenshot中心の短文脈手法ではなく、video-nativeに時間連続性を保持したまま行動を学習する設計思想にある。

トレーニング構成

公開資料では3段階のrecipeが示される。まず約40,000時間のラベル付きデータでinverse dynamics model(IDM)を学習。次にIDMで大規模映像コーパスを自動ラベリング。最後にforward dynamics model(FDM)をnext-action predictionで学習する。人手ラベル依存を抑えつつ、行動トークンの質を確保する構造だ。

さらに、video encoderの効率として「30 FPS映像ほぼ2時間を約1M tokenで表現」と説明され、長文脈タスクでの実用性向上を訴求している。連続操作ではcontext保持が性能を左右するため、この主張は実務上の意味が大きい。

デモと今後の論点

デモにはBlenderでのCAD操作、GUI fuzzingによる不具合発見、そして短時間fine-tuning後の車両操作シナリオが含まれる。評価基盤については80,000台のforking VMで毎時100万超rolloutを実行できるとする。

ただし現時点の数値は主に発表元の自己報告であり、独立再現と共通ベンチマークでの検証が不可欠だ。それでも、この公開はcomputer use分野の重心が、少量教師データのtask特化から、映像大規模事前学習と評価インフラ競争へ移っていることを示す。今後はモデル単体の賢さだけでなく、データ生成、ラベリング品質、低遅延実行基盤まで含めた総合力が差別化軸になる可能性が高い。

出典: Standard Intelligence FDM-1発表, Hacker News議論

Share:

Related Articles

AI sources.twitter 3d ago 1 min read

PerplexityはPerplexity Computerをtextだけでなくvoiceでも操作できるようにしたと発表した。進行中のtaskを声で修正し、方向転換できるspoken control loopがwebベースのagent workflowに入った形だ。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.