Microsoft Research、実務向けマルチタスクエージェント基盤CORPGENを公開

Microsoft Researchは2026年2月26日、"CORPGEN advances AI agents for real work"を公開し、既存のエージェント評価が実務の難しさを十分に捉えていないと指摘した。単一タスク中心の評価では、現場で必要な同時並行処理と依存関係の管理を測りにくいという問題設定である。

この課題に対して同社が提示したのがMulti-Horizon Task Environments（MHTEs）だ。MHTEでは、エージェントが複数タスクを同時に進め、各タスクは10〜30の依存ステップを持つ。さらに、状況に応じた優先順位の再計算を継続的に行う必要がある。Microsoftは最大46タスク同時実行、約6時間セッションで評価したとしている。

ベースラインの結果は厳しい。3つの独立エージェント系で、同時実行数の増加に伴い完了率が16.7%から8.7%へ低下した。CORPGENはこの崩れ方を、モデル単体ではなくシステム構造で補う。階層計画、タスク干渉を抑える分離subagent、選択的想起を行う階層メモリ、文脈肥大化を抑える適応要約を組み合わせる設計だ。

記事ではCORPGENエージェントを"digital employees"と呼び、持続的ID、役割、勤務サイクルを持つ実務寄りの実行体として説明している。Office系GUIを操作し、メールやMicrosoft Teamsで協調するが、内部状態は共有しない。これによりモジュール性を維持しつつ、組織的な協調パターンを再現できるとする。

評価結果では、46タスク時にCORPGENが15.2%、ベースラインが4.3%で約3.5倍の差が報告された。特に大きな改善要因はexperiential learningで、完了率を8.7%から15.2%へ引き上げたという。加えて、成果物ベース評価は人手判定と約90%一致した一方、スクリーンショットと操作ログ中心の評価は約40%一致に留まり、評価手法そのものの見直しも示唆している。

要点は、企業向けエージェントの実力は基盤モデルの大きさだけでなく、メモリ管理、実行オーケストレーション、評価設計で大きく変わるという点だ。CORPGENはその前提を、実測可能な形で示した取り組みといえる。

Microsoft Research、実務向けマルチタスクエージェント基盤CORPGENを公開

Related Articles

Claude Fable 5、GDPval-AA 1932点でエージェント業務評価の首位へ

Opus 4.8、GDPval-AAでGPT-5.5を121点上回る外部評価

Nemotron 3 Ultra、550B MoEでエージェント推論5倍と30%コスト削減を提示