Together AI、Wan 2.7のvideo生成・継続・編集workflowを単一APIに集約
Original: Introducing Wan 2.7 from @alibaba_cloud on Together AI. AI natives can now build with Wan 2.7 on Together AI and get a clearer path from first-generation video to continuation, reference-driven control, and editing on one production platform. View original →
XでTogether AIが伝えたこと
2026年4月3日、Together AIはAlibaba CloudのWan 2.7を自社platformへ導入し、video workflowをより統合的に扱えるようにすると発表した。投稿の焦点は単なるモデル追加ではない。Togetherは、最初のgenerated clipからcontinuation、reference-driven control、editingまでを、別々のツールに分断せず一つのproduction platformで扱える点を前面に出している。
これはmultimodal開発の実務的な課題に向き合ったメッセージだ。video generationはデモしやすい一方で、continuity、reference matching、revision、editorial controlが必要になった瞬間に急に扱いづらくなる。多くのteamは異なるモデル提供元や後処理systemを渡り歩き、workflowを自前でつなぎ合わせている。Togetherが言う強みは、その断片化を減らし、より多くの工程を単一の運用面に戻すことにある。
製品記事が示す内容
Togetherの製品記事は、Wan 2.7をgeneration、continuation、reference-driven workflow、editingをカバーする4モデル構成として説明している。現時点で利用できるのはWan-AI/wan2.7-t2vによるtext-to-videoで、その後にimage-to-video、reference-to-video、video editが同じplatform上で順次展開される予定だ。
現在利用可能なtext-to-videoは、720Pと1080P出力、2秒から15秒のduration、任意のaudio input、そしてpromptによるmulti-shot directionをサポートする。Togetherはさらに、この機能が既存のmultimodal stackと同じAPI、authentication、SDK、billing surfaceを使い、価格は生成video1秒あたり0.10ドルから始まるとしている。
なぜ重要か
この発表が重要なのは、video AIの競争軸が「clipを作れるか」から「production iterationをどれだけ支えられるか」へ移りつつあるからだ。実際のteamが必要とするのはcontinuation、reference control、editing、そして予測可能な運用インターフェースである。そうした要素が複数の分離サービスではなく、一つのAPI契約の背後にまとまれば、video機能を実アプリや社内pipelineに組み込みやすくなる。
Together AIにとってもWan 2.7は明確なpositioningの一手だ。text inferenceを統合したのと同じように、multimodal infrastructureも一つのaccount、一つのbilling model、一つのdeveloper surfaceでまとめられることを示そうとしている。もしこの方向が定着すれば、platformの価値は単一モデルの有無ではなく、複数のvideo workflowをまとめて使うときの運用コストをどれだけ下げられるかで決まっていく。
Related Articles
Google DeepMindはGoogle I/O 2026にて、テキスト・画像・音声・動画などあらゆる入力から動画を生成するGemini Omniを発表した。GeminiのインテリジェンスとGoogleのメディア生成システムを統合し、GeminiアプリやYouTube Shortsで即日利用可能だ。
GoogleがI/O 2026(5月19日)で「世界モデル」Gemini Omniを発表した。Sora・Runwayなど既存のAI動画生成ツールと異なり、物理環境の因果関係を理解した上で自然言語の指示に応じてシーンを編集できる。VeoをGeminiアプリで置き換え、同日から提供開始となった。
NVIDIA Labsが、最大1分・720p解像度の動画を生成できる2.6Bパラメータのオープンソース世界モデル「SANA-WM」を公開した。比較的小さなモデルサイズとオープンソース公開が動画生成研究のアクセシビリティを高める。