Together AI、Wan 2.7のvideo生成・継続・編集workflowを単一APIに集約

XでTogether AIが伝えたこと

2026年4月3日、Together AIはAlibaba CloudのWan 2.7を自社platformへ導入し、video workflowをより統合的に扱えるようにすると発表した。投稿の焦点は単なるモデル追加ではない。Togetherは、最初のgenerated clipからcontinuation、reference-driven control、editingまでを、別々のツールに分断せず一つのproduction platformで扱える点を前面に出している。

これはmultimodal開発の実務的な課題に向き合ったメッセージだ。video generationはデモしやすい一方で、continuity、reference matching、revision、editorial controlが必要になった瞬間に急に扱いづらくなる。多くのteamは異なるモデル提供元や後処理systemを渡り歩き、workflowを自前でつなぎ合わせている。Togetherが言う強みは、その断片化を減らし、より多くの工程を単一の運用面に戻すことにある。

製品記事が示す内容

Togetherの製品記事は、Wan 2.7をgeneration、continuation、reference-driven workflow、editingをカバーする4モデル構成として説明している。現時点で利用できるのはWan-AI/wan2.7-t2vによるtext-to-videoで、その後にimage-to-video、reference-to-video、video editが同じplatform上で順次展開される予定だ。

現在利用可能なtext-to-videoは、720Pと1080P出力、2秒から15秒のduration、任意のaudio input、そしてpromptによるmulti-shot directionをサポートする。Togetherはさらに、この機能が既存のmultimodal stackと同じAPI、authentication、SDK、billing surfaceを使い、価格は生成video1秒あたり0.10ドルから始まるとしている。

なぜ重要か

この発表が重要なのは、video AIの競争軸が「clipを作れるか」から「production iterationをどれだけ支えられるか」へ移りつつあるからだ。実際のteamが必要とするのはcontinuation、reference control、editing、そして予測可能な運用インターフェースである。そうした要素が複数の分離サービスではなく、一つのAPI契約の背後にまとまれば、video機能を実アプリや社内pipelineに組み込みやすくなる。

Together AIにとってもWan 2.7は明確なpositioningの一手だ。text inferenceを統合したのと同じように、multimodal infrastructureも一つのaccount、一つのbilling model、一つのdeveloper surfaceでまとめられることを示そうとしている。もしこの方向が定着すれば、platformの価値は単一モデルの有無ではなく、複数のvideo workflowをまとめて使うときの運用コストをどれだけ下げられるかで決まっていく。

Together AI、Wan 2.7のvideo生成・継続・編集workflowを単一APIに集約

XでTogether AIが伝えたこと

製品記事が示す内容

なぜ重要か

Related Articles

Google DeepMind、あらゆる入力から動画を生成するGemini Omniを発表

Google I/O 2026: 会話でビデオを編集できる「世界モデル」Gemini Omni登場

NVIDIA、720p・1分動画生成可能な2.6Bオープンソース世界モデル「SANA-WM」を公開