Mercury 2公開、Diffusion型推論LLMでリアルタイム推論を狙う

何が起きたか

Hacker Newsで、Inception LabsのMercury 2発表が共有された。発表では、従来のautoregressiveな逐次デコードが、実運用AIのlatencyボトルネックになっていると述べられている。

Mercury 2は、トークンを1つずつ生成する代わりに、Diffusionベースで複数トークンを並列に精緻化する設計だと説明される。これにより、厳しい応答時間でもreasoning品質を維持できるというのが中心的な主張だ。

voice agentやcoding copilotのようにモデルを反復呼び出しする製品では、平均速度だけでなくtail latencyの改善が重要になる。Diffusion系推論が品質を維持しつつ遅延を削減できれば、UX設計と運用コストの両方に影響する。

もちろん、性能主張はワークロードやハードウェアで再検証が必要だ。それでもMercury 2は、非autoregressive系アプローチが研究話題から商用APIへ移行しつつある流れを示す事例になっている。

本番導入前には、短期間でも構造化された検証が必要だ。ドメイン内品質、同時実行時のlatency、オーケストレーションを含む総コストを合わせて評価するべきである。公開ベンチマークと実運用条件は一致しない場合が多い。