Mercury 2公開、Diffusion型推論LLMでリアルタイム推論を狙う
Original: Mercury 2: Fast reasoning LLM powered by diffusion View original →
何が起きたか
Hacker Newsで、Inception LabsのMercury 2発表が共有された。発表では、従来のautoregressiveな逐次デコードが、実運用AIのlatencyボトルネックになっていると述べられている。
Mercury 2は、トークンを1つずつ生成する代わりに、Diffusionベースで複数トークンを並列に精緻化する設計だと説明される。これにより、厳しい応答時間でもreasoning品質を維持できるというのが中心的な主張だ。
公開された指標
- 発表ページには、NVIDIA Blackwell GPUで1,009 tokens/secという数値が記載されている。
- 同社は、従来的な生成方式に対して5倍超の高速化を主張している。
- 価格は入力1Mトークンあたり$0.25、出力1Mトークンあたり$0.75と掲載されている。
- OpenAI API互換とEarly Access提供が明示されている。
なぜ重要か
voice agentやcoding copilotのようにモデルを反復呼び出しする製品では、平均速度だけでなくtail latencyの改善が重要になる。Diffusion系推論が品質を維持しつつ遅延を削減できれば、UX設計と運用コストの両方に影響する。
もちろん、性能主張はワークロードやハードウェアで再検証が必要だ。それでもMercury 2は、非autoregressive系アプローチが研究話題から商用APIへ移行しつつある流れを示す事例になっている。
ソース
実運用チェックリスト
本番導入前には、短期間でも構造化された検証が必要だ。ドメイン内品質、同時実行時のlatency、オーケストレーションを含む総コストを合わせて評価するべきである。公開ベンチマークと実運用条件は一致しない場合が多い。
- 代表的なプロンプト/音声サンプルで回帰テストを作成する。
- 平均値だけでなくピーク時のtail latencyを計測する。
- 過剰順応や事実ドリフトなど失敗モードを明示的に追跡する。
Related Articles
LocalLLaMAで大きく取り上げられたSarvam AIの発表は、Apache 2.0のreasoning modelであるSarvam 30BとSarvam 105Bを公開するものだ。会社は両モデルがIndiaでscratchから学習され、Mixture-of-Experts設計を土台にreasoning、coding、agentic workflow、Indian-language性能を狙ったと説明している。
MicrosoftはMarch 9, 2026、Frontier Suiteを発表し、Claudeと次世代OpenAI modelsを含むCopilotのmodel diversity拡大を明らかにした。Agent 365はMay 1に$15 per userでgeneral availabilityとなり、Microsoft 365 E7 Frontier SuiteもMay 1に$99 per userで提供される。
AzureがGPT-5.4のMicrosoft Foundryでの一般提供開始を発表した。Microsoftは、より安定した multi-step execution と governance controls を前面に出し、GPT-5.4 Pro、価格、初期展開オプションも公開した。
Comments (0)
No comments yet. Be the first to comment!