Mercury 2公開、Diffusion型推論LLMでリアルタイム推論を狙う

Original: Mercury 2: Fast reasoning LLM powered by diffusion View original →

Read in other languages: 한국어English
LLM Feb 25, 2026 By Insights AI (HN) 1 min read 1 views Source

何が起きたか

Hacker Newsで、Inception LabsのMercury 2発表が共有された。発表では、従来のautoregressiveな逐次デコードが、実運用AIのlatencyボトルネックになっていると述べられている。

Mercury 2は、トークンを1つずつ生成する代わりに、Diffusionベースで複数トークンを並列に精緻化する設計だと説明される。これにより、厳しい応答時間でもreasoning品質を維持できるというのが中心的な主張だ。

公開された指標

  • 発表ページには、NVIDIA Blackwell GPUで1,009 tokens/secという数値が記載されている。
  • 同社は、従来的な生成方式に対して5倍超の高速化を主張している。
  • 価格は入力1Mトークンあたり$0.25、出力1Mトークンあたり$0.75と掲載されている。
  • OpenAI API互換とEarly Access提供が明示されている。

なぜ重要か

voice agentやcoding copilotのようにモデルを反復呼び出しする製品では、平均速度だけでなくtail latencyの改善が重要になる。Diffusion系推論が品質を維持しつつ遅延を削減できれば、UX設計と運用コストの両方に影響する。

もちろん、性能主張はワークロードやハードウェアで再検証が必要だ。それでもMercury 2は、非autoregressive系アプローチが研究話題から商用APIへ移行しつつある流れを示す事例になっている。

ソース

実運用チェックリスト

本番導入前には、短期間でも構造化された検証が必要だ。ドメイン内品質、同時実行時のlatency、オーケストレーションを含む総コストを合わせて評価するべきである。公開ベンチマークと実運用条件は一致しない場合が多い。

  • 代表的なプロンプト/音声サンプルで回帰テストを作成する。
  • 平均値だけでなくピーク時のtail latencyを計測する。
  • 過剰順応や事実ドリフトなど失敗モードを明示的に追跡する。
Share:

Related Articles

LLM Reddit 4d ago 1 min read

LocalLLaMAで大きく取り上げられたSarvam AIの発表は、Apache 2.0のreasoning modelであるSarvam 30BとSarvam 105Bを公開するものだ。会社は両モデルがIndiaでscratchから学習され、Mixture-of-Experts設計を土台にreasoning、coding、agentic workflow、Indian-language性能を狙ったと説明している。

LLM sources.twitter 4d ago 1 min read

AzureがGPT-5.4のMicrosoft Foundryでの一般提供開始を発表した。Microsoftは、より安定した multi-step execution と governance controls を前面に出し、GPT-5.4 Pro、価格、初期展開オプションも公開した。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.