Inception Labs、秒間1,009トークンの拡散ベース推論LLM「Mercury 2」をリリース
LLMの常識を覆す新アーキテクチャ
AIスタートアップInception Labsは2026年2月24日、世界初の量産対応拡散(diffusion)ベース推論言語モデルMercury 2をリリースした。従来の自己回帰(autoregressive)モデルがトークンを1つずつ順次生成するのに対し、Mercury 2は出力全体の草稿から始め、複数トークンを並列に精製(denoising)する拡散方式を採用する。
圧倒的な速度とコスト競争力
Mercury 2はNVIDIA Blackwell GPUで秒間1,009トークンを処理する。これはClaude Haiku 4.5(推論込み、秒間89トークン)やGPT-5 Mini(秒間71トークン)と比べて10〜14倍速い。エンドツーエンドのレイテンシもわずか1.7秒で、Gemini 3 Flash(14.4秒)やClaude Haiku 4.5(23.4秒)を大幅に上回る。
価格面でも、入力100万トークンあたり$0.25、出力100万トークンあたり$0.75と、Gemini 3 Flashの約半額、Claude Haiku 4.5の4分の1水準だ。
ベンチマーク性能
Mercury 2はGPQA Diamondで74点、LiveCodeBenchで67点、IFBenchで71点を記録し、速度最適化モデルと比較しても十分な品質を示した。128Kコンテキストウィンドウ、ツール使用、JSON出力に対応する。
拡散アーキテクチャのテキスト領域への進出
Stanford、UCLA、Cornell出身の研究者が設立したInception Labsは、画像生成で実績を上げた拡散アーキテクチャをテキスト推論へ応用した先駆者だ。リアルタイム応答が求められるAIエージェントや高頻度APIワークロードでの活用が期待される。
Related Articles
HNでは「Diffusionでも品質を落とさずに済むのでは」という一点にすぐ火が付いた。I-DLMは並列寄りの生成速度とAR級の品質を両立できると主張していて、その話が実際のinference stackで通るのかまで議論が広がった。
GoogleはI/O 2026でGemini 3.5 Flashを公開し、エージェントAI時代の到来を宣言した。Managed Agents APIは1回のAPI呼び出しで完全な自律実行環境を提供する。
新しいarXiv論文Δ-Memが、デルタ規則学習で更新される固定サイズの状態行列により、凍結されたLLMに長期記憶を付与する手法を提案した。MemoryAgentBenchで基準比1.31倍の性能向上を達成している。