Inception Labs、秒間1,009トークンの拡散ベース推論LLM「Mercury 2」をリリース

LLMの常識を覆す新アーキテクチャ

AIスタートアップInception Labsは2026年2月24日、世界初の量産対応拡散（diffusion）ベース推論言語モデルMercury 2をリリースした。従来の自己回帰（autoregressive）モデルがトークンを1つずつ順次生成するのに対し、Mercury 2は出力全体の草稿から始め、複数トークンを並列に精製（denoising）する拡散方式を採用する。

圧倒的な速度とコスト競争力

Mercury 2はNVIDIA Blackwell GPUで秒間1,009トークンを処理する。これはClaude Haiku 4.5（推論込み、秒間89トークン）やGPT-5 Mini（秒間71トークン）と比べて10〜14倍速い。エンドツーエンドのレイテンシもわずか1.7秒で、Gemini 3 Flash（14.4秒）やClaude Haiku 4.5（23.4秒）を大幅に上回る。

価格面でも、入力100万トークンあたり$0.25、出力100万トークンあたり$0.75と、Gemini 3 Flashの約半額、Claude Haiku 4.5の4分の1水準だ。

ベンチマーク性能

Mercury 2はGPQA Diamondで74点、LiveCodeBenchで67点、IFBenchで71点を記録し、速度最適化モデルと比較しても十分な品質を示した。128Kコンテキストウィンドウ、ツール使用、JSON出力に対応する。

拡散アーキテクチャのテキスト領域への進出

Stanford、UCLA、Cornell出身の研究者が設立したInception Labsは、画像生成で実績を上げた拡散アーキテクチャをテキスト推論へ応用した先駆者だ。リアルタイム応答が求められるAIエージェントや高頻度APIワークロードでの活用が期待される。

出典: Inception Labs — Introducing Mercury 2

Inception Labs、秒間1,009トークンの拡散ベース推論LLM「Mercury 2」をリリース

LLMの常識を覆す新アーキテクチャ

圧倒的な速度とコスト競争力

ベンチマーク性能

拡散アーキテクチャのテキスト領域への進出

Related Articles

HNが食いついたI-DLM、Diffusion LLMは品質を捨てずに速くなれるのか

Google I/O 2026：Gemini 3.5 FlashとManaged Agents APIを同時発表

Δ-Mem：8×8の小型オンラインメモリでLLMの長期記憶課題を解決

Related Articles

HNが食いついたI-DLM、Diffusion LLMは品質を捨てずに速くなれるのか
LLM Hacker News Apr 15, 2026 1 min read

Google I/O 2026：Gemini 3.5 FlashとManaged Agents APIを同時発表
LLM May 19, 2026 1 min read

Δ-Mem：8×8の小型オンラインメモリでLLMの長期記憶課題を解決
LLM Hacker News May 16, 2026 1 min read