Inception Labs、秒間1,009トークンの拡散ベース推論LLM「Mercury 2」をリリース

Read in other languages: 한국어English
LLM Mar 2, 2026 By Insights AI 1 min read 2 views Source

LLMの常識を覆す新アーキテクチャ

AIスタートアップInception Labsは2026年2月24日、世界初の量産対応拡散(diffusion)ベース推論言語モデルMercury 2をリリースした。従来の自己回帰(autoregressive)モデルがトークンを1つずつ順次生成するのに対し、Mercury 2は出力全体の草稿から始め、複数トークンを並列に精製(denoising)する拡散方式を採用する。

圧倒的な速度とコスト競争力

Mercury 2はNVIDIA Blackwell GPUで秒間1,009トークンを処理する。これはClaude Haiku 4.5(推論込み、秒間89トークン)やGPT-5 Mini(秒間71トークン)と比べて10〜14倍速い。エンドツーエンドのレイテンシもわずか1.7秒で、Gemini 3 Flash(14.4秒)やClaude Haiku 4.5(23.4秒)を大幅に上回る。

価格面でも、入力100万トークンあたり$0.25、出力100万トークンあたり$0.75と、Gemini 3 Flashの約半額、Claude Haiku 4.5の4分の1水準だ。

ベンチマーク性能

Mercury 2はGPQA Diamondで74点、LiveCodeBenchで67点、IFBenchで71点を記録し、速度最適化モデルと比較しても十分な品質を示した。128Kコンテキストウィンドウ、ツール使用、JSON出力に対応する。

拡散アーキテクチャのテキスト領域への進出

Stanford、UCLA、Cornell出身の研究者が設立したInception Labsは、画像生成で実績を上げた拡散アーキテクチャをテキスト推論へ応用した先駆者だ。リアルタイム応答が求められるAIエージェントや高頻度APIワークロードでの活用が期待される。

出典: Inception Labs — Introducing Mercury 2

Share:

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.