Inception Labs, 초당 1,009 토큰 처리하는 확산 기반 추론 LLM 'Mercury 2' 출시

Read in other languages: English日本語
LLM Mar 2, 2026 By Insights AI 1 min read 2 views Source

전통 LLM을 뒤흔드는 새로운 아키텍처

AI 스타트업 Inception Labs가 2026년 2월 24일, 세계 최초의 생산급 확산(diffusion) 기반 추론 언어 모델 Mercury 2를 출시했다. 기존 모델이 텍스트를 토큰 하나씩 순차적으로 생성하는 자기회귀(autoregressive) 방식을 채택하는 것과 달리, Mercury 2는 전체 출력을 초안 형태로 시작해 여러 토큰을 병렬로 동시에 정제(denoising)하는 확산 방식을 사용한다.

압도적인 속도와 비용 경쟁력

Mercury 2는 NVIDIA Blackwell GPU 기준 초당 1,009 토큰을 처리하며, 이는 Claude Haiku 4.5(추론 포함, 초당 89토큰)나 GPT-5 Mini(초당 71토큰)보다 10~14배 빠른 수치다. 종단간(end-to-end) 지연 시간 역시 1.7초에 불과해, Gemini 3 Flash(14.4초)나 Claude Haiku 4.5(23.4초)와 비교했을 때 압도적인 반응 속도를 자랑한다.

비용 측면에서도 입력 100만 토큰당 $0.25, 출력 100만 토큰당 $0.75로 Gemini 3 Flash의 약 절반, Claude Haiku 4.5의 4분의 1 수준이다.

품질 벤치마크

Mercury 2는 GPQA Diamond 74점, LiveCodeBench 67점, IFBench 71점을 기록하며 속도 최적화 모델들에 필적하는 품질을 증명했다. 128K 컨텍스트 창, 툴 사용(tool use), JSON 출력을 모두 지원한다.

확산 아키텍처의 텍스트 분야 진출

Inception Labs는 Stanford, UCLA, Cornell 출신 연구자들이 설립한 스타트업으로, 이미지 생성에서 성공을 거둔 확산 아키텍처를 텍스트 추론으로 확장했다. 실시간 응답이 요구되는 AI 에이전트와 고빈도 API 워크로드에서 특히 큰 가치를 발휘할 것으로 기대된다.

출처: Inception Labs

Share:

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.