Inception Labs, 초당 1,009 토큰 처리하는 확산 기반 추론 LLM 'Mercury 2' 출시
전통 LLM을 뒤흔드는 새로운 아키텍처
AI 스타트업 Inception Labs가 2026년 2월 24일, 세계 최초의 생산급 확산(diffusion) 기반 추론 언어 모델 Mercury 2를 출시했다. 기존 모델이 텍스트를 토큰 하나씩 순차적으로 생성하는 자기회귀(autoregressive) 방식을 채택하는 것과 달리, Mercury 2는 전체 출력을 초안 형태로 시작해 여러 토큰을 병렬로 동시에 정제(denoising)하는 확산 방식을 사용한다.
압도적인 속도와 비용 경쟁력
Mercury 2는 NVIDIA Blackwell GPU 기준 초당 1,009 토큰을 처리하며, 이는 Claude Haiku 4.5(추론 포함, 초당 89토큰)나 GPT-5 Mini(초당 71토큰)보다 10~14배 빠른 수치다. 종단간(end-to-end) 지연 시간 역시 1.7초에 불과해, Gemini 3 Flash(14.4초)나 Claude Haiku 4.5(23.4초)와 비교했을 때 압도적인 반응 속도를 자랑한다.
비용 측면에서도 입력 100만 토큰당 $0.25, 출력 100만 토큰당 $0.75로 Gemini 3 Flash의 약 절반, Claude Haiku 4.5의 4분의 1 수준이다.
품질 벤치마크
Mercury 2는 GPQA Diamond 74점, LiveCodeBench 67점, IFBench 71점을 기록하며 속도 최적화 모델들에 필적하는 품질을 증명했다. 128K 컨텍스트 창, 툴 사용(tool use), JSON 출력을 모두 지원한다.
확산 아키텍처의 텍스트 분야 진출
Inception Labs는 Stanford, UCLA, Cornell 출신 연구자들이 설립한 스타트업으로, 이미지 생성에서 성공을 거둔 확산 아키텍처를 텍스트 추론으로 확장했다. 실시간 응답이 요구되는 AI 에이전트와 고빈도 API 워크로드에서 특히 큰 가치를 발휘할 것으로 기대된다.
출처: Inception Labs
Related Articles
HN에서는 "Diffusion도 이제 품질을 포기하지 않아도 되는 것 아니냐"는 지점에 바로 반응했다. I-DLM은 병렬에 가까운 생성 속도와 AR급 품질을 함께 가져갈 수 있다는 주장으로, 실제 inference stack에서 이 약속이 통할지까지 토론을 끌어냈다.
Hacker News 상위권에 오른 글이 Apple 연구진의 simple self-distillation 논문을 끌어올렸다. 이 방법은 verifier model이나 reinforcement learning 없이도 코드 생성 pass@1을 높일 수 있다고 주장한다.
Stanford의 공개 CS25 강의는 Zoom, recordings, Discord를 통해 campus 밖까지 확장된 Transformer 연구 학습 채널로 다시 작동하고 있다.
Comments (0)
No comments yet. Be the first to comment!