Inception Labs, 초당 1,009 토큰 처리하는 확산 기반 추론 LLM 'Mercury 2' 출시

전통 LLM을 뒤흔드는 새로운 아키텍처

AI 스타트업 Inception Labs가 2026년 2월 24일, 세계 최초의 생산급 확산(diffusion) 기반 추론 언어 모델 Mercury 2를 출시했다. 기존 모델이 텍스트를 토큰 하나씩 순차적으로 생성하는 자기회귀(autoregressive) 방식을 채택하는 것과 달리, Mercury 2는 전체 출력을 초안 형태로 시작해 여러 토큰을 병렬로 동시에 정제(denoising)하는 확산 방식을 사용한다.

압도적인 속도와 비용 경쟁력

Mercury 2는 NVIDIA Blackwell GPU 기준 초당 1,009 토큰을 처리하며, 이는 Claude Haiku 4.5(추론 포함, 초당 89토큰)나 GPT-5 Mini(초당 71토큰)보다 10~14배 빠른 수치다. 종단간(end-to-end) 지연 시간 역시 1.7초에 불과해, Gemini 3 Flash(14.4초)나 Claude Haiku 4.5(23.4초)와 비교했을 때 압도적인 반응 속도를 자랑한다.

비용 측면에서도 입력 100만 토큰당 $0.25, 출력 100만 토큰당 $0.75로 Gemini 3 Flash의 약 절반, Claude Haiku 4.5의 4분의 1 수준이다.

품질 벤치마크

Mercury 2는 GPQA Diamond 74점, LiveCodeBench 67점, IFBench 71점을 기록하며 속도 최적화 모델들에 필적하는 품질을 증명했다. 128K 컨텍스트 창, 툴 사용(tool use), JSON 출력을 모두 지원한다.

확산 아키텍처의 텍스트 분야 진출

Inception Labs는 Stanford, UCLA, Cornell 출신 연구자들이 설립한 스타트업으로, 이미지 생성에서 성공을 거둔 확산 아키텍처를 텍스트 추론으로 확장했다. 실시간 응답이 요구되는 AI 에이전트와 고빈도 API 워크로드에서 특히 큰 가치를 발휘할 것으로 기대된다.

출처: Inception Labs

Inception Labs, 초당 1,009 토큰 처리하는 확산 기반 추론 LLM 'Mercury 2' 출시

전통 LLM을 뒤흔드는 새로운 아키텍처

압도적인 속도와 비용 경쟁력

품질 벤치마크

확산 아키텍처의 텍스트 분야 진출

Related Articles

HN이 붙잡은 I-DLM, Diffusion LLM도 품질을 안 버리고 갈 수 있을까

HN 화제: 단순한 self-distillation만으로 코드 생성 성능을 끌어올린 연구

Reddit가 주목한 Stanford의 공개 CS25 Transformers 강의, Spring 2026 시작

Comments (0)

Leave a Comment

Related Articles

HN이 붙잡은 I-DLM, Diffusion LLM도 품질을 안 버리고 갈 수 있을까
LLM Hacker News Apr 15, 2026 1 min read

HN 화제: 단순한 self-distillation만으로 코드 생성 성능을 끌어올린 연구
LLM Hacker News Apr 5, 2026 1 min read

Reddit가 주목한 Stanford의 공개 CS25 Transformers 강의, Spring 2026 시작
LLM Reddit Apr 3, 2026 1 min read