Inception Labs, 초당 1,009 토큰 처리하는 확산 기반 추론 LLM 'Mercury 2' 출시
전통 LLM을 뒤흔드는 새로운 아키텍처
AI 스타트업 Inception Labs가 2026년 2월 24일, 세계 최초의 생산급 확산(diffusion) 기반 추론 언어 모델 Mercury 2를 출시했다. 기존 모델이 텍스트를 토큰 하나씩 순차적으로 생성하는 자기회귀(autoregressive) 방식을 채택하는 것과 달리, Mercury 2는 전체 출력을 초안 형태로 시작해 여러 토큰을 병렬로 동시에 정제(denoising)하는 확산 방식을 사용한다.
압도적인 속도와 비용 경쟁력
Mercury 2는 NVIDIA Blackwell GPU 기준 초당 1,009 토큰을 처리하며, 이는 Claude Haiku 4.5(추론 포함, 초당 89토큰)나 GPT-5 Mini(초당 71토큰)보다 10~14배 빠른 수치다. 종단간(end-to-end) 지연 시간 역시 1.7초에 불과해, Gemini 3 Flash(14.4초)나 Claude Haiku 4.5(23.4초)와 비교했을 때 압도적인 반응 속도를 자랑한다.
비용 측면에서도 입력 100만 토큰당 $0.25, 출력 100만 토큰당 $0.75로 Gemini 3 Flash의 약 절반, Claude Haiku 4.5의 4분의 1 수준이다.
품질 벤치마크
Mercury 2는 GPQA Diamond 74점, LiveCodeBench 67점, IFBench 71점을 기록하며 속도 최적화 모델들에 필적하는 품질을 증명했다. 128K 컨텍스트 창, 툴 사용(tool use), JSON 출력을 모두 지원한다.
확산 아키텍처의 텍스트 분야 진출
Inception Labs는 Stanford, UCLA, Cornell 출신 연구자들이 설립한 스타트업으로, 이미지 생성에서 성공을 거둔 확산 아키텍처를 텍스트 추론으로 확장했다. 실시간 응답이 요구되는 AI 에이전트와 고빈도 API 워크로드에서 특히 큰 가치를 발휘할 것으로 기대된다.
출처: Inception Labs
Related Articles
r/LocalLLaMA에서 주목받은 FlashAttention-4는 B200 BF16에서 최대 1605 TFLOPs/s를 제시하며, Blackwell의 메모리·SFU 병목을 겨냥한 파이프라인 개선을 소개했다.
LocalLLaMA에서 공유된 autoresearch는 agent가 PyTorch 학습 코드를 수정하고 5분짜리 실험을 반복하면서 더 나은 val_bpb를 찾도록 설계된 최소 구성 연구 프레임워크다.
Hacker News에서 주목받은 Katana Quant의 글은, LLM이 그럴듯한 코드를 만들 수는 있어도 성능과 알고리즘 정합성은 별도 검증이 필요하다는 점을 수치로 보여준다. 핵심 메시지는 명확하다. 생성 전에 acceptance criteria를 정의해야 한다.
Comments (0)
No comments yet. Be the first to comment!