Mercury 2 공개: Diffusion 기반 추론 LLM으로 실시간 추론 시장 공략
Original: Mercury 2: Fast reasoning LLM powered by diffusion View original →
무슨 일이 있었나
Hacker News에서 Inception Labs의 Mercury 2 발표가 빠르게 공유됐다. 회사는 기존 autoregressive 방식의 순차 디코딩이 실서비스 AI에서 latency 병목이 되고 있다고 진단한다.
Mercury 2는 한 번에 하나의 토큰을 생성하는 대신, diffusion 기반으로 여러 토큰을 병렬 정제(parallel refinement)하는 방식을 사용한다고 설명한다. 이 접근으로 실시간 응답 구간에서도 reasoning 품질을 확보할 수 있다는 것이 핵심 메시지다.
공개된 수치와 제품 포인트
- 발표 페이지에는 NVIDIA Blackwell GPU 기준 1,009 tokens/sec 수치가 제시됐다.
- 회사 측은 기존 방식 대비 5배 이상 빠른 생성 속도를 주장한다.
- 가격은 입력 1M 토큰당 $0.25, 출력 1M 토큰당 $0.75로 안내됐다.
- OpenAI API 호환 인터페이스와 Early Access 제공이 명시돼 있다.
왜 중요한가
voice agent, coding copilot, workflow 자동화처럼 반복 호출이 많은 제품에서는 평균 속도보다 tail latency 개선이 더 중요해지고 있다. diffusion 계열 접근이 실제 품질을 유지한 채 지연시간을 낮출 수 있다면, 제품 설계와 비용 구조 모두에 영향을 줄 수 있다.
다만 성능 수치는 워크로드, 하드웨어, 프롬프트 분포에 따라 달라지므로 자체 검증이 필요하다. 그럼에도 Mercury 2는 비-autoregressive 추론 모델이 연구 단계를 넘어 상용 API 시장으로 이동하고 있음을 보여주는 사례다.
출처
실무 적용 체크리스트
실서비스 적용 전에는 짧더라도 체계적인 검증 루프가 필요하다. 도메인 데이터 기준 품질, 동시성 상황의 latency, 오케스트레이션까지 포함한 총비용을 함께 확인해야 한다. 공개 벤치마크와 실제 운영 조건이 다를 수 있기 때문이다.
- 대표 프롬프트/음성 샘플로 회귀 테스트 세트를 만든다.
- 평균 지연뿐 아니라 피크 구간의 tail latency를 측정한다.
- 과잉 순응, 사실 왜곡 등 실패 패턴을 명시적으로 추적한다.
Related Articles
HN은 Qwen3.6-27B를 벤치마크 승리보다 현실적으로 돌릴 수 있는 오픈 코딩 모델로 읽었다. 댓글도 점수표보다 메모리 요구량, self-hosting 가능성, dense 구조의 운영 단순성에 몰렸다.
중요한 점은 GPT-5.5 출시 직후 나온 첫 외부 benchmark readout 가운데 하나라는 점이다. Artificial Analysis는 GPT-5.5가 자사 Intelligence Index에서 3점 차 선두로 올라섰지만 전체 지수 실행 비용은 여전히 약 20% 비싸졌다고 적었다.
Google이 4월 21일 Deep Research를 Gemini 3.1 Pro 기반으로 끌어올리고 MCP 연결과 Max 모드를 붙였다. 웹 검색, 업로드 파일, 라이선스 데이터 소스를 한 흐름에서 묶어야 하는 금융·생명과학 팀을 겨냥한 변화다.
Comments (0)
No comments yet. Be the first to comment!