Mercury 2 공개: Diffusion 기반 추론 LLM으로 실시간 추론 시장 공략

Original: Mercury 2: Fast reasoning LLM powered by diffusion View original →

Read in other languages: English日本語
LLM Feb 25, 2026 By Insights AI (HN) 1 min read Source

무슨 일이 있었나

Hacker News에서 Inception Labs의 Mercury 2 발표가 빠르게 공유됐다. 회사는 기존 autoregressive 방식의 순차 디코딩이 실서비스 AI에서 latency 병목이 되고 있다고 진단한다.

Mercury 2는 한 번에 하나의 토큰을 생성하는 대신, diffusion 기반으로 여러 토큰을 병렬 정제(parallel refinement)하는 방식을 사용한다고 설명한다. 이 접근으로 실시간 응답 구간에서도 reasoning 품질을 확보할 수 있다는 것이 핵심 메시지다.

공개된 수치와 제품 포인트

  • 발표 페이지에는 NVIDIA Blackwell GPU 기준 1,009 tokens/sec 수치가 제시됐다.
  • 회사 측은 기존 방식 대비 5배 이상 빠른 생성 속도를 주장한다.
  • 가격은 입력 1M 토큰당 $0.25, 출력 1M 토큰당 $0.75로 안내됐다.
  • OpenAI API 호환 인터페이스와 Early Access 제공이 명시돼 있다.

왜 중요한가

voice agent, coding copilot, workflow 자동화처럼 반복 호출이 많은 제품에서는 평균 속도보다 tail latency 개선이 더 중요해지고 있다. diffusion 계열 접근이 실제 품질을 유지한 채 지연시간을 낮출 수 있다면, 제품 설계와 비용 구조 모두에 영향을 줄 수 있다.

다만 성능 수치는 워크로드, 하드웨어, 프롬프트 분포에 따라 달라지므로 자체 검증이 필요하다. 그럼에도 Mercury 2는 비-autoregressive 추론 모델이 연구 단계를 넘어 상용 API 시장으로 이동하고 있음을 보여주는 사례다.

출처

실무 적용 체크리스트

실서비스 적용 전에는 짧더라도 체계적인 검증 루프가 필요하다. 도메인 데이터 기준 품질, 동시성 상황의 latency, 오케스트레이션까지 포함한 총비용을 함께 확인해야 한다. 공개 벤치마크와 실제 운영 조건이 다를 수 있기 때문이다.

  • 대표 프롬프트/음성 샘플로 회귀 테스트 세트를 만든다.
  • 평균 지연뿐 아니라 피크 구간의 tail latency를 측정한다.
  • 과잉 순응, 사실 왜곡 등 실패 패턴을 명시적으로 추적한다.
Share:

Related Articles

LLM Reddit 4d ago 2 min read

LocalLLaMA에서 크게 주목받은 Sarvam AI의 발표는 Apache 2.0 기반의 reasoning model인 Sarvam 30B와 Sarvam 105B를 공개한다. 회사는 두 모델이 India에서 scratch부터 학습됐고, Mixture-of-Experts 구조를 바탕으로 reasoning, coding, agentic workflow, Indian-language 성능을 겨냥했다고 설명한다.

LLM sources.twitter 4d ago 1 min read

Azure가 GPT-5.4를 Microsoft Foundry에서 일반 제공한다고 발표했다. Microsoft는 더 안정적인 multi-step execution과 governance controls를 내세우면서 GPT-5.4 Pro, 가격, 초기 배포 옵션도 함께 공개했다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.