Orthrus-Qwen3: 동일 출력 품질 유지하며 추론 속도 7.8배 향상
Original: Orthrus-Qwen3: up to 7.8× tokens/forward on Qwen3, identical output distribution View original →
Orthrus란 무엇인가
Orthrus는 자동회귀(AR) 언어 모델의 순차적 토큰 생성 병목을 깨는 새로운 추론 프레임워크다. Qwen3 모델에 적용해 forward pass당 최대 7.8배의 토큰 생성 속도를 달성했으며, 출력 분포는 원본 모델과 수학적으로 동일하다.
핵심 기술: 이중 뷰 아키텍처
초안 모델(draft model)을 별도로 사용하는 기존 투기적 디코딩과 달리, Orthrus는 단일 모델 내에서 AR 뷰와 확산 뷰를 공유 KV 캐시로 통합한다. 확산 뷰가 여러 후보 토큰을 병렬로 생성하고, AR 뷰가 이를 검증한다. 파라미터의 16%만 미세 조정하면 되며 기반 모델은 동결된다.
실용적 의미
메모리 오버헤드 없이 4~7.8배의 속도 향상은 로컬 LLM 추론의 실용성을 크게 높인다. 긴 컨텍스트에서 특히 효과가 두드러지며, 별도의 draft 모델 없이 단일 모델로 구현되므로 배포가 간단하다. GitHub 저장소는 오픈소스로 공개돼 있어 Qwen3 외에도 다양한 모델에 적용을 시도할 수 있다.
반응
HN에서 176점, r/LocalLLaMA에서 260점 이상을 기록하며 로컬 AI 커뮤니티의 뜨거운 관심을 받았다. Orthrus-Qwen3-8B가 Reddit에서 동시에 화제가 된 것은 이 기술의 실용적 가치를 보여준다.
Related Articles
DeepSeek 등이 도입해 주목받은 Multi-Token Prediction(MTP) 기능이 llama.cpp 마스터 브랜치에 공식 병합됐다. 로컬 LLM 추론 속도 향상에 기여할 오픈소스 이정표다.
LocalLLaMA는 이 글을 또 하나의 벤치마크 이미지로 넘기지 않았다. 단일 RTX 3090에서 Qwen3.6-27B 처리량을 평균 1.98배까지 끌어올렸고, 재학습 없이 긴 컨텍스트까지 버틴다는 점이 스레드의 열기를 만들었다.
llama.cpp의 새 MTP 지원 PR을 활용해 Qwen 3.6 27B의 추론 속도를 2.5배 높이는 방법이 공유됐다. 48GB 메모리에서 262,000 토큰 컨텍스트로 로컬 에이전틱 코딩이 가능해졌다.
Comments (0)
No comments yet. Be the first to comment!