Together Research, RL 기반 adaptive speculative decoding 시스템 Aurora 공개

Together가 발표한 내용

2026년 3월 31일, Together Research는 배포 후에도 계속 적응하도록 설계된 speculative decoding 시스템 Aurora를 공개했다. 회사는 이번 발표를 생산 환경의 구체적 문제와 연결했다. Inference를 빠르게 만들기 위해 쓰는 draft model이 traffic 변화에 따라 금방 stale해지고, offline retraining은 그 변화를 따라가기에는 너무 느리다는 것이다.

이 문제 제기는 의미가 크다. Speculative decoding은 이미 대형 모델 serving의 표준 최적화 수단 중 하나지만, 많은 시스템은 여전히 draft model을 offline에서 한 번 학습한 정적 artifact로 다룬다. Together는 핵심 과제가 단순히 더 좋은 speculator를 한 번 만드는 것이 아니라, live workload에 맞춰 이를 계속 동기화하는 데 있다고 주장하고 있다.

Aurora의 동작 방식

Together 블로그는 Aurora를 reinforcement learning 기반 serve-to-train flywheel로 설명한다. 이 시스템은 별도 offline pipeline을 기다리는 대신 live inference trace에서 직접 학습한다. 회사 설명에 따르면 inference server는 target model과 draft model로 speculative decoding을 수행하고, asynchronous training server는 accepted token과 rejected proposal을 활용해 speculator를 개선한 뒤, service interruption 없이 새로운 weight를 hot-swap한다.

논문은 online speculator learning을 asynchronous RL 문제로 재정의한다.
Accepted token은 positive feedback이 되고, rejected proposal은 implicit negative feedback으로 사용된다.
시스템은 SGLang 기반 inference server와 asynchronous training server를 결합해 serving 도중 업데이트를 가능하게 한다.

논문이 보강한 주장

arXiv 논문은 Aurora를 단순한 학습 기법이 아니라 unified training-serving system으로 제시한다. 저자들은 speculator 학습과 serving을 분리하면 세 가지 생산 환경 문제가 생긴다고 본다. 첫째는 높은 time-to-serve, 둘째는 utility feedback의 지연, 셋째는 traffic distribution이 바뀔 때 성능이 빠르게 떨어지는 domain drift다. Aurora의 해법은 day-0 deployment와 online adaptation이다.

성능 측면에서 Together 블로그는 traffic pattern이 바뀌는 상황에서 강한 static speculator 대비 1.25x 추가 속도 향상을 강조한다. 논문은 또 MiniMax M2.1 229B와 Qwen3-Coder-Next 80B 같은 frontier model에서 1.5x day-0 speedup도 제시한다. 이번 공개는 블로그, arXiv 논문, open-source code를 함께 내놓았다는 점에서도 완결성이 높다.

왜 중요한가

실무적으로 중요한 포인트는 inference 최적화가 더 이상 일회성 model compression 문제가 아니라, continual-learning 시스템 문제처럼 보이기 시작했다는 점이다. Speculative decoding 성능이 traffic mix에 좌우된다면, serving telemetry와 빠른 update loop를 가진 사업자가 느린 offline retraining에 의존하는 팀보다 유리할 가능성이 크다.

이번 발표에서 읽히는 더 큰 메시지는 Together가 speculation benchmark가 아니라 production-adaptive serving으로 무게중심을 옮기려 한다는 것이다. Aurora의 성과가 더 많은 model과 infrastructure stack에서도 유지되는지는 추가 검증이 필요하겠지만, 구체적인 시스템 주장, open-source code, 그리고 RL 학습과 실제 배포 경제성을 직접 연결한 논문을 함께 제시했다는 점에서 이번 발표는 고신호 업데이트다.

출처: Together AI X 게시물 · Together Research 블로그 · Aurora 논문 · Aurora 코드

Together Research, RL 기반 adaptive speculative decoding 시스템 Aurora 공개

Together가 발표한 내용

Aurora의 동작 방식

논문이 보강한 주장

왜 중요한가

Related Articles

Cursor, real-time RL로 Composer checkpoint를 5시간마다 개선 배포 가능하다고 설명

r/MachineLearning이 올린 TurboQuant for weights, 4-bit weight quantization의 실전화

LocalLLaMA가 본 Qwen 3.5 27B 110만 tok/s, 핵심은 B200보다 vLLM 튜닝

Comments (0)

Leave a Comment

Related Articles

Cursor, real-time RL로 Composer checkpoint를 5시간마다 개선 배포 가능하다고 설명

r/MachineLearning이 올린 TurboQuant for weights, 4-bit weight quantization의 실전화

LocalLLaMA가 본 Qwen 3.5 27B 110만 tok/s, 핵심은 B200보다 vLLM 튜닝