Together Research, RL 기반 adaptive speculative decoding 시스템 Aurora 공개
Original: New from Together Research: Aurora. Speculative decoding that adapts to shifting traffic in real time — and keeps improving the longer it runs. Open-source, RL-based, 1.25x faster vs. a well-trained static speculator with no offline retraining pipeline. Thread 🧵 View original →
Together가 발표한 내용
2026년 3월 31일, Together Research는 배포 후에도 계속 적응하도록 설계된 speculative decoding 시스템 Aurora를 공개했다. 회사는 이번 발표를 생산 환경의 구체적 문제와 연결했다. Inference를 빠르게 만들기 위해 쓰는 draft model이 traffic 변화에 따라 금방 stale해지고, offline retraining은 그 변화를 따라가기에는 너무 느리다는 것이다.
이 문제 제기는 의미가 크다. Speculative decoding은 이미 대형 모델 serving의 표준 최적화 수단 중 하나지만, 많은 시스템은 여전히 draft model을 offline에서 한 번 학습한 정적 artifact로 다룬다. Together는 핵심 과제가 단순히 더 좋은 speculator를 한 번 만드는 것이 아니라, live workload에 맞춰 이를 계속 동기화하는 데 있다고 주장하고 있다.
Aurora의 동작 방식
Together 블로그는 Aurora를 reinforcement learning 기반 serve-to-train flywheel로 설명한다. 이 시스템은 별도 offline pipeline을 기다리는 대신 live inference trace에서 직접 학습한다. 회사 설명에 따르면 inference server는 target model과 draft model로 speculative decoding을 수행하고, asynchronous training server는 accepted token과 rejected proposal을 활용해 speculator를 개선한 뒤, service interruption 없이 새로운 weight를 hot-swap한다.
- 논문은 online speculator learning을 asynchronous RL 문제로 재정의한다.
- Accepted token은 positive feedback이 되고, rejected proposal은 implicit negative feedback으로 사용된다.
- 시스템은 SGLang 기반 inference server와 asynchronous training server를 결합해 serving 도중 업데이트를 가능하게 한다.
논문이 보강한 주장
arXiv 논문은 Aurora를 단순한 학습 기법이 아니라 unified training-serving system으로 제시한다. 저자들은 speculator 학습과 serving을 분리하면 세 가지 생산 환경 문제가 생긴다고 본다. 첫째는 높은 time-to-serve, 둘째는 utility feedback의 지연, 셋째는 traffic distribution이 바뀔 때 성능이 빠르게 떨어지는 domain drift다. Aurora의 해법은 day-0 deployment와 online adaptation이다.
성능 측면에서 Together 블로그는 traffic pattern이 바뀌는 상황에서 강한 static speculator 대비 1.25x 추가 속도 향상을 강조한다. 논문은 또 MiniMax M2.1 229B와 Qwen3-Coder-Next 80B 같은 frontier model에서 1.5x day-0 speedup도 제시한다. 이번 공개는 블로그, arXiv 논문, open-source code를 함께 내놓았다는 점에서도 완결성이 높다.
왜 중요한가
실무적으로 중요한 포인트는 inference 최적화가 더 이상 일회성 model compression 문제가 아니라, continual-learning 시스템 문제처럼 보이기 시작했다는 점이다. Speculative decoding 성능이 traffic mix에 좌우된다면, serving telemetry와 빠른 update loop를 가진 사업자가 느린 offline retraining에 의존하는 팀보다 유리할 가능성이 크다.
이번 발표에서 읽히는 더 큰 메시지는 Together가 speculation benchmark가 아니라 production-adaptive serving으로 무게중심을 옮기려 한다는 것이다. Aurora의 성과가 더 많은 model과 infrastructure stack에서도 유지되는지는 추가 검증이 필요하겠지만, 구체적인 시스템 주장, open-source code, 그리고 RL 학습과 실제 배포 경제성을 직접 연결한 논문을 함께 제시했다는 점에서 이번 발표는 고신호 업데이트다.
출처: Together AI X 게시물 · Together Research 블로그 · Aurora 논문 · Aurora 코드
Related Articles
Cursor는 2026년 3월 26일 real-time reinforcement learning을 통해 개선된 Composer checkpoint를 최대 5시간마다 배포할 수 있다고 밝혔다. Cursor의 연구 글은 이 루프가 실제 사용자 상호작용에서 나온 수십억 token을 학습 신호로 쓰고, 배포 전 CursorBench를 포함한 eval을 거치며, edit persistence·dissatisfied follow-up·latency 지표 개선까지 이미 확인했다고 설명한다.
r/MachineLearning의 새 글이 TurboQuant를 KV cache 논의에서 weight compression 단계로 끌어왔다. GitHub 구현은 low-bit LLM inference용 drop-in path를 목표로 한다.
2026년 3월 26일 Google Cloud B200 cluster에서 Qwen 3.5 27B를 서빙한 사례를 다룬 r/LocalLLaMA 글은 크롤링 시점 기준 205 points와 52 comments를 기록했다. 링크된 글은 tensor parallelism에서 data parallelism으로 바꾸고, context length를 줄이며, FP8 KV cache와 MTP-1 speculative decoding을 적용해 12 node에서 총 1,103,941 tokens per second를 달성했다고 설명한다.
Comments (0)
No comments yet. Be the first to comment!