2x RTX 3090으로 Qwen3.5 27B를 170k 컨텍스트에서 초당 100+ 토큰으로 구동하는 법
Original: Running Qwen3.5 27b dense with 170k context at 100+t/s decode and ~1500t/s prefill on 2x3090 (with 585t/s throughput for 8 simultaneous requests) View original →
개요
LocalLLaMA 커뮤니티에서 한 개발자가 소비자용 GPU 듀얼 셋업으로 Qwen3.5 27B 덴스 모델을 고성능으로 구동하는 방법을 공유했다. 결과는 인상적이다: 170k 컨텍스트 윈도우에서 초당 100+ 토큰 디코딩과 약 1,500t/s의 프리필 속도를 달성했다.
하드웨어 구성
이 성능은 NVLink로 연결된 2x RTX 3090 GPU 셋업에서 달성되었다. NVLink는 GPU 간 고속 연결을 제공하여 텐서 병렬화의 효율을 크게 높인다고 개발자는 설명했다.
소프트웨어 최적화
핵심 최적화 기법은 다음과 같다:
- vLLM을 텐서 병렬화 모드로 활용
- MTP(Multi-Token Prediction)를 5토큰 예측으로 설정 (기본 문서에서 권장하는 3보다 높음)
- MTP 적용 후 평균 수락 길이가 3 이상으로 유지됨을 확인
MTP 값을 5 이상으로 높여도 추가적인 이득이 없어 5가 최적값으로 나타났다.
실제 성능
최악의 케이스(복잡한 추론 요청)에서도 디코딩 속도는 거의 60t/s 이하로 떨어지지 않았다. 8개의 동시 요청을 처리할 때 최대 585t/s의 집계 처리량을 달성했다. 이는 멀티 유저 서비스 환경에서도 충분한 성능이다.
의의
이 결과는 소비자용 GPU 듀얼 셋업으로도 프로덕션 수준의 LLM 서빙이 가능함을 보여준다. 클라우드 비용 없이 강력한 로컬 AI 인프라를 구축하려는 개발자들에게 실용적인 레퍼런스가 된다.
Related Articles
LocalLLaMA가 반응한 이유는 '새 모델 출시' 한 줄이 아니었다. RTX 5090 한 장에서 Qwen3.6-27B를 약 80 tokens/s, 218k context로 돌렸다는 구체적 수치가 붙었기 때문이다.
LocalLLaMA가 이 글에 꽂힌 이유는 숫자 하나 때문만은 아니었다. RTX 5090 한 장에서 Qwen3.6-27B-INT4를 100 tps와 256k context로 돌렸다는 보고가 올라오자, 댓글은 곧바로 “그 속도에서 품질은 어디까지 지키느냐”로 모였다.
r/LocalLLaMA에 올라온 벤치마크는 Intel Arc Pro B70 32GB와 Intel vLLM fork 조합으로 Qwen3.5-27B int4를 어느 정도 실용적으로 서빙할 수 있음을 보여준다. 다만 tensor parallel보다 pipeline parallel이 더 유리했고, setup 안정화에도 적지 않은 시행착오가 필요했다.
Comments (0)
No comments yet. Be the first to comment!