2x RTX 3090으로 Qwen3.5 27B를 170k 컨텍스트에서 초당 100+ 토큰으로 구동하는 법

개요

LocalLLaMA 커뮤니티에서 한 개발자가 소비자용 GPU 듀얼 셋업으로 Qwen3.5 27B 덴스 모델을 고성능으로 구동하는 방법을 공유했다. 결과는 인상적이다: 170k 컨텍스트 윈도우에서 초당 100+ 토큰 디코딩과 약 1,500t/s의 프리필 속도를 달성했다.

하드웨어 구성

이 성능은 NVLink로 연결된 2x RTX 3090 GPU 셋업에서 달성되었다. NVLink는 GPU 간 고속 연결을 제공하여 텐서 병렬화의 효율을 크게 높인다고 개발자는 설명했다.

소프트웨어 최적화

핵심 최적화 기법은 다음과 같다:

vLLM을 텐서 병렬화 모드로 활용
MTP(Multi-Token Prediction)를 5토큰 예측으로 설정 (기본 문서에서 권장하는 3보다 높음)
MTP 적용 후 평균 수락 길이가 3 이상으로 유지됨을 확인

MTP 값을 5 이상으로 높여도 추가적인 이득이 없어 5가 최적값으로 나타났다.

실제 성능

최악의 케이스(복잡한 추론 요청)에서도 디코딩 속도는 거의 60t/s 이하로 떨어지지 않았다. 8개의 동시 요청을 처리할 때 최대 585t/s의 집계 처리량을 달성했다. 이는 멀티 유저 서비스 환경에서도 충분한 성능이다.

의의

이 결과는 소비자용 GPU 듀얼 셋업으로도 프로덕션 수준의 LLM 서빙이 가능함을 보여준다. 클라우드 비용 없이 강력한 로컬 AI 인프라를 구축하려는 개발자들에게 실용적인 레퍼런스가 된다.

LLM Reddit 1d ago 1 min read

RTX 5090 한 장으로 Qwen 3.6 27B 80t/s, LocalLLaMA가 반응한 이유

LocalLLaMA가 반응한 이유는 '새 모델 출시' 한 줄이 아니었다. RTX 5090 한 장에서 Qwen3.6-27B를 약 80 tokens/s, 218k context로 돌렸다는 구체적 수치가 붙었기 때문이다.

#qwen #vllm #rtx-5090

LLM Reddit 13h ago 1 min read

Qwen3.6 27B, RTX 5090 한 장에서 100 tps… LocalLLaMA가 바로 물은 건 품질이었다

LocalLLaMA가 이 글에 꽂힌 이유는 숫자 하나 때문만은 아니었다. RTX 5090 한 장에서 Qwen3.6-27B-INT4를 100 tps와 256k context로 돌렸다는 보고가 올라오자, 댓글은 곧바로 “그 속도에서 품질은 어디까지 지키느냐”로 모였다.

#qwen #vllm #rtx-5090

LLM Reddit Apr 12, 2026 1 min read

Intel Arc Pro B70 32GB로 Qwen3.5-27B를 돌린 커뮤니티 실측

r/LocalLLaMA에 올라온 벤치마크는 Intel Arc Pro B70 32GB와 Intel vLLM fork 조합으로 Qwen3.5-27B int4를 어느 정도 실용적으로 서빙할 수 있음을 보여준다. 다만 tensor parallel보다 pipeline parallel이 더 유리했고, setup 안정화에도 적지 않은 시행착오가 필요했다.

#localllm #intel-arc #qwen