LocalLLaMA 화제: 듀얼 RTX PRO 6000 Blackwell에서 Qwen3.5-122B 198 tok/s 검증
Original: Qwen3.5-122B at 198 tok/s on 2x RTX PRO 6000 Blackwell — Budget build, verified results View original →
Reddit 글의 핵심 주장
r/LocalLLaMA의 한 글은 크롤링 시점에 114 업보트, 185 댓글을 기록하며 높은 관심을 받았다. 이유는 단순한 스크린샷 자랑이 아니라, 로컬 2-GPU inference 서버에서 나온 구체적인 수치를 비교적 투명하게 공개했기 때문이다. 작성자는 2x RTX PRO 6000 Blackwell (각 96GB GDDR7), AMD EPYC 4564P, 128GB DDR5 ECC, c-payne PM50100 Gen5 PCIe switch로 구성한 서버를 일주일간 최적화했다고 설명했다. 대표 수치는 Qwen3.5-122B 198 tok/s이며, 단일 사용자 decode 기준으로 세 차례 검증한 결과가 대략 197, 200, 198 tok/s였다고 적었다.
재현 가능성은 어느 정도인가
이 글이 의미 있는 이유는 공개 자료가 함께 있다는 점이다. Reddit 본문은 methodology, launch command, raw benchmark JSON을 담은 GitHub 저장소를 링크한다. 저장소의 results.md는 최고 성능 조합을 SGLang b12x+NEXTN 기반 Qwen3.5-122B NVFP4 198 tok/s로 명시한다. 실제 verification JSON 하나는 2026년 4월 8일 단일 concurrency 테스트에서 200.33 aggregate tokens per second를 기록했다. 같은 표에는 Qwen3.5-27B FP8 170 tok/s, MiniMax M2.5 148 tok/s, Qwen3.5-397B GGUF 79 tok/s 등도 함께 정리돼 있어, 헤드라인 수치가 맥락 없는 단발성 결과가 아니라는 점을 보여 준다.
왜 이렇게 빨라졌는가
작성자는 성능 향상의 원인을 하나의 요소가 아니라 조합으로 설명한다. PCIe switch 기반 PIX topology, SGLang b12x MoE kernel, NEXTN speculative decoding, multi-GPU allreduce 최적화, 그리고 해당 kernel과 호환되는 modelopt_fp4 checkpoint가 핵심이라는 것이다. 공개 results file도 이 설명을 뒷받침한다. 같은 저장소는 PLX 기반 구성에서 48.7 GB/s P2P bandwidth, TRX40 경로에서 27.9 GB/s를 제시하며, 122B 최고 조합이 비교된 TRX40 baseline보다 68% 빠르다고 정리한다. 즉, 이번 결과는 새 GPU 자체보다도 interconnect topology와 software stack tuning의 효과가 크다는 뜻이다.
실무적으로 읽을 포인트
물론 이 수치가 곧바로 모든 실제 workload를 대표하는 것은 아니다. 이 benchmark는 어디까지나 single-user decode throughput 중심이며, 글 작성자도 context length가 늘어나면 TTFT는 커진다고 적었다. 예시로 4K context는 1.8초, 150K context는 23.3초 수준이라고 설명한다. 그럼에도 이 글이 주목할 만한 이유는, 많은 social post와 달리 하드웨어 구성, software stack, raw JSON artifact를 모두 공개해 검증 가능성을 높였기 때문이다. 로컬 inference 환경을 직접 튜닝하는 사용자에게는 단순한 화제성보다 훨씬 유용한 참고 사례다.
Reddit discussion thread · Benchmark results · Raw verification JSON
Related Articles
LocalLLaMA 스레드는 speculative decoding용 block-diffusion draft model인 DFlash에 관심을 모았다. 논문은 6x 이상의 lossless acceleration과 vLLM, SGLang, 일부 Transformers backend 지원을 내세운다.
2026년 3월 14일 LocalLLaMA 글은 SM120 Blackwell 워크스테이션용 CUTLASS·FlashInfer 패치를 소개하며, Qwen3.5-397B NVFP4 추론 속도 개선과 FlashInfer PR #2786을 함께 제시했다.
r/LocalLLaMA의 한 글은 Qwen3.5 27B가 quality와 deployability 사이에서 드문 균형점을 만든다고 주장한다. 게시물은 RTX A6000 48GB, llama.cpp with CUDA, 32K context에서 약 19.7 tokens/sec를 보고했고, 댓글에서는 dense 27B와 35B-A3B MoE의 VRAM economics가 활발히 비교됐다.
Comments (0)
No comments yet. Be the first to comment!