Intel Arc Pro B70 32GB로 Qwen3.5-27B를 돌린 커뮤니티 실측
Original: Intel Arc Pro B70 32GB performance on Qwen3.5-27B@Q4 View original →
커뮤니티가 공유한 숫자
2026년 4월 12일 기준 r/LocalLLaMA에서 82 score와 44 comments를 모은 이 글은, Intel Arc Pro B70 32GB에서 Qwen3.5-27B int4를 돌린 실측 결과를 자세히 공개했다. 작성자는 Intel의 llm-scaler-vllm fork를 여러 날 동안 붙잡고 문제를 해결한 뒤, single GPU와 dual GPU 구성 모두에서 prefill과 token generation 수치를 정리했다.
핵심 결론은 단순한 낙관론보다 조건부 실용성에 가깝다. single GPU에서 작성자는 llama.cpp와 Intel 계열 vLLM 실행 경로 모두 약 12 tokens/sec 수준의 generation 속도를 봤다고 적었다. 반면 concurrency를 높이면 총 처리량은 훨씬 올라가서, 32 concurrency에서 total token generation이 130.90 tps까지 증가했다. 또 2048 token prefill은 single GPU에서 약 1700 t/s 수준이 나왔고, dual GPU의 pipeline parallel 구성에서는 32 concurrency 기준 total token generation이 195.82 t/s까지 올라갔다.
무엇이 잘 됐고 무엇이 안 됐나
- tensor parallel은 거의 모든 경우에서 성능을 악화시켰다고 작성자는 평가했다.
- pipeline parallel은 single query generation에는 불리했지만, 높은 concurrency에서는 throughput 개선 효과가 있었다.
- 작성자는 32 concurrency 기준 total generation이 RTX Pro 4500 32GB보다 약 20% 낮지만, 소비전력은 약 50% 높다고 비교했다.
- 최신 beta fork가 필요했고, Ubuntu 26.04 pre-release에서는 별도 driver 설치 없이 동작했지만 24.04.4는 제대로 되지 않았다고 한다.
왜 이 글이 의미가 있나
이 결과는 엄격한 lab benchmark가 아니라 특정 사용자의 setup에서 나온 community measurement다. 그럼에도 local serving 관점에서는 정보량이 높다. 작성자는 Docker 실행 예시, model 지정 방식, parallel 설정, concurrency별 표까지 함께 공개했다. Intel GPU에서 Qwen3.5-27B급 model을 실제 운영 workload로 다뤄 보려는 사람이라면, 단순한 홍보 문구보다 훨씬 유용한 출발점이 된다.
원문: r/LocalLLaMA post.
Related Articles
2026년 3월 12일 LocalLLaMA 게시글은 4x RTX PRO 6000 Blackwell 환경에서 Qwen3.5-397B NVFP4의 지속 decode 최고값이 Marlin 기준 50.5 tok/s라고 주장했다. 이유는 SM120에서 CUTLASS grouped GEMM 경로가 실패하거나 느린 fallback으로 떨어지기 때문이라는 설명이다.
LocalLLaMA 스레드는 speculative decoding용 block-diffusion draft model인 DFlash에 관심을 모았다. 논문은 6x 이상의 lossless acceleration과 vLLM, SGLang, 일부 Transformers backend 지원을 내세운다.
2026년 3월 14일 LocalLLaMA 글은 SM120 Blackwell 워크스테이션용 CUTLASS·FlashInfer 패치를 소개하며, Qwen3.5-397B NVFP4 추론 속도 개선과 FlashInfer PR #2786을 함께 제시했다.
Comments (0)
No comments yet. Be the first to comment!