Intel Arc Pro B70 32GB로 Qwen3.5-27B를 돌린 커뮤니티 실측

커뮤니티가 공유한 숫자

2026년 4월 12일 기준 r/LocalLLaMA에서 82 score와 44 comments를 모은 이 글은, Intel Arc Pro B70 32GB에서 Qwen3.5-27B int4를 돌린 실측 결과를 자세히 공개했다. 작성자는 Intel의 llm-scaler-vllm fork를 여러 날 동안 붙잡고 문제를 해결한 뒤, single GPU와 dual GPU 구성 모두에서 prefill과 token generation 수치를 정리했다.

핵심 결론은 단순한 낙관론보다 조건부 실용성에 가깝다. single GPU에서 작성자는 llama.cpp와 Intel 계열 vLLM 실행 경로 모두 약 12 tokens/sec 수준의 generation 속도를 봤다고 적었다. 반면 concurrency를 높이면 총 처리량은 훨씬 올라가서, 32 concurrency에서 total token generation이 130.90 tps까지 증가했다. 또 2048 token prefill은 single GPU에서 약 1700 t/s 수준이 나왔고, dual GPU의 pipeline parallel 구성에서는 32 concurrency 기준 total token generation이 195.82 t/s까지 올라갔다.

무엇이 잘 됐고 무엇이 안 됐나

tensor parallel은 거의 모든 경우에서 성능을 악화시켰다고 작성자는 평가했다.
pipeline parallel은 single query generation에는 불리했지만, 높은 concurrency에서는 throughput 개선 효과가 있었다.
작성자는 32 concurrency 기준 total generation이 RTX Pro 4500 32GB보다 약 20% 낮지만, 소비전력은 약 50% 높다고 비교했다.
최신 beta fork가 필요했고, Ubuntu 26.04 pre-release에서는 별도 driver 설치 없이 동작했지만 24.04.4는 제대로 되지 않았다고 한다.

왜 이 글이 의미가 있나

이 결과는 엄격한 lab benchmark가 아니라 특정 사용자의 setup에서 나온 community measurement다. 그럼에도 local serving 관점에서는 정보량이 높다. 작성자는 Docker 실행 예시, model 지정 방식, parallel 설정, concurrency별 표까지 함께 공개했다. Intel GPU에서 Qwen3.5-27B급 model을 실제 운영 workload로 다뤄 보려는 사람이라면, 단순한 홍보 문구보다 훨씬 유용한 출발점이 된다.

원문: r/LocalLLaMA post.

Intel Arc Pro B70 32GB로 Qwen3.5-27B를 돌린 커뮤니티 실측

커뮤니티가 공유한 숫자

무엇이 잘 됐고 무엇이 안 됐나

왜 이 글이 의미가 있나

Related Articles

LocalLLaMA 벤치마크: RTX PRO 6000 SM120의 병목은 깨진 CUTLASS NVFP4 MoE 커널

LocalLLaMA, DFlash를 더 빠른 speculative decoding을 위한 오픈소스 경로로 주목

LocalLLaMA, K=64 커널 패치로 Blackwell 워크스테이션의 Qwen3.5-397B 추론 개선 주장

Comments (0)

Leave a Comment

Related Articles

LocalLLaMA 벤치마크: RTX PRO 6000 SM120의 병목은 깨진 CUTLASS NVFP4 MoE 커널
LLM Reddit Mar 16, 2026 2 min read

LocalLLaMA, DFlash를 더 빠른 speculative decoding을 위한 오픈소스 경로로 주목

LocalLLaMA, K=64 커널 패치로 Blackwell 워크스테이션의 Qwen3.5-397B 추론 개선 주장
LLM Reddit Mar 15, 2026 2 min read