Intel Arc Pro B70 32GBでQwen3.5-27Bを回したコミュニティ計測

コミュニティが共有した測定結果

2026年4月12日時点でr/LocalLLaMAの82 score、44 commentsを集めたこの投稿は、Intel Arc Pro B70 32GBでQwen3.5-27B int4を動かした実測結果をかなり細かく公開している。投稿者はIntelの llm-scaler-vllm forkを動かすまで何晩も格闘したあと、single GPUとdual GPUの両方でprefillとtoken generationの数字をまとめた。

結論は、簡単ではないが十分に使える、というものに近い。single GPUではgenerationがだいたい12から14 tokens/sec、2048 token prefillは約1700 t/sと報告されている。一方でconcurrencyを上げると総throughputは大きく伸び、32 concurrencyの tg512 では130.90 total t/sに達した。dual GPUではtensor parallelが期待ほど伸びず、むしろpipeline parallelの方が高concurrency時に有利で、32 concurrencyの tg512 は195.82 t/sまで上がった。

投稿から読み取れる運用上のポイント

tensor parallelはほぼ全ケースで性能を悪化させたと投稿者は述べている。
pipeline parallelはsingle query generationには不利だが、高負荷時のthroughput改善には効いた。
32 concurrency時のtotal generationはRTX Pro 4500 32GBより約20%低く、消費電力は約50%高いという比較も示された。
最新のbeta forkが必要で、Ubuntu 26.04 pre-releaseでは動いた一方、Ubuntu 24.04.4ではうまくいかなかったという。

なぜ注目する価値があるのか

もちろんこれは特定ユーザーのcommunity measurementであって、統制されたlab benchmarkではない。それでも価値があるのは、印象論で終わっていないからだ。Docker command、Intel XPU targetの指定、parallel設定、concurrencyごとの表まで公開されている。Intel GPUでQwen3.5-27B級modelをlocal servingしたい人にとって、こうした具体的な数字は一般的な宣伝文句よりずっと役に立つ。

原文: r/LocalLLaMA post.

Intel Arc Pro B70 32GBでQwen3.5-27Bを回したコミュニティ計測

コミュニティが共有した測定結果

投稿から読み取れる運用上のポイント

なぜ注目する価値があるのか

Related Articles

LocalLLaMAが見たQwen 3.5 27Bの110万 tok/s、主役はB200よりvLLM tuning

LocalLLaMA検証、RTX PRO 6000のSM120ではCUTLASS NVFP4 MoEカーネル不具合が律速要因

LocalLLaMA実験、Qwen3.5-35B-A3BでSWE-bench Verified Hard 37.8%を報告

Related Articles

LocalLLaMAが見たQwen 3.5 27Bの110万 tok/s、主役はB200よりvLLM tuning
LLM Reddit Mar 28, 2026 1 min read

LocalLLaMA検証、RTX PRO 6000のSM120ではCUTLASS NVFP4 MoEカーネル不具合が律速要因
LLM Reddit Mar 16, 2026 1 min read

LocalLLaMA実験、Qwen3.5-35B-A3BでSWE-bench Verified Hard 37.8%を報告
LLM Reddit Mar 4, 2026 1 min read