Intel Arc Pro B70 32GBでQwen3.5-27Bを回したコミュニティ計測

コミュニティが共有した測定結果

2026年4月12日時点でr/LocalLLaMAの82 score、44 commentsを集めたこの投稿は、Intel Arc Pro B70 32GBでQwen3.5-27B int4を動かした実測結果をかなり細かく公開している。投稿者はIntelの llm-scaler-vllm forkを動かすまで何晩も格闘したあと、single GPUとdual GPUの両方でprefillとtoken generationの数字をまとめた。

結論は、簡単ではないが十分に使える、というものに近い。single GPUではgenerationがだいたい12から14 tokens/sec、2048 token prefillは約1700 t/sと報告されている。一方でconcurrencyを上げると総throughputは大きく伸び、32 concurrencyの tg512 では130.90 total t/sに達した。dual GPUではtensor parallelが期待ほど伸びず、むしろpipeline parallelの方が高concurrency時に有利で、32 concurrencyの tg512 は195.82 t/sまで上がった。

投稿から読み取れる運用上のポイント

tensor parallelはほぼ全ケースで性能を悪化させたと投稿者は述べている。
pipeline parallelはsingle query generationには不利だが、高負荷時のthroughput改善には効いた。
32 concurrency時のtotal generationはRTX Pro 4500 32GBより約20%低く、消費電力は約50%高いという比較も示された。
最新のbeta forkが必要で、Ubuntu 26.04 pre-releaseでは動いた一方、Ubuntu 24.04.4ではうまくいかなかったという。

なぜ注目する価値があるのか

もちろんこれは特定ユーザーのcommunity measurementであって、統制されたlab benchmarkではない。それでも価値があるのは、印象論で終わっていないからだ。Docker command、Intel XPU targetの指定、parallel設定、concurrencyごとの表まで公開されている。Intel GPUでQwen3.5-27B級modelをlocal servingしたい人にとって、こうした具体的な数字は一般的な宣伝文句よりずっと役に立つ。

原文: r/LocalLLaMA post.

Intel Arc Pro B70 32GBでQwen3.5-27Bを回したコミュニティ計測

コミュニティが共有した測定結果

投稿から読み取れる運用上のポイント

なぜ注目する価値があるのか

Related Articles

LocalLLaMA検証、RTX PRO 6000のSM120ではCUTLASS NVFP4 MoEカーネル不具合が律速要因

r/LocalLLaMA: 文書分類ワークロードでQwen 3.5 27Bが約2000 TPS

LocalLLaMA、DFlashを高速 speculative decoding へのオープンソース経路として注目

Comments (0)

Leave a Comment

Related Articles

LocalLLaMA検証、RTX PRO 6000のSM120ではCUTLASS NVFP4 MoEカーネル不具合が律速要因
LLM Reddit Mar 16, 2026 1 min read

r/LocalLLaMA: 文書分類ワークロードでQwen 3.5 27Bが約2000 TPS
LLM Reddit Mar 15, 2026 1 min read

LocalLLaMA、DFlashを高速 speculative decoding へのオープンソース経路として注目