Intel Arc Pro B70 32GBでQwen3.5-27Bを回したコミュニティ計測
Original: Intel Arc Pro B70 32GB performance on Qwen3.5-27B@Q4 View original →
コミュニティが共有した測定結果
2026年4月12日時点でr/LocalLLaMAの82 score、44 commentsを集めたこの投稿は、Intel Arc Pro B70 32GBでQwen3.5-27B int4を動かした実測結果をかなり細かく公開している。投稿者はIntelの llm-scaler-vllm forkを動かすまで何晩も格闘したあと、single GPUとdual GPUの両方でprefillとtoken generationの数字をまとめた。
結論は、簡単ではないが十分に使える、というものに近い。single GPUではgenerationがだいたい12から14 tokens/sec、2048 token prefillは約1700 t/sと報告されている。一方でconcurrencyを上げると総throughputは大きく伸び、32 concurrencyの tg512 では130.90 total t/sに達した。dual GPUではtensor parallelが期待ほど伸びず、むしろpipeline parallelの方が高concurrency時に有利で、32 concurrencyの tg512 は195.82 t/sまで上がった。
投稿から読み取れる運用上のポイント
- tensor parallelはほぼ全ケースで性能を悪化させたと投稿者は述べている。
- pipeline parallelはsingle query generationには不利だが、高負荷時のthroughput改善には効いた。
- 32 concurrency時のtotal generationはRTX Pro 4500 32GBより約20%低く、消費電力は約50%高いという比較も示された。
- 最新のbeta forkが必要で、Ubuntu 26.04 pre-releaseでは動いた一方、Ubuntu 24.04.4ではうまくいかなかったという。
なぜ注目する価値があるのか
もちろんこれは特定ユーザーのcommunity measurementであって、統制されたlab benchmarkではない。それでも価値があるのは、印象論で終わっていないからだ。Docker command、Intel XPU targetの指定、parallel設定、concurrencyごとの表まで公開されている。Intel GPUでQwen3.5-27B級modelをlocal servingしたい人にとって、こうした具体的な数字は一般的な宣伝文句よりずっと役に立つ。
原文: r/LocalLLaMA post.
Related Articles
2026年3月26日、Google CloudのB200 clusterでQwen 3.5 27Bをserveした事例を扱うr/LocalLLaMA投稿は、クロール時点で205 pointsと52 commentsを集めた。リンク先記事はtensor parallelismからdata parallelismへ切り替え、context lengthを縮め、FP8 KV cacheとMTP-1 speculative decodingを有効化することで、12 nodeで合計1,103,941 tokens per secondに達したと説明している。
2026年3月12日のLocalLLaMA投稿は、4x RTX PRO 6000 BlackwellでのQwen3.5-397B NVFP4持続decode最良値はMarlinで50.5 tok/sだと報告した。理由はSM120でCUTLASS grouped GEMMのネイティブ経路が崩れているため、という主張だ。
r/LocalLLaMA投稿は「編集ごとの検証」ループでQwen3.5-35B-A3Bが22.2%から37.8%へ改善したと報告し、Claude Opus 4.6の40%参照値に接近した点を示した。