Intel Arc Pro B70 32GBでQwen3.5-27Bを回したコミュニティ計測
Original: Intel Arc Pro B70 32GB performance on Qwen3.5-27B@Q4 View original →
コミュニティが共有した測定結果
2026年4月12日時点でr/LocalLLaMAの82 score、44 commentsを集めたこの投稿は、Intel Arc Pro B70 32GBでQwen3.5-27B int4を動かした実測結果をかなり細かく公開している。投稿者はIntelの llm-scaler-vllm forkを動かすまで何晩も格闘したあと、single GPUとdual GPUの両方でprefillとtoken generationの数字をまとめた。
結論は、簡単ではないが十分に使える、というものに近い。single GPUではgenerationがだいたい12から14 tokens/sec、2048 token prefillは約1700 t/sと報告されている。一方でconcurrencyを上げると総throughputは大きく伸び、32 concurrencyの tg512 では130.90 total t/sに達した。dual GPUではtensor parallelが期待ほど伸びず、むしろpipeline parallelの方が高concurrency時に有利で、32 concurrencyの tg512 は195.82 t/sまで上がった。
投稿から読み取れる運用上のポイント
- tensor parallelはほぼ全ケースで性能を悪化させたと投稿者は述べている。
- pipeline parallelはsingle query generationには不利だが、高負荷時のthroughput改善には効いた。
- 32 concurrency時のtotal generationはRTX Pro 4500 32GBより約20%低く、消費電力は約50%高いという比較も示された。
- 最新のbeta forkが必要で、Ubuntu 26.04 pre-releaseでは動いた一方、Ubuntu 24.04.4ではうまくいかなかったという。
なぜ注目する価値があるのか
もちろんこれは特定ユーザーのcommunity measurementであって、統制されたlab benchmarkではない。それでも価値があるのは、印象論で終わっていないからだ。Docker command、Intel XPU targetの指定、parallel設定、concurrencyごとの表まで公開されている。Intel GPUでQwen3.5-27B級modelをlocal servingしたい人にとって、こうした具体的な数字は一般的な宣伝文句よりずっと役に立つ。
原文: r/LocalLLaMA post.
Related Articles
2026年3月12日のLocalLLaMA投稿は、4x RTX PRO 6000 BlackwellでのQwen3.5-397B NVFP4持続decode最良値はMarlinで50.5 tok/sだと報告した。理由はSM120でCUTLASS grouped GEMMのネイティブ経路が崩れているため、という主張だ。
r/LocalLLaMAのfield reportは、非常に具体的なlocal inference workloadをthroughput重視で調整した事例を示した。投稿者はQwen 3.5 27Bでmarkdown文書を分類しながら約2,000 tokens per secondを記録したと述べ、commentでは実務的な最適化論点が追加された。
LocalLLaMA スレッドは speculative decoding 向けの block-diffusion draft model、DFlash に注目を集めた。論文は 6x 超の lossless acceleration と、vLLM、SGLang、一部 Transformers backend の直接サポートを打ち出している。
Comments (0)
No comments yet. Be the first to comment!