Intel Arc Pro B70 32GBでQwen3.5-27Bを回したコミュニティ計測

Original: Intel Arc Pro B70 32GB performance on Qwen3.5-27B@Q4 View original →

Read in other languages: 한국어English
LLM Apr 12, 2026 By Insights AI (Reddit) 1 min read Source

コミュニティが共有した測定結果

2026年4月12日時点でr/LocalLLaMAの82 score、44 commentsを集めたこの投稿は、Intel Arc Pro B70 32GBでQwen3.5-27B int4を動かした実測結果をかなり細かく公開している。投稿者はIntelの llm-scaler-vllm forkを動かすまで何晩も格闘したあと、single GPUとdual GPUの両方でprefillとtoken generationの数字をまとめた。

結論は、簡単ではないが十分に使える、というものに近い。single GPUではgenerationがだいたい12から14 tokens/sec、2048 token prefillは約1700 t/sと報告されている。一方でconcurrencyを上げると総throughputは大きく伸び、32 concurrencyの tg512 では130.90 total t/sに達した。dual GPUではtensor parallelが期待ほど伸びず、むしろpipeline parallelの方が高concurrency時に有利で、32 concurrencyの tg512 は195.82 t/sまで上がった。

投稿から読み取れる運用上のポイント

  • tensor parallelはほぼ全ケースで性能を悪化させたと投稿者は述べている。
  • pipeline parallelはsingle query generationには不利だが、高負荷時のthroughput改善には効いた。
  • 32 concurrency時のtotal generationはRTX Pro 4500 32GBより約20%低く、消費電力は約50%高いという比較も示された。
  • 最新のbeta forkが必要で、Ubuntu 26.04 pre-releaseでは動いた一方、Ubuntu 24.04.4ではうまくいかなかったという。

なぜ注目する価値があるのか

もちろんこれは特定ユーザーのcommunity measurementであって、統制されたlab benchmarkではない。それでも価値があるのは、印象論で終わっていないからだ。Docker command、Intel XPU targetの指定、parallel設定、concurrencyごとの表まで公開されている。Intel GPUでQwen3.5-27B級modelをlocal servingしたい人にとって、こうした具体的な数字は一般的な宣伝文句よりずっと役に立つ。

原文: r/LocalLLaMA post.

Share: Long

Related Articles

LLM Reddit Mar 15, 2026 1 min read

r/LocalLLaMAのfield reportは、非常に具体的なlocal inference workloadをthroughput重視で調整した事例を示した。投稿者はQwen 3.5 27Bでmarkdown文書を分類しながら約2,000 tokens per secondを記録したと述べ、commentでは実務的な最適化論点が追加された。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.