2x RTX 3090でQwen3.5 27Bを170kコンテキスト・100+ t/s で動作させる方法
Original: Running Qwen3.5 27b dense with 170k context at 100+t/s decode and ~1500t/s prefill on 2x3090 (with 585t/s throughput for 8 simultaneous requests) View original →
概要
LocalLLaMAコミュニティのメンバーが、コンシューマーGPUデュアル構成でQwen3.5 27Bデンスモデルを驚異的な性能で動作させることに成功した。170kコンテキストウィンドウで100+ t/sのデコード速度と約1,500 t/sのプリフィル速度を、NVLink接続の2x RTX 3090システムで実現した。
ハードウェア構成
NVLink接続の2x RTX 3090を使用。開発者はNVLinkが高帯域幅のGPU間通信を提供することでテンソル並列化の効率を大幅に向上させると説明している。
ソフトウェア最適化
主な最適化のポイント:
- vLLMでテンソル並列化を有効化
- MTP(Multi-Token Prediction)を5トークン予測に設定(公式推奨の3より高め)
- 平均受け入れ長が3以上で安定していることを確認
MTPを5以上にしても効果が得られなかったため、5が最適値となった。
実際のパフォーマンス
複雑な推論タスクでもデコード速度は60 t/s以下になることはほぼなかった。8同時リクエストでは最大585 t/sの集計スループットを達成した。
意義
この結果は、クラウドインフラなしでもコンシューマーGPUデュアル構成でプロダクショングレードのLLMサービングが実現できることを示している。ローカルAIインフラ構築を検討する開発者への実践的なリファレンスとなる。
Related Articles
LocalLLaMAの投稿は、RX 9070 XT上でllama.cppの`--ubatch-size`を64まで下げたところ、Qwen3.5-27Bのprompt processingが大きく高速化したと報告した。重要なのは64が万能値だということではなく、prompt ingestionとtoken generationが`n_ubatch`に全く異なる反応を示しうる点だ。
r/LocalLLaMAで共有されたFlashAttention-4は、B200 BF16で最大1605 TFLOPs/sを報告し、Blackwell世代のメモリ/SFU制約を前提にした新しいattention最適化を示した。
高評価のr/MachineLearning投稿はDavid Noel Ngの長いblog記事を再浮上させ、Qwen2-72Bの中間7-layer blockをweight変更なしで複製するだけでopen leaderboard上位に届いたという主張を改めて注目させた。
Comments (0)
No comments yet. Be the first to comment!