2x RTX 3090でQwen3.5 27Bを170kコンテキスト・100+ t/s で動作させる方法

Original: Running Qwen3.5 27b dense with 170k context at 100+t/s decode and ~1500t/s prefill on 2x3090 (with 585t/s throughput for 8 simultaneous requests) View original →

Read in other languages: 한국어English
LLM Mar 2, 2026 By Insights AI (Reddit) 1 min read 1 views Source

概要

LocalLLaMAコミュニティのメンバーが、コンシューマーGPUデュアル構成でQwen3.5 27Bデンスモデルを驚異的な性能で動作させることに成功した。170kコンテキストウィンドウで100+ t/sのデコード速度と約1,500 t/sのプリフィル速度を、NVLink接続の2x RTX 3090システムで実現した。

ハードウェア構成

NVLink接続の2x RTX 3090を使用。開発者はNVLinkが高帯域幅のGPU間通信を提供することでテンソル並列化の効率を大幅に向上させると説明している。

ソフトウェア最適化

主な最適化のポイント:

  • vLLMでテンソル並列化を有効化
  • MTP(Multi-Token Prediction)を5トークン予測に設定(公式推奨の3より高め)
  • 平均受け入れ長が3以上で安定していることを確認

MTPを5以上にしても効果が得られなかったため、5が最適値となった。

実際のパフォーマンス

複雑な推論タスクでもデコード速度は60 t/s以下になることはほぼなかった。8同時リクエストでは最大585 t/sの集計スループットを達成した。

意義

この結果は、クラウドインフラなしでもコンシューマーGPUデュアル構成でプロダクショングレードのLLMサービングが実現できることを示している。ローカルAIインフラ構築を検討する開発者への実践的なリファレンスとなる。

Share:

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.