2x RTX 3090でQwen3.5 27Bを170kコンテキスト・100+ t/s で動作させる方法
Original: Running Qwen3.5 27b dense with 170k context at 100+t/s decode and ~1500t/s prefill on 2x3090 (with 585t/s throughput for 8 simultaneous requests) View original →
概要
LocalLLaMAコミュニティのメンバーが、コンシューマーGPUデュアル構成でQwen3.5 27Bデンスモデルを驚異的な性能で動作させることに成功した。170kコンテキストウィンドウで100+ t/sのデコード速度と約1,500 t/sのプリフィル速度を、NVLink接続の2x RTX 3090システムで実現した。
ハードウェア構成
NVLink接続の2x RTX 3090を使用。開発者はNVLinkが高帯域幅のGPU間通信を提供することでテンソル並列化の効率を大幅に向上させると説明している。
ソフトウェア最適化
主な最適化のポイント:
- vLLMでテンソル並列化を有効化
- MTP(Multi-Token Prediction)を5トークン予測に設定(公式推奨の3より高め)
- 平均受け入れ長が3以上で安定していることを確認
MTPを5以上にしても効果が得られなかったため、5が最適値となった。
実際のパフォーマンス
複雑な推論タスクでもデコード速度は60 t/s以下になることはほぼなかった。8同時リクエストでは最大585 t/sの集計スループットを達成した。
意義
この結果は、クラウドインフラなしでもコンシューマーGPUデュアル構成でプロダクショングレードのLLMサービングが実現できることを示している。ローカルAIインフラ構築を検討する開発者への実践的なリファレンスとなる。
Related Articles
LocalLLaMAがざわついたのは「新モデルが出た」からではない。RTX 5090 1枚で Qwen3.6-27B を約80 t/s、218k context で回したという具体的な数字が付いていたからだ。
LocalLLaMAが食いついたのは派手な速度自慢だけではない。Qwen3.6-27B-INT4をRTX 5090一枚で105-108 tps、しかも256k native contextで回したという投稿に対し、議論はすぐに「その速さで品質は持つのか」に集まった。
最近のr/LocalLLaMA投稿は、Qwen3.5 27Bがqualityとdeployabilityのバランスに優れたlocal modelだと主張する。投稿者はRTX A6000 48GBとllama.cppで約19.7 tokens/secを報告し、commentsではdense 27BとMoEのVRAM economicsが詳しく議論された。
Comments (0)
No comments yet. Be the first to comment!