2x RTX 3090でQwen3.5 27Bを170kコンテキスト・100+ t/s で動作させる方法

概要

LocalLLaMAコミュニティのメンバーが、コンシューマーGPUデュアル構成でQwen3.5 27Bデンスモデルを驚異的な性能で動作させることに成功した。170kコンテキストウィンドウで100+ t/sのデコード速度と約1,500 t/sのプリフィル速度を、NVLink接続の2x RTX 3090システムで実現した。

ハードウェア構成

NVLink接続の2x RTX 3090を使用。開発者はNVLinkが高帯域幅のGPU間通信を提供することでテンソル並列化の効率を大幅に向上させると説明している。

ソフトウェア最適化

主な最適化のポイント：

vLLMでテンソル並列化を有効化
MTP（Multi-Token Prediction）を5トークン予測に設定（公式推奨の3より高め）
平均受け入れ長が3以上で安定していることを確認

MTPを5以上にしても効果が得られなかったため、5が最適値となった。

実際のパフォーマンス

複雑な推論タスクでもデコード速度は60 t/s以下になることはほぼなかった。8同時リクエストでは最大585 t/sの集計スループットを達成した。

意義

この結果は、クラウドインフラなしでもコンシューマーGPUデュアル構成でプロダクショングレードのLLMサービングが実現できることを示している。ローカルAIインフラ構築を検討する開発者への実践的なリファレンスとなる。

LLM Reddit 1d ago 1 min read

RTX 5090 1枚でQwen 3.6 27Bが約80 t/s、LocalLLaMAがざわついた理由

LocalLLaMAがざわついたのは「新モデルが出た」からではない。RTX 5090 1枚で Qwen3.6-27B を約80 t/s、218k context で回したという具体的な数字が付いていたからだ。

#qwen #vllm #rtx-5090

LLM Reddit 15h ago 1 min read

Qwen3.6 27BがRTX 5090一枚で100 tps　LocalLLaMAが先に聞いたのは品質

LocalLLaMAが食いついたのは派手な速度自慢だけではない。Qwen3.6-27B-INT4をRTX 5090一枚で105-108 tps、しかも256k native contextで回したという投稿に対し、議論はすぐに「その速さで品質は持つのか」に集まった。

#qwen #vllm #rtx-5090

LLM Reddit Apr 8, 2026 1 min read

r/LocalLLaMA、Qwen3.5 27Bをlocal inferenceのsweet spotとして評価

最近のr/LocalLLaMA投稿は、Qwen3.5 27Bがqualityとdeployabilityのバランスに優れたlocal modelだと主張する。投稿者はRTX A6000 48GBとllama.cppで約19.7 tokens/secを報告し、commentsではdense 27BとMoEのVRAM economicsが詳しく議論された。

#qwen #local-llm #llama-cpp

2x RTX 3090でQwen3.5 27Bを170kコンテキスト・100+ t/s で動作させる方法

概要

ハードウェア構成

ソフトウェア最適化

実際のパフォーマンス

意義

Related Articles

RTX 5090 1枚でQwen 3.6 27Bが約80 t/s、LocalLLaMAがざわついた理由

Qwen3.6 27BがRTX 5090一枚で100 tps　LocalLLaMAが先に聞いたのは品質

r/LocalLLaMA、Qwen3.5 27Bをlocal inferenceのsweet spotとして評価

Comments (0)

Leave a Comment

概要

ハードウェア構成

ソフトウェア最適化

実際のパフォーマンス

意義

Related Articles

RTX 5090 1枚でQwen 3.6 27Bが約80 t/s、LocalLLaMAがざわついた理由

Qwen3.6 27BがRTX 5090一枚で100 tps LocalLLaMAが先に聞いたのは品質

r/LocalLLaMA、Qwen3.5 27Bをlocal inferenceのsweet spotとして評価

Comments (0)

Leave a Comment

Qwen3.6 27BがRTX 5090一枚で100 tps　LocalLLaMAが先に聞いたのは品質