3090一枚で218K文脈、LocalLLaMAが速度より安定性に反応した理由

Original: Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix) View original →

Read in other languages: 한국어English
LLM May 1, 2026 By Insights AI (Reddit) 1 min read Source

LocalLLaMAがこのQwen3.6の続報を好んだ理由は、また一枚のきれいなベンチマーク画像ではなかったからだ。このサブレが一番信用する材料が揃っていた。厳しいハード制約、具体的な数字、再現できる修正、そして少し前の民生カードをどこまで押し込めるかという執念である。

対象はQwen3.6-27BをRTX 3090一枚で回す構成だ。投稿者は、ワークロード次第でおよそ50または66 tokens per second前後で約218K文脈、vision込みで約198K文脈、さらに25Kトークン級のtool outputもメモリエラーなしで完走できたと報告している。以前の構成より純粋な速度は落ちているが、LocalLLaMAではこの交換は十分に意味がある。見栄えのいい速度表より、実際のエージェント仕事で崩れにくいかどうかの方が価値になるからだ。

面白かったのは失敗の切り分けだ。投稿によると、GenesisのPN12パッチは新しいvLLM devビルドのメモリ問題を和らげるはずで、適用ツールも成功を表示していた。ところが実際には、パッチのアンカーがずれていて対象コード経路が変わっていなかった。そのため長いtool prefillでOOMが出続けていた。genesis-vllm-patchesのPR #13でそのずれを直したところ、高文脈構成と長い出力が一気に実用域へ入った。この手の具体性こそ、LocalLLaMAで票が集まる理由だ。ベンダーの主張ではなく、どの前提が外れ、どこが壊れ、何を直したら安定したのかが一緒に書かれている。

投稿が問題解決を言い切っていない点も良かった。単一GPUの単一プロンプトでは、なお50Kから60K付近に第二のメモリ崖があると明記し、tensor parallelismが入ると状況が変わるとも書いている。再現用リポジトリも貼られていて、3090や4090の所有者がそのまま追試できる。雰囲気だけの成功談にしていない。

だからこの投稿の評価軸は単純な数字自慢ではない。3090一枚で長文脈とtool呼び出しを同時に扱う話が、半分伝説だった状態から少しずつ工学の話へ降りてきた。その感触にLocalLLaMAが反応した。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment