3090一枚で218K文脈、LocalLLaMAが速度より安定性に反応した理由
Original: Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix) View original →
LocalLLaMAがこのQwen3.6の続報を好んだ理由は、また一枚のきれいなベンチマーク画像ではなかったからだ。このサブレが一番信用する材料が揃っていた。厳しいハード制約、具体的な数字、再現できる修正、そして少し前の民生カードをどこまで押し込めるかという執念である。
対象はQwen3.6-27BをRTX 3090一枚で回す構成だ。投稿者は、ワークロード次第でおよそ50または66 tokens per second前後で約218K文脈、vision込みで約198K文脈、さらに25Kトークン級のtool outputもメモリエラーなしで完走できたと報告している。以前の構成より純粋な速度は落ちているが、LocalLLaMAではこの交換は十分に意味がある。見栄えのいい速度表より、実際のエージェント仕事で崩れにくいかどうかの方が価値になるからだ。
面白かったのは失敗の切り分けだ。投稿によると、GenesisのPN12パッチは新しいvLLM devビルドのメモリ問題を和らげるはずで、適用ツールも成功を表示していた。ところが実際には、パッチのアンカーがずれていて対象コード経路が変わっていなかった。そのため長いtool prefillでOOMが出続けていた。genesis-vllm-patchesのPR #13でそのずれを直したところ、高文脈構成と長い出力が一気に実用域へ入った。この手の具体性こそ、LocalLLaMAで票が集まる理由だ。ベンダーの主張ではなく、どの前提が外れ、どこが壊れ、何を直したら安定したのかが一緒に書かれている。
投稿が問題解決を言い切っていない点も良かった。単一GPUの単一プロンプトでは、なお50Kから60K付近に第二のメモリ崖があると明記し、tensor parallelismが入ると状況が変わるとも書いている。再現用リポジトリも貼られていて、3090や4090の所有者がそのまま追試できる。雰囲気だけの成功談にしていない。
だからこの投稿の評価軸は単純な数字自慢ではない。3090一枚で長文脈とtool呼び出しを同時に扱う話が、半分伝説だった状態から少しずつ工学の話へ降りてきた。その感触にLocalLLaMAが反応した。
Related Articles
LocalLLaMAがこの投稿に反応した理由は宣伝文句ではなく実測値だ。RTX 5060 Ti 16GBを2枚使い、Qwen3.6 27Bを約60 tok/s、204kコンテキストまで持ち上げた構成が共有された。
27BモデルがSonnet 4.6に並んだという話でLocalLLaMAは沸いたが、議論はすぐベンチ最適化と実運用条件の確認に移った。
LocalLLaMAがざわついたのは「新モデルが出た」からではない。RTX 5090 1枚で Qwen3.6-27B を約80 t/s、218k context で回したという具体的な数字が付いていたからだ。
Comments (0)
No comments yet. Be the first to comment!