3090一枚で218K文脈、LocalLLaMAが速度より安定性に反応した理由
Original: Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix) View original →
LocalLLaMAがこのQwen3.6の続報を好んだ理由は、また一枚のきれいなベンチマーク画像ではなかったからだ。このサブレが一番信用する材料が揃っていた。厳しいハード制約、具体的な数字、再現できる修正、そして少し前の民生カードをどこまで押し込めるかという執念である。
対象はQwen3.6-27BをRTX 3090一枚で回す構成だ。投稿者は、ワークロード次第でおよそ50または66 tokens per second前後で約218K文脈、vision込みで約198K文脈、さらに25Kトークン級のtool outputもメモリエラーなしで完走できたと報告している。以前の構成より純粋な速度は落ちているが、LocalLLaMAではこの交換は十分に意味がある。見栄えのいい速度表より、実際のエージェント仕事で崩れにくいかどうかの方が価値になるからだ。
面白かったのは失敗の切り分けだ。投稿によると、GenesisのPN12パッチは新しいvLLM devビルドのメモリ問題を和らげるはずで、適用ツールも成功を表示していた。ところが実際には、パッチのアンカーがずれていて対象コード経路が変わっていなかった。そのため長いtool prefillでOOMが出続けていた。genesis-vllm-patchesのPR #13でそのずれを直したところ、高文脈構成と長い出力が一気に実用域へ入った。この手の具体性こそ、LocalLLaMAで票が集まる理由だ。ベンダーの主張ではなく、どの前提が外れ、どこが壊れ、何を直したら安定したのかが一緒に書かれている。
投稿が問題解決を言い切っていない点も良かった。単一GPUの単一プロンプトでは、なお50Kから60K付近に第二のメモリ崖があると明記し、tensor parallelismが入ると状況が変わるとも書いている。再現用リポジトリも貼られていて、3090や4090の所有者がそのまま追試できる。雰囲気だけの成功談にしていない。
だからこの投稿の評価軸は単純な数字自慢ではない。3090一枚で長文脈とtool呼び出しを同時に扱う話が、半分伝説だった状態から少しずつ工学の話へ降りてきた。その感触にLocalLLaMAが反応した。
Related Articles
ローカルLLM研究者が、単一のRTX 3090でQwen3.6-27Bとエージェンティック検索を組み合わせ、SimpleQA 95.7%を完全ローカル環境で達成した。
LocalLLaMAがこの投稿に反応した理由は宣伝文句ではなく実測値だ。RTX 5060 Ti 16GBを2枚使い、Qwen3.6 27Bを約60 tok/s、204kコンテキストまで持ち上げた構成が共有された。
LocalLLaMAコミュニティユーザーがRTX 4070 Super 12GBでQwen3.6 35B A3BモデルをIk_llama.cppフォークを使用して110トークン/秒で実行することに成功しました。CPU オフロード最適化に優れたこのフォークは標準llama.cppより大幅に高いパフォーマンスを示しました。