3090一枚で218K文脈、LocalLLaMAが速度より安定性に反応した理由

LocalLLaMAがこのQwen3.6の続報を好んだ理由は、また一枚のきれいなベンチマーク画像ではなかったからだ。このサブレが一番信用する材料が揃っていた。厳しいハード制約、具体的な数字、再現できる修正、そして少し前の民生カードをどこまで押し込めるかという執念である。

対象はQwen3.6-27BをRTX 3090一枚で回す構成だ。投稿者は、ワークロード次第でおよそ50または66 tokens per second前後で約218K文脈、vision込みで約198K文脈、さらに25Kトークン級のtool outputもメモリエラーなしで完走できたと報告している。以前の構成より純粋な速度は落ちているが、LocalLLaMAではこの交換は十分に意味がある。見栄えのいい速度表より、実際のエージェント仕事で崩れにくいかどうかの方が価値になるからだ。

面白かったのは失敗の切り分けだ。投稿によると、GenesisのPN12パッチは新しいvLLM devビルドのメモリ問題を和らげるはずで、適用ツールも成功を表示していた。ところが実際には、パッチのアンカーがずれていて対象コード経路が変わっていなかった。そのため長いtool prefillでOOMが出続けていた。genesis-vllm-patchesのPR #13でそのずれを直したところ、高文脈構成と長い出力が一気に実用域へ入った。この手の具体性こそ、LocalLLaMAで票が集まる理由だ。ベンダーの主張ではなく、どの前提が外れ、どこが壊れ、何を直したら安定したのかが一緒に書かれている。

投稿が問題解決を言い切っていない点も良かった。単一GPUの単一プロンプトでは、なお50Kから60K付近に第二のメモリ崖があると明記し、tensor parallelismが入ると状況が変わるとも書いている。再現用リポジトリも貼られていて、3090や4090の所有者がそのまま追試できる。雰囲気だけの成功談にしていない。

だからこの投稿の評価軸は単純な数字自慢ではない。3090一枚で長文脈とtool呼び出しを同時に扱う話が、半分伝説だった状態から少しずつ工学の話へ降りてきた。その感触にLocalLLaMAが反応した。

3090一枚で218K文脈、LocalLLaMAが速度より安定性に反応した理由

Related Articles

Qwen3.6 27Bを16GB GPU 2枚で204kまで、LocalLLaMAが食いついた理由

Qwen3.6-27BがSonnet級へ? LocalLLaMAがすぐ測り方を問い直した

RTX 5090 1枚でQwen 3.6 27Bが約80 t/s、LocalLLaMAがざわついた理由

Comments (0)

Leave a Comment

Related Articles

Qwen3.6 27Bを16GB GPU 2枚で204kまで、LocalLLaMAが食いついた理由
LocalLLaMAがこの投稿に反応した理由は宣伝文句ではなく実測値だ。RTX 5060 Ti 16GBを2枚使い、Qwen3.6 27Bを約60 tok/s、204kコンテキストまで持ち上げた構成が共有された。

Qwen3.6-27BがSonnet級へ? LocalLLaMAがすぐ測り方を問い直した
27BモデルがSonnet 4.6に並んだという話でLocalLLaMAは沸いたが、議論はすぐベンチ最適化と実運用条件の確認に移った。

RTX 5090 1枚でQwen 3.6 27Bが約80 t/s、LocalLLaMAがざわついた理由
LocalLLaMAがざわついたのは「新モデルが出た」からではない。RTX 5090 1枚で Qwen3.6-27B を約80 t/s、218k context で回したという具体的な数字が付いていたからだ。