Qwen3.6 27Bを16GB GPU 2枚で204kまで、LocalLLaMAが食いついた理由
Original: Qwen3.6 27B on dual RTX 5060 Ti 16GB with vLLM: ~60 tok/s, 204k context working View original →
このReddit投稿が刺さった理由
LocalLLaMAのこのスレッドは、クロール時点で111アップボート、44コメントを集めた。理由ははっきりしている。単なる「速かった」報告ではなく、ハードウェア構成、ランタイムの版、起動フラグ、メモリ余裕、失敗条件まで細かく書かれていたからだ。投稿者はQwen3.6 27BをRTX 5060 Ti 16GBを2枚使ってどこまで回せるかを、かなり正直に数値で出している。LocalLLaMAが好むのは、まさにこういう再現性の高い実測レポートである。
構成と主要な数字
環境はProxmox LXC、合計32GB VRAM、16 vCPU、およそ60GB RAM、CUDA 13、Torch 2.11 nightly、vLLM 0.19.2rc1.dev。使ったモデルは sakamakismile/Qwen3.6-27B-Text-NVFP4-MTP とされている。投稿によれば、8KコンテキストでMTP n=1は50-52 tok/s、MTP n=3で62-66 tok/s、32Kでも59-66 tok/s。そして一番の見どころは、204800トークンの窓が実際に立ち上がる点だ。ただし投稿者自身が、これは余裕のある設定ではなく、かなり限界寄りだと強調している。
本当に役立つのは限界条件の共有
この投稿の価値は、最高速度よりも稼働限界を隠していないところにある。204k時のアイドルVRAMはGPUごとに約14.45GiB、168kプリフィル後は約15.65GiBまで上がる。168kのneedle retrievalスモークテストは約256秒で通過した。一方で、gpu_memory_utilization=0.94ではKV確保に失敗し、0.95でようやく動いたという。起動にもコンパイルやautotuneで数分かかり、max_num_seqs=1なので高並列向け構成ではない。上位コメントが20k付近の安定性、PCIe世代、BlackwellでのNVFP4対応をすぐ確認しにいったのも、この投稿が実験メモではなく運用レシピとして読まれたからだ。
ローカル推論にとっての意味
この話が示すのは、「十分に使える」ローカルLLM構成の敷居がまた少し下がったことだ。もちろん余裕のあるハードではないし、投稿者もその点を隠していない。それでも16GBカード2枚でこのクラスのコンテキストと速度が出るなら、個人開発者や小規模チームが試せる範囲は広がる。LocalLLaMAが食いついたのは、良い数字だけでなく、どこで壊れるかまで一緒に共有されていたからだ。 Reddit原文
Related Articles
27BモデルがSonnet 4.6に並んだという話でLocalLLaMAは沸いたが、議論はすぐベンチ最適化と実運用条件の確認に移った。
LocalLLaMAで注目された投稿は、SGLang b12x+NEXTN、PCIe switch topology、公開raw benchmark JSONを根拠に、デュアルRTX PRO 6000 Blackwell環境でQwen3.5-122B NVFP4が約198 tok/sに達したと共有した。
r/LocalLLaMAが見ていたのは、Qwen3.6のrelease headlineではなく、どのGGUF quantを実機で使うべきかだった。Unslothのbenchmark postは、KLD、disk space、CUDA 13.2のgibberish問題、CUDA 13.1/13.3対応へ議論を引き寄せた。
Comments (0)
No comments yet. Be the first to comment!