Qwen3.6 27Bを16GB GPU 2枚で204kまで、LocalLLaMAが食いついた理由

このReddit投稿が刺さった理由

LocalLLaMAのこのスレッドは、クロール時点で111アップボート、44コメントを集めた。理由ははっきりしている。単なる「速かった」報告ではなく、ハードウェア構成、ランタイムの版、起動フラグ、メモリ余裕、失敗条件まで細かく書かれていたからだ。投稿者はQwen3.6 27BをRTX 5060 Ti 16GBを2枚使ってどこまで回せるかを、かなり正直に数値で出している。LocalLLaMAが好むのは、まさにこういう再現性の高い実測レポートである。

構成と主要な数字

環境はProxmox LXC、合計32GB VRAM、16 vCPU、およそ60GB RAM、CUDA 13、Torch 2.11 nightly、vLLM 0.19.2rc1.dev。使ったモデルは sakamakismile/Qwen3.6-27B-Text-NVFP4-MTP とされている。投稿によれば、8KコンテキストでMTP n=1は50-52 tok/s、MTP n=3で62-66 tok/s、32Kでも59-66 tok/s。そして一番の見どころは、204800トークンの窓が実際に立ち上がる点だ。ただし投稿者自身が、これは余裕のある設定ではなく、かなり限界寄りだと強調している。

本当に役立つのは限界条件の共有

この投稿の価値は、最高速度よりも稼働限界を隠していないところにある。204k時のアイドルVRAMはGPUごとに約14.45GiB、168kプリフィル後は約15.65GiBまで上がる。168kのneedle retrievalスモークテストは約256秒で通過した。一方で、gpu_memory_utilization=0.94ではKV確保に失敗し、0.95でようやく動いたという。起動にもコンパイルやautotuneで数分かかり、max_num_seqs=1なので高並列向け構成ではない。上位コメントが20k付近の安定性、PCIe世代、BlackwellでのNVFP4対応をすぐ確認しにいったのも、この投稿が実験メモではなく運用レシピとして読まれたからだ。

ローカル推論にとっての意味

この話が示すのは、「十分に使える」ローカルLLM構成の敷居がまた少し下がったことだ。もちろん余裕のあるハードではないし、投稿者もその点を隠していない。それでも16GBカード2枚でこのクラスのコンテキストと速度が出るなら、個人開発者や小規模チームが試せる範囲は広がる。LocalLLaMAが食いついたのは、良い数字だけでなく、どこで壊れるかまで一緒に共有されていたからだ。 Reddit原文

Qwen3.6 27Bを16GB GPU 2枚で204kまで、LocalLLaMAが食いついた理由

このReddit投稿が刺さった理由

構成と主要な数字

本当に役立つのは限界条件の共有

ローカル推論にとっての意味

Related Articles

Qwen3.6-27BがSonnet級へ? LocalLLaMAがすぐ測り方を問い直した

LocalLLaMAで話題: デュアルRTX PRO 6000 BlackwellでQwen3.5-122Bが198 tok/s

Qwen3.6の熱気は、r/LocalLLaMAでGGUF運用チェックリストになった

Comments (0)

Leave a Comment

Related Articles

Qwen3.6-27BがSonnet級へ? LocalLLaMAがすぐ測り方を問い直した
27BモデルがSonnet 4.6に並んだという話でLocalLLaMAは沸いたが、議論はすぐベンチ最適化と実運用条件の確認に移った。

LocalLLaMAで話題: デュアルRTX PRO 6000 BlackwellでQwen3.5-122Bが198 tok/s
LLM Reddit Apr 10, 2026 1 min read

Qwen3.6の熱気は、r/LocalLLaMAでGGUF運用チェックリストになった
LLM Reddit Apr 18, 2026 1 min read