Qwen3.6 27Bを16GB GPU 2枚で204kまで、LocalLLaMAが食いついた理由

Original: Qwen3.6 27B on dual RTX 5060 Ti 16GB with vLLM: ~60 tok/s, 204k context working View original →

Read in other languages: 한국어English
LLM Apr 30, 2026 By Insights AI (Reddit) 1 min read Source

このReddit投稿が刺さった理由

LocalLLaMAのこのスレッドは、クロール時点で111アップボート44コメントを集めた。理由ははっきりしている。単なる「速かった」報告ではなく、ハードウェア構成、ランタイムの版、起動フラグ、メモリ余裕、失敗条件まで細かく書かれていたからだ。投稿者はQwen3.6 27BRTX 5060 Ti 16GBを2枚使ってどこまで回せるかを、かなり正直に数値で出している。LocalLLaMAが好むのは、まさにこういう再現性の高い実測レポートである。

構成と主要な数字

環境はProxmox LXC、合計32GB VRAM16 vCPU、およそ60GB RAMCUDA 13Torch 2.11 nightlyvLLM 0.19.2rc1.dev。使ったモデルは sakamakismile/Qwen3.6-27B-Text-NVFP4-MTP とされている。投稿によれば、8KコンテキストでMTP n=1は50-52 tok/s、MTP n=3で62-66 tok/s、32Kでも59-66 tok/s。そして一番の見どころは、204800トークンの窓が実際に立ち上がる点だ。ただし投稿者自身が、これは余裕のある設定ではなく、かなり限界寄りだと強調している。

本当に役立つのは限界条件の共有

この投稿の価値は、最高速度よりも稼働限界を隠していないところにある。204k時のアイドルVRAMはGPUごとに約14.45GiB、168kプリフィル後は約15.65GiBまで上がる。168kのneedle retrievalスモークテストは約256秒で通過した。一方で、gpu_memory_utilization=0.94ではKV確保に失敗し、0.95でようやく動いたという。起動にもコンパイルやautotuneで数分かかり、max_num_seqs=1なので高並列向け構成ではない。上位コメントが20k付近の安定性、PCIe世代、BlackwellでのNVFP4対応をすぐ確認しにいったのも、この投稿が実験メモではなく運用レシピとして読まれたからだ。

ローカル推論にとっての意味

この話が示すのは、「十分に使える」ローカルLLM構成の敷居がまた少し下がったことだ。もちろん余裕のあるハードではないし、投稿者もその点を隠していない。それでも16GBカード2枚でこのクラスのコンテキストと速度が出るなら、個人開発者や小規模チームが試せる範囲は広がる。LocalLLaMAが食いついたのは、良い数字だけでなく、どこで壊れるかまで一緒に共有されていたからだ。 Reddit原文

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment