RTX 3090でほぼ2倍、LocalLLaMAがLuce DFlashに食いついた理由
Original: Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090 View original →
LocalLLaMAがLuce DFlashに強く反応した理由は、「数字が大きい」だけではない。「consumer hardwareで本当に使えそうだ」という感触があるからだ。投稿は、ggmlの上に組んだstandalone C++/CUDA stackでQwen3.6-27Bを単一のRTX 3090 24 GB上で動かし、speculative decodingによってautoregressive decoding比で平均1.98倍の速度を出したと説明する。特に効いているのはzero retrainingという条件だ。都合よく作り替えた評価用モデルではなく、実行系の工夫で得た改善だと読める。
示されている数値も具体的だ。HumanEval、GSM8K、Math500の3データセットで、AR平均は34.97 tok/s、DFlash平均は69.19 tok/s。HumanEvalは34.90から78.16 tok/sへ、Math500は35.13から69.77 tok/sへ、GSM8Kは34.89から59.65 tok/sへ伸びる。さらにKV cacheをTQ3_0へ圧縮して24 GBで256K contextを狙い、sliding-window flash attentionによって60K contextでも約89.7 tok/sを保つという。ローカル運用で一番つらい「長文脈になると急に崩れる」を避けようとしている設計だ。
GitHub側の説明もこの文脈にきれいに乗る。Luceboxは「より良いsiliconを待つのではなく、softwareを書き直す」と自分たちを表現している。LocalLLaMAが好むのはまさにその話だ。このsubredditで問われるのは、8台のH100で速いかどうかではない。3090を持つ人が今夜再現できるかどうかである。Qwen3.6-27B、GGUF、24 GBカード1枚という組み合わせは、その意味で非常に読みやすい。
- 平均の速度向上: autoregressive比で1.98x
- HumanEval: 34.90 → 78.16 tok/s
- 工夫: TQ3_0 KV cache compressionで256K contextを狙う
- 提供形態: OpenAI-compatible HTTP endpointとlocal REPL
この投稿が伸びたのは、見栄えのいいグラフよりも実用の匂いが強いからだ。適切なsystems workが入れば、consumer GPUでもローカル推論の快適さを一段上げられる。その手応えをLocalLLaMAはすぐ嗅ぎ取る。Luce DFlashは、その神経をかなり正確に突いた。
Source links: Reddit thread, Lucebox repository.
Related Articles
LocalLLaMAの実装報告は、Apple Silicon向けnative MLX DFlash runtimeがQwen系inferenceを複数条件で2倍から3倍以上高速化すると主張する。注目点はspeedupだけでなく、greedy baselineとbit-for-bit identical outputを維持したと説明しているところだ。
LocalLLaMAはHipfireを見てまず、AMD向けでありがちな曖昧な互換性アピールではなく数字が前に出ている点に反応した。RDNA基準のベンチ表に加えて、ユーザー実測がその場で積み上がり始めたのがスレッドの熱源だった。
27BモデルがSonnet 4.6に並んだという話でLocalLLaMAは沸いたが、議論はすぐベンチ最適化と実運用条件の確認に移った。
Comments (0)
No comments yet. Be the first to comment!