RTX 3090でほぼ2倍、LocalLLaMAがLuce DFlashに食いついた理由

LocalLLaMAがLuce DFlashに強く反応した理由は、「数字が大きい」だけではない。「consumer hardwareで本当に使えそうだ」という感触があるからだ。投稿は、ggmlの上に組んだstandalone C++/CUDA stackでQwen3.6-27Bを単一のRTX 3090 24 GB上で動かし、speculative decodingによってautoregressive decoding比で平均1.98倍の速度を出したと説明する。特に効いているのはzero retrainingという条件だ。都合よく作り替えた評価用モデルではなく、実行系の工夫で得た改善だと読める。

示されている数値も具体的だ。HumanEval、GSM8K、Math500の3データセットで、AR平均は34.97 tok/s、DFlash平均は69.19 tok/s。HumanEvalは34.90から78.16 tok/sへ、Math500は35.13から69.77 tok/sへ、GSM8Kは34.89から59.65 tok/sへ伸びる。さらにKV cacheをTQ3_0へ圧縮して24 GBで256K contextを狙い、sliding-window flash attentionによって60K contextでも約89.7 tok/sを保つという。ローカル運用で一番つらい「長文脈になると急に崩れる」を避けようとしている設計だ。

GitHub側の説明もこの文脈にきれいに乗る。Luceboxは「より良いsiliconを待つのではなく、softwareを書き直す」と自分たちを表現している。LocalLLaMAが好むのはまさにその話だ。このsubredditで問われるのは、8台のH100で速いかどうかではない。3090を持つ人が今夜再現できるかどうかである。Qwen3.6-27B、GGUF、24 GBカード1枚という組み合わせは、その意味で非常に読みやすい。

平均の速度向上: autoregressive比で1.98x
HumanEval: 34.90 → 78.16 tok/s
工夫: TQ3_0 KV cache compressionで256K contextを狙う
提供形態: OpenAI-compatible HTTP endpointとlocal REPL

この投稿が伸びたのは、見栄えのいいグラフよりも実用の匂いが強いからだ。適切なsystems workが入れば、consumer GPUでもローカル推論の快適さを一段上げられる。その手応えをLocalLLaMAはすぐ嗅ぎ取る。Luce DFlashは、その神経をかなり正確に突いた。

Source links: Reddit thread, Lucebox repository.

RTX 3090でほぼ2倍、LocalLLaMAがLuce DFlashに食いついた理由

Related Articles

LocalLLaMA、Apple SiliconでDFlashによりQwen推論が2〜3倍高速化と報告

AMD向けHipfire、LocalLLaMAが食いついたのは「RDNAがやっと主役」

Qwen3.6-27BがSonnet級へ? LocalLLaMAがすぐ測り方を問い直した

Comments (0)

Leave a Comment

Related Articles

LocalLLaMA、Apple SiliconでDFlashによりQwen推論が2〜3倍高速化と報告
LLM Reddit Apr 11, 2026 1 min read

AMD向けHipfire、LocalLLaMAが食いついたのは「RDNAがやっと主役」

Qwen3.6-27BがSonnet級へ? LocalLLaMAがすぐ測り方を問い直した
27BモデルがSonnet 4.6に並んだという話でLocalLLaMAは沸いたが、議論はすぐベンチ最適化と実運用条件の確認に移った。