PFlash：RTX 3090でllama.cppより10倍高速なプリフィルを実現

Original: PFlash: 10x prefill speedup over llama.cpp at 128K on a RTX 3090 View original →

Read in other languages: 한국어 English

LLM May 2, 2026 By Insights AI (Reddit) 1 min read Source

プリフィルのボトルネック

長コンテキストLLM推論において、プリフィルは深刻なボトルネックだ。RTX 3090でのQ4_K_M量子化Qwen3.6-27Bはデコードこそ約74トークン/秒と高速だが、プリフィルはO(S²)でスケールする。131Kトークンのプロンプトではvanilla llama.cppで248秒以上かかる。

PFlashの仕組み

PFlashは投機的プリフィル（Speculative Prefill）を採用する。プロセス内に読み込んだ軽量ドラフターモデルが全プロンプトのトークン重要度をスコアリングし、重いターゲットモデルは重要スパンのみプリフィルする。推論ループはC++/CUDAのみで実装され、Python・Triton・PyTorchは不要。

ベンチマーク結果

128Kコンテキスト: TTFT 24.8秒 vs llama.cpp 257秒 = 10.4倍高速化
64Kコンテキスト: 13.5秒 vs 134.95秒 = 10.0倍高速化

NIAH（Needle In A Haystack）検索精度もend-to-endで維持される。

オープンソース

github.com/Luce-Org/lucebox-hubでMITライセンスとして公開中。LocalLLaMAコミュニティではDFlash投機的デコードと組み合わせた事例も共有されている。

#llama.cpp #inference #prefill #speedup #open-source

Share: Long

Related Articles

LLM Reddit 2h ago 1 min read

PFlash：RTX 3090でllama.cppより10倍高速なプリフィルを実現

Luce-OrgのオープンソースPFlashが128Kコンテキストでllama.cppに対して10倍のプリフィル高速化を実現。C++/CUDAのみで実装された投機的プリフィル手法で、RTX 3090での実測値を公開。

#llama.cpp #inference #prefill

LLM X/Twitter 1d ago 1 min read

QwenのFlashQLA公開、linear attentionを前方2〜3倍・逆伝播2倍へ

重要なのは、長文脈やedge-side agentを実際に回せるかどうかが結局kernel最適化で決まる場面が増えていることだ。QwenはFlashQLAがNVIDIA HopperでFLA Triton比の前方2〜3倍、逆伝播2倍を出したとしている。

#qwen #linear-attention #kernels

2

LLM Reddit 3d ago 1 min read

Qwen3.6のトークン浪費を削るGBNF細工、LocalLLaMAが沸いた理由

LocalLLaMAがすぐ反応したのは、体感に直結する話だったからだ。小さなGBNF制約だけでQwen3.6のreasoning dragを減らし、長い作業のトークン浪費と時間をまとめて削ったという主張が出た。

#qwen #llama.cpp #gbnf

2

Comments (0)

No comments yet. Be the first to comment!