PFlash:RTX 3090でllama.cppより10倍高速なプリフィルを実現
Original: PFlash: 10x prefill speedup over llama.cpp at 128K on a RTX 3090 View original →
プリフィルのボトルネック
長コンテキストLLM推論において、プリフィルは深刻なボトルネックだ。RTX 3090でのQ4_K_M量子化Qwen3.6-27Bはデコードこそ約74トークン/秒と高速だが、プリフィルはO(S²)でスケールする。131Kトークンのプロンプトではvanilla llama.cppで248秒以上かかる。
PFlashの仕組み
PFlashは投機的プリフィル(Speculative Prefill)を採用する。プロセス内に読み込んだ軽量ドラフターモデルが全プロンプトのトークン重要度をスコアリングし、重いターゲットモデルは重要スパンのみプリフィルする。推論ループはC++/CUDAのみで実装され、Python・Triton・PyTorchは不要。
ベンチマーク結果
- 128Kコンテキスト: TTFT 24.8秒 vs llama.cpp 257秒 = 10.4倍高速化
- 64Kコンテキスト: 13.5秒 vs 134.95秒 = 10.0倍高速化
NIAH(Needle In A Haystack)検索精度もend-to-endで維持される。
オープンソース
github.com/Luce-Org/lucebox-hubでMITライセンスとして公開中。LocalLLaMAコミュニティではDFlash投機的デコードと組み合わせた事例も共有されている。
Related Articles
Luce-OrgのオープンソースPFlashが128Kコンテキストでllama.cppに対して10倍のプリフィル高速化を実現。C++/CUDAのみで実装された投機的プリフィル手法で、RTX 3090での実測値を公開。
重要なのは、長文脈やedge-side agentを実際に回せるかどうかが結局kernel最適化で決まる場面が増えていることだ。QwenはFlashQLAがNVIDIA HopperでFLA Triton比の前方2〜3倍、逆伝播2倍を出したとしている。
LocalLLaMAがすぐ反応したのは、体感に直結する話だったからだ。小さなGBNF制約だけでQwen3.6のreasoning dragを減らし、長い作業のトークン浪費と時間をまとめて削ったという主張が出た。
Comments (0)
No comments yet. Be the first to comment!