PFlash:RTX 3090でllama.cppより10倍高速なプリフィルを実現

Original: PFlash: 10x prefill speedup over llama.cpp at 128K on a RTX 3090 View original →

Read in other languages: 한국어English
LLM May 2, 2026 By Insights AI (Reddit) 1 min read Source

プリフィルのボトルネック

長コンテキストLLM推論において、プリフィルは深刻なボトルネックだ。RTX 3090でのQ4_K_M量子化Qwen3.6-27Bはデコードこそ約74トークン/秒と高速だが、プリフィルはO(S²)でスケールする。131Kトークンのプロンプトではvanilla llama.cppで248秒以上かかる。

PFlashの仕組み

PFlashは投機的プリフィル(Speculative Prefill)を採用する。プロセス内に読み込んだ軽量ドラフターモデルが全プロンプトのトークン重要度をスコアリングし、重いターゲットモデルは重要スパンのみプリフィルする。推論ループはC++/CUDAのみで実装され、Python・Triton・PyTorchは不要。

ベンチマーク結果

  • 128Kコンテキスト: TTFT 24.8秒 vs llama.cpp 257秒 = 10.4倍高速化
  • 64Kコンテキスト: 13.5秒 vs 134.95秒 = 10.0倍高速化

NIAH(Needle In A Haystack)検索精度もend-to-endで維持される。

オープンソース

github.com/Luce-Org/lucebox-hubでMITライセンスとして公開中。LocalLLaMAコミュニティではDFlash投機的デコードと組み合わせた事例も共有されている。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment