RTX 3090에서 llama.cpp 대비 10배 빠른 프리필 오픈소스 PFlash 등장
Original: PFlash: 10x prefill speedup over llama.cpp at 128K on a RTX 3090 View original →
프리필 병목을 해결하다
긴 컨텍스트 LLM 추론에서 프리필 속도는 핵심 병목이다. Q4_K_M 양자화 Qwen3.6-27B 모델은 RTX 3090에서 디코딩은 ~74 토큰/초로 빠르지만, 프리필은 컨텍스트 길이에 따라 O(S²)로 급격히 느려진다. 131K 토큰 프롬프트에서 vanilla llama.cpp는 248.4초가 걸린다.
PFlash의 접근 방식
PFlash는 추측적 프리필(Speculative Prefill) 기법을 사용한다. 경량 드래프터 모델이 전체 프롬프트에서 토큰 중요도를 평가하고, 무거운 타깃 모델은 중요한 구간만 프리필하는 방식이다. Python, Triton, PyTorch 없이 C++/CUDA만으로 구현해 추론 루프의 오버헤드를 최소화했다.
실측 성능
- 128K 컨텍스트: 24.8초 vs llama.cpp 257초 = 10.4배 향상
- 64K 컨텍스트: 13.5초 vs llama.cpp 134.95초 = 10.0배 향상
NIAH(Needle In A Haystack) 검색 정확도도 end-to-end로 유지된다.
오픈소스, MIT 라이선스
레포지토리: github.com/Luce-Org/lucebox-hub. LocalLLaMA 커뮤니티에서 이미 많은 피드백이 쏟아지고 있으며, DFlash 추측적 디코딩과 결합한 사례도 공유되고 있다.
Related Articles
Luce-Org의 PFlash가 128K 컨텍스트에서 vanilla llama.cpp 대비 10배 프리필 속도를 달성했다. C++/CUDA만으로 구현한 추측적 프리필 기법으로, RTX 3090에서 실측 결과를 공개했다.
중요한 점은 장문맥과 edge-side agent가 말만 그럴듯한지, 실제로 돌릴 만한지의 갈림길이 결국 커널 최적화에 있다는 데 있다. Qwen는 FlashQLA가 NVIDIA Hopper에서 FLA Triton 대비 전방 2~3배, 역전파 2배 속도를 냈다고 적었다.
LocalLLaMA가 바로 반응한 이유는 체감 포인트가 분명해서다. 작은 GBNF 제약만으로 Qwen3.6의 reasoning drag를 줄이고, 긴 작업의 토큰 낭비와 시간을 같이 깎았다는 주장이 나왔다.
Comments (0)
No comments yet. Be the first to comment!