RTX 3090에서 llama.cpp 대비 10배 빠른 프리필 오픈소스 PFlash 등장

Original: PFlash: 10x prefill speedup over llama.cpp at 128K on a RTX 3090 View original →

Read in other languages: English日本語
LLM May 2, 2026 By Insights AI (Reddit) 1 min read Source

프리필 병목을 해결하다

긴 컨텍스트 LLM 추론에서 프리필 속도는 핵심 병목이다. Q4_K_M 양자화 Qwen3.6-27B 모델은 RTX 3090에서 디코딩은 ~74 토큰/초로 빠르지만, 프리필은 컨텍스트 길이에 따라 O(S²)로 급격히 느려진다. 131K 토큰 프롬프트에서 vanilla llama.cpp는 248.4초가 걸린다.

PFlash의 접근 방식

PFlash는 추측적 프리필(Speculative Prefill) 기법을 사용한다. 경량 드래프터 모델이 전체 프롬프트에서 토큰 중요도를 평가하고, 무거운 타깃 모델은 중요한 구간만 프리필하는 방식이다. Python, Triton, PyTorch 없이 C++/CUDA만으로 구현해 추론 루프의 오버헤드를 최소화했다.

실측 성능

  • 128K 컨텍스트: 24.8초 vs llama.cpp 257초 = 10.4배 향상
  • 64K 컨텍스트: 13.5초 vs llama.cpp 134.95초 = 10.0배 향상

NIAH(Needle In A Haystack) 검색 정확도도 end-to-end로 유지된다.

오픈소스, MIT 라이선스

레포지토리: github.com/Luce-Org/lucebox-hub. LocalLLaMA 커뮤니티에서 이미 많은 피드백이 쏟아지고 있으며, DFlash 추측적 디코딩과 결합한 사례도 공유되고 있다.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment