r/LocalLLaMA 벤치마크: 단일 RTX 5080에서 80B MoE 프리필 3,324 tok/s를 보고한 <code>Krasis</code>
Original: I built a hybrid MoE runtime that does 3,324 tok/s prefill on a single 5080. Here are the benchmarks. View original →
게시글 핵심: prefill 병목을 겨냥한 runtime 설계
r/LocalLLaMA의 원문 게시글은 수집 시점 기준 점수 180, 댓글 53을 기록했다. 작성자는 Krasis를 “대형 MoE 모델용 하이브리드 CPU/GPU runtime”으로 소개하며, GPU가 prefill(입력 읽기)을 담당하고 CPU가 decode(출력 생성)를 담당하는 분업 구조를 제시했다. 목표는 단순하다. VRAM에 모델 전체가 올라가지 않는 환경에서도 긴 입력 처리 속도를 실사용 가능한 수준으로 끌어올리는 것이다.
공개된 수치와 테스트 조건
게시글에 제시된 대표 수치는 RTX 5080 16GB 단일 카드 환경에서 Qwen3-Coder-Next (80B, Q4) prefill 3,324 tok/s, 35K context 기준 TTFT 9.7s, decode 14.9 tok/s다. 추가로 EPYC 7742 + RTX 2000 Ada 16GB 조합에서도 Q4/Q8 결과가 제시됐고, Qwen3.5-35B-A3B, Qwen3-235B-A22B, DeepSeek V2-Lite 등 여러 모델의 비교 표가 포함됐다.
작성자 설명에 따르면 prefill 측정은 10K-50K prompt 구간에서 수행하고, decode는 64-token 생성 평균으로 제시했다. 숫자 자체보다 중요한 부분은 긴 컨텍스트에서 “읽기 단계”를 GPU 중심으로 밀어 올렸다는 설계 의도다.
왜 이 접근이 주목받는가
- IDE나 agent 워크플로우에서 입력 prompt가 길어질수록 prefill 지연이 체감 병목이 된다.
- 기존 offload 방식은 CPU 구간이 길어져 “첫 토큰까지 대기”가 길어지기 쉽다.
- RAM을 더 쓰더라도 prefill을 가속하면 체감 반응성이 개선될 수 있다.
트레이드오프와 검증 포인트
게시글과 저장소 설명은 비용도 명확히 적는다. 시스템 RAM 요구량이 크고(작성자 설명 기준 대략 quantized model size의 2.5배 수준), NVIDIA 의존성, 첫 실행 전처리 시간, 큰 디스크 캐시 등이 필요하다. 또한 dense model보다 MoE에 최적화되어 있어 범용 runtime 대체를 바로 주장하기는 어렵다.
그럼에도 이 사례는 “VRAM이 충분하지 않아도 긴 컨텍스트 처리 품질을 유지할 수 있는가”라는 실무 질문에 구체적 수치로 답하려는 시도라는 점에서 의미가 있다. 커뮤니티가 추적해야 할 다음 단계는 재현성, 다중 사용자 부하 시 성능, 그리고 더 큰 모델 구간에서의 안정성 검증이다.
출처: Reddit 원문, Krasis GitHub
Related Articles
r/LocalLLaMA의 MacBook Air M5 benchmark 글은 Qwen 3.6 35B-A3B의 89.6% HumanEval+ 결과뿐 아니라, RAM과 tok/s를 함께 본 실사용 관점을 제공했다.
HN은 이번 스레드를 단순한 모델 공개로 보지 않았다. API 문서보다 먼저 Hugging Face 가중치와 base 모델이 모습을 드러내자, 커뮤니티의 관심은 홍보보다 실물 검증으로 곧장 옮겨갔다.
LocalLLaMA는 DeepSeek V4 공개 자체보다, 1M context와 activated parameter 수가 실제 하드웨어에서 어떤 의미인지부터 계산하기 시작했다. 스레드는 곧 “RAM을 더 질렀어야 했다”는 반응과 MIT license 호평으로 채워졌다.
Comments (0)
No comments yet. Be the first to comment!