노화 중

RTX 3090에서 거의 2배, LocalLLaMA가 Luce DFlash에 몰린 이유

Original: Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090 View original →

Read in other languages: English日本語
LLM Apr 28, 2026 By Insights AI (Reddit) 1 min read 2 views Source

LocalLLaMA가 Luce DFlash에 바로 반응한 이유는 "숫자가 좋다"가 아니라 "소비자 하드웨어에서 진짜로 쓸 만해 보인다"는 감각 때문이다. 게시글은 ggml 위에 얹은 standalone C++/CUDA 스택으로 Qwen3.6-27B를 단일 RTX 3090 24 GB에서 돌리고, speculative decoding으로 autoregressive 대비 평균 1.98배 속도를 냈다고 주장한다. 중요한 단서는 "zero retraining"이다. 새로 모델을 다시 학습시키지 않고, 실행 경로를 바꿔 얻은 이득이라는 점이 커뮤니티를 움직였다.

글에 실린 수치는 꽤 구체적이다. HumanEval, GSM8K, Math500 세 데이터셋에서 AR 평균은 34.97 tok/s, DFlash 평균은 69.19 tok/s였다. HumanEval은 34.90에서 78.16 tok/s로 2.24배, Math500은 35.13에서 69.77 tok/s로 1.99배, GSM8K는 34.89에서 59.65 tok/s로 1.71배다. 작성자는 이 속도 향상이 "논문 속 숫자"가 아니라 consumer hardware에서 나온 결과라고 강조했다. 여기에 KV cache를 TQ3_0으로 압축해 24 GB 안에 256K context를 넣고, sliding-window flash attention으로 60K context에서도 89.7 tok/s를 유지한다는 설명이 붙는다.

깃허브 저장소 설명도 같은 방향이다. Lucebox는 "더 좋은 실리콘을 기다리지 않고 소프트웨어를 다시 쓴다"는 식으로 자신을 소개한다. LocalLLaMA가 이 문장에 반응하는 이유는 분명하다. 요즘 스레드에서 가장 자주 붙는 질문은 늘 같다. "새 모델이 좋은 건 알겠는데, 내 카드에서 돌아가느냐"다. Luce DFlash는 바로 그 질문에 정면으로 답한다. Qwen3.6-27B, GGUF, RTX 3090이라는 조합은 로컬 사용자에게 너무 익숙한 전장이다.

  • 평균 속도 향상: 1.98x over autoregressive
  • HumanEval: 34.90 → 78.16 tok/s
  • KV cache: TQ3_0 compression, 24 GB에서 256K context 목표
  • 구성: standalone C++/CUDA, ggml 기반, OpenAI-compatible endpoint 지원

이 글의 흥분은 frontier 경쟁보다 실용성에서 나온다. RTX 3090 한 장으로, 재학습 없이, 장문 컨텍스트까지 버티는 로컬 Qwen 스택이라면 직접 만져볼 이유가 충분하다. LocalLLaMA는 새 마케팅 문구보다 "오늘 밤 내 장비에서 재현되느냐"에 더 빨리 반응한다. Luce DFlash는 그 기준을 정확히 건드렸다.

Source links: Reddit thread, Lucebox repository.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.