3090 한 장에서 218K 문맥, LocalLLaMA가 속도보다 안정성에 반응한 이유
Original: Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix) View original →
LocalLLaMA가 이 Qwen3.6 후속 글을 좋아한 이유는 또 하나의 반짝 벤치마크 사진이 아니었기 때문이다. 이 서브레딧이 가장 신뢰하는 재료가 다 들어 있었다. 빡빡한 하드웨어 제약, 구체적인 숫자, 재현 가능한 수정, 그리고 이미 나이가 꽤 된 소비자용 카드에서 어디까지 더 뽑아낼 수 있는지에 대한 집요한 추적이다.
대상 구성은 RTX 3090 한 장에 Qwen3.6-27B를 올린 세팅이다. 작성자는 작업 종류에 따라 약 50 또는 66 tokens per second 수준에서 약 218K 문맥을 밀었고, 비전까지 붙인 구성에서는 약 198K를 보고했다. 여기에 길이 25K 토큰에 달하는 tool output도 메모리 오류 없이 끝났다고 적었다. 이전 세팅보다 순수 처리 속도는 낮아졌지만, LocalLLaMA에서는 이 교환이 충분히 납득된다. 예쁜 속도표보다 실제 에이전트 작업에서 덜 무너지는 구성이 더 값어치가 크기 때문이다.
핵심은 실패 분석이었다. 글에 따르면 Genesis의 PN12 패치는 최신 vLLM dev 빌드에서 메모리 문제를 줄이기 위해 들어가야 했고, 도구는 적용 성공 메시지까지 보여줬다. 하지만 실제로는 패치 앵커가 어긋나 관련 코드 경로가 바뀌지 않았다. 그 상태에서는 긴 tool prefill 구간에서 계속 OOM이 났다. genesis-vllm-patches의 PR #13에서 이 어긋남을 바로잡자, 고문맥 구성과 긴 출력이 한꺼번에 실사용권으로 들어왔다. LocalLLaMA가 이런 글에 표를 주는 이유가 여기에 있다. 벤더 홍보가 아니라, 어떤 가정이 틀렸는지와 어느 줄이 실제로 바뀌었는지를 함께 적어 주기 때문이다.
이 글이 과장으로 흐르지 않은 점도 좋았다. 단일 GPU, 단일 프롬프트 작업에서는 여전히 50K에서 60K 부근의 두 번째 메모리 절벽이 남아 있다고 적었고, tensor parallelism이 들어가면 양상이 달라진다고 선을 그었다. 재현용 저장소 링크도 붙어 있어 3090이나 4090을 가진 사람들이 바로 따라 해 볼 수 있다. 성공담을 분위기로만 밀지 않았다.
결국 이 글의 포인트는 단순한 숫자 자랑이 아니다. 3090 한 장으로 긴 문맥과 도구 호출을 동시에 다루는 일이 신화에서 공학으로 조금 더 내려왔다는 감각, LocalLLaMA가 그 감각에 반응했다.
Related Articles
LocalLLaMA가 이 글에 반응한 이유는 홍보 문구가 아니라 숫자였다. RTX 5060 Ti 16GB 두 장으로 Qwen3.6 27B를 약 60 tok/s, 204k 컨텍스트까지 밀어본 실측값이 나왔다.
LocalLLaMA가 반응한 이유는 '새 모델 출시' 한 줄이 아니었다. RTX 5090 한 장에서 Qwen3.6-27B를 약 80 tokens/s, 218k context로 돌렸다는 구체적 수치가 붙었기 때문이다.
LocalLLaMA는 이 글을 또 하나의 벤치마크 이미지로 넘기지 않았다. 단일 RTX 3090에서 Qwen3.6-27B 처리량을 평균 1.98배까지 끌어올렸고, 재학습 없이 긴 컨텍스트까지 버틴다는 점이 스레드의 열기를 만들었다.
Comments (0)
No comments yet. Be the first to comment!