#rtx-5090

LLM Reddit Apr 27, 2026 1 min read

Qwen3.6 27B, RTX 5090 한 장에서 100 tps… LocalLLaMA가 바로 물은 건 품질이었다

LocalLLaMA가 이 글에 꽂힌 이유는 숫자 하나 때문만은 아니었다. RTX 5090 한 장에서 Qwen3.6-27B-INT4를 100 tps와 256k context로 돌렸다는 보고가 올라오자, 댓글은 곧바로 “그 속도에서 품질은 어디까지 지키느냐”로 모였다.

#qwen #vllm #rtx-5090

LLM Reddit Apr 25, 2026 1 min read

RTX 5090 한 장으로 Qwen 3.6 27B 80t/s, LocalLLaMA가 반응한 이유

LocalLLaMA가 반응한 이유는 '새 모델 출시' 한 줄이 아니었다. RTX 5090 한 장에서 Qwen3.6-27B를 약 80 tokens/s, 218k context로 돌렸다는 구체적 수치가 붙었기 때문이다.

#qwen #vllm #rtx-5090

AI Reddit Apr 11, 2026 2 min read

Reddit가 지적한 RTX 5090 배치 FP32 workload의 cuBLAS 성능 이상

MachineLearning 커뮤니티의 한 글은 RTX 5090에서 cuBLAS가 batched FP32 MatMul에 비효율적인 kernel을 고르고 있을 가능성을 제기한다. 핵심은 단순한 체감 저하가 아니라, reproducible benchmark와 profiling data를 갖춘 dispatch 문제 제기라는 점이다.

#cublas #rtx-5090 #cuda

LLM Reddit Mar 15, 2026 1 min read

r/LocalLLaMA: 문서 분류 워크로드에서 Qwen 3.5 27B가 약 2000 TPS 기록

r/LocalLLaMA의 한 현장 보고는 매우 구체적인 local inference workload를 throughput 중심으로 튜닝한 사례를 보여줬다. 작성자는 Qwen 3.5 27B로 markdown 문서를 분류하면서 약 2,000 tokens per second를 기록했다고 했고, 댓글에서는 실전 최적화 포인트가 추가로 논의됐다.

#qwen #localllm #llama-cpp