LLM Reddit Mar 2, 2026 1 min read
커뮤니티 개발자가 2x RTX 3090(NVLink) 환경에서 vLLM과 텐서 병렬화를 활용해 Qwen3.5 27B 모델을 170k 컨텍스트에서 초당 100+ 토큰 디코딩, 최대 585t/s의 멀티 요청 처리 성능을 달성했다.
커뮤니티 개발자가 2x RTX 3090(NVLink) 환경에서 vLLM과 텐서 병렬화를 활용해 Qwen3.5 27B 모델을 170k 컨텍스트에서 초당 100+ 토큰 디코딩, 최대 585t/s의 멀티 요청 처리 성능을 달성했다.
LocalLLaMA에서 높은 반응을 얻은 KittenTTS v0.8 게시물은 80M/40M/14M 모델 구성을 공유했고, Apache-2.0 라이선스와 로컬 CPU 중심 배포 가능성을 강조했다.
LocalLLaMA에서 주목받은 PR #19726은 ik_llama.cpp의 IQ*_K 계열 quantization 경로를 mainline llama.cpp로 포팅하는 초안으로, CPU backend 구현과 초기 KLD 비교를 함께 제시했다.
LocalLLaMA 인기 글은 MiniMax-M2.5의 로컬 실행 가이드를 공유하며, GGUF 양자화·메모리 요구사항·agentic 워크로드 비용 구조를 둘러싼 실무 논의를 촉발했다.