LocalLLaMA가 이 글에 꽂힌 이유는 숫자 하나 때문만은 아니었다. RTX 5090 한 장에서 Qwen3.6-27B-INT4를 100 tps와 256k context로 돌렸다는 보고가 올라오자, 댓글은 곧바로 “그 속도에서 품질은 어디까지 지키느냐”로 모였다.
#local-inference
RSS FeedLocalLLaMA가 반응한 이유는 '새 모델 출시' 한 줄이 아니었다. RTX 5090 한 장에서 Qwen3.6-27B를 약 80 tokens/s, 218k context로 돌렸다는 구체적 수치가 붙었기 때문이다.
r/LocalLLaMA에서 MiniMax M2.7가 빠르게 올라온 이유는 Hugging Face 공개가 단순 chat model이 아니라 tool use, Agent Teams, deployment guide까지 묶은 agent system처럼 포지셔닝됐기 때문이다. 초기 관심은 benchmark 숫자만큼이나 운영 가능한 packaging에도 쏠려 있다.
r/LocalLLaMA는 Gemma 4 출시를 이번 크롤링에서 가장 강한 커뮤니티 신호 중 하나로 끌어올렸고, Google은 edge부터 workstation까지 아우르는 open model 계열을 제시했다.
r/LocalLLaMA에서 주목받은 PrismML의 1-bit Bonsai는 8.2B 파라미터를 1.15GB로 줄인 end-to-end 1-bit LLM을 전면에 내세운다. 온디바이스 배포, throughput, energy efficiency를 동시에 노린 launch라는 점이 핵심이다.
r/LocalLLaMA에서 CoPaw-9B 관련 글이 142점과 29개 댓글을 기록하며 주목을 받았다. 스레드는 Qwen3.5 기반의 9B Agent 모델, 262,144 token context, 그리고 GGUF·quantized 배포 가능성에 대한 관심을 중심으로 반응이 갈렸다.
Hacker News에서 화제가 된 ATLAS는 consumer GPU 기반 local coding agent의 비용 효율을 크게 강조한다. 다만 README의 74.6% LiveCodeBench 수치는 best-of-3 plus repair 파이프라인과 다른 task 수를 전제로 하므로, Claude 4.5 Sonnet과의 비교는 비통제 비교로 읽어야 한다.
r/artificial은 ATLAS가 14B 동결 모델과 단일 RTX 5060 Ti로 LiveCodeBench 74.6%를 기록했다는 점에 주목하며, 모델 크기보다 시스템 설계의 힘을 보여준다고 평가했다.
Hacker News에서 주목받은 Flash-MoE는 Qwen3.5-397B-A17B를 48GB 메모리의 MacBook Pro에서 구동하는 C/Metal 기반 inference 엔진이다. 핵심은 209GB 모델을 SSD에서 스트리밍하면서 sparse MoE 계산을 유지하는 설계다.
r/LocalLLaMA에서 주목받은 mlx-lm PR #990은 Qwen3.5의 built-in MTP head를 native speculative decoding에 활용해 15.3 -> 23.3 tok/s (~1.5x throughput boost), ~80.6% acceptance rate를 제시했다. 다만 converted checkpoint, batching 비활성화, MoE 미검증 같은 운영상 제약도 함께 확인해야 한다.
r/LocalLLaMA에서 높은 반응을 얻은 글은 Unsloth Studio를 train, run, export를 한 번에 다루는 beta 오픈소스 web UI로 소개했다. Reddit에서는 GGUF 생태계의 LM Studio 경쟁자 가능성이 거론됐지만, 상위 댓글에서는 고급 사용자가 여전히 vLLM이나 직접 llama.cpp를 선호한다는 반론도 나왔다.
r/LocalLLaMA는 120B급 로컬 AI workload를 겨냥한 liquid-cooled RISC-V 추론 워크스테이션 TT-QuietBox 2를 주목했다. open tooling, 표준 120V 전원, 공격적인 성능 수치가 함께 제시되면서 Reddit에서는 곧바로 가격 대비 성능과 benchmark 신뢰성을 둘러싼 토론이 이어졌다.