#local-inference

LLM Reddit 12h ago 1 min read

Qwen3.6 27B, RTX 5090 한 장에서 100 tps… LocalLLaMA가 바로 물은 건 품질이었다

LocalLLaMA가 이 글에 꽂힌 이유는 숫자 하나 때문만은 아니었다. RTX 5090 한 장에서 Qwen3.6-27B-INT4를 100 tps와 256k context로 돌렸다는 보고가 올라오자, 댓글은 곧바로 “그 속도에서 품질은 어디까지 지키느냐”로 모였다.

#qwen #vllm #rtx-5090

LLM Reddit 1d ago 1 min read

RTX 5090 한 장으로 Qwen 3.6 27B 80t/s, LocalLLaMA가 반응한 이유

LocalLLaMA가 반응한 이유는 '새 모델 출시' 한 줄이 아니었다. RTX 5090 한 장에서 Qwen3.6-27B를 약 80 tokens/s, 218k context로 돌렸다는 구체적 수치가 붙었기 때문이다.

#qwen #vllm #rtx-5090

LLM Reddit Apr 12, 2026 1 min read

r/LocalLLaMA가 본 MiniMax M2.7, chat model보다 agent system에 가깝다

r/LocalLLaMA에서 MiniMax M2.7가 빠르게 올라온 이유는 Hugging Face 공개가 단순 chat model이 아니라 tool use, Agent Teams, deployment guide까지 묶은 agent system처럼 포지셔닝됐기 때문이다. 초기 관심은 benchmark 숫자만큼이나 운영 가능한 packaging에도 쏠려 있다.

#llm #agents #tool-use

LLM Reddit Apr 3, 2026 1 min read

r/LocalLLaMA를 달군 Gemma 4, 로컬 모델 생태계의 대형 이슈

r/LocalLLaMA는 Gemma 4 출시를 이번 크롤링에서 가장 강한 커뮤니티 신호 중 하나로 끌어올렸고, Google은 edge부터 workstation까지 아우르는 open model 계열을 제시했다.

#gemma #google #open-models

LLM Reddit Apr 1, 2026 1 min read

PrismML, 1-bit Bonsai로 온디바이스 LLM 압축 경쟁에 진입

r/LocalLLaMA에서 주목받은 PrismML의 1-bit Bonsai는 8.2B 파라미터를 1.15GB로 줄인 end-to-end 1-bit LLM을 전면에 내세운다. 온디바이스 배포, throughput, energy efficiency를 동시에 노린 launch라는 점이 핵심이다.

#prismml #1-bit-llm #edge-ai

LLM Reddit Mar 31, 2026 2 min read

r/LocalLLaMA, CoPaw-9B 공개에 주목…작은 Agent 모델 기대와 quantization 수요

r/LocalLLaMA에서 CoPaw-9B 관련 글이 142점과 29개 댓글을 기록하며 주목을 받았다. 스레드는 Qwen3.5 기반의 9B Agent 모델, 262,144 token context, 그리고 GGUF·quantized 배포 가능성에 대한 관심을 중심으로 반응이 갈렸다.

#llm #qwen #agentic

LLM Hacker News Mar 28, 2026 1 min read

Hacker News가 주목한 ATLAS, local coding agent 비용 모델에 던지는 질문

Hacker News에서 화제가 된 ATLAS는 consumer GPU 기반 local coding agent의 비용 효율을 크게 강조한다. 다만 README의 74.6% LiveCodeBench 수치는 best-of-3 plus repair 파이프라인과 다른 task 수를 전제로 하므로, Claude 4.5 Sonnet과의 비교는 비통제 비교로 읽어야 한다.

#coding-agents #benchmarks #local-inference

LLM Reddit Mar 25, 2026 1 min read

r/artificial이 주목한 ATLAS, 500달러 GPU에서 LiveCodeBench 74.6%

r/artificial은 ATLAS가 14B 동결 모델과 단일 RTX 5060 Ti로 LiveCodeBench 74.6%를 기록했다는 점에 주목하며, 모델 크기보다 시스템 설계의 힘을 보여준다고 평가했다.

#atlas #livecodebench #local-inference

LLM Hacker News Mar 22, 2026 1 min read

Flash-MoE: 노트북에서 397B 파라미터 모델 실행

Hacker News에서 주목받은 Flash-MoE는 Qwen3.5-397B-A17B를 48GB 메모리의 MacBook Pro에서 구동하는 C/Metal 기반 inference 엔진이다. 핵심은 209GB 모델을 SSD에서 스트리밍하면서 sparse MoE 계산을 유지하는 설계다.

#llm #moe #metal

LLM Reddit Mar 21, 2026 2 min read

r/LocalLLaMA가 주목한 mlx-lm의 Qwen3.5 native MTP와 1.5x 추론 개선 가능성

r/LocalLLaMA에서 주목받은 mlx-lm PR #990은 Qwen3.5의 built-in MTP head를 native speculative decoding에 활용해 15.3 -> 23.3 tok/s (~1.5x throughput boost), ~80.6% acceptance rate를 제시했다. 다만 converted checkpoint, batching 비활성화, MoE 미검증 같은 운영상 제약도 함께 확인해야 한다.

#mlx-lm #qwen3.5 #mtp

LLM Reddit Mar 17, 2026 2 min read

Unsloth Studio beta, local model workflow를 한 화면으로 묶으려 한다

r/LocalLLaMA에서 높은 반응을 얻은 글은 Unsloth Studio를 train, run, export를 한 번에 다루는 beta 오픈소스 web UI로 소개했다. Reddit에서는 GGUF 생태계의 LM Studio 경쟁자 가능성이 거론됐지만, 상위 댓글에서는 고급 사용자가 여전히 vLLM이나 직접 llama.cpp를 선호한다는 반론도 나왔다.

#llm #unsloth #gguf

AI Reddit Mar 14, 2026 2 min read

r/LocalLLaMA, 로컬 AI 추론용 desk-side RISC-V box Tenstorrent QuietBox 2 주목

r/LocalLLaMA는 120B급 로컬 AI workload를 겨냥한 liquid-cooled RISC-V 추론 워크스테이션 TT-QuietBox 2를 주목했다. open tooling, 표준 120V 전원, 공격적인 성능 수치가 함께 제시되면서 Reddit에서는 곧바로 가격 대비 성능과 benchmark 신뢰성을 둘러싼 토론이 이어졌다.

#tenstorrent #risc-v #ai-hardware