#local-llm

LLM Reddit Apr 18, 2026 1 min read

Claude ID 확인에 r/LocalLLaMA가 다시 물었다: local model은 왜 필요한가

r/LocalLLaMA가 크게 반응한 이유는 ID 확인이 local model 논쟁을 속도보다 autonomy 문제로 바꿨기 때문이다. Anthropic은 Claude identity verification에서 정부 발급 photo ID와 live selfie가 필요할 수 있다고 설명한다.

#claude #local-llm #privacy

LLM Reddit Apr 18, 2026 1 min read

Qwen3.6 GGUF 논쟁, r/LocalLLaMA는 “어떤 quant를 돌릴 것인가”로 내려갔다

r/LocalLLaMA가 Qwen3.6 release 자체보다 GGUF quant 선택과 CUDA 버그에 더 크게 반응했다. Unsloth의 benchmark post는 KLD, disk space, 4bit gibberish, CUDA 13.1/13.3 같은 실제 실행 조건을 전면에 올렸다.

#qwen #gguf #local-llm

LLM Reddit Apr 17, 2026 1 min read

모델들이 갑자기 둔해졌나? LocalLLaMA는 'silent downgrade' 감각을 검증 문제로 바꿨다

LocalLLaMA의 열기는 “모델이 멍청해졌다”는 불평에서 끝나지 않고, provider routing과 quantization, peak-time behavior를 어떻게 측정할지로 번졌다. thread는 확정 증거보다 community가 느끼는 품질 불안의 크기를 보여준다.

#local-llm #benchmarks #model-quality

LLM Reddit Apr 16, 2026 1 min read

Qwen3.5-9B quant 고르기, LocalLLaMA는 감이 아니라 KLD 표를 원했다

LocalLLaMA가 이 글을 올려준 이유는 복잡한 GGUF 선택을 측정 가능한 tradeoff로 바꿨기 때문이다. 글은 community Qwen3.5-9B quant를 BF16 baseline과 mean KLD로 비교했고, 댓글은 chart 표현, Gemma 4, Thireus quant, long-context test까지 요구했다.

#qwen #gguf #quantization

LLM Reddit Apr 16, 2026 1 min read

브라우저에서 290MB 1-bit LLM, LocalLLaMA의 흥분과 현실 체크

LocalLLaMA가 크게 반응한 이유는 demo가 직관적이었기 때문이다. 약 290MB짜리 1.7B Bonsai model이 WebGPU로 browser 안에서 돈다. 같은 thread는 곧바로 tokens per second, hallucination, llama.cpp support, 그리고 1-bit model이 narrow task 밖에서도 쓸 만한지 따지며 현실 체크를 붙였다.

#local-llm #webgpu #quantization

LLM Reddit Apr 16, 2026 1 min read

VRAM에 자주 쓰는 expert만 올리자, LocalLLaMA가 본 27% 속도 향상

LocalLLaMA가 반응한 이유는 큰 MoE model을 작은 VRAM에서 굴릴 때 생기는 병목을 꽤 현실적인 방식으로 찔렀기 때문이다. 작성자는 Qwen3.5-122B-A10B에서 최근 token들이 자주 route한 expert를 VRAM cache에 올리는 llama.cpp fork를 실험했고, 같은 22GB대 VRAM 사용량에서 layer-based offload보다 token generation이 26.8% 빨랐다고 공유했다.

#local-llm #llama-cpp #moe

LLM Reddit Apr 16, 2026 1 min read

LocalLLaMA가 꽂힌 자동 튜닝, Qwen3.5-27B가 40 tok/s까지 올랐다

LocalLLaMA가 반응한 포인트는 “LLM이 스스로 빨라진다”는 농담 같은 구조가 실제 benchmark 숫자로 이어졌다는 점이었다. 작성자는 llm-server v2의 --ai-tune이 llama-server help를 context로 읽고 flag 조합을 돌며 fastest config를 cache한다고 설명했고, Qwen3.5-27B Q4_K_M은 18.5 tok/s에서 40.05 tok/s까지 올라갔다고 공유했다.

#local-llm #llama-cpp #optimization

LLM Hacker News Apr 16, 2026 1 min read

HN은 Ollama 논쟁을 로컬 LLM 신뢰 문제로 읽었다

HN이 크게 반응한 이유는 한 wrapper의 호불호가 아니라, local LLM stack에서 누가 credit과 control을 가져가는지에 대한 불편함이었다. Sleeping Robots의 글은 Ollama가 llama.cpp 위에서 성장했지만 attribution, model packaging, cloud routing, model storage에서 사용자 신뢰를 깎았다고 주장했고, 댓글은 “그래도 UX는 압도적으로 쉽다”는 반론까지 붙었다.

#local-llm #ollama #llama-cpp

LLM Reddit Apr 15, 2026 2 min read

MiniMax가 M2.7 라이선스를 풀어 설명했지만, LocalLLaMA는 아직 납득하지 못했다

LocalLLaMA가 이 글에 몰린 이유는 MiniMax가 M2.7 라이선스 불안을 잠재우려 했기 때문이다. 하지만 스레드 분위기는 문장이 부드러워진 것과 별개로, self-hosted 상업 사용이 정확히 어디까지 허용되는지는 여전히 흐리다는 쪽이었다.

#minimax #license #open-weights

LLM Reddit Apr 15, 2026 1 min read

Whisper를 따로 안 띄워도 되나, Reddit이 본 Gemma 4 음성 처리의 첫 신호

LocalLLaMA에서는 llama-server 안으로 음성이 들어왔다는 점 자체에 반응이 컸다. 별도 Whisper 파이프라인 없이 같은 로컬 스택에서 speech workflow를 묶을 수 있다는 기대와, 아직 긴 오디오는 불안정하다는 초기 보고가 함께 올라왔다.

#llama-cpp #speech-to-text #gemma

LLM Reddit Apr 15, 2026 1 min read

48GB GPU 대신 샤오미 폰 한 대, Reddit이 꽂힌 헤드리스 Gemma 4 서버

Reddit이 크게 반응한 건 또 하나의 거대한 GPU 머신이 아니라, 스마트폰을 Gemma 4 서버로 바꿔버린 실전 해킹이었다. 이 정도가 진짜 우리가 보고 싶은 로컬 AI라는 반응이 나온 이유가 분명했다.

#local-llm #android #gemma

LLM Reddit Apr 14, 2026 1 min read

r/LocalLLaMA가 Qwen3.5-9B quant를 다시 세운 기준: 감이 아니라 KLD로 고르자

r/LocalLLaMA에서 이 비교가 먹힌 이유는 GGUF 파일 선택을 감이나 평판이 아니라 분포 차이로 설명했기 때문이다. 작성자는 BF16 baseline 대비 mean KLD를 기준으로 community quants를 정렬했고, Q8_0 계열은 fidelity 쪽 상단에, 여러 IQ4와 Q5 계열은 size 대 fidelity 균형 구간에 배치했다.

#qwen #quantization #gguf