#local-llms

LLM Reddit Apr 28, 2026 2 min read

16GB VRAM의 탈출구? LocalLLaMA가 꺼낸 “묵은 GPU 한 장” 해법

LocalLLaMA가 이 글에 반응한 이유는 명확했다. 27B 모델을 두 장의 제각각인 GPU VRAM 안에만 가둘 수 있다면, 느린 보조 카드라도 시스템 RAM으로 쏟아지는 것보다는 낫다는 아주 실용적인 주장 때문이었다.

#local-llms #vram #multi-gpu

LLM Hacker News Apr 28, 2026 2 min read

10시간 비행기 오프라인 LLM 실험, HN이 본 건 전력·발열·루프의 현실

Hacker News가 꽂힌 지점은 여행 감성이 아니었다. 배터리가 분당 1% 가까이 줄고, 노트북이 무릎 위에서 버거워질 만큼 뜨거워지며, 긴 문맥과 에이전트 루프가 금방 한계를 드러낸다는 현실 쪽이었다.

#local-llms #macbook #offline

LLM Reddit Apr 28, 2026 1 min read

로컬 코딩 모델 38.2%, LocalLLaMA가 본 건 점수보다 배치 가능성

LocalLLaMA가 뜨거웠던 이유는 절대 점수만이 아니었다. 2026년 4월 28일 올라온 이 글은 Qwen 3.6-27B의 Terminal-Bench 2.0 38.2%를 late-2025 frontier 수준과 연결했고, 그 순간 로컬 코딩은 장난감이 아니라 배치 옵션으로 읽히기 시작했다.

#qwen #terminal-bench #local-llms

LLM Reddit Apr 24, 2026 2 min read

Qwen3.6-35B보다 더 크게 번진 것, LocalLLaMA가 본 scaffold 문제

LocalLLaMA를 흔든 건 단순한 Qwen 점수 상승이 아니었다. 같은 계열 로컬 모델이 scaffold 변경만으로 19%에서 45%, 다시 78.7%까지 올라갔다는 서사가 붙으면서, 벤치마크 비교 자체를 다시 봐야 한다는 분위기가 퍼졌다.

#qwen #coding-agents #benchmarks

LLM Reddit Apr 17, 2026 2 min read

Ternary Bonsai, LocalLLaMA는 압축 claim의 공정성을 먼저 따졌다

LocalLLaMA는 1.58-bit model의 가능성에 반응했지만, thread는 곧 어려운 질문으로 향했다. 비교 대상이 quantized Qwen peers가 아니라 full-precision baseline이면 공정한가.

#model-compression #local-llms #bonsai

LLM Reddit Apr 17, 2026 2 min read

Claude identity check, LocalLLaMA에는 privacy rallying point가 됐다

LocalLLaMA는 Claude identity verification을 단순한 account policy로 보지 않았다. local model, privacy control, 그리고 tool 접근 gate를 둘러싼 논쟁의 새 재료로 받아들였다.

#claude #privacy #local-llms

LLM Hacker News Apr 17, 2026 2 min read

Qwen3.6의 pelican test, HN을 benchmark 논쟁으로 끌어들였다

HN이 이 농담 같은 테스트에 반응한 이유는 분명했다. 작은 local model의 선명한 SVG 한 장이 flagship model보다 좋아 보일 때, 그것이 무엇을 증명하는지 아무도 쉽게 합의하지 못한다.

#qwen #claude #local-llms

LLM Reddit Apr 14, 2026 1 min read

r/LocalLLaMA가 찾은 Gemma 4 long context의 privacy-first 활용

인기 있는 r/LocalLLaMA thread는 Gemma 4의 256k context window로 100k+ token 개인 저널을 로컬에서 분석한 사례를 소개하며, privacy가 on-device LLM의 실용적 이유가 될 수 있음을 보여줬다.

#local-llms #gemma-4 #privacy

LLM Reddit Apr 2, 2026 2 min read

LocalLLaMA 비교: Qwen3.5 397B 구동에서 Dual DGX Sparks와 512GB Mac Studio 맞대결

LocalLLaMA의 한 상세 벤치마크 포스트가 Qwen3.5 397B A17B를 기준으로 $10K Dual DGX Sparks와 $10K Mac Studio M3 Ultra 512GB를 비교했다. Mac은 30~40 tok/s generation과 쉬운 setup, Dual Sparks는 더 빠른 prefill과 embedding 처리 성능을 보여줬지만 운영 난이도는 훨씬 높았다.

#qwen3.5 #mac-studio #dgx-spark

LLM Reddit Mar 23, 2026 2 min read

Qwen3.5-122B-A10B Uncensored (Aggressive) GGUF 공개, 새 K_P quants 포함

r/LocalLLaMA 게시물은 Qwen3.5-122B-A10B Uncensored (Aggressive) GGUF와 새 K_P quants를 소개한다. 작성자는 0/465 refusals와 zero capability loss를 주장했지만, 이는 작성자 본인 테스트에 기반한 self-reported claim이다.

#qwen #gguf #local-llms

LLM Reddit Mar 19, 2026 2 min read

LocalLLaMA가 밀어올린 Unsloth Studio, 로컬 모델 실행과 학습을 한 화면에 묶는다

2026년 3월 17일 r/LocalLLaMA의 Unsloth Studio 글은 최신 사용 가능 크롤 기준 898 points와 236 comments를 기록했다. Unsloth는 Studio를 로컬 추론, 데이터 생성, 파인튜닝, 코드 실행, 모델 내보내기를 한 인터페이스에 담은 베타 웹 UI로 소개한다.

#unsloth #local-llms #llama-cpp

LLM Reddit Mar 14, 2026 1 min read

r/LocalLLaMA: 커뮤니티 벤치마크 데이터가 Apple Silicon local LLM 성능 논의를 측정 가능한 형태로 바꾸다

최근 r/LocalLLaMA에서 주목받은 글은 커뮤니티가 이미 400개가 넘는 모델에 대해 거의 1만 건에 이르는 Apple Silicon 벤치마크를 제출했다고 주장한다. 이 글이 중요한 이유는 흩어진 체감담을 넘어, M-series 칩과 context 길이별 패턴을 비교할 수 있는 공유 데이터셋이 생기기 시작했기 때문이다.

#apple-silicon #benchmarks #omlx