LocalLLaMA의 관심은 “또 하나의 coding model”보다, Cohere 직원이 release 전 weights를 직접 커뮤니티에 맡긴 방식에 쏠렸다.
#localllama
RSS Feedr/LocalLLaMA의 MacBook Air M5 benchmark 글은 Qwen 3.6 35B-A3B의 89.6% HumanEval+ 결과뿐 아니라, RAM과 tok/s를 함께 본 실사용 관점을 제공했다.
r/LocalLLaMA에서 올라온 번역 실험담은 benchmark가 아니라 체감 사례지만, local model이 drift와 censorship risk를 피하는 실용적 선택지로 보인다는 커뮤니티 감각을 잘 보여 준다.
r/LocalLLaMA의 한 self-post가 2x H200 위에서 GPT-OSS-120B를 굴리며 하루 10억 토큰 이상을 처리하는 내부 serving stack을 공개했다. vLLM, LiteLLM, mxfp4, queueing 병목까지 포함한 구체적 운영 수치가 커뮤니티의 관심을 끌고 있다.
LocalLLaMA 스레드가 Gemma 4 31B의 예상 밖 FoodTruck Bench 성과를 끌어올렸다. 토론은 곧 장기 계획 능력과 benchmark 신뢰성 문제로 이어졌다.
한 r/LocalLLaMA 실험 글은 model depth의 약 50~56% 부근에서 layer를 복제하면 성능이 무너지거나 output이 깨진다고 주장한다. Dense, hybrid, MoE, transplant 사례를 함께 비교했다는 점에서 단순 anecdote보다 한 단계 나아간다.
r/LocalLLaMA의 게시글(점수 180, 댓글 53)은 CPU/GPU 하이브리드 MoE runtime <code>Krasis</code>의 장문 벤치마크를 공유했다. 핵심 주장은 “GPU로 prefill, CPU로 decode” 분리를 통해 VRAM이 부족한 환경에서 긴 컨텍스트 응답 대기 시간을 줄일 수 있다는 점이다.
LLmFit가 하드웨어별 실행 가능 모델을 추천하는 도구로 주목받았지만, Reddit 댓글에서는 호환성 가정과 추천 정확도 검증 필요성이 함께 제기됐다.
r/LocalLLaMA 고득점 스레드에서 Unsloth의 Qwen3.5-35B-A3B Dynamic GGUF 업데이트가 공유되며, KLD/PPL 지표와 실제 다운스트림 검증 필요성이 함께 제기됐다.
LocalLLaMA 인기 스레드에서 Kitten TTS v0.8이 주목받았다. 80M/40M/14M 오픈 모델과 CPU 구동, 25MB 미만 경량 모델이 핵심 포인트로 제시됐다.
LocalLLaMA 인기 글은 13.6M 파라미터 matmul-free 모델을 2스레드 CPU에서 약 1.2시간 만에 학습했다고 보고했다. 작성자는 연산 병목이 ternary 코어가 아니라 출력 헤드에 집중된다고 주장했다.
Reddit r/LocalLLaMA에서 높은 반응을 받은 게시물 "KaniTTS2 — open-source 400M TTS model with voice cloning, runs in 3GB VRAM. Pretrain code included."를 기술 관점에서 요약했다. 점수 456, 댓글 84를 기록한 커뮤니티 신호를 바탕으로 실무 적용 시 확인할 체크포인트를 정리한다.