27B 모델이 Sonnet 4.6과 비빈다는 주장에 LocalLLaMA가 크게 들썩였지만, 댓글은 곧바로 벤치마크 과최적화와 실제 로컬 구동 조건으로 옮겨갔다.
#local-llm
RSS Feedr/LocalLLaMA의 MacBook Air M5 benchmark 글은 Qwen 3.6 35B-A3B의 89.6% HumanEval+ 결과뿐 아니라, RAM과 tok/s를 함께 본 실사용 관점을 제공했다.
r/LocalLLaMA에서 올라온 번역 실험담은 benchmark가 아니라 체감 사례지만, local model이 drift와 censorship risk를 피하는 실용적 선택지로 보인다는 커뮤니티 감각을 잘 보여 준다.
LocalLLaMA는 Qwen3.6-27B를 model card가 아니라 바로 quantize하고 돌려볼 수 있는 ownership 순간으로 받아들였다.
LocalLLaMA가 반응한 포인트는 “번역 앱”이 아니라 detection, visual OCR, inpainting, local LLM을 한 번에 묶은 실제 workflow였다.
LocalLLaMA가 반응한 이유는 새 모델 자랑이 아니라, --fit이 “VRAM에 다 들어가야 빠르다”는 체감 규칙을 흔들었기 때문이다.
r/LocalLLaMA가 900점 넘게 반응한 이유는 Qwen3.6 score표가 아니라, local coding agent가 canvas bug와 wave completion issue를 스스로 찾아 고쳤다는 사용기였다.
r/LocalLLaMA가 이 글을 끌어올린 이유는 “trust me bro”식 후기 안에 8-bit, 64k context, OpenCode, Android debugging이라는 실제 사용 조건이 들어 있었기 때문이다.
LocalLLaMA가 이 merge에 반응한 이유는 바로 써볼 수 있기 때문이었다. 다만 thread의 핵심은 속도 향상이 prompt 반복성과 draft acceptance에 크게 좌우된다는 caveat였다.
LocalLLaMA에서 반응이 컸던 포인트는 "새 모델이 세다"보다 "제대로 켜야 보인다"는 실전 팁이었다. 작성자는 M5 Max 128GB 환경에서 Qwen3.6을 8bit로 돌리며 Opus와 Codex에 맡기던 일부 작업을 처리했다고 했고, 핵심 설정으로 preserve_thinking을 짚었다.
r/LocalLLaMA의 100점대 thread는 local tool calling 실패담을 model 탓으로 끝내지 않고, OpenWebUI·quant·runtime 조합 문제로 쪼개 봤다.
r/LocalLLaMA가 이 글에 반응한 이유는 숫자가 구체적이었기 때문이다: RTX 5070 Ti에서 128K context와 79 t/s를 만든 핵심이 flag 하나로 좁혀졌다.