반응은 “브라우저만 있으면 로컬 LLM”이라는 편의성과 WebGPU·모델 정체성에 대한 정정 사이에서 갈렸다.
#local-llm
RSS FeedLocalLLaMA에서 Qwen3.6 35B A3B 모델이 업무 워크플로우를 바꿨다는 경험담이 화제입니다. Codex로 작업을 수행하고 과정을 스킬 문서로 기록해 pi 에이전트에 공급하는 방식으로 VPS 관리, PDF 변환 등을 자동화했습니다.
LocalLLaMA에서 RTX 4070 Super 12GB로 Qwen3.6 35B A3B 모델을 110 토큰/초로 구동하는 데 성공한 벤치마크가 공유됐습니다. MTP 지원과 CPU 오프로딩 최적화에 특화된 ik_llama.cpp 포크 덕분입니다.
2022년 12월부터 개발된 text-generation-webui가 'TextGen'이라는 이름으로 Windows·Linux·macOS를 지원하는 네이티브 데스크톱 앱으로 출시됐다. Electron 기반의 설치 불필요 앱으로, LM Studio와 동일한 방식이지만 완전 오픈소스다.
단종된 Intel Optane 영구 메모리를 중고 시장에서 구입해 768GB RAM 시스템을 구성하고, Kimi K2.5 1조 파라미터 모델을 로컬에서 초당 4토큰 이상으로 실행한 사례가 공개됐다.
NVIDIA AI가 하나의 체크포인트에 30B, 23B, 12B 추론 모델을 담은 Star Elastic을 공개했다. 제로샷 슬라이싱으로 별도 다운로드 없이 모델 크기를 동적으로 조정할 수 있다.
llama.cpp MTP 기능을 활용해 12GB VRAM GPU에서 Qwen3.6 35B A3B 모델을 초당 80토큰 이상, 128K 컨텍스트로 실행하는 설정이 공유됐다.
llama.cpp의 새 MTP 지원 PR을 활용해 Qwen 3.6 27B의 추론 속도를 2.5배 높이는 방법이 공유됐다. 48GB 메모리에서 262,000 토큰 컨텍스트로 로컬 에이전틱 코딩이 가능해졌다.
AMD Ryzen AI Max Pro 495(코드명 Gorgon Halo)가 192GB 통합 메모리를 탑재한 것으로 유출됐다. 기존 Strix Halo의 128GB에서 50% 늘어난 용량으로, 더 큰 AI 모델을 로컬에서 구동할 수 있게 된다.
llama.cpp에 멀티토큰 예측(MTP) 지원이 베타로 진입했다. 현재 Qwen3.5 MTP를 지원하며, 텐서 병렬 처리와 함께 vLLM과의 성능 격차를 좁힐 것으로 기대된다.
로컬 LLM 연구자가 단일 RTX 3090에서 Qwen3.6-27B와 에이전틱 검색을 결합해 SimpleQA 벤치마크 95.7%를 달성했다.
LocalLLaMA 댓글은 토큰 속도보다 끝까지 굴러가는 결과물에 더 민감했다. 같은 MacBook Pro M5 Max에서 Qwen 3.6 27B는 더 길고 빠르게 썼지만, Gemma 4 31B는 훨씬 적은 토큰으로 게임 로직과 상호작용을 먼저 정리했다.