LocalLLaMA의 관심은 “또 하나의 OCR 모델”보다 로컬 문서 파이프라인에 바로 넣을 수 있는 공개 가중치와 낮은 실행 장벽에 모였다.
구글이 Gemma 4 31B와 26B-A4B 모델에 Multi-Token Prediction 드래프터를 적용해 추론 속도를 높인 오픈 웨이트를 공개했다. 소형 드래프터가 토큰을 미리 예측하면 기본 모델이 검증하는 투기적 디코딩 방식이다.
DeepSeek이 DeepSeek-V4-Pro와 V4-Flash 두 가지 모델을 공개했다. Pro는 1.6조 파라미터(활성 49B)의 Mixture-of-Experts 구조로, 현재까지 공개된 오픈웨이트 모델 중 최대 규모다. 가격은 GPT-5.4와 Gemini 3.1 Pro 대비 절반 이하로, 비용 효율성이 핵심 차별점이다.
HN은 Mistral Medium 3.5를 단순 모델 공개로 보지 않았다. 4GPU 자가호스팅, 오픈 웨이트, 원격 코딩 에이전트 패키지가 핵심 화제였다.
HN이 Mistral Medium 3.5에 반응한 이유는 숫자가 현실적으로 보였기 때문이다. 128B dense, 256K context, 오픈 가중치, 그리고 4 GPU 수준의 self-hosting 주장까지 붙으면서 “써볼 수 있는 중간지대”라는 해석이 나왔다.
LocalLLaMA가 가장 먼저 붙든 건 숫자보다 형태였다. Mistral Medium 3.5는 reasoning, coding, agent 작업을 한 모델에 묶으면서도 “이건 직접 돌려볼 수 있겠다”는 감각을 줬고, 그 지점이 스레드를 달궜다.
로컬에서 굴릴 수 있는 오픈웨이트 코딩 모델은 아직 드물다. Poolside는 33B 총량·3B 활성 MoE인 Laguna XS.2를 1GPU 구동 모델로 내놓았고, 기술 글에서는 SWE-bench Pro 44.5%를 제시했다.
Hacker News는 VibeVoice를 새 모델 공개로만 보지 않았다. 무엇이 실제로 열려 있는지, 예전에 왜 코드를 내렸다가 다시 올렸는지, 그리고 기존 음성 스택과 비교해 정말 의미가 있는지가 토론의 중심이었다.
LocalLLaMA가 이 글을 붙잡은 이유는 단순한 사과문이 아니었다. 호스팅 모델에서는 같은 모델을 쓰고 있다고 믿어도, 실제 경험은 기본값과 프롬프트, 세션 관리에 따라 조용히 흔들릴 수 있다는 공포가 다시 확인됐기 때문이다.
LocalLLaMA는 DeepSeek V4 공개 자체보다, 1M context와 activated parameter 수가 실제 하드웨어에서 어떤 의미인지부터 계산하기 시작했다. 스레드는 곧 “RAM을 더 질렀어야 했다”는 반응과 MIT license 호평으로 채워졌다.
중요한 점은 open model 진영에서 긴 context와 실제 배포용 구성을 함께 내놓는 경우가 드물다는 데 있다. DeepSeek는 1M context, 1.6T·49B Pro, 284B·13B Flash라는 숫자를 한 번에 제시했다.
LocalLLaMA가 뜨거웠던 이유는 단순한 벤치마크 숫자 때문만이 아니었다. 공식 수치가 좋았지만, 진짜 반응은 FP8와 GGUF, VRAM 적합성 얘기가 바로 쏟아졌다는 데 있었다. 2026년 4월 25일 크롤링 시점 기준 스레드는 1,688점, 603댓글이었다.