댓글의 관심은 “encoder-free”라는 표현이 실제 아키텍처에서 무엇을 뜻하는지에 모였다.
댓글의 관심은 “encoder-free”라는 표현이 실제 아키텍처에서 무엇을 뜻하는지에 모였다.
LocalLLaMA의 관심은 “또 하나의 OCR 모델”보다 로컬 문서 파이프라인에 바로 넣을 수 있는 공개 가중치와 낮은 실행 장벽에 모였다.
DeepSeek이 DeepSeek-V4-Pro와 V4-Flash 두 가지 모델을 공개했다. Pro는 1.6조 파라미터(활성 49B)의 Mixture-of-Experts 구조로, 현재까지 공개된 오픈웨이트 모델 중 최대 규모다. 가격은 GPT-5.4와 Gemini 3.1 Pro 대비 절반 이하로, 비용 효율성이 핵심 차별점이다.
HN은 Mistral Medium 3.5를 단순 모델 공개로 보지 않았다. 4GPU 자가호스팅, 오픈 웨이트, 원격 코딩 에이전트 패키지가 핵심 화제였다.
LocalLLaMA가 가장 먼저 붙든 건 숫자보다 형태였다. Mistral Medium 3.5는 reasoning, coding, agent 작업을 한 모델에 묶으면서도 “이건 직접 돌려볼 수 있겠다”는 감각을 줬고, 그 지점이 스레드를 달궜다.
로컬에서 굴릴 수 있는 오픈웨이트 코딩 모델은 아직 드물다. Poolside는 33B 총량·3B 활성 MoE인 Laguna XS.2를 1GPU 구동 모델로 내놓았고, 기술 글에서는 SWE-bench Pro 44.5%를 제시했다.
Hacker News는 VibeVoice를 새 모델 공개로만 보지 않았다. 무엇이 실제로 열려 있는지, 예전에 왜 코드를 내렸다가 다시 올렸는지, 그리고 기존 음성 스택과 비교해 정말 의미가 있는지가 토론의 중심이었다.
LocalLLaMA가 이 글을 붙잡은 이유는 단순한 사과문이 아니었다. 호스팅 모델에서는 같은 모델을 쓰고 있다고 믿어도, 실제 경험은 기본값과 프롬프트, 세션 관리에 따라 조용히 흔들릴 수 있다는 공포가 다시 확인됐기 때문이다.
LocalLLaMA는 DeepSeek V4 공개 자체보다, 1M context와 activated parameter 수가 실제 하드웨어에서 어떤 의미인지부터 계산하기 시작했다. 스레드는 곧 “RAM을 더 질렀어야 했다”는 반응과 MIT license 호평으로 채워졌다.
중요한 점은 open model 진영에서 긴 context와 실제 배포용 구성을 함께 내놓는 경우가 드물다는 데 있다. DeepSeek는 1M context, 1.6T·49B Pro, 284B·13B Flash라는 숫자를 한 번에 제시했다.
LocalLLaMA가 이 글을 밀어 올린 이유는 모두가 벤치마크를 믿어서가 아니다. 27B 오픈 모델이 에이전트형 작업에서 갑자기 경쟁권으로 들어온 듯 보였고, 그래서 더 중요해 보이면서도 동시에 더 수상해 보이는 결과가 토론을 키웠다.
개인정보 필터링은 이제 보안 옵션이 아니라 AI 파이프라인의 기본 인프라다. OpenAI의 1.5B 오픈웨이트 Privacy Filter는 128,000토큰을 로컬에서 처리하고, 보정된 PII-Masking-300k에서 F1 97.43%를 제시했다.