r/LocalLLaMA가 밀어올린 Mistral Small 4, 119B MoE에 256k context·reasoning mode 결합
Original: Mistral Small 4 119B A6B View original →
커뮤니티가 본 것은 또 하나의 benchmark가 아니라 open model packaging 전략이었다
2026년 3월 16일 r/LocalLLaMA에서 Mistral Small 4 링크는 504 points와 196 comments를 모았다. 이 반응이 큰 이유는 단순히 큰 model이 하나 더 나왔기 때문이 아니다. Mistral은 이번 release에서 instruct, reasoning, coding-oriented usage를 서로 다른 family로 분리하기보다 하나의 open model 안에 묶으려 하고 있다.
Hugging Face model card에 따르면 Mistral Small 4는 128 experts 중 4 experts가 active한 MoE 구조를 사용하며, total 119B parameters 가운데 token당 6.5B가 activated된다. context length는 256k이고, text와 image input을 받아 text를 출력한다. function calling과 JSON output을 지원하고, request마다 reasoning_effort를 조절해 fast response와 deeper reasoning을 오갈 수 있다. 라이선스는 Apache 2.0이라 commercial deployment와 fine-tuning 평가에서도 의미가 크다.
성능만이 아니라 serving path도 함께 검증되는 release
model card는 latency-optimized setup에서 Mistral Small 3 대비 end-to-end completion time을 40% 줄였고, throughput-optimized setup에서는 requests per second가 3배라고 설명한다. 여기에 speculative decoding용 eagle head와 lower-precision serving용 NVFP4 checkpoint도 같이 제시한다. 즉 model 자체뿐 아니라 실제 serving cost를 낮추는 수단까지 package로 묶는 전략이다.
r/LocalLLaMA 반응은 benchmark chart 자체보다도 이 모델이 open deployment에서 얼마나 실용적인가에 쏠려 있다. model card는 coding agent, document parsing, multimodal assistant, research task를 주요 use case로 제시하지만, 동시에 vLLM, Transformers, llama.cpp, SGLang 지원이 순차적으로 정리되는 중이며 일부 path는 아직 WIP라고 밝힌다. 결국 관심사는 점수뿐 아니라 라이선스, context, tool use, serving path가 한 번에 충족되는지다.
- Mistral Small 4는 128-expert MoE에서 4 experts만 active하게 쓰는 구조다.
- 119B total parameters, 6.5B activated per token, 256k context를 제시한다.
- text와 image input, function calling, JSON output, switchable reasoning을 지원한다.
- Apache 2.0 license와 NVFP4, eagle decoding path를 함께 제공한다.
이 스레드가 보여주는 신호는 open-model 사용자가 이제 leaderboard 한 줄보다 deployment package 전체를 본다는 것이다. Mistral Small 4는 바로 그 조건을 맞추려는 release로 받아들여지고 있다.
Related Articles
LocalLLaMA가 크게 반응한 건 DeepSeek가 점과 박스를 추론 단위로 끌어올렸기 때문이다. 저장소가 곧바로 비공개로 바뀌면서 관심은 더 커졌다.
Hacker News에서 Meta Superintelligence Labs의 첫 Muse 모델인 Muse Spark 공개가 크게 주목받았다. 이 모델은 tool use, visual chain of thought, 병렬 에이전트 기반 Contemplating mode를 전면에 내세운다.
Google DeepMind가 Gemini 3 research를 바탕으로 한 open model family Gemma 4를 공개했다. E2B·E4B는 edge device, 26B·31B는 consumer GPU 기반 local workflow를 겨냥하며 function calling, multimodal reasoning, 140개 언어 지원을 전면에 내세웠다.
Comments (0)
No comments yet. Be the first to comment!