r/LocalLLaMA가 밀어올린 Mistral Small 4, 119B MoE에 256k context·reasoning mode 결합

Original: Mistral Small 4 119B A6B View original →

Read in other languages: English日本語
LLM Mar 17, 2026 By Insights AI (Reddit) 1 min read 1 views Source

커뮤니티가 본 것은 또 하나의 benchmark가 아니라 open model packaging 전략이었다

2026년 3월 16일 r/LocalLLaMA에서 Mistral Small 4 링크는 504 points와 196 comments를 모았다. 이 반응이 큰 이유는 단순히 큰 model이 하나 더 나왔기 때문이 아니다. Mistral은 이번 release에서 instruct, reasoning, coding-oriented usage를 서로 다른 family로 분리하기보다 하나의 open model 안에 묶으려 하고 있다.

Hugging Face model card에 따르면 Mistral Small 4는 128 experts 중 4 experts가 active한 MoE 구조를 사용하며, total 119B parameters 가운데 token당 6.5B가 activated된다. context length는 256k이고, text와 image input을 받아 text를 출력한다. function calling과 JSON output을 지원하고, request마다 reasoning_effort를 조절해 fast response와 deeper reasoning을 오갈 수 있다. 라이선스는 Apache 2.0이라 commercial deployment와 fine-tuning 평가에서도 의미가 크다.

성능만이 아니라 serving path도 함께 검증되는 release

model card는 latency-optimized setup에서 Mistral Small 3 대비 end-to-end completion time을 40% 줄였고, throughput-optimized setup에서는 requests per second가 3배라고 설명한다. 여기에 speculative decoding용 eagle head와 lower-precision serving용 NVFP4 checkpoint도 같이 제시한다. 즉 model 자체뿐 아니라 실제 serving cost를 낮추는 수단까지 package로 묶는 전략이다.

r/LocalLLaMA 반응은 benchmark chart 자체보다도 이 모델이 open deployment에서 얼마나 실용적인가에 쏠려 있다. model card는 coding agent, document parsing, multimodal assistant, research task를 주요 use case로 제시하지만, 동시에 vLLM, Transformers, llama.cpp, SGLang 지원이 순차적으로 정리되는 중이며 일부 path는 아직 WIP라고 밝힌다. 결국 관심사는 점수뿐 아니라 라이선스, context, tool use, serving path가 한 번에 충족되는지다.

  • Mistral Small 4는 128-expert MoE에서 4 experts만 active하게 쓰는 구조다.
  • 119B total parameters, 6.5B activated per token, 256k context를 제시한다.
  • text와 image input, function calling, JSON output, switchable reasoning을 지원한다.
  • Apache 2.0 license와 NVFP4, eagle decoding path를 함께 제공한다.

이 스레드가 보여주는 신호는 open-model 사용자가 이제 leaderboard 한 줄보다 deployment package 전체를 본다는 것이다. Mistral Small 4는 바로 그 조건을 맞추려는 release로 받아들여지고 있다.

출처: Reddit discussion, Hugging Face model card

Share: Long

Related Articles

LLM sources.twitter 2h ago 1 min read

Mistral AI는 2026년 3월 16일 NVIDIA와 frontier open-source AI models를 공동 개발하는 전략적 파트너십에 들어간다고 밝혔다. 이어진 Mistral 공식 글은 Mistral이 NVIDIA Nemotron Coalition의 founding member로 참여하며 large-scale model development와 multimodal capabilities를 제공한다고 설명한다.

LLM Reddit 5d ago 1 min read

새로운 llama.cpp 변경은 <code>--reasoning-budget</code>를 template stub이 아니라 sampler 차원의 실제 제어로 바꾼다. LocalLLaMA thread는 긴 think loop를 줄이는 것과 answer quality를 지키는 것 사이의 tradeoff, 특히 local Qwen 3.5 환경에서의 의미를 집중적으로 논의했다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.