r/LocalLLaMAで注目の Mistral Small 4、119B MoE に 256k context と切替式 reasoning を統合
Original: Mistral Small 4 119B A6B View original →
コミュニティが見ているのはbenchmarkの一行ではなくopen modelのまとめ方だ
2026年3月16日、Mistral Small 4 への r/LocalLLaMA リンクは504 pointsと196 commentsを集めた。関心が大きい理由は、単に大きなmodelが増えたからではない。Mistralは今回、instruct、reasoning、coding寄りの用途を別familyとして分けるのではなく、一つのopen modelにまとめようとしている。
Hugging Face model cardによれば、Mistral Small 4 は128 expertsのうち4 expertsがactiveになるMoE構造で、119B total parameters、tokenあたり6.5B activatedという設計だ。256k context windowを持ち、textとimage inputを受けてtextを出力し、function callingとJSON outputも扱える。さらに reasoning_effort をrequestごとに切り替えられ、軽い応答と深いreasoningを一つのmodelで行き来できる。Apache 2.0 licenseであることも商用評価では重要だ。
specだけでなくserving pathも同時に見られている
model cardでは、latency-optimized setupでMistral Small 3比のend-to-end completion timeを40%削減し、throughput-optimized setupではrequests per secondが3倍になると説明している。さらに speculative decoding 用のeagle head と、低精度serving向けのNVFP4 checkpointも用意されている。つまりresearch releaseというより、deployment economicsまで含めたpackageとして出してきた形だ。
そのため LocalLLaMA の反応はbenchmark chartだけには向いていない。ユーザーは、coding agent、long-context document work、multimodal assistant、reasoning-heavy taskを一つのopen modelで現実的に回せるかを見ている。同じmodel cardは、vLLM、Transformers、llama.cpp、SGLang の対応がまだ順次整っている途中で、一部pathはWIPだとも示している。評価軸は点数だけでなく、license、context、tool use、serving pathが揃うかどうかだ。
- Mistral Small 4 は128-expert MoEで4 expertsだけをactiveにする。
- 119B total parameters、6.5B activated per token、256k contextを掲げる。
- textとimage input、tool use、JSON output、switchable reasoningを備える。
- Apache 2.0 licenseに加え、NVFP4とeagle pathも用意されている。
このthreadが示すのは、open-model communityが今やreleaseをdeployment package全体で判断しているということだ。Mistral Small 4 はそのチェックリストを一度に満たそうとするreleaseとして受け止められている。
Related Articles
Mistral AIは2026年3月16日、NVIDIAと frontier open-source AI models を共同開発する戦略的パートナーシップを発表した。続くMistralの公式文は、MistralがNVIDIA Nemotron Coalitionのfounding memberとして参加し、large-scale model developmentとmultimodal capabilitiesを提供すると説明している。
MistralがApache 2.0ベースのマルチモーダル公開モデル群Mistral 3を発表した。14B, 8B, 3Bのdense modelに加え、41B active, 675B totalのMistral Large 3も提示している。
新しいllama.cpp変更は<code>--reasoning-budget</code>をtemplate stubではなくsampler側の実制御へ変える。LocalLLaMA threadでは、長いthink loopを削ることとanswer qualityを守ることのtradeoff、とくにlocal Qwen 3.5環境での意味が集中的に議論された。
Comments (0)
No comments yet. Be the first to comment!