Mistral Medium 3.5、HNが見た本題は128B・256K・オープンウェイト
Original: Mistral Medium 3.5 View original →
Mistral Medium 3.5に対するHNの反応はかなりはっきりしていた。多くの人がプロダクト紹介の文句より先に、必要なVRAMや運用コストの計算を始めた。Mistralはこのモデルを、instruction following、reasoning、codingをひとつにまとめた128Bのdenseモデルとして公開し、context windowは256K、weightsはmodified MITライセンスで提供すると説明している。この組み合わせは、強いモデルと現実的なself-hostingの境目にある数字として受け止められた。
公式ブログの要点も明快だ。Medium 3.5はLe Chatのデフォルトモデルになり、Vibeのremote coding agentもこのモデルで動く。reasoning effortはリクエストごとに調整でき、vision encoderは異なる画像サイズや縦横比に対応するためにゼロから学習したという。さらにSWE-Bench Verifiedで77.6%を記録し、最小4 GPU程度でself-hostできると主張している。加えてLe Chatには新しいWork modeも入り、単発の返答ではなく、複数ステップの作業を継続して進める方向を前面に出した。
ただしHNのコメント欄は礼賛一色ではなかった。肯定派はサイズと能力の比率を評価した。量子化しても数百GB級になる巨大MoEより、dense 128Bの方が実運用では扱いやすいという見方だ。一方で懐疑派は、MixtralでオープンMoEの存在感を出したMistralが、なぜここで再び大きなdenseモデルに戻るのかと問いかけた。最先端性能の絶対王者でもなく、最安のホストモデルでもないなら、どの市場を取りに行くのかという疑問だ。
この食い違いこそが、このリリースを面白くしている。コミュニティは単なるベンチマーク王座よりも、「スタックの交渉可能性」を見ている。つまり、二社だけが事実上の標準になる状況より、十分に強く、ある程度は自前で回せて、weightsも開いている選択肢を歓迎しているわけだ。懐疑的な人たちでさえ、このモデルを無視せず、配備やコストの言葉で議論していた。HNは、Mistralが性能1位というより選択肢の復元を売っていることをすぐに読み取った。
Related Articles
LocalLLaMAが真っ先に掴んだのは数字より形だった。Mistral Medium 3.5はreasoning、coding、agent作業を一つにまとめつつ、「これは自分でも回せるかもしれない」と思わせた。その感触がスレッドを熱くした。
HNがDeepSeek V4に飛びついた理由はきれいな発表ページではなかった。表のリンクがAPI docsで、実際の重みとbaseモデルがすでにHugging Faceに並んでいたことが一気に火を付けた。
LocalLLaMAを動かしたのは単なるQwenのスコア更新ではなかった。同じ系統のローカルモデルがscaffold変更だけで19%から45%、さらに78.7%へ伸びたという流れが、ベンチマーク比較そのものを見直す空気を生んだ。
Comments (0)
No comments yet. Be the first to comment!