MiMo-V2.5-Pro、LocalLLaMAが見た「自宅で回すOpus級」候補
Original: MIMO V2.5 PRO View original →
LocalLLaMAでのMiMo-V2.5-Proの扱われ方は、ただの新規モデル公開とは少し違った。昔からある問いがまた前面に出たからだ。つまり、フロンティア企業の課金API抜きで、Claude級に近いものを持てるのかという問いだ。今回はXiaomi MiMoがモデルをHugging FaceにMITライセンスで置いたことで、性能の話と所有権の話が同時に動き出した。
公式カードの数字はかなり強い。MiMo-V2.5-Proは1.02T total parameters、42B active parametersのMoEモデルで、context windowは1M tokenに達する。Xiaomiはsliding-window attentionとglobal attentionを組み合わせたhybrid attentionでKV-cacheの負担を抑え、さらに3層のMulti-Token Predictionで出力速度を押し上げたとしている。学習面では27T tokenのpre-trainingに続き、SFT、大規模なagentic RL、multi-teacher on-policy distillationを使った。狙いも明快で、長い文脈、長いタスク、継続的なtool useを伴うagentic software engineeringだ。
ベンチマークの見せ方も話題になった理由がわかる。XiaomiはHumanEval+ 75.6、SWE-Bench (AgentLess) 35.7、LiveCodeBench v6 39.6を示し、GraphWalksのようなlong-context評価でも1M tokenまで完全には崩れないと説明している。ただし、配備ガイドを読むと現実も見える。推奨構成はFP8推論、16-way expert parallelism、SGLangまたはvLLMベースだ。つまり「open model」と「気軽にローカルで回せるモデル」はまだ同義ではない。この落差こそ、Redditが真っ先に反応した点だった。
コメント欄は興奮と冷静さが同時にあった。ある人たちは、中国のopen model陣営がついにagentic性能でも正面勝負してきたと歓迎した。しかもMITライセンスで出てくること自体が大きいという見方だ。一方で、入場券として大量のRTX 6000が必要な世界だと冗談めかす声も多かった。どちらも外れていない。この投稿が重要だったのは、open modelの議論を小さなデスクトップ実験から引き上げ、agentic coding、million-token context、実運用らしい振る舞いで戦えるのかという次の論点へ進めたからだ。
Related Articles
LocalLLaMAで注目されたのは速度の数字だけでなく、FP4、DFlash、commodity GPU向けkernelが外部でも検証できるかだった。
Hacker Newsで高い反応を得たStep 3.5 Flashは、196B total parameterと約11B active parameterのMoE foundation modelとして公開され、256K contextとcoding/agent指標を前面に出した。
LocalLLaMAはDeepSeek V4の公開をただ喜んだわけではない。スレッドはすぐに1M context、activated parameters、実機での成立条件の話へ流れ、MIT licenseへの好感もそこに重なった。