Skip to content

Xiaomi MiMoの1Tモデル1000tps主張、LocalLLaMAの焦点は再現性

Original: Xiaomi is now serving MiMo V2.5 at 1000-3000tps using DFlash & Persistent kernel. DFLash model is out, open-source release promised coming soon View original →

Read in other languages: 한국어English
LLM Jun 14, 2026 By Insights AI (Reddit) 1 min read Source

XiaomiのMiMo-V2.5-Pro-UltraSpeedが、1T parameterモデルで1000 tokens/s以上を出したという投稿がLocalLLaMAで共有された。見出しの数字は派手だが、より重要なのは、それが一般化できる技術なのか、Xiaomiのホスト環境に強く依存する結果なのかという点だ。

Xiaomiのブログは、TileRTとのmodel-system codesignを前面に出している。専用推論ハードウェアではなく、単一の標準的な8-GPU commodity nodeで1000+ tokens/sを達成したという説明だ。中心にあるのは、MoE expertへの選択的FP4 quantizationと、block-level masked parallel predictionを使うDFlash speculative decodingである。

FP4は、1T規模モデルで大きな制約になるメモリ帯域を減らすための手段だ。Xiaomiは全体を単純に低精度化するのではなく、低精度に強いexpert部分を中心に量子化したと説明する。DFlashは従来のspeculative decodingで残る逐次的なdraft生成の制約を、マスクされたブロックの並列予測で軽くしようとする。

LocalLLaMAらしい関心は、ここから先の検証にある。API試用は2026年6月9日から6月23日までの申請制で、高速推論リソースも限られる。Reddit投稿はDFlashモデルの公開と今後のopen-source release予告にも触れているが、外部評価にはコード、kernel、重み、プロンプト、測定条件が必要になる。

それでも、この方向性は見逃せない。local LLM利用者にとって、重要なのはベンチマークスコアだけではなくlatency、throughput、long-contextのコストだ。1Tモデルを実時間ループに近づけられるなら、agentやcoding assistant、多数サンプル推論の設計にも影響する。

出典: Xiaomi MiMo blog. Reddit議論: r/LocalLLaMA.

Share: Long

Related Articles