Xiaomi MiMoの1Tモデル1000tps主張、LocalLLaMAの焦点は再現性
Original: Xiaomi is now serving MiMo V2.5 at 1000-3000tps using DFlash & Persistent kernel. DFLash model is out, open-source release promised coming soon View original →
XiaomiのMiMo-V2.5-Pro-UltraSpeedが、1T parameterモデルで1000 tokens/s以上を出したという投稿がLocalLLaMAで共有された。見出しの数字は派手だが、より重要なのは、それが一般化できる技術なのか、Xiaomiのホスト環境に強く依存する結果なのかという点だ。
Xiaomiのブログは、TileRTとのmodel-system codesignを前面に出している。専用推論ハードウェアではなく、単一の標準的な8-GPU commodity nodeで1000+ tokens/sを達成したという説明だ。中心にあるのは、MoE expertへの選択的FP4 quantizationと、block-level masked parallel predictionを使うDFlash speculative decodingである。
FP4は、1T規模モデルで大きな制約になるメモリ帯域を減らすための手段だ。Xiaomiは全体を単純に低精度化するのではなく、低精度に強いexpert部分を中心に量子化したと説明する。DFlashは従来のspeculative decodingで残る逐次的なdraft生成の制約を、マスクされたブロックの並列予測で軽くしようとする。
LocalLLaMAらしい関心は、ここから先の検証にある。API試用は2026年6月9日から6月23日までの申請制で、高速推論リソースも限られる。Reddit投稿はDFlashモデルの公開と今後のopen-source release予告にも触れているが、外部評価にはコード、kernel、重み、プロンプト、測定条件が必要になる。
それでも、この方向性は見逃せない。local LLM利用者にとって、重要なのはベンチマークスコアだけではなくlatency、throughput、long-contextのコストだ。1Tモデルを実時間ループに近づけられるなら、agentやcoding assistant、多数サンプル推論の設計にも影響する。
出典: Xiaomi MiMo blog. Reddit議論: r/LocalLLaMA.
Related Articles
OrthrusフレームワークがQwen3モデルで1回のforwardパスあたり最大7.8倍のトークン生成を達成した。単一KVキャッシュで自動回帰と拡散ビューを統合するデュアルビューアーキテクチャにより、出力分布は原本と数学的に同一だ。
llama.cppの新MTP対応PRを使ってQwen 3.6 27Bの推論速度を2.5倍に高める方法がLocalLLaMAで共有された。48GBで26万2,000トークンのコンテキストが利用可能になる。
AI agent基盤の評価軸が、単純なトークン速度から同時セッション数と電力効率へ移っている。NVIDIAはArtificial AnalysisのAA-AgentPerfで、GB300 NVL72がH200よりMWあたり最大20倍のcoding agent処理能力を示したと説明した。