Xiaomi MiMoの1Tモデル1000tps主張、LocalLLaMAの焦点は再現性

XiaomiのMiMo-V2.5-Pro-UltraSpeedが、1T parameterモデルで1000 tokens/s以上を出したという投稿がLocalLLaMAで共有された。見出しの数字は派手だが、より重要なのは、それが一般化できる技術なのか、Xiaomiのホスト環境に強く依存する結果なのかという点だ。

Xiaomiのブログは、TileRTとのmodel-system codesignを前面に出している。専用推論ハードウェアではなく、単一の標準的な8-GPU commodity nodeで1000+ tokens/sを達成したという説明だ。中心にあるのは、MoE expertへの選択的FP4 quantizationと、block-level masked parallel predictionを使うDFlash speculative decodingである。

FP4は、1T規模モデルで大きな制約になるメモリ帯域を減らすための手段だ。Xiaomiは全体を単純に低精度化するのではなく、低精度に強いexpert部分を中心に量子化したと説明する。DFlashは従来のspeculative decodingで残る逐次的なdraft生成の制約を、マスクされたブロックの並列予測で軽くしようとする。

LocalLLaMAらしい関心は、ここから先の検証にある。API試用は2026年6月9日から6月23日までの申請制で、高速推論リソースも限られる。Reddit投稿はDFlashモデルの公開と今後のopen-source release予告にも触れているが、外部評価にはコード、kernel、重み、プロンプト、測定条件が必要になる。

それでも、この方向性は見逃せない。local LLM利用者にとって、重要なのはベンチマークスコアだけではなくlatency、throughput、long-contextのコストだ。1Tモデルを実時間ループに近づけられるなら、agentやcoding assistant、多数サンプル推論の設計にも影響する。

出典: Xiaomi MiMo blog. Reddit議論: r/LocalLLaMA.

Xiaomi MiMoの1Tモデル1000tps主張、LocalLLaMAの焦点は再現性

Related Articles

Orthrus-Qwen3、同一出力を保ちながら推論速度7.8倍を実現

Qwen 3.6 27BのMTPで推論速度2.5倍、48GBで262kコンテキスト実現

AgentPerf初公開、GB300はH200比でMWあたりcoding agent最大20倍

Related Articles

Orthrus-Qwen3、同一出力を保ちながら推論速度7.8倍を実現
LLM Hacker News May 16, 2026 1 min read

Qwen 3.6 27BのMTPで推論速度2.5倍、48GBで262kコンテキスト実現
LLM Reddit May 6, 2026 1 min read

AgentPerf初公開、GB300はH200比でMWあたりcoding agent最大20倍
AI agent基盤の評価軸が、単純なトークン速度から同時セッション数と電力効率へ移っている。NVIDIAはArtificial AnalysisのAA-AgentPerfで、GB300 NVL72がH200よりMWあたり最大20倍のcoding agent処理能力を示したと説明した。