Xiaomi MiMo 1T 모델 1000tps 주장, LocalLLaMA가 본 진짜 쟁점

Xiaomi MiMo-V2.5-Pro-UltraSpeed가 1T parameter 모델에서 1000 tokens/s 이상을 냈다는 주장이 LocalLLaMA에서 빠르게 공유됐다. 표면의 숫자는 화려하지만, 커뮤니티가 파고든 부분은 “빠르다”보다 “어떤 조건에서, 어떤 구조로 가능했나”에 가깝다.

Xiaomi 글은 TileRT와의 model-system codesign을 강조한다. 회사는 전용 하드웨어 대신 단일 표준 8-GPU commodity node에서 1000+ tokens/s를 달성했다고 설명한다. 핵심 재료는 MoE expert에 선택적으로 적용한 FP4 quantization, 그리고 block-level masked parallel prediction을 쓰는 DFlash speculative decoding이다.

FP4는 1T 규모 모델의 메모리 대역폭 병목을 줄이기 위한 선택이다. Xiaomi는 모든 부분을 낮은 정밀도로 밀어 넣지 않고, MoE expert처럼 양자화 내성이 큰 부분을 중심으로 줄였다고 설명한다. DFlash는 작은 draft model이 토큰을 순차적으로 맞히는 방식의 speculative decoding 한계를 줄이려는 접근으로 소개된다.

LocalLLaMA의 자연스러운 질문은 재현성이다. API는 6월 9일부터 6월 23일까지 신청 기반 시험 접근으로 운영되고, 고속 inference 자원이 제한돼 있다. Reddit 게시물도 DFlash 모델 공개와 향후 open-source release 약속을 함께 언급했다. 실제 평가가 가능하려면 코드, 커널, 모델 가중치, 측정 조건이 함께 열려야 한다.

그래도 이 흐름은 중요하다. local LLM 커뮤니티가 관심을 두는 병목은 모델 크기만이 아니라 latency, throughput, long-context 비용이다. 1T 모델을 실시간 루프에 넣을 수 있다는 주장이 검증된다면, agent와 coding workflow의 설계도 달라질 수 있다.

원문: Xiaomi MiMo blog. Reddit 토론: r/LocalLLaMA.

Xiaomi MiMo 1T 모델 1000tps 주장, LocalLLaMA가 본 진짜 쟁점

Related Articles

Qwen 3.6 27B + MTP로 로컬 추론 속도 2.5배 향상, 48GB에서 262k 컨텍스트

Orthrus-Qwen3: 동일 출력 품질 유지하며 추론 속도 7.8배 향상

AgentPerf 첫 공개, GB300이 H200보다 MW당 coding agent 20배 처리

Related Articles

Qwen 3.6 27B + MTP로 로컬 추론 속도 2.5배 향상, 48GB에서 262k 컨텍스트
LLM Reddit May 6, 2026 1 min read

Orthrus-Qwen3: 동일 출력 품질 유지하며 추론 속도 7.8배 향상
LLM Hacker News May 16, 2026 1 min read

AgentPerf 첫 공개, GB300이 H200보다 MW당 coding agent 20배 처리