Xiaomi MiMo 1T 모델 1000tps 주장, LocalLLaMA가 본 진짜 쟁점
Original: Xiaomi is now serving MiMo V2.5 at 1000-3000tps using DFlash & Persistent kernel. DFLash model is out, open-source release promised coming soon View original →
Xiaomi MiMo-V2.5-Pro-UltraSpeed가 1T parameter 모델에서 1000 tokens/s 이상을 냈다는 주장이 LocalLLaMA에서 빠르게 공유됐다. 표면의 숫자는 화려하지만, 커뮤니티가 파고든 부분은 “빠르다”보다 “어떤 조건에서, 어떤 구조로 가능했나”에 가깝다.
Xiaomi 글은 TileRT와의 model-system codesign을 강조한다. 회사는 전용 하드웨어 대신 단일 표준 8-GPU commodity node에서 1000+ tokens/s를 달성했다고 설명한다. 핵심 재료는 MoE expert에 선택적으로 적용한 FP4 quantization, 그리고 block-level masked parallel prediction을 쓰는 DFlash speculative decoding이다.
FP4는 1T 규모 모델의 메모리 대역폭 병목을 줄이기 위한 선택이다. Xiaomi는 모든 부분을 낮은 정밀도로 밀어 넣지 않고, MoE expert처럼 양자화 내성이 큰 부분을 중심으로 줄였다고 설명한다. DFlash는 작은 draft model이 토큰을 순차적으로 맞히는 방식의 speculative decoding 한계를 줄이려는 접근으로 소개된다.
LocalLLaMA의 자연스러운 질문은 재현성이다. API는 6월 9일부터 6월 23일까지 신청 기반 시험 접근으로 운영되고, 고속 inference 자원이 제한돼 있다. Reddit 게시물도 DFlash 모델 공개와 향후 open-source release 약속을 함께 언급했다. 실제 평가가 가능하려면 코드, 커널, 모델 가중치, 측정 조건이 함께 열려야 한다.
그래도 이 흐름은 중요하다. local LLM 커뮤니티가 관심을 두는 병목은 모델 크기만이 아니라 latency, throughput, long-context 비용이다. 1T 모델을 실시간 루프에 넣을 수 있다는 주장이 검증된다면, agent와 coding workflow의 설계도 달라질 수 있다.
원문: Xiaomi MiMo blog. Reddit 토론: r/LocalLLaMA.
Related Articles
llama.cpp의 새 MTP 지원 PR을 활용해 Qwen 3.6 27B의 추론 속도를 2.5배 높이는 방법이 공유됐다. 48GB 메모리에서 262,000 토큰 컨텍스트로 로컬 에이전틱 코딩이 가능해졌다.
Orthrus 프레임워크가 Qwen3 모델에서 forward pass당 최대 7.8배 토큰 생성 속도를 달성했다. 단일 KV 캐시로 자동회귀와 확산 뷰를 통합하는 이중 뷰 아키텍처 덕분에 출력 분포는 원본과 동일하다.
AI agent 인프라 경쟁이 토큰 처리량이 아니라 동시 작업 수와 전력 효율로 옮겨가고 있다. NVIDIA는 Artificial Analysis의 새 AA-AgentPerf에서 GB300 NVL72가 H200보다 MW당 동시 coding agent 처리량을 최대 20배 높였다고 밝혔다.