MiMo-V2.5-Pro, LocalLLaMA가 본 집에서 돌리는 Opus 후보
Original: MIMO V2.5 PRO View original →
LocalLLaMA에서 MiMo-V2.5-Pro가 받은 반응은 평범한 모델 카드 수준이 아니었다. 오래된 질문 하나가 다시 올라왔기 때문이다. “프런티어 랩 구독 없이도 Claude급에 가까운 걸 손에 넣을 수 있나?” 이번엔 Xiaomi MiMo가 Hugging Face에 MIT 라이선스로 모델을 올리면서, 성능 이야기와 통제권 이야기가 한꺼번에 붙었다. 모델을 얼마나 잘 돌리느냐만이 아니라, 누가 무엇을 기반으로 제품을 만들 수 있느냐가 같이 논의된 셈이다.
공식 카드의 숫자는 강하다. MiMo-V2.5-Pro는 total parameter 1.02T, active parameter 42B의 MoE 모델이고, context window는 1M token까지 간다. Xiaomi는 sliding-window attention과 global attention을 섞는 hybrid attention 구조로 KV-cache 부담을 줄였고, Multi-Token Prediction 3개 레이어를 넣어 출력 속도를 끌어올렸다고 설명한다. 학습도 27T token pre-training 뒤에 SFT, 대규모 agentic RL, multi-teacher on-policy distillation을 거쳤다. 목표도 분명하다. 긴 문맥, 긴 작업 흐름, 많은 tool call이 붙는 agentic software engineering이다.
벤치마크 수치가 hype를 만든 이유도 이해된다. Xiaomi는 HumanEval+ 75.6, SWE-Bench (AgentLess) 35.7, LiveCodeBench v6 39.6을 제시했고, GraphWalks 같은 long-context 평가에서도 1M token 구간까지 점수가 완전히 무너지지 않는다고 적었다. 하지만 배포 가이드를 보면 현실이 바로 드러난다. Xiaomi는 FP8 추론, 16-way expert parallelism, SGLang 혹은 vLLM 기반 구성을 권장한다. 즉 “오픈 모델”과 “누구나 집에서 돌리는 모델”은 아직 같은 말이 아니다. 댓글이 바로 이 지점에 꽂혔다.
커뮤니티 반응은 두 갈래였다. 한쪽은 중국 오픈 모델 진영이 이제는 진짜로 agentic 성능까지 정면 승부를 거는 단계에 들어왔다고 봤다. permissive 라이선스로 이런 급의 모델이 계속 나온다는 점 자체를 큰 변화로 본 것이다. 다른 한쪽은 RTX 6000 여러 장이 숨어 있는 사람만 입장 가능한 파티 같다고 농담했다. 둘 다 맞는 말이다. 이번 포스트가 중요했던 이유는 데스크톱 장난감 수준을 넘어서, 오픈 모델이 코딩 에이전트, 1M context, 실서비스 행동까지 얼마나 밀어붙일 수 있는지를 묻기 시작했기 때문이다.
Related Articles
LocalLLaMA는 DeepSeek V4 공개 자체보다, 1M context와 activated parameter 수가 실제 하드웨어에서 어떤 의미인지부터 계산하기 시작했다. 스레드는 곧 “RAM을 더 질렀어야 했다”는 반응과 MIT license 호평으로 채워졌다.
HN은 이번 스레드를 단순한 모델 공개로 보지 않았다. API 문서보다 먼저 Hugging Face 가중치와 base 모델이 모습을 드러내자, 커뮤니티의 관심은 홍보보다 실물 검증으로 곧장 옮겨갔다.
LocalLLaMA가 반긴 건 또 하나의 성능표가 아니라, MoE 배관을 실제로 더 빠르게 돌릴 수 있는 공개 인프라였다. 댓글도 DeepSeek가 내부 성과를 묶어두지 않고 통신·커널 작업을 밖으로 내놓는 데 꽂혔다.
Comments (0)
No comments yet. Be the first to comment!