MiMo-V2.5-Pro, LocalLLaMA가 본 집에서 돌리는 Opus 후보

LocalLLaMA에서 MiMo-V2.5-Pro가 받은 반응은 평범한 모델 카드 수준이 아니었다. 오래된 질문 하나가 다시 올라왔기 때문이다. “프런티어 랩 구독 없이도 Claude급에 가까운 걸 손에 넣을 수 있나?” 이번엔 Xiaomi MiMo가 Hugging Face에 MIT 라이선스로 모델을 올리면서, 성능 이야기와 통제권 이야기가 한꺼번에 붙었다. 모델을 얼마나 잘 돌리느냐만이 아니라, 누가 무엇을 기반으로 제품을 만들 수 있느냐가 같이 논의된 셈이다.

공식 카드의 숫자는 강하다. MiMo-V2.5-Pro는 total parameter 1.02T, active parameter 42B의 MoE 모델이고, context window는 1M token까지 간다. Xiaomi는 sliding-window attention과 global attention을 섞는 hybrid attention 구조로 KV-cache 부담을 줄였고, Multi-Token Prediction 3개 레이어를 넣어 출력 속도를 끌어올렸다고 설명한다. 학습도 27T token pre-training 뒤에 SFT, 대규모 agentic RL, multi-teacher on-policy distillation을 거쳤다. 목표도 분명하다. 긴 문맥, 긴 작업 흐름, 많은 tool call이 붙는 agentic software engineering이다.

벤치마크 수치가 hype를 만든 이유도 이해된다. Xiaomi는 HumanEval+ 75.6, SWE-Bench (AgentLess) 35.7, LiveCodeBench v6 39.6을 제시했고, GraphWalks 같은 long-context 평가에서도 1M token 구간까지 점수가 완전히 무너지지 않는다고 적었다. 하지만 배포 가이드를 보면 현실이 바로 드러난다. Xiaomi는 FP8 추론, 16-way expert parallelism, SGLang 혹은 vLLM 기반 구성을 권장한다. 즉 “오픈 모델”과 “누구나 집에서 돌리는 모델”은 아직 같은 말이 아니다. 댓글이 바로 이 지점에 꽂혔다.

커뮤니티 반응은 두 갈래였다. 한쪽은 중국 오픈 모델 진영이 이제는 진짜로 agentic 성능까지 정면 승부를 거는 단계에 들어왔다고 봤다. permissive 라이선스로 이런 급의 모델이 계속 나온다는 점 자체를 큰 변화로 본 것이다. 다른 한쪽은 RTX 6000 여러 장이 숨어 있는 사람만 입장 가능한 파티 같다고 농담했다. 둘 다 맞는 말이다. 이번 포스트가 중요했던 이유는 데스크톱 장난감 수준을 넘어서, 오픈 모델이 코딩 에이전트, 1M context, 실서비스 행동까지 얼마나 밀어붙일 수 있는지를 묻기 시작했기 때문이다.

MiMo-V2.5-Pro, LocalLLaMA가 본 집에서 돌리는 Opus 후보

Related Articles

DeepSeek V4 등장, LocalLLaMA가 먼저 계산한 건 메모리

DeepSeek V4에 HN 폭주, 문서 링크보다 더 크게 번진 건 곧바로 뜬 가중치

모델보다 배관이 뜨겁다, LocalLLaMA가 DeepEP V2에 몰린 이유

Comments (0)

Leave a Comment

Related Articles

DeepSeek V4 등장, LocalLLaMA가 먼저 계산한 건 메모리

DeepSeek V4에 HN 폭주, 문서 링크보다 더 크게 번진 건 곧바로 뜬 가중치

모델보다 배관이 뜨겁다, LocalLLaMA가 DeepEP V2에 몰린 이유