MiniMax M3 가중치 공개, 428B 규모·23B 활성 파라미터로 Hugging Face 입성
Original: MiniMax M3 weights arrive on Hugging Face with 428B parameters View original →
MiniMax M3의 Hugging Face 공개는 중국계 모델 경쟁에서 오픈 웨이트와 장문 멀티모달을 동시에 밀어붙이는 사례다. MiniMax 공식 계정은 2026년 6월 12일 14:11 UTC에 M3 가중치와 MiniMax Sparse Attention 논문 링크를 공개했다.
트윗은 모델 크기를 직접 적었다. ~428B parameters and ~23B activated parameters라는 수치가 핵심이다. FxTwitter 기준 원 게시물은 52만 회 이상 조회, 2,485개 좋아요, 301개 재게시를 기록했다. 함께 인용된 이전 게시물에는 SWE-Bench Pro 59.0%, Terminal Bench 2.1 66.0%, MCP Atlas 74.2% 같은 코딩·에이전트 벤치마크도 제시돼 있다.
Hugging Face 모델 카드에는 MiniMax-M3가 native multimodal model이며 1M context를 지원한다고 적혀 있다. 또한 MiniMax Sparse Attention이 M2 대비 1M 컨텍스트에서 prefill 9배, decode 15배 속도 향상을 제공하고 per-token compute를 1/20로 줄인다고 설명한다. 로컬 배포 경로로 SGLang, vLLM, Transformers가 제시된 점도 실제 사용성을 높인다.
MiniMax 공식 계정은 모델, API, 에이전트 제품 업데이트를 직접 배포하는 채널이다. 이번 트윗에서 볼 다음 지점은 라이선스 조건, 실제 추론 비용, 1M 컨텍스트 품질, 그리고 공개 벤치마크가 독립 평가에서 얼마나 유지되는지다. NVIDIA AI가 같은 날 무료 GPU 가속 엔드포인트를 안내한 것도 초기 실험 접근성을 키운다. Source tweet
Related Articles
r/LocalLLaMA에서는 MiniMax M2.7의 공개 직후, Hugging Face LICENSE가 상업적 사용을 금지하고 있어 open source로 보기 어렵다는 지적이 빠르게 확산됐다.
댓글의 관심은 “encoder-free”라는 표현이 실제 아키텍처에서 무엇을 뜻하는지에 모였다.
LocalLLaMA 커뮤니티에서 Qwen3.5-35B-A3B 모델 카드가 빠르게 확산됐다. MoE 구조, 긴 context, 다양한 serving 프레임워크 호환성이 핵심 포인트로 언급된다.