Unsloth, MoE 모델 훈련 속도 12배 향상 및 메모리 35% 절감 달성
Original: Train MoE models 12x faster with 30% less memory! (<15GB VRAM) View original →
개요
AI 모델 fine-tuning 라이브러리 Unsloth가 Mixture of Experts(MoE) 아키텍처에 대한 획기적인 최적화를 발표했다. 맞춤형 Triton 커널과 수학적 최적화를 통해 훈련 속도를 12배 향상시키고, VRAM 사용량을 35% 이상 절감하면서도 정확도 손실은 전혀 없다.
주요 기술 혁신
Unsloth는 Hugging Face와 협력하여 PyTorch의 새로운 torch._grouped_mm 함수를 활용한 표준화된 MoE 훈련 파이프라인을 구축했다. Transformers v5는 이미 v4 대비 6배 빠른 MoE 처리를 제공하지만, Unsloth는 여기에 추가로 2배의 속도 향상을 더했다.
결과적으로 Transformers v4 대비 총 12~30배의 속도 개선을 달성했으며, 동시에 컨텍스트 길이도 6배 이상 늘릴 수 있게 되었다.
실용적 성능 지표
- gpt-oss-20b: 단 12.8GB VRAM으로 fine-tuning 가능
- Qwen3-30B-A3B: 16-bit LoRA로 63GB 사용
- RTX 3090, H100, B200 등 소비자용 및 데이터센터 GPU 모두 지원
- 모델이 크고 컨텍스트가 길수록 메모리 절감 효과가 기하급수적으로 증가
지원 모델 및 사용법
Unsloth는 이제 다음 MoE 아키텍처를 지원한다:
- gpt-oss (20B, 120B)
- Qwen3 (30B, 235B, VL, Coder)
- DeepSeek R1/V3
- GLM (4.5-Air, 4.7, Flash)
무료 Google Colab 노트북이 제공되며, 업데이트는 간단한 pip 명령으로 가능하다:
pip install --upgrade --force-reinstall --no-cache-dir --no-deps unsloth unsloth_zoo의미와 전망
이번 최적화는 대규모 MoE 모델의 fine-tuning을 개인 연구자와 소규모 팀에게도 접근 가능하게 만든다. 특히 RTX 3090 같은 소비자용 GPU에서도 20B 파라미터 모델을 훈련할 수 있다는 점은 오픈소스 AI 커뮤니티에 큰 의미를 지닌다.
Unsloth 팀은 이전에 gpt-oss를 위한 Flex Attention도 도입한 바 있으며, 이번 MoE 최적화와 결합하면 더욱 강력한 효율성을 기대할 수 있다.
Related Articles
Codexは開発支援から職種別workflowの表面へ広がっている。OpenAIは新pluginに62アプリと110スキルを束ね、Business・Enterprise向けSites previewも始めた。
AIによるAI開発は抽象論から実測指標へ移りつつある。AnthropicはMythos Previewが最適化課題で約52倍、研究判断テストで64%の優位を示したと説明した。
Redditでの焦点は、AI detectorが補助シグナルなのか、未校正の判定者なのかという点に移った。