Unsloth: MoE 모델을 12배 빠르게, 30% 적은 메모리로 학습
Original: Train MoE models 12x faster with 30% less memory! (<15GB VRAM) View original →
획기적인 MoE 학습 최적화
Unsloth 팀이 Mixture of Experts (MoE) 아키텍처를 위한 커스텀 Triton 커널과 수학 최적화를 공개했습니다. 이를 통해 정확도 손실 없이 ~12배 빠른 학습, >35% VRAM 감소, ~6배 긴 컨텍스트를 달성했습니다.
지원 모델
Unsloth는 이제 다음 MoE 아키텍처를 지원합니다:
- gpt-oss (20B, 120B)
- Qwen3 (30B, 235B, VL, Coder)
- DeepSeek R1/V3
- GLM (4.5-Air, 4.7, Flash)
주목할 만한 성능:
- gpt-oss-20b를 단 12.8GB VRAM으로 fine-tuning 가능
- Qwen3-30B-A3B (16-bit LoRA)는 63GB 사용
- 모델이 크고 컨텍스트가 길수록 메모리 절감 효과가 기하급수적으로 증가
기술적 혁신
Hugging Face와 협력하여 PyTorch의 새로운 torch._grouped_mm 함수로 모든 MoE 학습을 표준화했습니다. Transformers v5는 v4 대비 ~6배 빠른 MoE를 제공하며, Unsloth는 커스텀 Triton grouped-GEMM + LoRA 커널로 추가 ~2배 속도 향상을 제공합니다.
전체적으로 Transformers v4 대비 12-30배 속도 향상을 달성했습니다.
폭넓은 GPU 지원
이 커널들은 다음 환경에서 모두 작동합니다:
- 데이터센터 GPU (B200, H100)
- 소비자용 GPU (RTX 3090 등)
- 구형 GPU
- FFT, LoRA, QLoRA 모두 지원
무료 Colab 노트북 제공
Unsloth는 다양한 무료 fine-tuning 노트북을 제공합니다:
- gpt-oss (20B) - 무료 Colab
- gpt-oss (500K context)
- GLM-4.7-Flash (A100)
- Qwen3-30B-A3B (A100)
- TinyQwen3 MoE (T4, 무료)
업데이트는 간단합니다:
pip install --upgrade --force-reinstall --no-cache-dir --no-deps unsloth unsloth_zoo이번 릴리스는 로컬 LLM 커뮤니티에 큰 의미가 있습니다. 이제 소비자용 하드웨어에서도 대형 MoE 모델을 효율적으로 fine-tuning할 수 있게 되었기 때문입니다.
Related Articles
Microsoft Threat Intelligenceは2026年3月6日、攻撃者が調査、phishing、malware開発、侵害後分析までAIを活用していると報告した。AIはまだ大規模な完全自律侵入を実現していないが、攻撃の速度・規模・持続性をすでに押し上げているという整理だ。
r/LocalLLaMAで、Whisperが無音区間で文章を生成する問題に対し、Silero VADやprompt履歴遮断、blocklistを組み合わせた運用対策が公開された。
Hacker Newsは、Amazonがrecent outageの後にAI-assisted code changeへのsenior sign-offを強めるという報道に反応し、AI導入の本当のボトルネックがverificationとaccountabilityへ移っていると受け止めた。
Comments (0)
No comments yet. Be the first to comment!