Unsloth: MoE 모델을 12배 빠르게, 30% 적은 메모리로 학습

획기적인 MoE 학습 최적화

Unsloth 팀이 Mixture of Experts (MoE) 아키텍처를 위한 커스텀 Triton 커널과 수학 최적화를 공개했습니다. 이를 통해 정확도 손실 없이 ~12배 빠른 학습, >35% VRAM 감소, ~6배 긴 컨텍스트를 달성했습니다.

지원 모델

Unsloth는 이제 다음 MoE 아키텍처를 지원합니다:

gpt-oss (20B, 120B)
Qwen3 (30B, 235B, VL, Coder)
DeepSeek R1/V3
GLM (4.5-Air, 4.7, Flash)

주목할 만한 성능:

gpt-oss-20b를 단 12.8GB VRAM으로 fine-tuning 가능
Qwen3-30B-A3B (16-bit LoRA)는 63GB 사용
모델이 크고 컨텍스트가 길수록 메모리 절감 효과가 기하급수적으로 증가

기술적 혁신

Hugging Face와 협력하여 PyTorch의 새로운 torch._grouped_mm 함수로 모든 MoE 학습을 표준화했습니다. Transformers v5는 v4 대비 ~6배 빠른 MoE를 제공하며, Unsloth는 커스텀 Triton grouped-GEMM + LoRA 커널로 추가 ~2배 속도 향상을 제공합니다.

전체적으로 Transformers v4 대비 12-30배 속도 향상을 달성했습니다.

폭넓은 GPU 지원

이 커널들은 다음 환경에서 모두 작동합니다:

데이터센터 GPU (B200, H100)
소비자용 GPU (RTX 3090 등)
구형 GPU
FFT, LoRA, QLoRA 모두 지원

무료 Colab 노트북 제공

Unsloth는 다양한 무료 fine-tuning 노트북을 제공합니다:

gpt-oss (20B) - 무료 Colab
gpt-oss (500K context)
GLM-4.7-Flash (A100)
Qwen3-30B-A3B (A100)
TinyQwen3 MoE (T4, 무료)

업데이트는 간단합니다:

pip install --upgrade --force-reinstall --no-cache-dir --no-deps unsloth unsloth_zoo

이번 릴리스는 로컬 LLM 커뮤니티에 큰 의미가 있습니다. 이제 소비자용 하드웨어에서도 대형 MoE 모델을 효율적으로 fine-tuning할 수 있게 되었기 때문입니다.

Unsloth: MoE 모델을 12배 빠르게, 30% 적은 메모리로 학습

획기적인 MoE 학습 최적화

지원 모델

기술적 혁신

폭넓은 GPU 지원

무료 Colab 노트북 제공

Related Articles

Microsoft、脅威アクターが攻撃チェーン全体でAIを運用化していると報告

LocalLLaMA投稿: Whisperの無音hallucination対策を実運用から共有

Hacker Newsが読んだAmazonのAI-assisted変更への統制強化

Comments (0)

Leave a Comment

Related Articles

Microsoft、脅威アクターが攻撃チェーン全体でAIを運用化していると報告
Microsoft Threat Intelligenceは2026年3月6日、攻撃者が調査、phishing、malware開発、侵害後分析までAIを活用していると報告した。AIはまだ大規模な完全自律侵入を実現していないが、攻撃の速度・規模・持続性をすでに押し上げているという整理だ。

LocalLLaMA投稿: Whisperの無音hallucination対策を実運用から共有

Hacker Newsが読んだAmazonのAI-assisted変更への統制強化