Unsloth: MoE 모델을 12배 빠르게, 30% 적은 메모리로 학습

Original: Train MoE models 12x faster with 30% less memory! (<15GB VRAM) View original →

AI Feb 11, 2026 By Insights AI (Reddit) 1 min read 2 views Source
This article is not available in your selected language. Showing the original version.

획기적인 MoE 학습 최적화

Unsloth 팀이 Mixture of Experts (MoE) 아키텍처를 위한 커스텀 Triton 커널과 수학 최적화를 공개했습니다. 이를 통해 정확도 손실 없이 ~12배 빠른 학습, >35% VRAM 감소, ~6배 긴 컨텍스트를 달성했습니다.

지원 모델

Unsloth는 이제 다음 MoE 아키텍처를 지원합니다:

  • gpt-oss (20B, 120B)
  • Qwen3 (30B, 235B, VL, Coder)
  • DeepSeek R1/V3
  • GLM (4.5-Air, 4.7, Flash)

주목할 만한 성능:

  • gpt-oss-20b를 단 12.8GB VRAM으로 fine-tuning 가능
  • Qwen3-30B-A3B (16-bit LoRA)는 63GB 사용
  • 모델이 크고 컨텍스트가 길수록 메모리 절감 효과가 기하급수적으로 증가

기술적 혁신

Hugging Face와 협력하여 PyTorch의 새로운 torch._grouped_mm 함수로 모든 MoE 학습을 표준화했습니다. Transformers v5는 v4 대비 ~6배 빠른 MoE를 제공하며, Unsloth는 커스텀 Triton grouped-GEMM + LoRA 커널로 추가 ~2배 속도 향상을 제공합니다.

전체적으로 Transformers v4 대비 12-30배 속도 향상을 달성했습니다.

폭넓은 GPU 지원

이 커널들은 다음 환경에서 모두 작동합니다:

  • 데이터센터 GPU (B200, H100)
  • 소비자용 GPU (RTX 3090 등)
  • 구형 GPU
  • FFT, LoRA, QLoRA 모두 지원

무료 Colab 노트북 제공

Unsloth는 다양한 무료 fine-tuning 노트북을 제공합니다:

  • gpt-oss (20B) - 무료 Colab
  • gpt-oss (500K context)
  • GLM-4.7-Flash (A100)
  • Qwen3-30B-A3B (A100)
  • TinyQwen3 MoE (T4, 무료)

업데이트는 간단합니다:

pip install --upgrade --force-reinstall --no-cache-dir --no-deps unsloth unsloth_zoo

이번 릴리스는 로컬 LLM 커뮤니티에 큰 의미가 있습니다. 이제 소비자용 하드웨어에서도 대형 MoE 모델을 효율적으로 fine-tuning할 수 있게 되었기 때문입니다.

Share:

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.