Unsloth, Qwen3.5 파인튜닝 가이드 공개: VRAM 요구량과 실전 설정 정리
Original: Qwen3.5 Fine-Tuning Guide – Unsloth Documentation View original →
커뮤니티 맥락
2026-03-04 12:04:31 UTC 기준 Hacker News에서 Qwen3.5 Fine-Tuning Guide 링크가 114점, 댓글 34개를 기록했다. 단순 발표 소식이 아니라, 실제로 로컬 환경에서 Qwen3.5 계열을 학습시키는 엔지니어들에게 바로 쓸 수 있는 실행 가이드라는 점이 반응의 핵심이었다.
문서는 Qwen3.5 모델군(0.8B, 2B, 4B, 9B, 27B, 35B-A3B, 122B-A10B)을 대상으로 text/vision 파인튜닝 경로를 함께 제공한다. 특히 Unsloth는 해당 설정에서 기존 FA2 구성 대비 1.5x 학습 속도, 50% VRAM 절감을 주장하고, bf16 LoRA 기준 모델별 VRAM 예시(0.8B 3GB, 2B 5GB, 4B 10GB, 9B 22GB, 27B 56GB)를 제시했다.
기술적으로 중요한 포인트
- MoE 학습: 35B-A3B, 122B-A10B 같은 MoE 모델은 bf16 LoRA/FFT 중심으로 다루며, 4-bit QLoRA는 권장하지 않는다.
- 버전 의존성: Qwen3.5는 transformers v5 사용을 강조한다. 구버전에서는 동작 문제가 발생할 수 있다.
- 추론 능력 보존: reasoning 스타일 데이터를 최소 75% 이상 유지하는 혼합 구성을 제안한다.
- 배포 경로: 학습 후 GGUF, vLLM, Ollama, llama.cpp 등으로 내보내는 절차를 연결한다.
실무 적용 관점
이 가이드의 실용성은 “학습 시작점”을 빠르게 고정해 준다는 데 있다. 로컬/온프레미스 팀은 먼저 bf16 LoRA로 기준선을 만들고, VRAM과 처리량을 확인한 뒤에만 더 비싼 full fine-tuning으로 확장하는 편이 안전하다. 또한 문서가 제시한 OOM 대응(배치/시퀀스 길이 조정, gradient checkpointing 유지)은 재현성 있는 운영 체크리스트로 바로 사용할 수 있다.
다만 성능 향상 수치 자체는 환경 의존적이므로, 실제 배포 전에는 자체 데이터셋으로 별도 벤치마크가 필요하다. 이 항목은 “최적 설정 단일 정답”이라기보다, 안정적으로 시작하기 위한 기술적 기본선으로 보는 것이 적절하다.
Sources: Unsloth Qwen3.5 Fine-tuning Guide, Hacker News discussion.
Related Articles
Hacker News에서 주목받은 Unsloth의 Qwen3.5 가이드는 27B와 35B-A3B를 포함한 로컬 실행 경로를 메모리 요구량, thinking 제어, llama.cpp 명령 중심으로 정리한다.
고득점 r/MachineLearning 글은 David Noel Ng의 장문 blog를 가리키며, Qwen2-72B의 중간 7개 layer block을 복제하는 방식만으로 leaderboard 상단에 올랐다는 주장과 circuit-like 구조 해석을 다시 불러냈다.
r/LocalLLaMA에서는 `llama.cpp` pull request #19504가 병합된 뒤 Qwen3.5와 Qwen-Next에서 token generation 속도가 좋아졌다는 보고가 올라왔다. PR은 `GATED_DELTA_NET` op의 CPU/CUDA 구현을 추가한다.
Comments (0)
No comments yet. Be the first to comment!