UnslothがQwen3.5向け実践ファインチューニングガイド公開、VRAM要件を具体化
Original: Qwen3.5 Fine-Tuning Guide – Unsloth Documentation View original →
コミュニティでの位置づけ
2026-03-04 12:04:31 UTC 時点で、Unslothの Qwen3.5 Fine-tuning Guide を共有したHacker News投稿は114ポイント、34コメントを獲得した。反応が大きい理由は、抽象的な宣伝ではなく、ローカル運用のLLMチームがそのまま適用できる実装手順がまとまっている点にある。
対象はQwen3.5の主要モデル群(0.8B, 2B, 4B, 9B, 27B, 35B-A3B, 122B-A10B)で、textとvisionの両方のファインチューニングを扱う。UnslothはFA2系セットアップ比で 1.5x 学習速度、50% VRAM削減 を主張し、bf16 LoRA時のVRAM目安として 0.8B:3GB、2B:5GB、4B:10GB、9B:22GB、27B:56GB を提示している。
技術的に重要な論点
- MoE運用: 35B-A3Bや122B-A10Bではbf16 LoRA/FFTを中心にし、4-bit QLoRAは推奨しない方針。
- 依存関係: Qwen3.5では transformers v5 が前提。旧バージョンは非推奨。
- Reasoning維持: reasoning形式の学習例を最低75%混ぜると挙動保持に有利と説明。
- 展開先: 学習後はGGUF、vLLM、Ollama、llama.cppなどへエクスポート可能。
実務への示唆
このガイドの価値は、初期設定の迷いを減らすことにある。まずbf16 LoRAで基準線を作り、品質とレイテンシを確認してからfull fine-tuningへ進む流れが取りやすい。OOM時の対処(batch/sequence調整、gradient checkpointing維持)も運用チェックリストとして実用的だ。
もちろん、速度やVRAM効率の改善幅は環境依存であり、導入前の再現検証は必須である。それでも、学習開始から配布形式選定までを一本化したドキュメントとして、現場の意思決定コストを下げる内容になっている。
Sources: Unsloth Qwen3.5 Fine-tuning Guide, Hacker News discussion.
Related Articles
Hacker Newsで注目された「Agentic Engineering Patterns」は、コーディングエージェントを実務に組み込むための原則とQA手順を体系化したガイド。単発のプロンプト技ではなく、再現性のある開発プロセスに焦点を当てる。
r/LocalLLaMAで共有されたFlashAttention-4は、B200 BF16で最大1605 TFLOPs/sを報告し、Blackwell世代のメモリ/SFU制約を前提にした新しいattention最適化を示した。
高評価のr/MachineLearning投稿はDavid Noel Ngの長いblog記事を再浮上させ、Qwen2-72Bの中間7-layer blockをweight変更なしで複製するだけでopen leaderboard上位に届いたという主張を改めて注目させた。
Comments (0)
No comments yet. Be the first to comment!