Orthrus-Qwen3、同一出力を保ちながら推論速度7.8倍を実現
Original: Orthrus-Qwen3: up to 7.8× tokens/forward on Qwen3, identical output distribution View original →
Orthrusとは
Orthrusは標準的な自己回帰LLMデコーディングの逐次的なボトルネックを解消する推論フレームワークだ。Qwen3に適用することで、1回のforwardパスあたり最大7.8倍のトークン生成速度を達成し、元のモデルの出力分布と数学的に同一の結果を保証する。
デュアルビューアーキテクチャ
別途のドラフトモデルを使う投機的デコーディングとは異なり、Orthrusは単一モデル内で自動回帰(AR)ビューと拡散ビューを共有KVキャッシュで統合する。拡散ビューが複数の候補トークンを並列生成し、ARビューがそれを検証する。必要な微調整はパラメータの16%のみで、ベースモデルは凍結されたままだ。
実用的なメリット
メモリオーバーヘッドなし、別途ドラフトモデルなしで4〜7.8倍の速度向上を実現するため、デプロイが大幅に簡略化される。長いコンテキストで特に効果的で、オープンソースのため他のモデルへの応用も可能だ。
コミュニティの反応
Hacker Newsで176票、r/LocalLLAMAで260票超を同時に獲得し、ローカルAIコミュニティから熱い注目を集めた。測定可能な高速化と同一出力保証を兼ね備えたOrthrusは、推論最適化分野の重要な貢献として評価されている。
Related Articles
DeepSeekが注目させたMulti-Token Prediction(MTP)機能がllama.cppのmasterブランチに公式マージされた。最も広く使われるローカルLLM推論エンジンに最新の高速化技術が加わった。
LocalLLaMAはこれを単なるベンチ画像として流さなかった。単一のRTX 3090でQwen3.6-27Bの処理量を平均1.98倍まで押し上げ、再学習なしで長文脈も支えるという主張がスレッドの熱源になっている。
重要なのは、長文脈やedge-side agentを実際に回せるかどうかが結局kernel最適化で決まる場面が増えていることだ。QwenはFlashQLAがNVIDIA HopperでFLA Triton比の前方2〜3倍、逆伝播2倍を出したとしている。
Comments (0)
No comments yet. Be the first to comment!