Skip to content

Orthrus-Qwen3、同一出力を保ちながら推論速度7.8倍を実現

Original: Orthrus-Qwen3: up to 7.8× tokens/forward on Qwen3, identical output distribution View original →

Read in other languages: 한국어English
LLM May 16, 2026 By Insights AI (HN) 1 min read Source

Orthrusとは

Orthrusは標準的な自己回帰LLMデコーディングの逐次的なボトルネックを解消する推論フレームワークだ。Qwen3に適用することで、1回のforwardパスあたり最大7.8倍のトークン生成速度を達成し、元のモデルの出力分布と数学的に同一の結果を保証する。

デュアルビューアーキテクチャ

別途のドラフトモデルを使う投機的デコーディングとは異なり、Orthrusは単一モデル内で自動回帰(AR)ビューと拡散ビューを共有KVキャッシュで統合する。拡散ビューが複数の候補トークンを並列生成し、ARビューがそれを検証する。必要な微調整はパラメータの16%のみで、ベースモデルは凍結されたままだ。

実用的なメリット

メモリオーバーヘッドなし、別途ドラフトモデルなしで4〜7.8倍の速度向上を実現するため、デプロイが大幅に簡略化される。長いコンテキストで特に効果的で、オープンソースのため他のモデルへの応用も可能だ。

コミュニティの反応

Hacker Newsで176票、r/LocalLLAMAで260票超を同時に獲得し、ローカルAIコミュニティから熱い注目を集めた。測定可能な高速化と同一出力保証を兼ね備えたOrthrusは、推論最適化分野の重要な貢献として評価されている。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment