OrthrusフレームワークがQwen3モデルで1回のforwardパスあたり最大7.8倍のトークン生成を達成した。単一KVキャッシュで自動回帰と拡散ビューを統合するデュアルビューアーキテクチャにより、出力分布は原本と数学的に同一だ。
#qwen3
RSS FeedLLM Hacker News May 16, 2026 1 min read
LLM Reddit May 4, 2026 1 min read
llama.cppのマルチトークン予測(MTP)サポートがベータ版に突入した。現在はQwen3.5 MTPに対応し、テンソル並列サポートと合わせてvLLMとのトークン生成速度の差が縮まると見込まれる。
LLM Apr 16, 2026 1 min read
Lightning OPDは、reasoning model post-trainingでlive teacher inference serverを動かし続けるコストに切り込む。4月14日のarXiv paperは、Qwen3-8B-BaseからAIME 2024 69.9%へ30 GPU hoursで到達し、standard OPD比4.0x speedupだったと報告している。
LLM Reddit Apr 13, 2026 1 min read
54ポイントのReddit postは、merged PR #19441によってqwen3-omni-moeとqwen3-asr supportがllama.cppに入ったことを伝え、コメント欄ではlocal multimodalとASRの実運用期待が目立った。
LLM Reddit Mar 15, 2026 1 min read
StepFunは単なるmodel card以上のものとして、Step-3.5-Flash-SFT datasetをHugging Faceに公開した。repoにはraw JSON data、tokenizer snapshots、StepTronOSS向けcompiled shardsが含まれ、Redditではreproducibility、reasoning trace、dual-licenseの意味が議論された。
LLM Reddit Feb 23, 2026 1 min read
Qwen3のTTSモデルは声を1024次元ベクトルにエンコードし、性別変換・音高調整・感情空間生成などの数学的な音声操作を可能にします。軽量なスタンドアロンエンコーダーとしてHuggingFaceで公開されています。