#qwen3

RSSフィード

LLM Hacker News May 16, 2026 1 min read

Orthrus-Qwen3、同一出力を保ちながら推論速度7.8倍を実現

OrthrusフレームワークがQwen3モデルで1回のforwardパスあたり最大7.8倍のトークン生成を達成した。単一KVキャッシュで自動回帰と拡散ビューを統合するデュアルビューアーキテクチャにより、出力分布は原本と数学的に同一だ。

#inference #qwen3 #speculative-decoding

LLM Reddit May 4, 2026 1 min read

llama.cppのMTPサポートがベータ版に、vLLMとの性能差が縮まる見込み

llama.cppのマルチトークン予測（MTP）サポートがベータ版に突入した。現在はQwen3.5 MTPに対応し、テンソル並列サポートと合わせてvLLMとのトークン生成速度の差が縮まると見込まれる。

#llama-cpp #mtp #local-llm

LLM Apr 16, 2026 1 min read

Lightning OPD、reasoning model post-trainingを30 GPU hoursに縮めた

Lightning OPDは、reasoning model post-trainingでlive teacher inference serverを動かし続けるコストに切り込む。4月14日のarXiv paperは、Qwen3-8B-BaseからAIME 2024 69.9%へ30 GPU hoursで到達し、standard OPD比4.0x speedupだったと報告している。

#llm #distillation #post-training

LLM Reddit Apr 13, 2026 1 min read

r/LocalLLaMA、Qwen3 audio supportが入ったllama.cpp mergeを追う

54ポイントのReddit postは、merged PR #19441によってqwen3-omni-moeとqwen3-asr supportがllama.cppに入ったことを伝え、コメント欄ではlocal multimodalとASRの実運用期待が目立った。

#qwen3 #llama-cpp #audio

LLM Reddit Mar 15, 2026 1 min read

r/LocalLLaMA: StepFun、Step 3.5 Flashを学習したSFT datasetを公開

StepFunは単なるmodel card以上のものとして、Step-3.5-Flash-SFT datasetをHugging Faceに公開した。repoにはraw JSON data、tokenizer snapshots、StepTronOSS向けcompiled shardsが含まれ、Redditではreproducibility、reasoning trace、dual-licenseの意味が議論された。

#stepfun #sft #datasets

LLM Reddit Feb 23, 2026 1 min read

Qwen3の隠れた機能: 数学的操作で声を変えるVoice Embeddings

Qwen3のTTSモデルは声を1024次元ベクトルにエンコードし、性別変換・音高調整・感情空間生成などの数学的な音声操作を可能にします。軽量なスタンドアロンエンコーダーとしてHuggingFaceで公開されています。

#qwen3 #tts #voice-embeddings