反応は「ブラウザだけでローカルLLM」という手軽さと、WebGPU、モデルの正体、制限条件への補足に分かれた。
#local-llm
RSS FeedLocalLLaMAで話題になったポストで、Qwen3.6 35B A3BがCodexとpiエージェントを組み合わせたスキルベースプロンプティングにより、VPS管理やPDF変換などの複雑なワークフローを自動化した体験が共有されました。
LocalLLaMAコミュニティユーザーがRTX 4070 Super 12GBでQwen3.6 35B A3BモデルをIk_llama.cppフォークを使用して110トークン/秒で実行することに成功しました。CPU オフロード最適化に優れたこのフォークは標準llama.cppより大幅に高いパフォーマンスを示しました。
text-generation-webuiが「TextGen」に改名し、Windows・Linux・macOS対応のインストール不要なネイティブデスクトップアプリとして生まれ変わった。LM Studioと同様のElectron構成だが、完全オープンソースという点が大きな違い。
r/LocalLLaMAのユーザーが、製造終了したIntel Optane PMem(768GB)を中古市場で安価に入手し、Kimi K2.5(1兆パラメータ)をローカルで毎秒4トークン以上で動作させることに成功した。
NVIDIA AIが、30B・23B・12Bの推論モデルを1つのチェックポイントに統合した「Star Elastic」を公開。ゼロショットスライシングにより、別途ダウンロードなしにモデル規模を動的に切り替えられる。
LocalLLAMAユーザーが、llama.cppのMTP機能を使い、12GB VRAMのGPUでQwen3.6 35B A3Bモデルを毎秒80トークン超・128Kコンテキストで動かす設定を公開した。
llama.cppの新MTP対応PRを使ってQwen 3.6 27Bの推論速度を2.5倍に高める方法がLocalLLaMAで共有された。48GBで26万2,000トークンのコンテキストが利用可能になる。
AMD Ryzen AI Max Pro 495(Gorgon Halo)が192GBの統合メモリを搭載することがリークされた。現行Strix Haloの128GBから50%増で、より大型のAIモデルをローカルで動作させることが可能になる。
llama.cppのマルチトークン予測(MTP)サポートがベータ版に突入した。現在はQwen3.5 MTPに対応し、テンソル並列サポートと合わせてvLLMとのトークン生成速度の差が縮まると見込まれる。
ローカルLLM研究者が、単一のRTX 3090でQwen3.6-27Bとエージェンティック検索を組み合わせ、SimpleQA 95.7%を完全ローカル環境で達成した。
LocalLLaMAでは速度比較というより、長くて厳しい生成タスクを最後まで壊さず仕上げられるかが論点になった。同じMacBook Pro M5 Max上で、Qwen 3.6 27Bは速く長く書き、Gemma 4 31Bは少ないトークンでゲームロジックをまとめきった。