LocalLLaMAで話題になったのは新しいcoding modelそのものだけでなく、Cohereが正式公開前のweightsを先にコミュニティへ渡した点だった。
#moe
RSS FeedLiquid AIがLFM2.5 8B-A1Bを発表。M5 Maxで毎秒253トークン、モバイルで30トークン、H100で18,500トークンの推論速度を達成し、同サイズの密なモデルを凌駕する性能を示した。
LocalLLaMAがMiMo-V2.5-Proに大きく反応したのは、MITライセンスと巨大スペックが同時に来たからだ。1.02T total、42B active、1M contextは魅力的だったが、コメント欄はすぐに「誰がどんなGPUで回すのか」という現実論にも向かった。
LocalLLaMAはDeepSeek V4の公開をただ喜んだわけではない。スレッドはすぐに1M context、activated parameters、実機での成立条件の話へ流れ、MIT licenseへの好感もそこに重なった。
HNがDeepSeek V4に飛びついた理由はきれいな発表ページではなかった。表のリンクがAPI docsで、実際の重みとbaseモデルがすでにHugging Faceに並んでいたことが一気に火を付けた。
LocalLLaMAが反応したのは新しいスコア画像ではなく、MoEの配管を実際に速くする公開インフラだった。コメントもDeepSeekが通信とカーネルの仕事を外に出した点に熱を持っていた。
重要なのは、Alibabaが multimodal coding model を API 限定ではなく open weights として出した点だ。投稿は Qwen3.6-35B-A3B が35B total parameters、3B active parameters、Apache 2.0 license を持つと示し、ブログでは SWE-bench Verified 73.4 と Terminal-Bench 2.0 51.5 が示された。
HNが反応したのはopen weightsの実用面だった。35B MoEでactive parameterが3Bという形が、本当にcoding agentの仕事を支えられるのか。QwenはQwen3.5-35B-A3Bからの改善を示し、コメントはGGUF変換、Macのmemory制約、open modelだけのbenchmark表をどう読むかへ進んだ。
LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。
Cursorは2026年4月6日のXで、NVIDIA Blackwell GPUs向けにMoE modelのtoken generation pathを作り直したと述べた。あわせて公開したengineering postでは、「warp decode」によりthroughputが1.84倍になり、outputsがFP32 referenceに1.4倍近づくと主張している。
2026年3月26日、NVIDIAの`gpt-oss-puzzle-88B`モデルカードを扱ったr/LocalLLaMA投稿は、クロール時点で284 pointsと105 commentsを集めた。NVIDIAはこの88B MoEモデルがPuzzle post-training NASを用いてparameter数とKV-cache負荷を削減しつつ、reasoning accuracyを親モデル並みかそれ以上に保つと説明している。
2026年3月16日のr/LocalLLaMAで、Mistral Small 4の投稿は最新利用可能クロールで606 pointsと232 commentsを集めた。Mistralのモデルカードは、4 active experts、256k context、マルチモーダル入力、リクエスト単位のreasoning切替を備えた119B級MoEを説明している。