#moe

RSS Feed

LLM Reddit 5d ago 1 min read

Cohere未公開coding model、LocalLLaMAが先に試す30B/3B構成

LocalLLaMAで話題になったのは新しいcoding modelそのものだけでなく、Cohereが正式公開前のweightsを先にコミュニティへ渡した点だった。

#cohere #localllama #coding-model

LLM Hacker News May 30, 2026 1 min read

Liquid AI、38Tトークン学習のMoEモデルLFM2.5を公開

Liquid AIがLFM2.5 8B-A1Bを発表。M5 Maxで毎秒253トークン、モバイルで30トークン、H100で18,500トークンの推論速度を達成し、同サイズの密なモデルを凌駕する性能を示した。

#liquid-ai #llm #moe

LLM Reddit Apr 30, 2026 1 min read

MiMo-V2.5-Pro、LocalLLaMAが見た「自宅で回すOpus級」候補

LocalLLaMAがMiMo-V2.5-Proに大きく反応したのは、MITライセンスと巨大スペックが同時に来たからだ。1.02T total、42B active、1M contextは魅力的だったが、コメント欄はすぐに「誰がどんなGPUで回すのか」という現実論にも向かった。

#xiaomi #mimo #moe

LLM Reddit Apr 26, 2026 1 min read

DeepSeek V4公開、LocalLLaMAが真っ先に始めたのはRAM計算

LocalLLaMAはDeepSeek V4の公開をただ喜んだわけではない。スレッドはすぐに1M context、activated parameters、実機での成立条件の話へ流れ、MIT licenseへの好感もそこに重なった。

#deepseek-v4 #open-weights #moe

LLM Hacker News Apr 24, 2026 1 min read

DeepSeek V4でHN騒然、API docsより先に広がった重み公開

HNがDeepSeek V4に飛びついた理由はきれいな発表ページではなかった。表のリンクがAPI docsで、実際の重みとbaseモデルがすでにHugging Faceに並んでいたことが一気に火を付けた。

#deepseek #llm #moe

LLM Reddit Apr 24, 2026 1 min read

モデルより配管が熱い LocalLLaMAがDeepEP V2とTileKernelsに集まった理由

LocalLLaMAが反応したのは新しいスコア画像ではなく、MoEの配管を実際に速くする公開インフラだった。コメントもDeepSeekが通信とカーネルの仕事を外に出した点に熱を持っていた。

#deepseek #deepep #tilekernels

AI X/Twitter Apr 17, 2026 1 min read

Qwen3.6-35B-A3B、35B MoEをApache 2.0で開き3B activeとcoding性能を提示

重要なのは、Alibabaが multimodal coding model を API 限定ではなく open weights として出した点だ。投稿は Qwen3.6-35B-A3B が35B total parameters、3B active parameters、Apache 2.0 license を持つと示し、ブログでは SWE-bench Verified 73.4 と Terminal-Bench 2.0 51.5 が示された。

#qwen #open-weights #moe

LLM Hacker News Apr 16, 2026 1 min read

Qwen3.6-35B-A3B、HNが見た焦点は3B active MoEのcoding力

HNが反応したのはopen weightsの実用面だった。35B MoEでactive parameterが3Bという形が、本当にcoding agentの仕事を支えられるのか。QwenはQwen3.5-35B-A3Bからの改善を示し、コメントはGGUF変換、Macのmemory制約、open modelだけのbenchmark表をどう読むかへ進んだ。

#qwen #open-weights #coding-agents

LLM Reddit Apr 16, 2026 1 min read

よく使うMoE expertをVRAMへ、LocalLLaMAが見た27%高速化

LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。

#local-llm #llama-cpp #moe

LLM X/Twitter Apr 8, 2026 1 min read

Cursor、Blackwell向けwarp decodeを公開… MoE inference 1.84倍高速化を主張

Cursorは2026年4月6日のXで、NVIDIA Blackwell GPUs向けにMoE modelのtoken generation pathを作り直したと述べた。あわせて公開したengineering postでは、「warp decode」によりthroughputが1.84倍になり、outputsがFP32 referenceに1.4倍近づくと主張している。

#cursor #moe #inference

LLM Reddit Mar 28, 2026 1 min read

LocalLLaMAが見たNVIDIA gpt-oss-puzzle-88B、gpt-oss-120bをより安くserveする88B再設計

2026年3月26日、NVIDIAの`gpt-oss-puzzle-88B`モデルカードを扱ったr/LocalLLaMA投稿は、クロール時点で284 pointsと105 commentsを集めた。NVIDIAはこの88B MoEモデルがPuzzle post-training NASを用いてparameter数とKV-cache負荷を削減しつつ、reasoning accuracyを親モデル並みかそれ以上に保つと説明している。

#nvidia #gpt-oss #open-weights

LLM Reddit Mar 19, 2026 1 min read

LocalLLaMAが見たMistral Small 4、Instruct・Reasoning・Devstralを一つのMoEへ統合

2026年3月16日のr/LocalLLaMAで、Mistral Small 4の投稿は最新利用可能クロールで606 pointsと232 commentsを集めた。Mistralのモデルカードは、4 active experts、256k context、マルチモーダル入力、リクエスト単位のreasoning切替を備えた119B級MoEを説明している。

#mistral #multimodal #reasoning