#mixture-of-experts

LLM Hacker News May 2, 2026 1 min read

DeepSeek V4：フロンティアに迫る性能を低価格で — 最大1.6兆パラメータのオープンウェイトモデル

DeepSeekがDeepSeek-V4-Pro（総パラメータ1.6兆、アクティブ49B）とV4-Flash（284B/13B）を公開した。両モデルはMITライセンスで100万トークンコンテキストに対応するMixture-of-Expertsモデル。V4-Proはこれまでで最大のオープンウェイトモデルとなり、価格はGPT-5.4やClaude Sonnet 4.6の半分以下だ。

#deepseek #llm #open-weights

LLM Reddit Mar 25, 2026 1 min read

LocalLLaMAで注目されたMITライセンスのGigaChat 3.1、702Bと10Bを公開

LocalLLaMAでは、クラスタ向けの702B MoEモデルと軽量導入向けの10B MoEモデルを組み合わせたMITライセンスのGigaChat 3.1公開が注目を集めた。

#gigachat #open-weights #multilingual

LLM Hacker News Mar 23, 2026 1 min read

Flash-MoE、48GB MacBook Proで397B Qwenを動かす実験を公開

Hacker Newsで注目を集めたFlash-MoEは、SSDストリーミングとMetalカーネルを使ってQwen3.5-397B-A17Bを48GB M3 MaxノートPCで対話可能な速度まで動かす手法を示した。

#llm #mixture-of-experts #metal

LLM Reddit Mar 12, 2026 1 min read

r/LocalLLaMAが見たNVIDIA Nemotron 3 Super公開

NVIDIAのNemotron 3 Superは、120B total / 12B activeのhybrid Mamba-Transformer MoE、native 1M-token context、そしてopen weights・datasets・recipesを前面に出している。LocalLLaMA discussionは、そのopennessとefficiency claimが実際のhome-lab deploymentに結びつくかを中心に見ていた。

#nvidia #open-weights #mixture-of-experts