Skip to content

#mixture-of-experts

RSS Feed
LLM Hacker News May 2, 2026 1 min read

DeepSeekがDeepSeek-V4-Pro(総パラメータ1.6兆、アクティブ49B)とV4-Flash(284B/13B)を公開した。両モデルはMITライセンスで100万トークンコンテキストに対応するMixture-of-Expertsモデル。V4-Proはこれまでで最大のオープンウェイトモデルとなり、価格はGPT-5.4やClaude Sonnet 4.6の半分以下だ。

LLM Reddit Mar 12, 2026 1 min read

NVIDIAのNemotron 3 Superは、120B total / 12B activeのhybrid Mamba-Transformer MoE、native 1M-token context、そしてopen weights・datasets・recipesを前面に出している。LocalLLaMA discussionは、そのopennessとefficiency claimが実際のhome-lab deploymentに結びつくかを中心に見ていた。