LongCat-2.0、1.6T MoEより大きい国産チップ訓練の意味
Original: LongCat-2.0, a large-scale MoE model with 1.6T total and 48B Active View original →
LongCat-2.0は、1.6T total parameters、48B active parametersを掲げる大規模MoE modelだ。数字だけならmodel scaleが見出しになるが、HNで長く議論されたのはその背後のinfrastructureだった。
コメントでは、architectureが既存の中国系MoEとどれほど似ているのか、実行要件は何か、といった技術的な問いが出た。特に、tens of thousands of AI ASIC superpodsで訓練とdeploymentを行ったという説明に注目し、Nvidia GPU ecosystemの外で大規模訓練を安定化したことこそ大きなニュースだと見る声があった。
この読み方は重要だ。LLM競争はparameter数やbenchmarkだけでは説明できない。輸出規制、chip供給、compiler、kernel、cluster運用まで揃って初めてmodel releaseになる。Meituan系から出てきた点も、AI infrastructure競争が従来のAI labの外へ広がっていることを示す。
もちろん独立検証は必要だ。一般的なhardwareでのthroughput、local inference、safety評価は別問題として残る。それでもcommunityの関心ははっきりしている。大規模modelでは、compute stackそのものが記事の中心になり始めた。
出典: LongCat-2.0, HN discussion.
Related Articles
Google ResearchはGemini-2.5とQwen3-32Bで、reasoningが単純な事実質問の想起を助ける2つの仕組みを分離した。追加tokenは計算時間を与え、関連事実は正答をprimeするが、中間hallucinationは精度を下げる。
OpenRouterは6月のopen-weight modelをDeepSeek V4 Flash、GLM 5.2、MiniMax M3、NVIDIA Nemotron 3 Ultraの4軸で整理した。79.0%のSWE-bench Verified、Intelligence Index 51、1M context、低いserving costが判断材料になる。
Snyk VulnBench JS 1.0は、同じJavaScript脆弱性レビューを300回繰り返し、LLMの検出結果がどれだけ再現するかを測った。最良のLLM設定はSnyk-reference F1 75.4%で、unmatched findingの49.7%は5回中1回だけ出現した。