LongCat-2.0、1.6T MoEより大きい国産チップ訓練の意味

LongCat-2.0は、1.6T total parameters、48B active parametersを掲げる大規模MoE modelだ。数字だけならmodel scaleが見出しになるが、HNで長く議論されたのはその背後のinfrastructureだった。

コメントでは、architectureが既存の中国系MoEとどれほど似ているのか、実行要件は何か、といった技術的な問いが出た。特に、tens of thousands of AI ASIC superpodsで訓練とdeploymentを行ったという説明に注目し、Nvidia GPU ecosystemの外で大規模訓練を安定化したことこそ大きなニュースだと見る声があった。

この読み方は重要だ。LLM競争はparameter数やbenchmarkだけでは説明できない。輸出規制、chip供給、compiler、kernel、cluster運用まで揃って初めてmodel releaseになる。Meituan系から出てきた点も、AI infrastructure競争が従来のAI labの外へ広がっていることを示す。

もちろん独立検証は必要だ。一般的なhardwareでのthroughput、local inference、safety評価は別問題として残る。それでもcommunityの関心ははっきりしている。大規模modelでは、compute stackそのものが記事の中心になり始めた。

出典: LongCat-2.0, HN discussion.

LLM News 6d ago 1 min read

LLM reasoning、問題分解だけでなく記憶を呼び出す仕組みか

Google ResearchはGemini-2.5とQwen3-32Bで、reasoningが単純な事実質問の想起を助ける2つの仕組みを分離した。追加tokenは計算時間を与え、関連事実は正答をprimeするが、中間hallucinationは精度を下げる。

#google-research #reasoning #hallucination

LLM 4d ago 1 min read

Open-weight modelの差は3〜6カ月、OpenRouterが4モデルで整理

OpenRouterは6月のopen-weight modelをDeepSeek V4 Flash、GLM 5.2、MiniMax M3、NVIDIA Nemotron 3 Ultraの4軸で整理した。79.0%のSWE-bench Verified、Intelligence Index 51、1M context、低いserving costが判断材料になる。

#openrouter #open-weight #llm

LLM 3d ago 1 min read

Snykの300回反復テスト、LLMセキュリティレビューの揺れを可視化

Snyk VulnBench JS 1.0は、同じJavaScript脆弱性レビューを300回繰り返し、LLMの検出結果がどれだけ再現するかを測った。最良のLLM設定はSnyk-reference F1 75.4%で、unmatched findingの49.7%は5回中1回だけ出現した。

#snyk #security #benchmark

Related Articles

LLM reasoning、問題分解だけでなく記憶を呼び出す仕組みか

Open-weight modelの差は3〜6カ月、OpenRouterが4モデルで整理

Snykの300回反復テスト、LLMセキュリティレビューの揺れを可視化