r/LocalLLaMAが注目したGigaChat 3.1 open weights、10Bから702Bまで
Original: New open weights models: GigaChat-3.1-Ultra-702B and GigaChat-3.1-Lightning-10B-A1.8B View original →
高い反応を集めた r/LocalLLaMA の投稿 では、MIT license の下で新たな open-weights release が発表された。GigaChat-3.1-Ultra は 702B A36B mixture-of-experts model で、GigaChat-3.1-Lightning は、はるかに小規模なデプロイを狙う 10B A1.8B MoE だ。この投稿が注目されるのは、今回の release を小さな fine-tune として見せていない点にある。チームによれば、両モデルは自前のデータとハードウェアで from scratch から事前学習されており、英語とロシア語を主要な最適化対象に据えつつ、学習には 14言語 が含まれている。
より小さい Lightning model は、local-model community にとってよりすぐ実用に近い話だ。著者らは、256k context window、強い tool-calling 挙動、そして single H100 benchmark setup でも高い throughput を維持する FP8 と multi-token prediction support を主張している。tool use に関しては BFCL v3 で 0.76 の score を報告し、Lightning を Qwen3、SmolLM3、Gemma 3、YandexGPT lite model と比較している。より大きい Ultra release は multi-node environment を対象としており、投稿では three HGX instances で動作し、チームの internal benchmark table で複数の open-weight comparator を上回るとしている。
見出しの数字以上に興味深いのは packaging だ。この release には Hugging Face 上の weights と GGUF variants が含まれ、チームはより長い Habrの技術レポート にもリンクしている。これにより、community は teaser よりもはるかに使える材料を得られる。人々は licensing を確認し、deployment fit を評価し、multilingual と CIS 重視のアプローチが、US・China中心の open model ecosystem がしばしば残す空白を埋めるかどうかを判断できる。
いつもの留保は必要だ。これらの benchmark table はベンダー自己申告の数値であり、独立した再現ではないため、本当のテストは coding、reasoning、latency、quantized inference に関する community evaluation になる。それでも r/LocalLLaMA は、この発表を open-weights landscape への重要な追加と受け止めた。frontier-scale と、実際にデプロイ可能なサイズの両方をまたいでいるからだ。
この投稿が目立った理由
- 非常に大規模な 702B MoE と、よりローカル向きの 10B A1.8B MoE の両方を提供している。
- モデルは MIT terms で公開され、Hugging Face の weights と GGUFs が用意されている。
- チームは、単純な downstream fine-tune ではなく from scratch の training だと主張している。
- multilingual support と Russian/CIS 向け最適化が、この release に明確な地域的特徴を与えている。
Related Articles
LocalLLaMAでは、クラスタ向けの702B MoEモデルと軽量導入向けの10B MoEモデルを組み合わせたMITライセンスのGigaChat 3.1公開が注目を集めた。
Hacker Newsで注目を集めたFlash-MoEは、SSDストリーミングとMetalカーネルを使ってQwen3.5-397B-A17Bを48GB M3 MaxノートPCで対話可能な速度まで動かす手法を示した。
r/LocalLLaMA の新しいスレッドでは、NVIDIA の Nemotron-Cascade-2-30B-A3B が medium Qwen 3.5 系より強い coding 結果を出せるとして注目を集めた。community benchmark と NVIDIA の model card を並べると、local inference のコストと reasoning 性能の新しい折り合いが見えてくる。
Comments (0)
No comments yet. Be the first to comment!