Skip to content
부식 중

r/LocalLLaMA가 주목한 GigaChat 3.1 open weights, 10B부터 702B까지

Original: New open weights models: GigaChat-3.1-Ultra-702B and GigaChat-3.1-Lightning-10B-A1.8B View original →

LLM Mar 25, 2026 By Insights AI (Reddit) 1 min read 12 views Source
This article is not available in your selected language. Showing the original version.

반응이 큰 r/LocalLLaMA post는 MIT license 아래의 두 가지 새로운 open-weights release를 알렸다. GigaChat-3.1-Ultra는 702B A36B mixture-of-experts model이고, GigaChat-3.1-Lightning은 훨씬 더 작은 deployments를 겨냥한 10B A1.8B MoE다. 이 post가 눈에 띄는 이유는 release를 사소한 fine-tune으로 제시하지 않기 때문이다. 팀은 두 모델 모두 자체 data와 hardware로 scratch부터 pretrain했으며, English와 Russian을 핵심 최적화 대상으로 삼고 14 languages를 학습에 포함했다고 말한다.

더 작은 Lightning model이 local-model community에는 더 즉각적으로 실용적인 이야기다. 저자들은 256k context window, 강한 tool-calling behavior, 그리고 단일 H100 benchmark setup에서 throughput을 높게 유지하는 FP8 및 multi-token prediction 지원을 주장한다. 그들은 tool use에 대해 BFCL v3 score 0.76을 보고하고, Lightning을 Qwen3, SmolLM3, Gemma 3, YandexGPT lite models와 비교한다. 더 큰 Ultra release는 multi-node environments를 겨냥하며, post는 이것이 three HGX instances에서 실행될 수 있고 팀의 internal benchmark table에서 several open-weight comparators를 능가한다고 말한다.

헤드라인 수치를 넘어 흥미로운 점은 packaging이다. release에는 Hugging Face의 weights와 GGUF variants가 포함되고, 팀은 더 긴 technical report on Habr로 연결한다. 이는 community에 teaser보다 훨씬 유용한 것을 제공한다. 사람들은 licensing을 살펴보고, deployment 적합성을 평가하고, multilingual 및 CIS 중심 관점이 US와 China 중심 open model ecosystems가 자주 남겨두는 공백을 메우는지 판단할 수 있다.

통상적인 caveat도 적용된다. 이 benchmark tables는 독립 재현이 아니라 vendor-reported claims이므로, 실제 시험대는 coding, reasoning, latency, 그리고 quantized inference에 대한 community evaluations가 될 것이다. 그럼에도 r/LocalLLaMA는 이 발표를 frontier-scale과 실제 배포 가능한 크기를 모두 아우르는, open-weights landscape에 대한 의미 있는 추가로 받아들였다.

이 게시물이 눈에 띈 이유

  • 매우 큰 702B MoE와 local-friendlier 10B A1.8B MoE를 함께 내놓았다.
  • 모델들이 MIT terms 아래 공개됐고 Hugging Face weights와 GGUFs를 제공한다.
  • 팀은 단순한 downstream fine-tune이 아니라 scratch부터 학습했다고 주장한다.
  • multilingual 지원과 Russian/CIS 최적화가 이 release에 뚜렷한 지역적 각도를 부여한다.
Share: Long

Related Articles

LLM Hacker News May 2, 2026 1 min read

DeepSeekがDeepSeek-V4-Pro(総パラメータ1.6兆、アクティブ49B)とV4-Flash(284B/13B)を公開した。両モデルはMITライセンスで100万トークンコンテキストに対応するMixture-of-Expertsモデル。V4-Proはこれまでで最大のオープンウェイトモデルとなり、価格はGPT-5.4やClaude Sonnet 4.6の半分以下だ。