Sarvam, India에서 학습한 30B·105B reasoning model을 open-source로 공개

Original: New OpenSource Models Available—Sarvam 30B and 105B trained from scratch by an Indian based company View original →

Read in other languages: English日本語
LLM Mar 9, 2026 By Insights AI (Reddit) 2 min read 3 views Source

Reddit 스레드: LocalLLaMA 토론
공식 블로그: Open-Sourcing Sarvam 30B and 105B
모델 다운로드: Sarvam 30B / Sarvam 105B

LocalLLaMA가 Sarvam AI의 3월 6일 발표를 크게 다룬 이유는, 이것이 단순한 checkpoint 공개가 아니기 때문이다. Sarvam은 reasoning 중심 foundation model 두 종인 Sarvam 30B와 Sarvam 105B를 open-source로 내놓으며, 기존 서구 model family를 fine-tune한 것이 아니라 scratch부터 학습했다고 강조한다. 회사 설명에 따르면 데이터 정제, tokenizer 설계, model architecture, supervised fine-tuning, reinforcement learning까지 full stack을 내부에서 구축했고, 학습 compute는 IndiaAI Mission을 통해 India 안에서 조달됐다.

아키텍처 설명도 꽤 공격적이다. 두 모델 모두 sparse expert routing을 쓰는 Mixture-of-Experts Transformer backbone을 채택하고, long-context 입력과 효율적인 inference를 염두에 두고 설계됐다. Sarvam은 30B가 Grouped Query Attention을 사용하고, 105B는 더 큰 규모와 함께 Multi-head Latent Attention을 도입해 long-context serving 효율을 높였다고 설명한다. 또 22개의 scheduled Indian language와 12개 script를 겨냥한 tokenizer를 강조하는데, 이는 단순한 locale 지원이 아니라 multilingual deployment에서 latency와 serving cost를 직접 좌우하는 요소다.

공개된 수치가 말하는 것

학습 규모도 크다. Sarvam에 따르면 30B는 16 trillion token, 105B는 12 trillion token으로 code, 일반 web data, mathematics, multilingual data를 학습했다. benchmark에서 105B는 상위 reasoning·agentic 모델로 포지셔닝된다. Math500 98.6, MMLU 90.6, MMLU Pro 81.7, LiveCodeBench v6 71.7, 장기 agentic task용 Tau2 평균 68.3이 대표적이다. 또 AIME 25에서는 Pass@1 88.3을 기록했고, tool use를 붙이면 96.7까지 올라간다고 밝혔다.

30B의 포지션은 조금 다르다. inference 시 active parameter가 2.4B에 불과한 더 deployable한 reasoning model이라는 설명이다. 회사는 Math500 97.0, HumanEval 92.1, MBPP 92.7, LiveCodeBench v6 70.0, 그리고 AIME 25 Pass@1 88.3을 제시한다. Indian-language 평가에서는 110개의 English prompt를 22개 scheduled language의 native script와 romanized form으로 번역한 benchmark를 사용했고, 105B는 pairwise 비교에서 평균 90%, 30B는 89%를 이겼다고 주장한다.

이 수치가 중요한 이유는 Sarvam이 무엇을 최적화하려는지 보여 주기 때문이다. 단순 leaderboard 경쟁이 아니라, India를 위한 sovereign AI infrastructure를 지향하고 있다. reasoning과 coding 성능, agentic workload 지원, Indian language에 맞춘 tokenizer와 평가 체계, 그리고 실서비스 배포 가능성을 동시에 잡으려는 시도다. Sarvam은 30B가 conversational system을, 105B가 복잡한 reasoning과 tool use를 위한 assistant인 Indus를 이미 production에서 구동한다고 설명한다.

외부 벤치마크와 독립 검증이 더 필요하겠지만, 이번 공개가 의미 있는 이유는 분명하다. Apache 2.0 license, scratch training, India 특화 tokenizer와 evaluation, deployable reasoning model이라는 명확한 방향성은 이번 주 LocalLLaMA에서 나온 open-model 소식 가운데서도 무게감 있는 축에 속한다.

Share:

Related Articles

LLM sources.twitter 1d ago 1 min read

NVIDIA AI Developer는 2026년 3월 11일 Nemotron 3 Super를 공개하며, 12B active parameters를 사용하는 오픈 120B-parameter hybrid MoE 모델과 native 1M-token context를 강조했다. NVIDIA는 이 모델이 이전 Nemotron Super 대비 최대 5배 높은 throughput으로 agentic workload를 겨냥한다고 설명했다.

LLM sources.twitter 1d ago 1 min read

Microsoft는 Fireworks AI가 Microsoft Foundry에 들어오면서 Azure에서 high-performance, low-latency open model inference를 제공한다고 밝혔다. day-zero access, custom model 반입, enterprise control을 한곳에서 제공하는 것이 핵심 메시지다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.