Sarvam, India에서 학습한 30B·105B reasoning model을 open-source로 공개

Reddit 스레드: LocalLLaMA 토론
공식 블로그: Open-Sourcing Sarvam 30B and 105B
모델 다운로드: Sarvam 30B / Sarvam 105B

LocalLLaMA가 Sarvam AI의 3월 6일 발표를 크게 다룬 이유는, 이것이 단순한 checkpoint 공개가 아니기 때문이다. Sarvam은 reasoning 중심 foundation model 두 종인 Sarvam 30B와 Sarvam 105B를 open-source로 내놓으며, 기존 서구 model family를 fine-tune한 것이 아니라 scratch부터 학습했다고 강조한다. 회사 설명에 따르면 데이터 정제, tokenizer 설계, model architecture, supervised fine-tuning, reinforcement learning까지 full stack을 내부에서 구축했고, 학습 compute는 IndiaAI Mission을 통해 India 안에서 조달됐다.

아키텍처 설명도 꽤 공격적이다. 두 모델 모두 sparse expert routing을 쓰는 Mixture-of-Experts Transformer backbone을 채택하고, long-context 입력과 효율적인 inference를 염두에 두고 설계됐다. Sarvam은 30B가 Grouped Query Attention을 사용하고, 105B는 더 큰 규모와 함께 Multi-head Latent Attention을 도입해 long-context serving 효율을 높였다고 설명한다. 또 22개의 scheduled Indian language와 12개 script를 겨냥한 tokenizer를 강조하는데, 이는 단순한 locale 지원이 아니라 multilingual deployment에서 latency와 serving cost를 직접 좌우하는 요소다.

공개된 수치가 말하는 것

학습 규모도 크다. Sarvam에 따르면 30B는 16 trillion token, 105B는 12 trillion token으로 code, 일반 web data, mathematics, multilingual data를 학습했다. benchmark에서 105B는 상위 reasoning·agentic 모델로 포지셔닝된다. Math500 98.6, MMLU 90.6, MMLU Pro 81.7, LiveCodeBench v6 71.7, 장기 agentic task용 Tau2 평균 68.3이 대표적이다. 또 AIME 25에서는 Pass@1 88.3을 기록했고, tool use를 붙이면 96.7까지 올라간다고 밝혔다.

30B의 포지션은 조금 다르다. inference 시 active parameter가 2.4B에 불과한 더 deployable한 reasoning model이라는 설명이다. 회사는 Math500 97.0, HumanEval 92.1, MBPP 92.7, LiveCodeBench v6 70.0, 그리고 AIME 25 Pass@1 88.3을 제시한다. Indian-language 평가에서는 110개의 English prompt를 22개 scheduled language의 native script와 romanized form으로 번역한 benchmark를 사용했고, 105B는 pairwise 비교에서 평균 90%, 30B는 89%를 이겼다고 주장한다.

이 수치가 중요한 이유는 Sarvam이 무엇을 최적화하려는지 보여 주기 때문이다. 단순 leaderboard 경쟁이 아니라, India를 위한 sovereign AI infrastructure를 지향하고 있다. reasoning과 coding 성능, agentic workload 지원, Indian language에 맞춘 tokenizer와 평가 체계, 그리고 실서비스 배포 가능성을 동시에 잡으려는 시도다. Sarvam은 30B가 conversational system을, 105B가 복잡한 reasoning과 tool use를 위한 assistant인 Indus를 이미 production에서 구동한다고 설명한다.

외부 벤치마크와 독립 검증이 더 필요하겠지만, 이번 공개가 의미 있는 이유는 분명하다. Apache 2.0 license, scratch training, India 특화 tokenizer와 evaluation, deployable reasoning model이라는 명확한 방향성은 이번 주 LocalLLaMA에서 나온 open-model 소식 가운데서도 무게감 있는 축에 속한다.

Sarvam, India에서 학습한 30B·105B reasoning model을 open-source로 공개

공개된 수치가 말하는 것

Related Articles

Kimi K2.6, 에이전트 스웜 300개·4,000단계로 대폭 확대…채팅 아닌 산출물로 승부

Google DeepMind, Apache 2.0 기반 Gemma 4 공개

Ternary Bonsai, 1.58-bit open 8B model을 1.75GB로 줄였다

Comments (0)

Leave a Comment

Related Articles

Kimi K2.6, 에이전트 스웜 300개·4,000단계로 대폭 확대…채팅 아닌 산출물로 승부
중요한 점은 Moonshot이 “agent swarm”을 데모 문구가 아니라 실행 수치로 밀고 있다는 데 있다. Kimi 포스트는 한 번의 run에서 300개 sub-agent와 4,000단계를 조정하고 채팅이 아닌 100개 이상의 파일을 돌려준다고 적었다.

Google DeepMind, Apache 2.0 기반 Gemma 4 공개
LLM sources.x Apr 9, 2026 1 min read

Ternary Bonsai, 1.58-bit open 8B model을 1.75GB로 줄였다
LLM sources.twitter Apr 16, 2026 1 min read