Sarvam、Indiaで学習した30B・105B reasoning modelをopen-source化
Original: New OpenSource Models Available—Sarvam 30B and 105B trained from scratch by an Indian based company View original →
Redditスレッド: LocalLLaMA の議論
公式blog: Open-Sourcing Sarvam 30B and 105B
Model downloads: Sarvam 30B / Sarvam 105B
LocalLLaMAがSarvam AIの3月 6日の発表を強く取り上げたのは、これが単なるcheckpoint公開ではないからだ。Sarvamはreasoning志向のfoundation modelであるSarvam 30BとSarvam 105Bをopen-source化し、既存の西側model familyを流用したfine-tuneではなく、scratchから学習したと前面に出している。会社によれば、data curation、tokenizer設計、model architecture、supervised fine-tuning、reinforcement learningまでfull stackを社内で構築し、学習computeもIndiaAI MissionのもとでIndia国内で確保したという。
architecture面の説明もかなり本格的だ。両モデルはsparse expert routingを採用したMixture-of-Experts Transformer backboneを共有し、long-context入力と実運用での効率を重視している。Sarvamによると、30BはGrouped Query Attentionを使い、105Bは規模拡大に加えてMulti-head Latent Attentionを導入し、long-context servingの効率をさらに高めた。また、22のscheduled Indian languageと12 scriptを対象に最適化したtokenizerも強く打ち出しており、これは単なる多言語対応ではなく、Indian-language deploymentのlatencyとcostに直結する要素だ。
公開されたbenchmarkの読み方
training scaleも大きい。Sarvamは30Bが16 trillion token、105Bが12 trillion tokenを学習したと説明しており、対象にはcode、general web、mathematics、多言語dataが含まれる。benchmarkでは105Bを上位のreasoning・agentic systemとして位置づけている。Math500 98.6、MMLU 90.6、MMLU Pro 81.7、LiveCodeBench v6 71.7、長期agentic task向けTau2平均 68.3が代表的な数字だ。さらにAIME 25ではPass@1 88.3、tool use込みで96.7まで改善するとしている。
30Bの位置づけは少し違う。inference時のactive parameterが2.4Bしかない、よりdeployしやすいreasoning modelという説明だ。会社はMath500 97.0、HumanEval 92.1、MBPP 92.7、LiveCodeBench v6 70.0、そしてAIME 25 Pass@1 88.3を示している。Indian-language評価では、110本のEnglish promptを22のscheduled languageへnative scriptとromanized formの両方で翻訳したbenchmarkを用い、105Bがpairwise比較で平均90%、30Bが89%勝利したと主張する。
これらの数字が重要なのは、Sarvamが何を最適化しようとしているかが見えるからだ。単なるleaderboard競争ではなく、India向けのsovereign AI infrastructureを目指している。reasoningとcoding、agentic workload、Indian languageに合わせたtokenizerと評価、そして実サービス配備までを同時に狙う構図だ。Sarvamは30Bがconversational systemを、105Bが複雑なreasoningとtool use向けassistantであるIndusをすでにproductionで支えているとしている。
外部検証はこれから必要だが、このrelease自体の重要性は小さくない。Apache 2.0 license、scratch training、India特化のtokenizerとevaluation、deployable reasoning modelという明確な方向性は、今週LocalLLaMAで浮上したopen-modelニュースの中でもかなり意味のある部類に入る。
Related Articles
NVIDIA AI Developerは2026年3月11日、12B active parametersを用いるオープン120B-parameter hybrid MoEモデル Nemotron 3 Super を発表した。NVIDIAはnative 1M-token contextと、前世代Nemotron Super比で最大5倍のthroughputを強調している。
Microsoftは、Fireworks AIがMicrosoft Foundryに加わり、Azureでhigh-performanceかつlow-latencyなopen model inferenceを提供すると発表した。day-zero access、custom model持ち込み、enterprise controlを一体で扱える点が中核だ。
MistralがApache 2.0ベースのマルチモーダル公開モデル群Mistral 3を発表した。14B, 8B, 3Bのdense modelに加え、41B active, 675B totalのMistral Large 3も提示している。
Comments (0)
No comments yet. Be the first to comment!