HN注目: SarvamがIndiaAI主導のフルスタック戦略で30Bと105Bを公開
Original: Sarvam 105B, the first competitive Indian open source LLM View original →
Hacker Newsでは、2026年3月6日にSarvam AIがSarvam 30BとSarvam 105Bをオープンソース化した発表が大きく取り上げられた。会社説明によれば、両モデルはIndiaAI missionが提供したcompute上で、インド国内で一から学習されたreasoning志向のモデルだ。今回の発表は単なるmodel releaseではなく、data curation、training、inference optimization、tokenizer、product deploymentまで含むfull stack能力の提示として構成されている。
技術的な構成もかなり具体的だ。両モデルは128 expertsを使うsparse MoE Transformer backboneを採用する。Sarvam 30BはKV-cacheの負荷を下げるためにGrouped Query Attentionを使い、Sarvam 105Bは長いcontextでより高いメモリ効率を出すためにMulti-head Latent Attentionを使う。Sarvamは30Bを16T tokens、105Bを12T tokensで学習したと説明し、code、web data、mathematics、multilingual content、synthetic dataを組み合わせた学習配分を強調する。さらに12 scriptsにまたがる22 scheduled Indian languages向けのtokenizer最適化も前面に出している。
Hacker Newsで関心を集めたのはbenchmarkの数値だ。Sarvam 105Bはreasoning、coding、agentic workloads向けのcompetitive open modelとして紹介され、LiveCodeBench v6で71.7、MMLUで90.6、AIME 25 Pass@1で88.3、Tau2 averageで68.3という値を掲げる。Sarvam 30Bは2.4B active parametersの効率重視モデルとして位置づけられ、HumanEval、MBPP、BrowseComp、Tau2で強い結果を示す。会社はすでに30BがSamvaadを、105BがIndusを支えているとも述べている。
今回の公開が特に重要なのは、運用面の話まで含めている点だ。発表文ではfused kernels、scheduling、disaggregated serving、さらにH100、L40S、Apple Silicon上でのthroughput改善が詳しく説明されている。つまりSarvamはweightsだけを公開しているのではなく、実運用のworkloadとregional language coverageに合わせてinference stackを最適化することがopen modelの価値を高めると主張している。
ビルダーにとっての実務的な示唆は明確だ。これはreasoning quality、agentic utility、serving efficiencyを同時に競争力へ変えようとするsovereign-modelの試みである。Hacker Newsの関心は、地域発のmodel labがheadline parameter競争ではなく、pipeline全体を持つことで差別化できるかという問いに向いている。
Related Articles
r/LocalLLaMAで注目を集めた投稿は、llama-swapを使ってローカルLLMの多モデル運用を整理した具体例を共有。単一バイナリ、YAML設定、systemd運用、パラメータフィルタが実務上の利点として語られた。
Hacker Newsで注目された「Agentic Engineering Patterns」は、コーディングエージェントを実務に組み込むための原則とQA手順を体系化したガイド。単発のプロンプト技ではなく、再現性のある開発プロセスに焦点を当てる。
r/LocalLLaMAで共有されたFlashAttention-4は、B200 BF16で最大1605 TFLOPs/sを報告し、Blackwell世代のメモリ/SFU制約を前提にした新しいattention最適化を示した。
Comments (0)
No comments yet. Be the first to comment!