HN 스포트라이트: Sarvam, IndiaAI 기반의 풀스택 전략으로 30B·105B 공개
Original: Sarvam 105B, the first competitive Indian open source LLM View original →
Hacker News에서는 2026년 3월 6일 Sarvam AI가 Sarvam 30B와 Sarvam 105B를 오픈소스로 공개했다는 발표가 빠르게 확산됐다. 회사 설명에 따르면 두 모델은 IndiaAI mission이 제공한 compute 위에서 인도 내에서 처음부터 학습된 reasoning 중심 모델이다. 발표의 초점은 단순한 model release가 아니라 data curation, training, inference optimization, tokenizer, product deployment까지 포함한 full stack 역량을 함께 보여주는 데 있다.
기술 구성도 비교적 구체적이다. 두 모델 모두 128 experts를 사용하는 sparse MoE Transformer backbone을 채택한다. Sarvam 30B는 KV-cache 사용량을 줄이기 위해 Grouped Query Attention을 사용하고, Sarvam 105B는 긴 context에서 메모리 효율을 더 끌어올리기 위해 Multi-head Latent Attention을 사용한다. Sarvam은 30B가 16T tokens, 105B가 12T tokens로 학습됐다고 밝히며, code, web data, mathematics, multilingual content, synthetic data를 함께 섞은 학습 구성을 강조했다. 또한 12개 scripts에 걸친 22개 scheduled Indian languages용 tokenizer 최적화도 전면에 내세웠다.
Hacker News에서 반응을 키운 것은 benchmark 숫자들이다. Sarvam 105B는 reasoning, coding, agentic workloads를 겨냥한 competitive open model로 소개되며 LiveCodeBench v6 71.7, MMLU 90.6, AIME 25 Pass@1 88.3, Tau2 average 68.3 같은 수치를 제시한다. Sarvam 30B는 2.4B active parameters 기반의 효율 중심 모델로 설명되며 HumanEval, MBPP, BrowseComp, Tau2에서 강한 결과를 내세운다. 회사는 이미 30B가 Samvaad를, 105B가 Indus를 구동하고 있다고 밝힌다.
이번 공개가 특히 눈에 띄는 이유는 운영 관점의 이야기까지 포함하고 있기 때문이다. 발표문은 fused kernels, scheduling, disaggregated serving, 그리고 H100, L40S, Apple Silicon에서의 throughput 개선을 길게 설명한다. 즉 Sarvam은 weights만 공개하는 것이 아니라, 실제 workload와 regional language coverage에 맞게 inference stack을 튜닝할 때 open model의 가치가 커진다고 주장하고 있다.
빌더 입장에서 핵심은 분명하다. 이것은 reasoning quality, agentic utility, serving efficiency를 동시에 경쟁력으로 만들려는 sovereign-model 시도다. Hacker News의 관심은 결국 같은 질문을 향한다. 지역 기반 모델 랩이 headline parameter 수치 경쟁이 아니라 전체 pipeline 소유를 통해 차별화할 수 있는가 하는 점이다.
Related Articles
r/LocalLLaMA에서 주목받은 FlashAttention-4는 B200 BF16에서 최대 1605 TFLOPs/s를 제시하며, Blackwell의 메모리·SFU 병목을 겨냥한 파이프라인 개선을 소개했다.
오픈소스 도구 llmfit이 Hacker News에서 주목을 받고 있다. 사용자의 RAM, CPU, GPU 사양을 분석해 최적의 LLM 모델을 자동으로 선택하고 구성해주는 유틸리티로, 로컬 LLM 실행의 진입 장벽을 크게 낮춘다.
DeepSeek가 코딩 성능에 특화된 차세대 AI 모델 V4를 2월 중순 출시한다. 100만 토큰 이상 컨텍스트 윈도우와 소비자급 GPU 지원으로 개발자 접근성을 크게 높인다.
Comments (0)
No comments yet. Be the first to comment!