r/LocalLLaMA, 공개형 30B MoE reasoning model NVIDIA Nemotron-Cascade-2-30B-A3B 주목

2026년 3월 20일 r/LocalLLaMA에서는 NVIDIA의 Nemotron-Cascade-2-30B-A3B를 다루는 글이 93 points와 37 comments를 기록했다. 커뮤니티가 관심을 보인 이유는 분명하다. open 30B mixture-of-experts model이면서 실제로 활성화되는 매개변수는 3B 수준이고, benchmark claim도 local deployment를 고민하는 사용자에게 충분히 의미 있는 수준이기 때문이다.

Hugging Face model card에 따르면 Nemotron-Cascade-2-30B-A3B는 Nemotron-3-Nano-30B-A3B-Base를 post-train한 모델이다. NVIDIA는 이 모델을 thinking mode와 instruct mode를 모두 지원하는 dual-mode model로 설명한다. chat template은 ChatML 스타일을 따르며, reasoning content는 <think> 태그 안에 넣고, non-reasoning mode는 비어 있는 <think></think>를 앞에 붙여 활성화하는 방식을 제시한다.

모델이 눈에 띄는 이유

headline 숫자도 공격적이다. NVIDIA는 2025 IMO와 IOI에서 gold medal 수준 성능을 주장하고, LiveCodeBench, ArenaHard v2, IFBench, 여러 math benchmark에서도 강한 수치를 공개했다. 동시에 model card에는 sampling parameter, tool-response formatting, multi-turn prompting 방식까지 함께 적혀 있어 단순 benchmark 자랑이 아니라 바로 실험 가능한 release에 가깝다.

30B total parameters 중 3B만 activated된다는 점은 open deployment 관점에서 효율성이 큰 장점이다.
공개 수치에는 IMO 2025 35 points, IOI 2025 439.3, LiveCodeBench v6 87.2, ArenaHard v2 평균 83.5가 포함된다.
동일한 카드에서 long-context와 일부 agentic evaluation에서는 더 복합적인 결과도 보여 줘, 장점과 tradeoff를 함께 읽을 수 있다.

바로 이 균형이 LocalLLaMA thread의 의미다. 이 커뮤니티는 polished launch narrative보다 새로운 open model이 실제 speed-to-capability ratio를 얼마나 잘 맞추는지에 더 관심이 많다. Nemotron-Cascade-2-30B-A3B는 open distribution, 명시적인 reasoning control, 깊이 있는 benchmark를 함께 제시하면서 open-model stack에서 검토할 만한 또 하나의 진지한 선택지로 떠오르고 있다.

출처: r/LocalLLaMA thread, Hugging Face model card.

r/LocalLLaMA, 공개형 30B MoE reasoning model NVIDIA Nemotron-Cascade-2-30B-A3B 주목

모델이 눈에 띄는 이유

Related Articles

LocalLLaMA가 추적한 NVIDIA Nemotron license 변경, derivative model에는 무엇이 달라졌나

Covenant-72B, permissionless 분산 GPU 학습을 내세운 72B base model

NVIDIA, Nemotron 3 Super 공개… agentic AI용 open model 처리량 5x 제시

Comments (0)

Leave a Comment

Related Articles

LocalLLaMA가 추적한 NVIDIA Nemotron license 변경, derivative model에는 무엇이 달라졌나

Covenant-72B, permissionless 분산 GPU 학습을 내세운 72B base model

NVIDIA, Nemotron 3 Super 공개… agentic AI용 open model 처리량 5x 제시