Ollama, NVIDIA Nemotron-Cascade-2 공개… local·agent workflow용 30B MoE reasoning 모델 투입

X에서 Ollama가 발표한 내용

2026년 3월 20일, Ollama는 Nemotron-Cascade-2를 자사 로컬 모델 런타임에서 실행할 수 있다고 밝혔다. 공지문은 사용 경로를 매우 직접적으로 제시한다. 개발자는 ollama run nemotron-cascade-2로 모델을 불러올 수 있고, ollama launch openclaw --model nemotron-cascade-2 같은 방식으로 agent workflow에도 바로 연결할 수 있다.

중요한 점은 이것이 단순한 hosted endpoint 추가가 아니라는 것이다. 대형 reasoning 지향 NVIDIA 모델을 local 또는 semi-local 개발 환경으로 더 쉽게 끌어오는 발표다. Ollama는 해당 모델이 훨씬 큰 parameter 수를 가진 시스템과 견줄 만한 reasoning·agentic 성능을 낸다고 설명한다.

공식 모델 페이지에서 확인되는 내용

Ollama 공식 페이지는 Nemotron-Cascade-2를 3B activated parameter를 사용하는 open 30B MoE 모델로 소개한다. 또한 이 모델이 thinking 모드와 instruct 모드를 모두 지원한다고 설명한다. 이는 더 깊은 추론과 빠른 작업 실행을 하나의 모델 계열 안에서 다루고 싶어 하는 팀에게 의미가 있다.

모델 페이지는 이 모델을 tools 지원 모델로 표시하고, OpenClaw, Codex, Claude용 실행 경로를 함께 제공한다.
기본적으로 노출되는 다운로드 variant는 30b다.
또한 Nemotron-Cascade-2-30B-A3B가 2025 International Mathematical Olympiad와 International Olympiad in Informatics에서 gold medal 성능을 기록했다고 적고 있다.

즉 Ollama는 단순히 모델 이름을 올린 것이 아니라, 로컬 개발 루프와 agent shell, 사용자 정의 툴 체인에서 실제로 시험해 볼 수 있는 형태로 NVIDIA 모델을 패키징하고 있다.

왜 중요한가

로컬 모델 생태계는 더 이상 소형 편의 모델에만 머물지 않고 있다. 이번 공개는 serious reasoning 시스템이 local stack으로 내려오고 있음을 보여준다. 30B MoE 구조에서 실제 활성 파라미터가 3B라는 점은, 표면적 크기 대비 실행 비용을 낮추면서도 성능을 노리는 설계로 읽힌다. 이는 호출 횟수가 많은 agent workflow나 반복 실험 환경에서 특히 중요하다.

또 하나의 흐름도 보인다. 모델 자체의 가치만큼 주변 workflow 지원이 중요해지고 있다는 점이다. Ollama는 모델을 목록에 추가하는 데서 끝나지 않고, 개발자가 이미 쓰는 코딩 및 agent 도구와 어떻게 연결되는지를 함께 보여준다. 그 결과 “흥미로운 모델 출시”에서 “우리 환경에서 바로 검증 가능한 모델”까지의 거리가 훨씬 짧아진다.

출처: Ollama X 게시물 · Ollama 모델 페이지

Ollama, NVIDIA Nemotron-Cascade-2 공개… local·agent workflow용 30B MoE reasoning 모델 투입

X에서 Ollama가 발표한 내용

공식 모델 페이지에서 확인되는 내용

왜 중요한가

Related Articles

HN은 Ollama 논쟁을 로컬 LLM 신뢰 문제로 읽었다

LM Studio 오픈소스 대안 TextGen, 네이티브 데스크톱 앱으로 재탄생

DynoSim, LLM serving 실험을 1,500배 빠른 simulation 문제로 전환

Comments (0)

Leave a Comment

Related Articles

HN은 Ollama 논쟁을 로컬 LLM 신뢰 문제로 읽었다
LLM Hacker News Apr 16, 2026 1 min read

LM Studio 오픈소스 대안 TextGen, 네이티브 데스크톱 앱으로 재탄생
LLM Reddit May 14, 2026 1 min read

DynoSim, LLM serving 실험을 1,500배 빠른 simulation 문제로 전환