Ollama, NVIDIA Nemotron-Cascade-2 공개… local·agent workflow용 30B MoE reasoning 모델 투입
Original: Nemotron-Cascade-2 is now available to run with Ollama. ollama run nemotron-cascade-2 To run it locally with OpenClaw: ollama launch openclaw --model nemotron-cascade-2 This model from NVIDIA delivers strong reasoning and agentic capabilities on par with models with up to 20x more parameters. View original →
X에서 Ollama가 발표한 내용
2026년 3월 20일, Ollama는 Nemotron-Cascade-2를 자사 로컬 모델 런타임에서 실행할 수 있다고 밝혔다. 공지문은 사용 경로를 매우 직접적으로 제시한다. 개발자는 ollama run nemotron-cascade-2로 모델을 불러올 수 있고, ollama launch openclaw --model nemotron-cascade-2 같은 방식으로 agent workflow에도 바로 연결할 수 있다.
중요한 점은 이것이 단순한 hosted endpoint 추가가 아니라는 것이다. 대형 reasoning 지향 NVIDIA 모델을 local 또는 semi-local 개발 환경으로 더 쉽게 끌어오는 발표다. Ollama는 해당 모델이 훨씬 큰 parameter 수를 가진 시스템과 견줄 만한 reasoning·agentic 성능을 낸다고 설명한다.
공식 모델 페이지에서 확인되는 내용
Ollama 공식 페이지는 Nemotron-Cascade-2를 3B activated parameter를 사용하는 open 30B MoE 모델로 소개한다. 또한 이 모델이 thinking 모드와 instruct 모드를 모두 지원한다고 설명한다. 이는 더 깊은 추론과 빠른 작업 실행을 하나의 모델 계열 안에서 다루고 싶어 하는 팀에게 의미가 있다.
- 모델 페이지는 이 모델을 tools 지원 모델로 표시하고, OpenClaw, Codex, Claude용 실행 경로를 함께 제공한다.
- 기본적으로 노출되는 다운로드 variant는 30b다.
- 또한 Nemotron-Cascade-2-30B-A3B가 2025 International Mathematical Olympiad와 International Olympiad in Informatics에서 gold medal 성능을 기록했다고 적고 있다.
즉 Ollama는 단순히 모델 이름을 올린 것이 아니라, 로컬 개발 루프와 agent shell, 사용자 정의 툴 체인에서 실제로 시험해 볼 수 있는 형태로 NVIDIA 모델을 패키징하고 있다.
왜 중요한가
로컬 모델 생태계는 더 이상 소형 편의 모델에만 머물지 않고 있다. 이번 공개는 serious reasoning 시스템이 local stack으로 내려오고 있음을 보여준다. 30B MoE 구조에서 실제 활성 파라미터가 3B라는 점은, 표면적 크기 대비 실행 비용을 낮추면서도 성능을 노리는 설계로 읽힌다. 이는 호출 횟수가 많은 agent workflow나 반복 실험 환경에서 특히 중요하다.
또 하나의 흐름도 보인다. 모델 자체의 가치만큼 주변 workflow 지원이 중요해지고 있다는 점이다. Ollama는 모델을 목록에 추가하는 데서 끝나지 않고, 개발자가 이미 쓰는 코딩 및 agent 도구와 어떻게 연결되는지를 함께 보여준다. 그 결과 “흥미로운 모델 출시”에서 “우리 환경에서 바로 검증 가능한 모델”까지의 거리가 훨씬 짧아진다.
출처: Ollama X 게시물 · Ollama 모델 페이지
Related Articles
2026년 3월 15일 GreenBoost 관련 Hacker News 게시물은 124 points와 25 comments를 기록했다. 이 open-source Linux 프로젝트는 kernel module과 CUDA shim을 결합해 model memory를 VRAM, DDR4, NVMe로 계층화함으로써 inference app을 바꾸지 않고도 더 큰 local LLM을 실행하려 한다.
r/LocalLLaMA의 고득점 글은 llama-swap을 이용해 로컬 LLM 다중 모델 운영을 단순화한 경험을 공유한다. 단일 실행 파일, YAML 설정, systemd 자동 시작, 모델별 파라미터 필터링이 핵심 포인트로 제시됐다.
Alibaba의 Qwen 팀이 Qwen 3.5 Small 모델을 출시했다. r/LocalLLaMA에서 1,000점 이상을 기록한 이 발표는 고성능 소형 모델에 대한 커뮤니티의 높은 관심을 반영한다.
Comments (0)
No comments yet. Be the first to comment!