Ollama、NVIDIA Nemotron-Cascade-2を公開　local・agent workflow向け30B MoE reasoning modelを提供

XでOllamaが発表したこと

2026年3月20日、OllamaはNemotron-Cascade-2を自社のlocal model runtimeで利用可能にしたと発表した。投稿は使い方も明確で、ollama run nemotron-cascade-2でモデルを取得し、ollama launch openclaw --model nemotron-cascade-2のようにagent workflowへ接続できると案内している。

注目すべきなのは、これが単なるhosted endpoint追加ではないことだ。大規模なreasoning志向のNVIDIA modelを、より手元の開発環境へ落とし込みやすくする発表になっている。Ollama自身は、このモデルがはるかに大きいparameter countのsystemと比べても強いreasoning・agentic性能を持つと打ち出している。

公式モデルページで確認できる内容

Ollamaのモデルページは、Nemotron-Cascade-2を3B activated parameterを使うopen 30B MoE modelと説明している。さらに、このモデルがthinkingモードとinstructモードの両方に対応すると記している。深い推論と比較的軽い実行タスクを一つのモデル系統で扱いたいチームには重要なポイントだ。

モデルページではtools対応モデルとして示され、OpenClaw、Codex、Claude向けの起動導線も並んでいる。
主要な公開variantは30bである。
Nemotron-Cascade-2-30B-A3Bが2025年のInternational Mathematical OlympiadとInternational Olympiad in Informaticsでgold medal級の成績を出したとも説明している。

つまりOllamaは、単にモデル名を掲載したのではなく、local developer loopやagent shell、独自ツール群で試しやすい形へNVIDIA modelを落とし込んでいる。

なぜ重要か

local model ecosystemは、小型の便利モデル中心の段階から、本格的なreasoning systemを扱う段階へ進みつつある。30B MoEで実際に有効化されるparameterが3Bという構成は、密な同規模モデルより実行コストを抑えつつ能力を狙う設計として読める。これは呼び出し回数が多いagent workflowや継続的な実験に向いている。

同時に、モデルの価値は周辺workflowとの接続で決まる時代になっている。Ollamaはモデルそのものだけでなく、開発者がすでに使っているcoding・agentツールへどうつなげるかまで示している。その結果、「面白いmodel release」から「自分の環境で試せる選択肢」までの距離が大きく縮まる。

出典: Ollama X投稿 · Ollamaモデルページ

Ollama、NVIDIA Nemotron-Cascade-2を公開　local・agent workflow向け30B MoE reasoning modelを提供

XでOllamaが発表したこと

公式モデルページで確認できる内容

なぜ重要か

Related Articles

HNはOllama批判をlocal LLMツールの信頼テストとして読んだ

NVIDIA Nemotron 3 Embed 8B、RTEB首位でRAG検索競争を刺激

NVIDIA、LLM寸法の128・256整列でBlackwell推論の遅延とGPUボトルネックを削る設計指針