コンテンツにスキップ
Dev Classmethod Jp Articles Dgx Spark Nemotron3 Ultra Nvidia API

NVIDIA Nemotron 3 Ultra を試してみた

  • URL: https://dev.classmethod.jp/articles/dgx-spark-nemotron3-ultra-nvidia-api/
  • 日付: 2026-06-05
  • Tier: Tier 3
  • 要旨: 2026年6月4日公開のNVIDIA Nemotron 3 Ultra(550B-A55B MoE)をNVIDIAの無料APIで評価。日本語数学推論ではNano/Superと横並びだが、60万トークンのneedle-in-haystack(14/15マス成功)でロングコンテキスト優位性を確認。

詳細

  • アーキテクチャ: LatentMoE(Mamba-2 + Transformer + MoE ハイブリッド)。Mamba層が長コンテキストを効率処理、Transformer層が正確な事実想起を担当
  • Ultra のターゲット: long-running agent(複雑コーディング・長時間リサーチ・社内ワークフロー自動化)
  • 必要ハードウェア: NVFP4量子化で重み約335GB。最小構成はB200×4枚またはH100 80GB×8枚(VRAM 600GB超)。DGX Spark(128GB)では不可
  • NVFP4量子化: BF16から最大2〜3ポイントの劣化で推論5倍速・エージェント運用コスト最大30%削減
  • 日本語推論 (難問8問): Nano(30B-A3B)・Super(120B-A12B)・Ultra がすべて7/8(差なし)。普段使いの推論は小型モデルで十分な状態
  • ロングコンテキスト (needle-in-haystack): 先頭・中央・末尾×5サイズ(6千〜60万トークン)で14/15成功。60万トークンでも35秒で抽出。公式 Ruler 1M スコア 95%
  • API接続: build.nvidia.com の無料API(OpenAI互換)。enable_thinking=True で reasoning_content が別フィールドに分離
  • ソブリンAI: 重み・データ・レシピが公開されており、ハードさえあれば自社データセンターに閉じて運用可(機密不出力の用途向け)
  • Nano/Super/Ultraの使い分け: 日常のローカル推論→Nano/Super。1M コンテキストを要する long-running agent やソブリン運用→Ultra