Dev Classmethod Jp Articles Dgx Spark Nemotron3 Ultra Nvidia API

NVIDIA Nemotron 3 Ultra を試してみた

URL: https://dev.classmethod.jp/articles/dgx-spark-nemotron3-ultra-nvidia-api/
日付: 2026-06-05
Tier: Tier 3
要旨: 2026年6月4日公開のNVIDIA Nemotron 3 Ultra（550B-A55B MoE）をNVIDIAの無料APIで評価。日本語数学推論ではNano/Superと横並びだが、60万トークンのneedle-in-haystack（14/15マス成功）でロングコンテキスト優位性を確認。

詳細

アーキテクチャ: LatentMoE（Mamba-2 + Transformer + MoE ハイブリッド）。Mamba層が長コンテキストを効率処理、Transformer層が正確な事実想起を担当
Ultra のターゲット: long-running agent（複雑コーディング・長時間リサーチ・社内ワークフロー自動化）
必要ハードウェア: NVFP4量子化で重み約335GB。最小構成はB200×4枚またはH100 80GB×8枚（VRAM 600GB超）。DGX Spark（128GB）では不可
NVFP4量子化: BF16から最大2〜3ポイントの劣化で推論5倍速・エージェント運用コスト最大30%削減
日本語推論 (難問8問): Nano(30B-A3B)・Super(120B-A12B)・Ultra がすべて7/8（差なし）。普段使いの推論は小型モデルで十分な状態
ロングコンテキスト (needle-in-haystack): 先頭・中央・末尾×5サイズ（6千〜60万トークン）で14/15成功。60万トークンでも35秒で抽出。公式 Ruler 1M スコア 95%
API接続: build.nvidia.com の無料API（OpenAI互換）。enable_thinking=True で reasoning_content が別フィールドに分離
ソブリンAI: 重み・データ・レシピが公開されており、ハードさえあれば自社データセンターに閉じて運用可（機密不出力の用途向け）
Nano/Super/Ultraの使い分け: 日常のローカル推論→Nano/Super。1M コンテキストを要する long-running agent やソブリン運用→Ultra