Dev Classmethod Jp Articles Dgx Spark Nemotron3 Ultra Nvidia API
NVIDIA Nemotron 3 Ultra を試してみた
- URL: https://dev.classmethod.jp/articles/dgx-spark-nemotron3-ultra-nvidia-api/
- 日付: 2026-06-05
- Tier: Tier 3
- 要旨: 2026年6月4日公開のNVIDIA Nemotron 3 Ultra(550B-A55B MoE)をNVIDIAの無料APIで評価。日本語数学推論ではNano/Superと横並びだが、60万トークンのneedle-in-haystack(14/15マス成功)でロングコンテキスト優位性を確認。
詳細
- アーキテクチャ: LatentMoE(Mamba-2 + Transformer + MoE ハイブリッド)。Mamba層が長コンテキストを効率処理、Transformer層が正確な事実想起を担当
- Ultra のターゲット: long-running agent(複雑コーディング・長時間リサーチ・社内ワークフロー自動化)
- 必要ハードウェア: NVFP4量子化で重み約335GB。最小構成はB200×4枚またはH100 80GB×8枚(VRAM 600GB超)。DGX Spark(128GB)では不可
- NVFP4量子化: BF16から最大2〜3ポイントの劣化で推論5倍速・エージェント運用コスト最大30%削減
- 日本語推論 (難問8問): Nano(30B-A3B)・Super(120B-A12B)・Ultra がすべて7/8(差なし)。普段使いの推論は小型モデルで十分な状態
- ロングコンテキスト (needle-in-haystack): 先頭・中央・末尾×5サイズ(6千〜60万トークン)で14/15成功。60万トークンでも35秒で抽出。公式 Ruler 1M スコア 95%
- API接続:
build.nvidia.comの無料API(OpenAI互換)。enable_thinking=Trueで reasoning_content が別フィールドに分離 - ソブリンAI: 重み・データ・レシピが公開されており、ハードさえあれば自社データセンターに閉じて運用可(機密不出力の用途向け)
- Nano/Super/Ultraの使い分け: 日常のローカル推論→Nano/Super。1M コンテキストを要する long-running agent やソブリン運用→Ultra