コンテンツにスキップ
Zenn Dev Karaage0703 Articles Fcca40c614dffd

DGX Sparkで色々なローカルLLMを動かした比較結果

  • URL: https://zenn.dev/karaage0703/articles/fcca40c614dffd
  • 日付: 2026-06-26
  • Tier: Tier 3
  • 要旨: NVIDIA DGX Spark(GB10、ARM64、128GB統合メモリ)でOllama・vLLM・SGLangの各推論エンジンを使って複数のローカルLLMを動作確認し、速度・ツールコール精度・メモリ使用量・手軽さの4軸で比較した実測レポートだ。ツールコールが必要な場合はGemma4-26B-A4B-NVFP4+vLLMネイティブまたはQwen3.6-35B-A3B+Ollamaが高性能で推奨構成とされている。vLLM向けにはDGX Spark専用最適化ビルドvllm-custom(namake-taro/vllm-custom)のprecompiled wheelを使う方法と、pip wheel+パッチ適用の方法が詳述されている。Nemotron-Cascade-2のようにOllama公式ライブラリ未登録モデルのGGUF+カスタムModelfileによる起動手順も含まれている。

詳細

推奨構成

  • ツールコール必要: Gemma4-26B-A4B-NVFP4+vLLMネイティブ(約48 tok/s)またはQwen3.6-35B-A3B+Ollama(約58 tok/s)
  • 最速(ツールコール不要): nemotron-3-nano+Ollama(約69 tok/s)、Nemotron-Cascade-2+Ollama(約72 tok/s)
  • 大規模(128GBメモリ活用): gpt-oss:120b+Ollama(65GB、約41 tok/s、ツールコール対応)

ツールコール評価方法

  • テックニュースキュレーションツールと画像生成スキルの両方成功で○、片方で△、両方失敗で×

Ollama

  • DGX Sparkにプリインストール済み、ollama run モデル名で即起動
  • Nemotron-Cascade-2はOllama未登録のためGGUFダウンロード+カスタムModelfile(RENDERER/PARSER nemotron-3-nanoを指定)で対応
  • nothinkタグは表示上非表示になるだけで速度は変わらない

vllm-custom sparkcustom(推奨vLLM導入方法)

  • precompiled wheelでインストール: namake-taro/vllm-customのリリースページからaarch64 wheelを取得
  • NF4量子化(MXFP4の改良版)とStream Loading(メモリ不足なしで巨大モデルを読み込み)が特徴
  • –gpu-memory-utilizationは効かず、VLLM_KV_CACHE_MEM_MARGIN環境変数(MiB単位)で制御
  • Ollamaと共存する場合はVLLM_KV_CACHE_MEM_MARGIN=30720(30GB)を推奨

vLLM(方法A: pip wheel+パッチ)

  • vLLM cu130 wheelをインストール後、namake-taroのvllm_all.patchとflashinfer_cutlass_sfb_layout_fix.patchを適用
  • パッチ適用後はFlashinfer/vLLM/torchinductorのキャッシュクリアが必須

vllm-customキー設定(Qwen3.5-27B起動例)

  • --enable-auto-tool-choice --tool-call-parser qwen3_coder --default-chat-template-kwargs '{"enable_thinking": false}'

動作確認できなかった構成

  • eelbaz/dgx-spark-vllm-setupは2026年3月時点でMOEカーネルのundefined symbolエラー等で動作不可
  • nemotron-3-super+vLLM Dockerも動作せず