Zenn Dev Karaage0703 Articles Fcca40c614dffd
DGX Sparkで色々なローカルLLMを動かした比較結果
- URL: https://zenn.dev/karaage0703/articles/fcca40c614dffd
- 日付: 2026-06-26
- Tier: Tier 3
- 要旨: NVIDIA DGX Spark(GB10、ARM64、128GB統合メモリ)でOllama・vLLM・SGLangの各推論エンジンを使って複数のローカルLLMを動作確認し、速度・ツールコール精度・メモリ使用量・手軽さの4軸で比較した実測レポートだ。ツールコールが必要な場合はGemma4-26B-A4B-NVFP4+vLLMネイティブまたはQwen3.6-35B-A3B+Ollamaが高性能で推奨構成とされている。vLLM向けにはDGX Spark専用最適化ビルドvllm-custom(namake-taro/vllm-custom)のprecompiled wheelを使う方法と、pip wheel+パッチ適用の方法が詳述されている。Nemotron-Cascade-2のようにOllama公式ライブラリ未登録モデルのGGUF+カスタムModelfileによる起動手順も含まれている。
詳細
推奨構成
- ツールコール必要: Gemma4-26B-A4B-NVFP4+vLLMネイティブ(約48 tok/s)またはQwen3.6-35B-A3B+Ollama(約58 tok/s)
- 最速(ツールコール不要): nemotron-3-nano+Ollama(約69 tok/s)、Nemotron-Cascade-2+Ollama(約72 tok/s)
- 大規模(128GBメモリ活用): gpt-oss:120b+Ollama(65GB、約41 tok/s、ツールコール対応)
ツールコール評価方法
- テックニュースキュレーションツールと画像生成スキルの両方成功で○、片方で△、両方失敗で×
Ollama
- DGX Sparkにプリインストール済み、
ollama run モデル名で即起動 - Nemotron-Cascade-2はOllama未登録のためGGUFダウンロード+カスタムModelfile(RENDERER/PARSER nemotron-3-nanoを指定)で対応
- nothinkタグは表示上非表示になるだけで速度は変わらない
vllm-custom sparkcustom(推奨vLLM導入方法)
- precompiled wheelでインストール: namake-taro/vllm-customのリリースページからaarch64 wheelを取得
- NF4量子化(MXFP4の改良版)とStream Loading(メモリ不足なしで巨大モデルを読み込み)が特徴
- –gpu-memory-utilizationは効かず、VLLM_KV_CACHE_MEM_MARGIN環境変数(MiB単位)で制御
- Ollamaと共存する場合はVLLM_KV_CACHE_MEM_MARGIN=30720(30GB)を推奨
vLLM(方法A: pip wheel+パッチ)
- vLLM cu130 wheelをインストール後、namake-taroのvllm_all.patchとflashinfer_cutlass_sfb_layout_fix.patchを適用
- パッチ適用後はFlashinfer/vLLM/torchinductorのキャッシュクリアが必須
vllm-customキー設定(Qwen3.5-27B起動例)
--enable-auto-tool-choice --tool-call-parser qwen3_coder --default-chat-template-kwargs '{"enable_thinking": false}'
動作確認できなかった構成
- eelbaz/dgx-spark-vllm-setupは2026年3月時点でMOEカーネルのundefined symbolエラー等で動作不可
- nemotron-3-super+vLLM Dockerも動作せず