Zenn Dev Karaage0703 Articles Fcca40c614dffd

DGX Sparkで色々なローカルLLMを動かした比較結果

URL: https://zenn.dev/karaage0703/articles/fcca40c614dffd
日付: 2026-06-26
Tier: Tier 3
要旨: NVIDIA DGX Spark（GB10、ARM64、128GB統合メモリ）でOllama・vLLM・SGLangの各推論エンジンを使って複数のローカルLLMを動作確認し、速度・ツールコール精度・メモリ使用量・手軽さの4軸で比較した実測レポートだ。ツールコールが必要な場合はGemma4-26B-A4B-NVFP4+vLLMネイティブまたはQwen3.6-35B-A3B+Ollamaが高性能で推奨構成とされている。vLLM向けにはDGX Spark専用最適化ビルドvllm-custom（namake-taro/vllm-custom）のprecompiled wheelを使う方法と、pip wheel+パッチ適用の方法が詳述されている。Nemotron-Cascade-2のようにOllama公式ライブラリ未登録モデルのGGUF+カスタムModelfileによる起動手順も含まれている。

詳細

推奨構成

ツールコール必要: Gemma4-26B-A4B-NVFP4+vLLMネイティブ（約48 tok/s）またはQwen3.6-35B-A3B+Ollama（約58 tok/s）
最速（ツールコール不要）: nemotron-3-nano+Ollama（約69 tok/s）、Nemotron-Cascade-2+Ollama（約72 tok/s）
大規模（128GBメモリ活用）: gpt-oss:120b+Ollama（65GB、約41 tok/s、ツールコール対応）

ツールコール評価方法

Ollama

DGX Sparkにプリインストール済み、ollama run モデル名で即起動
Nemotron-Cascade-2はOllama未登録のためGGUFダウンロード+カスタムModelfile（RENDERER/PARSER nemotron-3-nanoを指定）で対応
nothinkタグは表示上非表示になるだけで速度は変わらない

vllm-custom sparkcustom（推奨vLLM導入方法）

vLLM（方法A: pip wheel+パッチ）

vLLM cu130 wheelをインストール後、namake-taroのvllm_all.patchとflashinfer_cutlass_sfb_layout_fix.patchを適用
パッチ適用後はFlashinfer/vLLM/torchinductorのキャッシュクリアが必須

vllm-customキー設定（Qwen3.5-27B起動例）

--enable-auto-tool-choice --tool-call-parser qwen3_coder --default-chat-template-kwargs '{"enable_thinking": false}'

動作確認できなかった構成