コンテンツにスキップ
Dev Classmethod Jp Articles Dgx Spark Nvidia Llm Router V3

NVIDIA LLM Router で LLM の用途別使い分け環境を構築してみた(基礎編)

  • URL: https://dev.classmethod.jp/articles/dgx-spark-nvidia-llm-router-v3
  • 日付: 2026-06-22
  • Tier: Tier 2
  • 要旨: NVIDIA LLM Router v3 は prompt を Qwen エンコーダで hidden states に変換し、PCA で次元削減してから MLP で各モデルの P(correct) を推定。tolerance パラメータで「最高品質との差」を許容し、閾値を超えたモデル群から最安を自動選択。default pool は 9-model ラダー(Nemotron Nano から Opus 4.6)で単価差 500 倍。v3 は Reference implementation only として自前 fork・再訓練を前提。OpenRouter proxy 統合で Claude/GPT/Gemini/DeepSeek を混在ルーティング。

詳細

NVIDIA LLM Router v3 ─ 質問内容を見てモデルを自動選択するルータ。OpenRouter Auto/Fusion/Pareto と比較:v3 は encoder + MLP で P(correct) 推定、self-host で再訓練可能、オンプレモデル混在可能。判定フロー:Qwen3.5-0.8B エンコーダで prompt を hidden states へ変換(GPU 100ms/CPU 5s)→ PCA 次元削減 → MLP で pool 内各モデルの正解確率を推定。tolerance パラメータで柔軟性制御:tol=0 は常に最高品質モデル、tol=1.0 は常に最安モデル、default 0.20 はバランス点。threshold = max(P) - tolerance で閾値を引き、超過モデルから最安を選択。default pool:9-model ラダー Slot 1-9 で Nemotron Nano ($0.05) ~ Opus 4.6 ($25.78) の 500 倍単価差。実装:BaseRouter/PrefillRouter/PoolConfig/RoutingResult + collect/train/evaluate CLI + LiteLLM Strategy/Standalone Server/Sidecar 6 adapters。v3 は「Reference implementation only」―本番 fork して再訓練を前提。v1/v2 は maintenance モード。CLI git checkout v3 で起動。OpenRouter API key で Claude/GPT/Gemini/DeepSeek を pool 統合。tolerance 5 段階(0.00~0.20)で routing 分布を比較可能。