Dev Classmethod Jp Articles Dgx Spark Nvidia Llm Router V3

NVIDIA LLM Router で LLM の用途別使い分け環境を構築してみた（基礎編）

URL: https://dev.classmethod.jp/articles/dgx-spark-nvidia-llm-router-v3
日付: 2026-06-22
Tier: Tier 2
要旨: NVIDIA LLM Router v3 は prompt を Qwen エンコーダで hidden states に変換し、PCA で次元削減してから MLP で各モデルの P(correct) を推定。tolerance パラメータで「最高品質との差」を許容し、閾値を超えたモデル群から最安を自動選択。default pool は 9-model ラダー（Nemotron Nano から Opus 4.6）で単価差 500 倍。v3 は Reference implementation only として自前 fork・再訓練を前提。OpenRouter proxy 統合で Claude/GPT/Gemini/DeepSeek を混在ルーティング。

詳細

NVIDIA LLM Router v3 ─ 質問内容を見てモデルを自動選択するルータ。OpenRouter Auto/Fusion/Pareto と比較：v3 は encoder + MLP で P(correct) 推定、self-host で再訓練可能、オンプレモデル混在可能。判定フロー：Qwen3.5-0.8B エンコーダで prompt を hidden states へ変換（GPU 100ms/CPU 5s）→ PCA 次元削減 → MLP で pool 内各モデルの正解確率を推定。tolerance パラメータで柔軟性制御：tol=0 は常に最高品質モデル、tol=1.0 は常に最安モデル、default 0.20 はバランス点。threshold = max(P) - tolerance で閾値を引き、超過モデルから最安を選択。default pool：9-model ラダー Slot 1-9 で Nemotron Nano ($0.05) ～ Opus 4.6 ($25.78) の 500 倍単価差。実装：BaseRouter/PrefillRouter/PoolConfig/RoutingResult + collect/train/evaluate CLI + LiteLLM Strategy/Standalone Server/Sidecar 6 adapters。v3 は「Reference implementation only」―本番 fork して再訓練を前提。v1/v2 は maintenance モード。CLI git checkout v3 で起動。OpenRouter API key で Claude/GPT/Gemini/DeepSeek を pool 統合。tolerance 5 段階（0.00～0.20）で routing 分布を比較可能。

Dev Classmethod Jp Articles Dgx Spark Nvidia Llm Router V3 Training Dev Classmethod Jp Articles Kiro Web Sandbox Aws Access