Dev Classmethod Jp Articles Dgx Spark Nvidia Llm Router V3 Training

NVIDIA LLM Router を自分のペルソナに合わせて再訓練してみた（訓練編）

URL: https://dev.classmethod.jp/articles/dgx-spark-nvidia-llm-router-v3-training
日付: 2026-06-22
Tier: Tier 2
要旨: NVIDIA LLM Router v3 を自分用に再訓練。default 9-model pool（Nemotron/GPT-OSS/Qwen/GPT-5/Opus）が自分のペルソナと合致しないため、最新 Opus 4.8/Sonnet 4.6/Gemini 3.5 Flash と DeepSeek V4/Qwen 3.7/Kimi K2.6/GLM 4.7 を 9-model ラダーに組み直し。隣接倍率を最大 2.73x に制御（旧 5-model の 14 倍ジャンプ回避）。480 問訓練データ（個人ペルソナ 100+Opus 優位 150+Gemini 優位 30+軽量 100+公開データ 100）でゼロから checkpoint 作成。結果 Opus 43.1% 採用率で品質維持、軽中量質問は tolerance 0.05-0.20 で 98-99% コスト削減。

詳細

NVIDIA LLM Router v3 を 480 問の訓練データでペルソナ最適化。default pool の Nemotron/gpt-oss/Qwen/GPT-5/Opus では「自分の好みからズレている」（Opus 4.8/Sonnet 4.6/Gemini 3.5 Flash が未含有、新興系ラインナップが噛み合わない）を解決。新 9-model ラダー設計：Slot 1-9 で Nemotron Nano(Local) - DeepSeek V4-Flash - GLM 4.7-Flash - DeepSeek V4-Pro - Qwen 3.7-Plus - Kimi K2.6 - Gemini 3.5-Flash - Sonnet 4.6 - Opus 4.8。隣接倍率 1.47x-2.73x に制限（旧 5-model の gpt-oss $0.05 vs Kimi $0.74 の 14 倍跳躍を回避）。訓練データ構成：(1) 個人ペルソナ 100（既有 40+新規重量 60）、(2) Opus 優位質問 150（哲学・長文整合・多段 reasoning・リファクタリング・創作・制約付き判断 15-30 問ずつ）、(3) Gemini 優位 30（テキスト系のみ：grounding・図解・構造化）、(4) 軽量・中量 100、(5) 公開データセット 100（MMLU/HumanEval/GSM8K/DollyJA）。Step 1-5 パイプライン実行：probe → dry-run（90 calls、thinking off 最適化で $11.27）→ judge=vote バグ回避→ judge=llm に切替（Sonnet 4.6 judge・7h15m 再 collect）→ train（5 分・全モデル AUC 0.85 以上）→ evaluate（Oracle 92.5% vs Router 79.37% vs Opus 単体 69.17%）。評価結果：Opus 43.1% 採用・正解率 64.7%、Sonnet 23.1% 採用・正解率 99.1%、Gemini 12.3% 採用・正解率 98.3%。tolerance 別コスト削減：tol=0.05 で 99.3%（deepseek-v4-flash 一強）、tol=0.20 で 98.3%（軽量帯全活用）。Local Nemotron と GLM は argmax では 0% 採用（精度不足で他モデルに劣る質問集合）だが tolerance 上げで拾える。実装罠：thinking on で max_tokens 全消費・judge=vote insertion order バグ・Gemini mandatory reasoning・コスト崖の経済合理性。

Dev Classmethod Jp Articles Clipboard Blob Rich Text HTTP Fallback Dev Classmethod Jp Articles Dgx Spark Nvidia Llm Router V3