NVIDIA LLM Router を自分のペルソナに合わせて再訓練してみた(訓練編)
- URL: https://dev.classmethod.jp/articles/dgx-spark-nvidia-llm-router-v3-training
- 日付: 2026-06-22
- Tier: Tier 2
- 要旨: NVIDIA LLM Router v3 を自分用に再訓練。default 9-model pool(Nemotron/GPT-OSS/Qwen/GPT-5/Opus)が自分のペルソナと合致しないため、最新 Opus 4.8/Sonnet 4.6/Gemini 3.5 Flash と DeepSeek V4/Qwen 3.7/Kimi K2.6/GLM 4.7 を 9-model ラダーに組み直し。隣接倍率を最大 2.73x に制御(旧 5-model の 14 倍ジャンプ回避)。480 問訓練データ(個人ペルソナ 100+Opus 優位 150+Gemini 優位 30+軽量 100+公開データ 100)でゼロから checkpoint 作成。結果 Opus 43.1% 採用率で品質維持、軽中量質問は tolerance 0.05-0.20 で 98-99% コスト削減。
詳細
NVIDIA LLM Router v3 を 480 問の訓練データでペルソナ最適化。default pool の Nemotron/gpt-oss/Qwen/GPT-5/Opus では「自分の好みからズレている」(Opus 4.8/Sonnet 4.6/Gemini 3.5 Flash が未含有、新興系ラインナップが噛み合わない)を解決。新 9-model ラダー設計:Slot 1-9 で Nemotron Nano(Local) - DeepSeek V4-Flash - GLM 4.7-Flash - DeepSeek V4-Pro - Qwen 3.7-Plus - Kimi K2.6 - Gemini 3.5-Flash - Sonnet 4.6 - Opus 4.8。隣接倍率 1.47x-2.73x に制限(旧 5-model の gpt-oss $0.05 vs Kimi $0.74 の 14 倍跳躍を回避)。訓練データ構成:(1) 個人ペルソナ 100(既有 40+新規重量 60)、(2) Opus 優位質問 150(哲学・長文整合・多段 reasoning・リファクタリング・創作・制約付き判断 15-30 問ずつ)、(3) Gemini 優位 30(テキスト系のみ:grounding・図解・構造化)、(4) 軽量・中量 100、(5) 公開データセット 100(MMLU/HumanEval/GSM8K/DollyJA)。Step 1-5 パイプライン実行:probe → dry-run(90 calls、thinking off 最適化で $11.27)→ judge=vote バグ回避→ judge=llm に切替(Sonnet 4.6 judge・7h15m 再 collect)→ train(5 分・全モデル AUC 0.85 以上)→ evaluate(Oracle 92.5% vs Router 79.37% vs Opus 単体 69.17%)。評価結果:Opus 43.1% 採用・正解率 64.7%、Sonnet 23.1% 採用・正解率 99.1%、Gemini 12.3% 採用・正解率 98.3%。tolerance 別コスト削減:tol=0.05 で 99.3%(deepseek-v4-flash 一強)、tol=0.20 で 98.3%(軽量帯全活用)。Local Nemotron と GLM は argmax では 0% 採用(精度不足で他モデルに劣る質問集合)だが tolerance 上げで拾える。実装罠:thinking on で max_tokens 全消費・judge=vote insertion order バグ・Gemini mandatory reasoning・コスト崖の経済合理性。