Zenn Dev Kz Gz Articles Claude Skills Prompt Quality

プロンプトはAIに書かせる — skill-creatorに学ぶ再現性担保

URL: https://zenn.dev/kz_gz/articles/claude-skills-prompt-quality
日付: 2026-06-25
Tier: Tier 3
要旨: プロンプト品質をプロンプト自体で担保する Anthropic 公式 skill-creator の設計を解説。LLM は純粋関数ではなく結果が揺れるため、評価軸こそが再現性を担う。6 段階ワークフロー: 意図把握 → SKILL.md → テストケース → skillあり/なしの並列 subagent 比較 → 改善ループ (一般化・過適合防止) → description 最適化 (学習/検証分割)。5 原則: 書き手は評価できない (第三者観察必須)・現実的テスト複数・比較対象・定量+定性・ループ。

詳細

Skill とは YAML frontmatter + Markdown 本文で構成される AI 向け指示プロンプト。frontmatter に name (識別子) と description (発火条件+機能) があり、Claude が description を読んで自動発火。本文は具体手順・ルール・例。

プロンプト品質 = 結果の再現性。LLM は推論で曖昧な指示を埋めるため「良い感じに」は呼び出しごとに違う出力。設計されたプロンプトで再現性担保。

skill-creator の 6 工程:

意図把握: 目標・発火条件・出力形式・テスト用意の有無を 4 問で詰める。
SKILL.md: name + description (機能+発火条件。「押しつけがましく」完明確に) + 本文。
テストケース: 2-3 個、具体的・固有名詞・口語含む「現実的」ケース。抽象的だと本番で動かない。
評価ループ (コア): skillあり/なしの subagent を同時並列起動、同一テストで両者出力比較。skillが実際に効いているか、skillなしで十分か、検証項目の通過状況を定性+定量確認。新規時は比較対象=なし版、改善時は旧バージョン。
改善ループ: 指摘に対して特定テストのみ直さず一般化して直す (過適合防止)。「テスト 3 でこうなった」→「この種のケースではこう考える」へ抽象化。
description 最適化: 発火すべき/すべきでないテストケース 2 グループで description 候補複数提案 → 各候補を全テストで実行 → 検証用スコアで最高を選択 (学習/検証分割で過適合防止)。

5 原則: (1) 書き手は読めば分かると思うが第三者には伝わらない→subagent に任せ観察 (2) 具体・固有・口語含む現実的テスト (3) 比較対象が「良くなった気」を「実際」に変える (4) 定量 (アサーション)+定性 (ユーザーレビュー) (5) 評価→改善→評価ループ+過適合警戒。

メリット: 業務明確化・属人化回避・ナレッジ蓄積。繰り返し定型タスク (議事録要約・週報整形・メール返信) に適す。毎回文脈が変わるタスク・判定基準不定は skill 化効きにくい。

Zenn Dev Kitepon Articles Bughub Aggregation Zenn Dev Manalink Dev Articles Ai Coding Era Review to Dev Process Not Human