Zenn Dev Noprogllama Articles 4f1a53c1e9b779

AIのSkillsを、問題集でテストしてみた。Waza風evalをCodexで回す話

URL: https://zenn.dev/noprogllama/articles/4f1a53c1e9b779
日付: 2026-06-23
Tier: Tier 3
要旨: AI用のSkill手順書をWaza風の問題集でテスト。期待する出力形式、失敗時の扱い、空データ処理を問題集に明示することで、Skill本文を改善する切り分けが明確になり、改善サイクルが加速。

詳細

Skillの品質改善にテストを導入。夜ブリーフィングSkillで4問の問題集を作成。waza checkで問題集検証、Codex CLIで実行。最初は形式チェック Low、通過率50%（2/4）だった。Skill側に「何をする/しない」を明示し、問題側に失敗時・空データ時の出力形式を明記。修正後は形式チェック High、通過率100%に改善。初回では問題文に答えのヒントが多すぎて差が出なかったため、別問題集で試行。最終版では必要見出し出力、勝手な記事生成禁止、空データ表記、失敗時の短報告、不関連依頼の非実行を確認。複数Skills（skill B, skill C）にも軽く適用し、出力形式安定性と実行境界判定が改善。注意：4問では限定的で、モックで100%でも実運用品質は別。日付違い、記事数多数、要約欠落など問題追加が望ましい。

Zenn Dev Mutton Articles F3fa9f249e9c77 Zenn Dev Nu Dev Articles A880f08487b9d7