Zenn Dev Noprogllama Articles 4f1a53c1e9b779
AIのSkillsを、問題集でテストしてみた。Waza風evalをCodexで回す話
- URL: https://zenn.dev/noprogllama/articles/4f1a53c1e9b779
- 日付: 2026-06-23
- Tier: Tier 3
- 要旨: AI用のSkill手順書をWaza風の問題集でテスト。期待する出力形式、失敗時の扱い、空データ処理を問題集に明示することで、Skill本文を改善する切り分けが明確になり、改善サイクルが加速。
詳細
Skillの品質改善にテストを導入。夜ブリーフィングSkillで4問の問題集を作成。waza checkで問題集検証、Codex CLIで実行。最初は形式チェック Low、通過率50%(2/4)だった。Skill側に「何をする/しない」を明示し、問題側に失敗時・空データ時の出力形式を明記。修正後は形式チェック High、通過率100%に改善。初回では問題文に答えのヒントが多すぎて差が出なかったため、別問題集で試行。最終版では必要見出し出力、勝手な記事生成禁止、空データ表記、失敗時の短報告、不関連依頼の非実行を確認。複数Skills(skill B, skill C)にも軽く適用し、出力形式安定性と実行境界判定が改善。注意:4問では限定的で、モックで100%でも実運用品質は別。日付違い、記事数多数、要約欠落など問題追加が望ましい。