コンテンツにスキップ
Zenn Dev Aiwatch Jp Agent Flow Review Evals

AI エージェントの仕事をどう検品するか ── Trace、Eval、Pre-CI Review の考え方

  • URL: https://zenn.dev/aiwatch_jp/articles/agent-flow-review-evals

  • 日付: 2026-06-14

  • Tier: Tier 3

  • 要旨: AI エージェントが 50〜700 本の PR を生成できる時代に、人間レビューがボトルネックにならないよう「Trace(記録)→ Triage(分類)→ Eval(機械判定)→ Human(最終判断)」の4層で検品する設計論。量の変化が性質を変えるため、「読む」だけのレビューでは破綻する。

詳細

  • Trace(何が起きたか残す): 作業ログを最後に出力させる(目的・読んだファイル・変更ファイル・実行コマンド・失敗ログ・未確認事項)。trace がないと reviewer は diff から推理するしかない。PromptLayer などの trace ツールは「レビュー材料を残す部品」として位置づける。
  • Triage(全部を読まないために分ける): diff を trivial(typo・コメント)/ normal(通常機能修正)/ risky(認証・課金・DB・外部API・セキュリティ境界)に分類してから人間に上げる。人間にやらせても別エージェントにやらせても可。
  • Eval(機械的に判定できるものを判定する): テスト通過・型チェック・linter・セキュリティスキャンなどを CI に組み込み。「AI が書いたから別途チェック」ではなく同じ基準を適用。
  • Human: Triage と Eval を通ったものだけ人間が見る。risky に分類されたものを優先。