Zenn Dev Aiwatch Jp Agent Flow Review Evals

AI エージェントの仕事をどう検品するか ── Trace、Eval、Pre-CI Review の考え方

URL: https://zenn.dev/aiwatch_jp/articles/agent-flow-review-evals
日付: 2026-06-14
Tier: Tier 3
要旨: AI エージェントが 50〜700 本の PR を生成できる時代に、人間レビューがボトルネックにならないよう「Trace（記録）→ Triage（分類）→ Eval（機械判定）→ Human（最終判断）」の4層で検品する設計論。量の変化が性質を変えるため、「読む」だけのレビューでは破綻する。

詳細

Trace（何が起きたか残す）: 作業ログを最後に出力させる（目的・読んだファイル・変更ファイル・実行コマンド・失敗ログ・未確認事項）。trace がないと reviewer は diff から推理するしかない。PromptLayer などの trace ツールは「レビュー材料を残す部品」として位置づける。
Triage（全部を読まないために分ける）: diff を trivial（typo・コメント）/ normal（通常機能修正）/ risky（認証・課金・DB・外部API・セキュリティ境界）に分類してから人間に上げる。人間にやらせても別エージェントにやらせても可。
Eval（機械的に判定できるものを判定する）: テスト通過・型チェック・linter・セキュリティスキャンなどを CI に組み込み。「AI が書いたから別途チェック」ではなく同じ基準を適用。
Human: Triage と Eval を通ったものだけ人間が見る。risky に分類されたものを優先。