コンテンツにスキップ
Zenn Dev Sompojapan Dx Articles 7a83c02b6b62f9

OpenAI Codex-maxxing実践: Zenn記事を評価ループで育ててみた

  • URL: https://zenn.dev/sompojapan_dx/articles/7a83c02b6b62f9
  • 日付: 2026-06-24
  • Tier: Tier 3
  • 要旨: OpenAI白書「Codex-maxxing for long-running work」の理論をZenn記事制作に応用した実験記。親スレッドを編集係、読者ペルソナごとのサブエージェント4体(実務エンジニア・チームリード・Zenn読者・流し読み読者)をレビュー専任に分けて、評価結果を統合・採用判断・ログ記録するループを2周回した。1周目で権限管理と監査ログの曖昧さが致命指摘として浮上、冒頭・実行手順・権限管理・ログの残し方を改修して2周目で停止条件達成。Long Running Taskでは「最初から全部決める」のではなく、成果物を見ながら少しずつ向きを変えること、レビューは合否ではなく判断材料を作ることの重要性を実装で示した。

詳細

白書で示される要素(Durable thread・Goal・Memory・Steering・Review・Thread automation)をZenn記事制作に実装。親スレッドが記事編集・評価結果統合・採用判断・ログ更新を担い、サブエージェントは読み取り専門でファイル編集しない設計。最初の記事構成は白書の目次に引っ張られていたが、「読者は何をすればいいか」が弱いという流し読み読者からの指摘で主役を「機能紹介」から「この記事制作をループ化した実例」に変更。1周目の評価は実務エンジニア4.0・チームリード3.7・Zenn読者4.0・流し読み読者3.5で、チームリードから権限・監査ログが曖昧という致命指摘。実行プロンプトに「公開・送信は人間の承認必須」「評価ログを残す」「停止条件を見る」を明記し、権限(レビュー専任はread-only)・停止条件(致命指摘なし・権限外事項なし・最大周回数)・監査ログ項目(評価者・点数・採用判断・未検証事項)を先に定義。2周目で全ペルソナが4.0以上で停止条件達成。サブエージェントは各々モデル・ツール使用のためトークン増加するが、親スレッドの権限設定を引き継ぐ。custom agentとして.codex/agents/zenn-reader.tomlに定義すれば毎回プロンプト転記を避けられる。