Zenn Dev Sompojapan Dx Articles 7a83c02b6b62f9

OpenAI Codex-maxxing実践: Zenn記事を評価ループで育ててみた

URL: https://zenn.dev/sompojapan_dx/articles/7a83c02b6b62f9
日付: 2026-06-24
Tier: Tier 3
要旨: OpenAI白書「Codex-maxxing for long-running work」の理論をZenn記事制作に応用した実験記。親スレッドを編集係、読者ペルソナごとのサブエージェント4体（実務エンジニア・チームリード・Zenn読者・流し読み読者）をレビュー専任に分けて、評価結果を統合・採用判断・ログ記録するループを2周回した。1周目で権限管理と監査ログの曖昧さが致命指摘として浮上、冒頭・実行手順・権限管理・ログの残し方を改修して2周目で停止条件達成。Long Running Taskでは「最初から全部決める」のではなく、成果物を見ながら少しずつ向きを変えること、レビューは合否ではなく判断材料を作ることの重要性を実装で示した。

詳細

白書で示される要素（Durable thread・Goal・Memory・Steering・Review・Thread automation）をZenn記事制作に実装。親スレッドが記事編集・評価結果統合・採用判断・ログ更新を担い、サブエージェントは読み取り専門でファイル編集しない設計。最初の記事構成は白書の目次に引っ張られていたが、「読者は何をすればいいか」が弱いという流し読み読者からの指摘で主役を「機能紹介」から「この記事制作をループ化した実例」に変更。1周目の評価は実務エンジニア4.0・チームリード3.7・Zenn読者4.0・流し読み読者3.5で、チームリードから権限・監査ログが曖昧という致命指摘。実行プロンプトに「公開・送信は人間の承認必須」「評価ログを残す」「停止条件を見る」を明記し、権限（レビュー専任はread-only）・停止条件（致命指摘なし・権限外事項なし・最大周回数）・監査ログ項目（評価者・点数・採用判断・未検証事項）を先に定義。2周目で全ペルソナが4.0以上で停止条件達成。サブエージェントは各々モデル・ツール使用のためトークン増加するが、親スレッドの権限設定を引き継ぐ。custom agentとして.codex/agents/zenn-reader.tomlに定義すれば毎回プロンプト転記を避けられる。

Zenn Dev Soichiyo Articles 5f663abafb4e39 Zenn Dev Sprix It Articles 4c44e56ba6f28a