Zenn Dev Okssusucha Articles 20260623 Claude Code Auto Mode Safety
Claude Codeのauto modeは git reset –hard を勝手に実行しない
- URL: https://zenn.dev/okssusucha/articles/20260623-claude-code-auto-mode-safety
- 日付: 2026-06-24
- Tier: Tier 3
- 要旨: Claude Code auto mode は、ユーザーの要求からの逸脱を文脈で判定する安全設計。別プロセスの Sonnet 4.6 が審査役として常駐し、ツール呼び出しを一件ずつ評価。git reset –hard や terraform destroy は静的ブロックでなく「ユーザーが明示的に要求したか否か」で許可判定。実トラフィック 1 万件の誤ブロック率 0.4%、手作業テスト 52 件の見逃し率 17%。
詳細
Claude Code の権限は ask(毎回確認)・bypassPermissions(全自動承認・見逃し率 100%)・auto mode(文脈判定)の三段。auto mode は作業エージェント(Claude Opus)とは別に Sonnet 4.6 が審査役として常駐。審査は二段構え:第一段は推論なしの高速フィルタで yes/no を 1 トークンで返し迷ったらブロック側に倒す、第二段は chain-of-thought で連鎖思考。プロンプトの大半がキャッシュ共有でコスト・レイテンシ抑制。実行も階層化で、ファイル読み込みや検索は素通り、プロジェクト内編集はバージョン管理で後から確認可能として許可、シェル・Web 取得・外部ツール・作業ディレクトリ外は審査役に回す。auto mode では python や node のワイルドカード許可を無効化(任意コード実行の抜け穴対策)。審査役は ツール出力を見せない(Web コンテンツへのプロンプトインジェクション対策)。ブロック対象は固定リストではなく「ユーザー要求からの逸脱」で決定。git reset –hard は「ローカル変更を捨てるよう頼んでいないとき」のみブロック。terraform destroy も「対象スタックを明示的に頼んでいない限り」。同じコマンドでも escalation で結果が変わる。誤ブロック 0.4%・見逃し 17% の数字を公開し auto mode は「シートベルト(絶対安全ではない)」と明言。累計 20 回拒否で人間レビューにエスカレーション。モデルがモデルを見張る構成がエージェント運用の標準パターンになりつつあることの好例。