Zenn Dev Okssusucha Articles 20260623 Claude Code Auto Mode Safety

Claude Codeのauto modeは git reset –hard を勝手に実行しない

URL: https://zenn.dev/okssusucha/articles/20260623-claude-code-auto-mode-safety
日付: 2026-06-24
Tier: Tier 3
要旨: Claude Code auto mode は、ユーザーの要求からの逸脱を文脈で判定する安全設計。別プロセスの Sonnet 4.6 が審査役として常駐し、ツール呼び出しを一件ずつ評価。git reset –hard や terraform destroy は静的ブロックでなく「ユーザーが明示的に要求したか否か」で許可判定。実トラフィック 1 万件の誤ブロック率 0.4%、手作業テスト 52 件の見逃し率 17%。

詳細

Claude Code の権限は ask（毎回確認）・bypassPermissions（全自動承認・見逃し率 100%）・auto mode（文脈判定）の三段。auto mode は作業エージェント（Claude Opus）とは別に Sonnet 4.6 が審査役として常駐。審査は二段構え：第一段は推論なしの高速フィルタで yes/no を 1 トークンで返し迷ったらブロック側に倒す、第二段は chain-of-thought で連鎖思考。プロンプトの大半がキャッシュ共有でコスト・レイテンシ抑制。実行も階層化で、ファイル読み込みや検索は素通り、プロジェクト内編集はバージョン管理で後から確認可能として許可、シェル・Web 取得・外部ツール・作業ディレクトリ外は審査役に回す。auto mode では python や node のワイルドカード許可を無効化（任意コード実行の抜け穴対策）。審査役はツール出力を見せない（Web コンテンツへのプロンプトインジェクション対策）。ブロック対象は固定リストではなく「ユーザー要求からの逸脱」で決定。git reset –hard は「ローカル変更を捨てるよう頼んでいないとき」のみブロック。terraform destroy も「対象スタックを明示的に頼んでいない限り」。同じコマンドでも escalation で結果が変わる。誤ブロック 0.4%・見逃し 17% の数字を公開し auto mode は「シートベルト（絶対安全ではない）」と明言。累計 20 回拒否で人間レビューにエスカレーション。モデルがモデルを見張る構成がエージェント運用の標準パターンになりつつあることの好例。

Zenn Dev Noragrammer Articles Codecompass Mvp 202606 Zenn Dev Ray000 Articles Momonga Search Mcp Setup