Claude CodeのスキルでSLO対応を自動化したらめちゃくちゃ楽になった - Uzabase for Engineers
- URL: https://tech.uzabase.com/entry/2026/06/26/100727
- 日付: 2026-06-27
- Tier: Tier 3
- 要旨: NewsPicks Platform EngineeringチームがClaude Codeのスキルを使ってSLO違反調査を自動化した実践事例。週次MTGで1.5〜4人時かかっていた障害調査を、SlackスレッドURLを渡すだけで7分以内に根本原因と対策設計まで到達できるフローに変えた。推測禁止・仮説先出し・2Kトークン上限・3回失敗で終了・辿り道の記録という5ルールをスキルに組み込む過程を具体的に示している。
詳細
NewsPicks Platform EngineeringチームはNew RelicをAPMとして採用し、SLO違反(Latency/Availability)をSlack通知で検知するモニタリング体制を持つ。週次MTGで2〜10件超の違反を扱い、1.5〜4人時を消費していた調査フローをClaude Codeのスキルに置き換えることを試みた。
最初にN+1問題の典型ケースを2〜3件解かせて実現性を確認した後、スキル化の反省点を5ルールとして整備した。ルール1(推測禁止)はSlackスレッドの人間の仮説を読んだだけで「因果方向は完全に一致」と断言した事象から。ルール3(2Kトークンで止まる)は無限ローディング状態でProプランのトークンが急増したセッションから、その時点でおおよそ仮説が立っていることを経験的に確認してエイヤーで設定。ルール4(3回失敗で終了)は本質でない部分での深掘りループを防ぐため。ルール5(辿り道の記録)はコードの経路を省略して適当な結論を出した事象と、省略を「なんらかの方法でここに飛び」と誤魔化した事象への対処。
具体的な活用事例として、動画検索機能の重さで関係ない業務まで止まった障害を紹介。11件の同時リクエストがHTTPスレッドを占有してスレッドプールが枯渇、コンテナが強制入れ替えられた。SlackスレッドURLをスキルに渡すと、NRQLで7本のクエリを発行してMySQLに5500〜7500回・DynamoDBに2500〜3600回/リクエストというアクセス数を検出し、Serviceレイヤーの明示的N+1(3箇所)とEAGER由来の暗黙的N+1(8箇所)を7分で特定。その後13分で対策検証、合計25分で設計書が完成した。人間チームが7〜10分かけて複数のダッシュボードを行き来しながら断片的に確認していた作業と比較して、時刻を揃えた5系統のメトリクス照合を一気に実行した点が差別化要因とされている。スキルの次の改善案として、Latency調査用とAvailability調査用への分割と親スキルによる種別判定・委譲構成が検討されている。