Operations Monitor
新規構想
TATEKANMonitor
TATEKANMonitor は、TATEKANOS 各 App の障害検知、セキュリティ監視、runtime drift、一次対応判断を横断的に扱う運用監視レイヤーです。
- 目的: 各 App 内の業務遅延ではなく、App 自体の運用状態を監視します。
- 対象: Cloud Run、Pages、Jobs、Scheduler、ログ、セキュリティイベント、deploy 状態、復旧対応です。
- 根拠: Issue #644 TATEKANOS AI-Native Platform と AI-native operations vision。
0. 境界
- TATEKANMonitor は、承認滞留、支払遅延、検収停滞など App 内の業務プロセス監視を持ちません。
- Toriteki、dMemo、Mitsumori などの domain alert や workflow exception は、それぞれの App が持ちます。
- TATEKANMonitor は、各 App が健康に動いているか、安全か、deploy 状態と設定が正しいか、復旧可能かを見ます。
1. 監視対象
- Runtime health: Cloud Run revision、traffic split、5xx rate、latency、cold start 兆候、health check failure。
- Job health: Cloud Run Jobs、Cloud Scheduler、cleanup job、retention job、batch failure。
- Frontend delivery: Cloudflare Pages deploy 状態、custom domain 到達性、Cloudflare Access redirect の期待値。
- Security signals: 異常ログイン、IAM / Secret / env 変更、意図しない公開、audit log anomaly。
- Engineering signals: GitHub Actions failure、deploy check failure、dependency drift、policy からの config drift。
2. 対応モデル
- Detect: logs、metrics、deploy metadata、CI、security audit source から運用シグナルを集めます。
- Classify: outage、degradation、security concern、drift、information を分けます。
- Route: 対象 App と正しい runbook へ接続し、推測で対応しません。
- Escalate: production 影響、deploy、IAM、Secret、公開設定変更は PM 承認を必須にします。
- Record: JST 時刻、実行者、対象、コマンドまたは source、解決状態を証跡化します。
3. 初期実装イメージ
- 最初は read-only: dashboard、health summary、log query、GitHub check summary から始めます。
- AI 解釈より先に deterministic check を置きます。明示 threshold、service map、canonical expected state を優先します。
- AI は summary、priority、incident brief に使い、production mutation を黙って実行しません。
- deploy、rollback、IAM、Secret、DNS、access policy 変更は human approval gate の内側に置きます。