- Antigravityの運用監視は「4つのゴールデンシグナル」を軸に設計するのがベストプラクティス
- Cloud Monitoring + Antigravityネイティブメトリクスで99.9%SLOを達成するアラート戦略
- アラート疲れを防ぐ「重大度レベル設計」と「エスカレーションフロー」の具体例を解説
Google Antigravityを本番環境で運用するうえで、適切な監視とアラート設計は安定稼働の生命線です。しかし、「何を監視すべきか」「アラートの閾値をどう設定するか」で悩むエンジニアは少なくありません。
本記事では、Google Antigravityの運用監視について、SRE(Site Reliability Engineering)の観点から実践的なベストプラクティスを解説します。Cloud Monitoringとの連携方法からSLO/SLI設計、アラートポリシーの具体例まで、SES現場で即活用できるノウハウをお届けします。
Antigravityの基本的な使い方はGoogle Antigravity入門ガイドを、パフォーマンス最適化についてはパフォーマンスチューニングガイドをご参照ください。
- Antigravity環境で監視すべき主要メトリクス
- 4つのゴールデンシグナルに基づく監視設計
- SLO/SLI/エラーバジェットの設計方法
- アラートポリシーの設定手順と閾値の考え方
- インシデント対応フローの構築
- SES案件での監視運用の実践ノウハウ
なぜAntigravityの運用監視が重要なのか
Google Antigravityは高いスケーラビリティとパフォーマンスを持つ分散コンピューティングフレームワークですが、その複雑さゆえに監視なき運用は大きなリスクを伴います。
監視がないと起きる典型的な問題
- パフォーマンスの静かな劣化: レイテンシが徐々に悪化し、ユーザー離脱が進行してから気づく
- リソースコストの暴走: オートスケーリングの設定ミスで月額コストが想定の3倍に
- 部分障害の見逃し: 一部ノードの異常が検知されず、データ不整合が発生
- SLA違反: クライアントとのSLA契約を知らぬ間に違反
SES案件における監視スキルの価値
SES市場では、監視・SRE関連のスキルを持つエンジニアの需要が高まっています。
| スキルレベル | 案件例 | 月額単価目安 |
|---|---|---|
| 監視ツールの利用(アラート確認・対応) | 運用監視オペレーター | 40〜50万円 |
| 監視設計・アラートポリシー設定 | インフラエンジニア | 55〜70万円 |
| SLO/SLI設計・エラーバジェット運用 | SREエンジニア | 70〜90万円 |
| 監視基盤全体のアーキテクチャ設計 | SREリード・アーキテクト | 85〜110万円 |
Antigravity監視の基本設計:4つのゴールデンシグナル
Google SREチームが提唱する4つのゴールデンシグナルは、Antigravityの監視設計でも最も重要な指標です。
| シグナル | 説明 | Antigravityでの監視対象 | 推奨閾値例 |
|---|---|---|---|
| レイテンシ | リクエストの応答時間 | API応答時間、クエリ処理時間 | p99 < 500ms |
| トラフィック | システムへのリクエスト量 | RPS(秒間リクエスト数)、データ処理量 | 通常値の200%超でアラート |
| エラー率 | 失敗したリクエストの割合 | HTTPエラー率、タスク失敗率 | > 1%で警告、> 5%で緊急 |
| 飽和度 | リソースの使用率 | CPU、メモリ、ディスク、ネットワーク | > 80%で警告、> 95%で緊急 |
この4つを監視するだけで、システムの健全性の約80%をカバーできると言われています。すべてのメトリクスを監視しようとするとアラート疲れを招くため、まずはこの4つに集中するのがベストプラクティスです。
Antigravity固有のメトリクス
4つのゴールデンシグナルに加えて、Antigravity特有の以下のメトリクスも監視対象に含めましょう。
- ノード間通信レイテンシ: 分散ノード間の通信遅延。ネットワーク障害の早期検知に有効
- タスクキュー深度: 処理待ちタスクの数。バックプレッシャーの検知に使用
- データレプリケーション遅延: レプリカ間のデータ同期遅延。データ整合性の監視に必須
- ガベージコレクション頻度: GCの実行頻度と停止時間。パフォーマンス劣化の予兆
Cloud Monitoringとの連携設定
Google Antigravityの監視は、Cloud Monitoringとの連携が基本です。以下の3ステップで設定します。
ステップ1: メトリクスの収集設定
Antigravityのメトリクスは、エージェントをインストールすることでCloud Monitoringに自動送信されます。
# antigravity-monitoring-config.yaml
monitoring:
enabled: true
export_interval: 60s
metrics:
- name: "antigravity/request_latency"
type: distribution
labels: [method, status]
- name: "antigravity/error_count"
type: counter
labels: [error_type]
- name: "antigravity/active_connections"
type: gauge
- name: "antigravity/task_queue_depth"
type: gauge
labels: [priority]
ステップ2: カスタムダッシュボードの構築
Cloud Monitoringのダッシュボードに、Antigravity専用のウィジェットを配置します。推奨レイアウトは以下の通りです。
| エリア | 表示するメトリクス | チャートタイプ |
|---|---|---|
| 上段左 | リクエストレイテンシ(p50/p95/p99) | 折れ線グラフ |
| 上段右 | エラー率(5xx / 4xx) | 折れ線グラフ |
| 中段左 | RPS(秒間リクエスト数) | 面グラフ |
| 中段右 | CPU / メモリ使用率 | 積み上げ面グラフ |
| 下段左 | タスクキュー深度 | 棒グラフ |
| 下段右 | ノード間通信レイテンシ | ヒートマップ |
ステップ3: ログベースメトリクスの作成
Cloud Loggingに出力されるAntigravityのログから、カスタムメトリクスを作成します。これにより、アプリケーション層の異常もメトリクスとして監視できます。
# ログベースメトリクス定義例
filter: |
resource.type="antigravity_instance"
severity>=ERROR
jsonPayload.component="task_scheduler"
metric_descriptor:
metric_kind: DELTA
value_type: INT64
unit: "1"
display_name: "Antigravity Task Scheduler Errors"

SLO/SLI/エラーバジェットの設計方法
SLI(Service Level Indicator)の選定
SLIは「サービスの品質を数値で測る指標」です。Antigravity環境では以下のSLIを推奨します。
| SLI | 計算式 | 対象 |
|---|---|---|
| 可用性 | 成功リクエスト数 / 総リクエスト数 × 100 | APIエンドポイント |
| レイテンシ | 閾値以内のリクエスト数 / 総リクエスト数 × 100 | ユーザー向けAPI |
| データ鮮度 | 許容遅延内のレプリカ数 / 総レプリカ数 × 100 | データパイプライン |
| スループット | 処理完了タスク数 / 投入タスク数 × 100 | バッチ処理 |
SLO(Service Level Objective)の設定
SLOは「SLIの目標値」です。事業要件に基づいて設定します。
| サービスティア | 可用性SLO | レイテンシSLO(p99) | エラーバジェット(月間) |
|---|---|---|---|
| Tier 1(クリティカル) | 99.95% | < 200ms | 約22分のダウンタイム |
| Tier 2(重要) | 99.9% | < 500ms | 約44分のダウンタイム |
| Tier 3(一般) | 99.5% | < 1,000ms | 約3.6時間のダウンタイム |
| Tier 4(内部ツール) | 99.0% | < 2,000ms | 約7.3時間のダウンタイム |
エラーバジェットの計算と活用
エラーバジェットは「許容される障害の量」です。SLO 99.9%の場合、月間で約44分のダウンタイムが許容されます。
エラーバジェットの活用方法:
- バジェット残量が50%以上 → 新機能リリースやインフラ変更を積極的に実施
- バジェット残量が20〜50% → リリース頻度を下げ、安定性を優先
- バジェット残量が20%未満 → 機能リリースを凍結し、信頼性改善に集中
効果的なアラートポリシーの設計
アラート疲れを防ぐ重大度レベル設計
すべてのアラートを同じ緊急度で通知すると、**アラート疲れ(Alert Fatigue)**を引き起こし、本当に重要なアラートが見逃されます。重大度レベルを明確に定義しましょう。
| レベル | 名称 | 定義 | 対応時間 | 通知先 |
|---|---|---|---|---|
| P1 | Critical | サービス全停止、データ損失リスク | 15分以内 | 電話 + Slack + PagerDuty |
| P2 | High | 主要機能の障害、SLO違反進行中 | 30分以内 | Slack + PagerDuty |
| P3 | Medium | 一部機能の劣化、閾値超過 | 4時間以内 | Slack通知 |
| P4 | Low | 軽微な異常、予防的検知 | 翌営業日 | メール + チケット起票 |
アラートポリシーの設定例
Cloud Monitoringでのアラートポリシー設定例です。
# P1アラート: エラー率が5%を超過
alertPolicy:
displayName: "[P1] Antigravity Error Rate Critical"
conditions:
- displayName: "Error rate > 5%"
conditionThreshold:
filter: 'metric.type="antigravity/error_rate"'
comparison: COMPARISON_GT
thresholdValue: 0.05
duration: 300s # 5分間持続
aggregations:
- alignmentPeriod: 60s
perSeriesAligner: ALIGN_MEAN
notificationChannels:
- projects/my-project/notificationChannels/pagerduty
- projects/my-project/notificationChannels/slack-critical
alertStrategy:
autoClose: 1800s # 30分間回復で自動クローズ
# P3アラート: CPU使用率が80%を超過
alertPolicy:
displayName: "[P3] Antigravity High CPU Usage"
conditions:
- displayName: "CPU > 80%"
conditionThreshold:
filter: 'metric.type="antigravity/cpu_utilization"'
comparison: COMPARISON_GT
thresholdValue: 0.80
duration: 600s # 10分間持続
aggregations:
- alignmentPeriod: 300s
perSeriesAligner: ALIGN_MEAN
notificationChannels:
- projects/my-project/notificationChannels/slack-warning
複合条件アラートで誤報を削減
単一メトリクスのアラートは誤報が発生しやすいため、複合条件を活用します。
例えば「エラー率上昇 AND レイテンシ上昇」を組み合わせることで、一時的なスパイクによる誤報を大幅に削減できます。
インシデント対応フローの構築
検知 → トリアージ → 対応 → ポストモーテム
効果的なインシデント対応は、以下の4ステップで構成します。
1. 検知(Detection)
- Cloud Monitoringのアラートがトリガー
- PagerDutyがオンコール担当者に自動通知
- Slackの専用チャンネルにアラート詳細が投稿
2. トリアージ(Triage)
- 重大度レベルの確認(P1〜P4)
- 影響範囲の特定(ユーザー数、機能、リージョン)
- エスカレーション要否の判断
3. 対応(Response)
- ランブック(対応手順書)に基づいた復旧作業
- 必要に応じてロールバックやフェイルオーバーを実施
- 対応状況をSlackチャンネルで随時共有
4. ポストモーテム(Post-mortem)
- 障害の根本原因分析(RCA: Root Cause Analysis)
- タイムラインの記録(いつ何が起きたか)
- 再発防止策の策定とアクションアイテムの作成
- ポストモーテムドキュメントをチームに共有
- 監視: Cloud Monitoring + Antigravityネイティブメトリクス
- ログ: Cloud Logging + BigQueryへのエクスポート
- アラート通知: PagerDuty(オンコール管理)+ Slack
- インシデント管理: Cloud Incident Manager または Opsgenie
- ポストモーテム: Google Docs + 社内Wiki
SES現場での監視運用ベストプラクティス
SES(客先常駐)の現場では、プロジェクトの引き継ぎや体制変更が発生しやすいため、属人化しない監視設計が特に重要です。
引き継ぎしやすい監視設計のコツ
- ダッシュボードに説明を記載: 各ウィジェットに「何を監視しているか」「閾値の根拠」をコメントとして残す
- アラート名に重大度を含める:
[P1] Service Downのように、一目で重大度がわかる命名規則を統一 - 監視設定をコード化: Cloud MonitoringのアラートポリシーをTerraformやCloudFormationで管理し、Git管理する
ランブック(対応手順書)の整備
ランブックは、アラートごとに「何を確認し、どう対応するか」を記録した手順書です。SES現場では以下の項目を含めましょう。
| 項目 | 内容 |
|---|---|
| アラート名 | [P2] Antigravity High Latency |
| 発生条件 | p99レイテンシが500msを10分間超過 |
| 影響範囲 | ユーザー向けAPIの応答遅延 |
| 確認手順 | 1. ダッシュボードでレイテンシ推移を確認 2. ノード別の負荷を確認 3. 最近のデプロイ履歴を確認 |
| 対応手順 | 1. 負荷が特定ノードに集中→スケールアウト 2. 特定クエリが原因→該当クエリの最適化 3. デプロイ起因→ロールバック |
| エスカレーション | 15分で解決しない場合はリードエンジニアに連絡 |
定期的な監視レビュー会の実施
月次で以下の項目をレビューする会議を設定しましょう。
- SLO達成状況: エラーバジェットの消費推移を確認
- アラート品質: 誤報率、見逃し率の評価
- 新規メトリクス: 監視すべき新しい指標がないか検討
- ランブック更新: 対応手順に変更や追加がないか確認
まとめ:監視設計は「運用の設計」そのもの
Google Antigravityの運用監視は、単にツールを設定するだけでなく、サービスの信頼性をどう担保するかという設計思想そのものです。
本記事で解説したポイントをまとめます。
- 4つのゴールデンシグナル(レイテンシ・トラフィック・エラー率・飽和度)を軸に監視設計する
- SLO/SLI/エラーバジェットで定量的な品質目標を設定する
- 重大度レベルを明確に定義してアラート疲れを防止する
- インシデント対応フローを整備して迅速な復旧を実現する
- ランブックと監視レビューで属人化を防ぎ、SES現場での引き継ぎを円滑にする
まずは4つのゴールデンシグナルのダッシュボード構築から始めて、段階的にSLO運用やインシデント対応フローを整備していきましょう。
Antigravityの全般的なベストプラクティスについてはGoogle Antigravityベストプラクティスを、セキュリティ面についてはGoogle Antigravityエンタープライズセキュリティもあわせてご参照ください。クラウドエンジニアのキャリア全般についてはクラウドエンジニアSES案件ガイドもおすすめです。