2026 本番レンタルクラウド Mac における OpenClaw ヘルスプローブとレディネスチェック
香港・日本・韓国・シンガポール・米国で Mac mini M4 をリースして OpenClaw を 24/7 運用すると、127.0.0.1:18789 のゲートウェイは本番インフラの一部になります。Kubernetes ではすでに liveness と readiness が語られますが、macOS + launchd だけの現場でも kubelet がいなくて同じ規律が必要です。本 2026 ガイドはどの信号をスクレイプするか、プローブ種別の比較表、6 ステップのランブック、そして無言障害とページ疲労の両方を避ける閾値を定義します。ネットワークとプロセス層にまたがる障害では ゲートウェイトラブルシュート、構造化ログ、Webhook 向け nginx イングレス、Tailscale メッシュアクセス を併読してください。
「プロセスが動いている」ことがヘルスチェックにならない理由
launchd はゲートウェイが固まっていても終了コード 0 を返せます。TLS コンテキストの陳腐化、モデルプロバイダの DNS フラップ、~/.openclaw への部分的な設定書き込みなどです。良いプローブは顧客トラフィックと同じコードパス—HTTP ハンドラ、認証ミドルウェア、任意の下流モデル ping—を動かしつつ、課金 API を叩き潰しません。
- Liveness は「ゲートウェイを再起動すべきか?」—安価で 60 秒ごと。
- Readiness は「LB がトラフィックを送るべきか?」—より厳しく依存チェックを含めてもよい。
- Canary は 15 分ごとに合成ユーザーメッセージを送り微細な劣化を捕捉する。トークンは明示的に予算化する。
オンコール週の前に運用がグラフ化すべき最小ダッシュボード
本番でエージェントを走らせる MacXCode 顧客向けの最低限:
- リバースプロキシが前段にある場合、nginx
$request_timeからのリクエスト率 + p95 レイテンシ。 - エラー率—
5xxを総数で割る。既知のメンテ窓を除き 5 分連続で 2%超ならアラート。 - CPU が 85%超を 10 分維持—小インスタンスでは熱スロットルの前兆になりやすい。M4 は熱制限になりにくいが埋め込み burst は尖る。
- ルート APFS で空き容量 < 12 GB—
~/.openclaw/logsのローテーションが詰まる。
プローブ種別:それぞれが証明すること
| プローブ | 証明 | コスト / リスク |
|---|---|---|
127.0.0.1:18789 への TCP 接続 |
accept ループ生存 | 信号弱。認証失敗を見逃す |
HTTP GET /health(ビルドごとのパス) |
HTTP スタック + 設定ロード | 推奨のベースライン liveness |
| 認証付き合成チャット | モデルルーティング + 資格情報 | トークン消費。canary として低頻度 |
| ディスク inode + 空き | ログローテの健全性 | 安価なホストレベルガードレール |
6 ステップのランブック:ゼロから PagerDuty 準備まで
- ベースライン—クリーンブート後の
openclaw gateway status出力を git に保存。 - プローブスクリプト—
--failの curl、接続タイムアウト 3 秒。失敗時は非ゼロ終了。 - launchd plist—
StartInterval60、ThrottleIntervalで嵐を避け、統一ログへ。 - 相関 ID—各チェックで ISO8601 をログに出し nginx と突合。
- アラート配線—連続 3 失敗でページ、1 回失敗は Slack のみ。
- ゲームデイ—四半期ごとに意図的にゲートウェイを kill し、15 分 SLO に対する MTTR を測定。
curl -fsS --max-time 3 http://127.0.0.1:18789/health || exit 1
プローブが Nginx と Tailscale とどう組み合わさるか
nginx が TLS を終端する場合、liveness は内部 URL に対して実行し、エッジ誤設定とゲートウェイ不具合を切り分ける。tailnet のみの展開では、Tailscale で probe タグ付きデバイスから合成を走らせ、ACL 変更がモニタを黙殺しないようにする。
ノイズを避けるアラート閾値
| 条件 | 推奨ウィンドウ | 重大度 |
|---|---|---|
| プローブ連続 3 失敗 | 間隔 60s なら約 3 分 | オンコールへページ |
| 内部 1 ホップ p95 > 800 ms | 10 分持続 | 警告チケット |
| Canary LLM 失敗 | 1 回 | Slack + bridge issue 自動起票 |
FAQ:macOS クラウド Mac 上のプローブ
| 質問 | 回答 |
|---|---|
| プローブは root で動かすべき? | いいえ—~/.openclaw を所有するのと同じサービスユーザーで、権限回帰を捕捉する。 |
| 二次オブザーバはどこに置く? | 別リージョンの MacXCode ノードか既存の可観測性 VPC。小型の witness は 料金 で比較。 |
| debug を有効にしたらログが爆発したら? | 構造化ログの指針に従い、サポート枠でのみ debug を。 |
プローブ保真度に Mac mini M4 ベアメタルが効く理由
ホストが過剰割当でガタつけば合成チェックは無意味。裸金属 Mac mini M4 は curl + JSON 解析に安定 CPU、ログ追記に予測可能な NVMe、開発時と同じ Apple Silicon 挙動を与える。MacXCode の HK / JP / KR / SG / US でユーザー近傍に観測点を置きつつ、SSH のブレークグラス手順は ヘルプ に記載する。
まとめ:OpenClaw を他の本番 API と同列に扱い—SLO を定義しプローブで証明し、マーケが「常時稼働」と言う前に障害をリハーサルする。canary が毎週騒ぎ出したら 料金 でキャパを増やす。