AI / Automation 2026年4月14日

2026 本番レンタルクラウド Mac における OpenClaw ヘルスプローブとレディネスチェック

MacXCode エンジニアリングチーム 2026年4月14日 約11分で読了

香港・日本・韓国・シンガポール・米国Mac mini M4 をリースして OpenClaw を 24/7 運用すると、127.0.0.1:18789 のゲートウェイは本番インフラの一部になります。Kubernetes ではすでに livenessreadiness が語られますが、macOS + launchd だけの現場でも kubelet がいなくて同じ規律が必要です。本 2026 ガイドはどの信号をスクレイプするかプローブ種別の比較表6 ステップのランブック、そして無言障害とページ疲労の両方を避ける閾値を定義します。ネットワークとプロセス層にまたがる障害では ゲートウェイトラブルシュート構造化ログWebhook 向け nginx イングレスTailscale メッシュアクセス を併読してください。

「プロセスが動いている」ことがヘルスチェックにならない理由

launchd はゲートウェイが固まっていても終了コード 0 を返せます。TLS コンテキストの陳腐化、モデルプロバイダの DNS フラップ、~/.openclaw への部分的な設定書き込みなどです。良いプローブは顧客トラフィックと同じコードパス—HTTP ハンドラ、認証ミドルウェア、任意の下流モデル ping—を動かしつつ、課金 API を叩き潰しません。

  • Liveness は「ゲートウェイを再起動すべきか?」—安価で 60 秒ごと。
  • Readiness は「LB がトラフィックを送るべきか?」—より厳しく依存チェックを含めてもよい。
  • Canary15 分ごとに合成ユーザーメッセージを送り微細な劣化を捕捉する。トークンは明示的に予算化する。
黄金律:公網のモニタをインターネット上の 18789 に直接向けない—nginx で TLS を終端するか、Tailscale ACL に従い tailnet 内だけでチェックする。

オンコール週の前に運用がグラフ化すべき最小ダッシュボード

本番でエージェントを走らせる MacXCode 顧客向けの最低限:

  • リバースプロキシが前段にある場合、nginx $request_time からのリクエスト率 + p95 レイテンシ
  • エラー率5xx を総数で割る。既知のメンテ窓を除き 5 分連続で 2%超ならアラート。
  • CPU が 85%超10 分維持—小インスタンスでは熱スロットルの前兆になりやすい。M4 は熱制限になりにくいが埋め込み burst は尖る。
  • ルート APFS で空き容量 < 12 GB~/.openclaw/logs のローテーションが詰まる。

プローブ種別:それぞれが証明すること

プローブ 証明 コスト / リスク
127.0.0.1:18789 への TCP 接続 accept ループ生存 信号弱。認証失敗を見逃す
HTTP GET /health(ビルドごとのパス) HTTP スタック + 設定ロード 推奨のベースライン liveness
認証付き合成チャット モデルルーティング + 資格情報 トークン消費。canary として低頻度
ディスク inode + 空き ログローテの健全性 安価なホストレベルガードレール

6 ステップのランブック:ゼロから PagerDuty 準備まで

  1. ベースライン—クリーンブート後の openclaw gateway status 出力を git に保存。
  2. プローブスクリプト--fail の curl、接続タイムアウト 3 秒。失敗時は非ゼロ終了。
  3. launchd plistStartInterval 60ThrottleInterval で嵐を避け、統一ログへ。
  4. 相関 ID—各チェックで ISO8601 をログに出し nginx と突合。
  5. アラート配線—連続 3 失敗でページ、1 回失敗は Slack のみ。
  6. ゲームデイ—四半期ごとに意図的にゲートウェイを kill し、15 分 SLO に対する MTTR を測定。

curl -fsS --max-time 3 http://127.0.0.1:18789/health || exit 1

プローブが Nginx と Tailscale とどう組み合わさるか

nginx が TLS を終端する場合、liveness は内部 URL に対して実行し、エッジ誤設定とゲートウェイ不具合を切り分ける。tailnet のみの展開では、Tailscale で probe タグ付きデバイスから合成を走らせ、ACL 変更がモニタを黙殺しないようにする。

ノイズを避けるアラート閾値

条件 推奨ウィンドウ 重大度
プローブ連続 3 失敗 間隔 60s なら約 3 分 オンコールへページ
内部 1 ホップ p95 > 800 ms 10 分持続 警告チケット
Canary LLM 失敗 1 回 Slack + bridge issue 自動起票
トークン予算:canary プロンプトの completion を 400 トークン上限にし、ルーティングをまだ鍛える最安モデルプロファイルを使う—フラッグシップは本番ユーザー向けに残す。

FAQ:macOS クラウド Mac 上のプローブ

質問 回答
プローブは root で動かすべき? いいえ—~/.openclaw を所有するのと同じサービスユーザーで、権限回帰を捕捉する。
二次オブザーバはどこに置く? 別リージョンの MacXCode ノードか既存の可観測性 VPC。小型の witness は 料金 で比較。
debug を有効にしたらログが爆発したら? 構造化ログの指針に従い、サポート枠でのみ debug を。

プローブ保真度に Mac mini M4 ベアメタルが効く理由

ホストが過剰割当でガタつけば合成チェックは無意味。裸金属 Mac mini M4curl + JSON 解析に安定 CPU、ログ追記に予測可能な NVMe、開発時と同じ Apple Silicon 挙動を与える。MacXCode の HK / JP / KR / SG / US でユーザー近傍に観測点を置きつつ、SSH のブレークグラス手順は ヘルプ に記載する。

まとめ:OpenClaw を他の本番 API と同列に扱い—SLO を定義しプローブで証明し、マーケが「常時稼働」と言う前に障害をリハーサルする。canary が毎週騒ぎ出したら 料金 でキャパを増やす。

本番級の可観測性で OpenClaw を運用

M4 ノードをリース · HK · JP · KR · SG · US · SSH / VNC