2026 租用雲端 Mac 生產環境 OpenClaw 健康偵測與就緒檢查
在 香港、日本、韓國、新加坡或美國 租用 Mac mini M4 上 7×24 運行 OpenClaw 時,監聽於 127.0.0.1:18789 的閘道已成為生產基礎設施。Kubernetes 團隊早已區分 liveness 與 readiness;純 macOS + launchd 也需要同等紀律,只是沒有 kubelet。本 2026 指南說明應擷取哪些訊號、偵測類型對照表、六步運行手冊,以及既能避免靜默失敗又不拖垮值班的告警閾值。若故障跨越網路與程序層次,請搭配 閘道排錯、結構化日誌、Webhook 的 Nginx 反向代理 與 Tailscale 閘道安全存取。
為什麼「行程在跑」不算健康檢查
launchd 可能仍以結束碼 0 回報成功,而閘道已卡住:TLS 內容過期、模型供應商 DNS 抖動,或 ~/.openclaw 設定寫入不完整。良好的偵測應走與使用者流量相同的程式路徑——HTTP 處理、驗證中介層、可選的下游模型探測——同時避免狂打計費 API。
- Liveness回答「要不要重啟閘道?」——成本低,建議每 60 秒。
- Readiness回答「負載平衡是否該送流量?」——更嚴格,可含相依性檢查。
- Canary每 15 分鐘送一則合成使用者訊息以捕捉細微迴歸;務必單獨預算 token。
值班週前維運應畫出的最小儀表板
對在生產環境執行 Agent 的 MacXCode 客戶,建議至少具備:
- 反向代理前置閘道時,來自 nginx
$request_time的請求速率 + p95 延遲。 - 錯誤率——
5xx計數除以總量;排除已知維護視窗後,若連續 5 分鐘高於 2% 則告警。 - CPU 持續 > 85% 達 10 分鐘——小規格常是熱節流前兆;M4 很少熱限流,但 burst embedding 仍會尖峰。
- 根 APFS 可用空間 < 12 GB——
~/.openclaw/logs日誌輪替在磁碟緊張時會停滯。
偵測類型:各自證明什麼
| 偵測 | 證明 | 成本 / 風險 |
|---|---|---|
對 127.0.0.1:18789 的 TCP 連線 |
accept 迴圈仍存活 | 訊號弱;無法發現驗證失敗 |
HTTP GET /health(路徑依建置文件) |
HTTP 堆疊 + 設定載入 | 建議的基線 liveness |
| 帶驗證的合成對話 | 模型路由 + 憑證 | 消耗 token;作為 canary 低頻執行 |
| 磁碟 inode + 剩餘空間 | 日誌輪替健康 | 廉價的主機級護欄 |
六步運行手冊:從零到可接 PagerDuty
- 基線——乾淨開機後擷取
openclaw gateway status輸出並存入 git。 - 撰寫偵測指令稿——curl 使用
--fail,連線逾時 3 秒;失敗時非零結束。 - launchd plist——
StartInterval60;設定ThrottleInterval避免風暴;日誌寫入統一檔案。 - 關聯 ID——每次檢查寫入 ISO8601 時間戳,便於與 nginx 交叉檢索。
- 接線告警——連續三次失敗才 pager;單次失敗僅發 Slack。
- 演練日——每季故意 kill 閘道,對照 15 分鐘 SLO 量測 MTTR。
curl -fsS --max-time 3 http://127.0.0.1:18789/health || exit 1
偵測如何與 Nginx 和 Tailscale 組合
當 nginx 終結 TLS 時,對內網 URL 跑 liveness,以隔離邊緣誤設與閘道缺陷。純 tailnet 部署時,從打了 probe 標籤的 Tailscale 裝置跑合成檢查,避免 ACL 變更悄悄讓監控失效。
減少噪音的告警閾值
| 條件 | 建議視窗 | 嚴重程度 |
|---|---|---|
| 連續 3 次偵測失敗 | 若間隔 60s 約 3 分鐘 | 呼叫值班 |
| 內網一跳 p95 延遲 > 800 ms | 持續 10 分鐘 | 警告工單 |
| Canary LLM 失敗 | 1 次 | Slack + 自動開 bridge issue |
FAQ:macOS 雲端 Mac 上的偵測
| 問題 | 回答 |
|---|---|
| 偵測應以 root 執行嗎? | 不要——使用與 ~/.openclaw 擁有者相同的服務使用者,才能捕捉權限迴歸。 |
| 次要觀察者放在哪裡? | 使用另一區域的 MacXCode 節點或現有可觀測 VPC;小型見證機可比較 定價。 |
| 開啟 debug 後日誌暴漲怎麼辦? | 遵循 結構化日誌 指引——僅在支援視窗內開 debug。 |
為何 Mac mini M4 裸金屬仍有助於偵測保真度
若主機因超售而抖動,合成檢查毫無意義。裸金屬 Mac mini M4 為 curl + JSON 解析提供穩定 CPU,為日誌附加提供可預期 NVMe,並與開發環境閘道所見的 Apple Silicon 行為一致。MacXCode 在 HK / JP / KR / SG / US 的區域佈局讓使用者族群附近的觀察者仍能保持相同的 SSH 應急入口,詳見 說明。
結論:把 OpenClaw 當作任意生產 API——定義 SLO,用偵測證明,在行銷承諾「永遠在線」之前演練故障。金絲雀開始每週撲騰時,透過 定價 擴容。