AI / Automation 2026年4月14日

2026 租用雲端 Mac 生產環境 OpenClaw 健康偵測與就緒檢查

MacXCode 技術團隊 2026年4月14日 約11分鐘閱讀

香港、日本、韓國、新加坡或美國 租用 Mac mini M4 上 7×24 運行 OpenClaw 時,監聽於 127.0.0.1:18789 的閘道已成為生產基礎設施。Kubernetes 團隊早已區分 livenessreadiness;純 macOS + launchd 也需要同等紀律,只是沒有 kubelet。本 2026 指南說明應擷取哪些訊號偵測類型對照表六步運行手冊,以及既能避免靜默失敗又不拖垮值班的告警閾值。若故障跨越網路與程序層次,請搭配 閘道排錯結構化日誌Webhook 的 Nginx 反向代理Tailscale 閘道安全存取

為什麼「行程在跑」不算健康檢查

launchd 可能仍以結束碼 0 回報成功,而閘道已卡住:TLS 內容過期、模型供應商 DNS 抖動,或 ~/.openclaw 設定寫入不完整。良好的偵測應走與使用者流量相同的程式路徑——HTTP 處理、驗證中介層、可選的下游模型探測——同時避免狂打計費 API。

  • Liveness回答「要不要重啟閘道?」——成本低,建議每 60 秒
  • Readiness回答「負載平衡是否該送流量?」——更嚴格,可含相依性檢查。
  • Canary15 分鐘送一則合成使用者訊息以捕捉細微迴歸;務必單獨預算 token。
黃金法則:永遠不要把公網監控直接指到網際網路上的 18789——應在 nginx 終結 TLS,或依 Tailscale ACL 將檢查限制在 tailnet 內。

值班週前維運應畫出的最小儀表板

對在生產環境執行 Agent 的 MacXCode 客戶,建議至少具備:

  • 反向代理前置閘道時,來自 nginx $request_time請求速率 + p95 延遲
  • 錯誤率——5xx 計數除以總量;排除已知維護視窗後,若連續 5 分鐘高於 2% 則告警。
  • CPU 持續 > 85%10 分鐘——小規格常是熱節流前兆;M4 很少熱限流,但 burst embedding 仍會尖峰。
  • 根 APFS 可用空間 < 12 GB——~/.openclaw/logs 日誌輪替在磁碟緊張時會停滯。

偵測類型:各自證明什麼

偵測 證明 成本 / 風險
127.0.0.1:18789 的 TCP 連線 accept 迴圈仍存活 訊號弱;無法發現驗證失敗
HTTP GET /health(路徑依建置文件) HTTP 堆疊 + 設定載入 建議的基線 liveness
帶驗證的合成對話 模型路由 + 憑證 消耗 token;作為 canary 低頻執行
磁碟 inode + 剩餘空間 日誌輪替健康 廉價的主機級護欄

六步運行手冊:從零到可接 PagerDuty

  1. 基線——乾淨開機後擷取 openclaw gateway status 輸出並存入 git。
  2. 撰寫偵測指令稿——curl 使用 --fail,連線逾時 3 秒;失敗時非零結束。
  3. launchd plist——StartInterval 60;設定 ThrottleInterval 避免風暴;日誌寫入統一檔案。
  4. 關聯 ID——每次檢查寫入 ISO8601 時間戳,便於與 nginx 交叉檢索。
  5. 接線告警——連續三次失敗才 pager;單次失敗僅發 Slack。
  6. 演練日——每季故意 kill 閘道,對照 15 分鐘 SLO 量測 MTTR。

curl -fsS --max-time 3 http://127.0.0.1:18789/health || exit 1

偵測如何與 Nginx 和 Tailscale 組合

當 nginx 終結 TLS 時,對內網 URL 跑 liveness,以隔離邊緣誤設與閘道缺陷。純 tailnet 部署時,從打了 probe 標籤的 Tailscale 裝置跑合成檢查,避免 ACL 變更悄悄讓監控失效。

減少噪音的告警閾值

條件 建議視窗 嚴重程度
連續 3 次偵測失敗 若間隔 60s 約 3 分鐘 呼叫值班
內網一跳 p95 延遲 > 800 ms 持續 10 分鐘 警告工單
Canary LLM 失敗 1 次 Slack + 自動開 bridge issue
Token 預算:將 canary 提示的補全 token 上限設為 400,並選仍能演練路由的最便宜模型設定——旗艦模型留給真實使用者。

FAQ:macOS 雲端 Mac 上的偵測

問題 回答
偵測應以 root 執行嗎? 不要——使用與 ~/.openclaw 擁有者相同的服務使用者,才能捕捉權限迴歸。
次要觀察者放在哪裡? 使用另一區域的 MacXCode 節點或現有可觀測 VPC;小型見證機可比較 定價
開啟 debug 後日誌暴漲怎麼辦? 遵循 結構化日誌 指引——僅在支援視窗內開 debug。

為何 Mac mini M4 裸金屬仍有助於偵測保真度

若主機因超售而抖動,合成檢查毫無意義。裸金屬 Mac mini M4curl + JSON 解析提供穩定 CPU,為日誌附加提供可預期 NVMe,並與開發環境閘道所見的 Apple Silicon 行為一致。MacXCode 在 HK / JP / KR / SG / US 的區域佈局讓使用者族群附近的觀察者仍能保持相同的 SSH 應急入口,詳見 說明

結論:把 OpenClaw 當作任意生產 API——定義 SLO,用偵測證明,在行銷承諾「永遠在線」之前演練故障。金絲雀開始每週撲騰時,透過 定價 擴容。

以生產級可觀測性運行 OpenClaw

租用 M4 節點 · HK · JP · KR · SG · US · SSH / VNC