2026 프로덕션 임대 클라우드 Mac의 OpenClaw 헬스 프로브와 준비 상태 점검
홍콩·일본·한국·싱가포르·미국에서 Mac mini M4를 임대해 OpenClaw를 24/7 운영하면 127.0.0.1:18789의 게이트웨이는 프로덕션 인프라의 일부가 됩니다. Kubernetes에서는 이미 liveness와 readiness가 말해지지만, macOS + launchd만 있는 환경에서도 kubelet 없이 같은 규율이 필요합니다. 이 2026 가이드는 어떤 신호를 긁을지, 프로브 유형 비교표, 여섯 단계 런북, 그리고 침묵 실패와 페이저 피로를 모두 피하는 임계값을 정의합니다. 네트워크와 프로세스 층을 넘나드는 장애에는 게이트웨이 트러블슈팅, 구조화 로깅, 웹훅용 nginx 인그레스, Tailscale 메시 액세스를 함께 보세요.
“프로세스가 돈다”는 것이 헬스 체크가 아닌 이유
launchd는 게이트웨이가 멎었어도 종료 코드 0을 줄 수 있습니다. TLS 컨텍스트가 오래되었거나, 모델 공급자 DNS가 들쭉날쭉하거나, ~/.openclaw에 설정이 부분 기록된 경우입니다. 좋은 프로브는 고객 트래픽과 같은 코드 경로—HTTP 핸들러, 인증 미들웨어, 선택적 다운스트림 모델 핑—를 돌리면서 유료 API를 난타하지 않습니다.
- Liveness는 “게이트웨이를 재시작할까?”—저렴하게 60초마다.
- Readiness는 “로드밸런서가 트래픽을 보낼까?”—더 엄격하며 의존성 검사를 넣을 수 있음.
- Canary는 15분마다 합성 사용자 메시지를 보내 미세한 퇴행을 잡습니다. 토큰은 명시적으로 예산하세요.
온콜 주 전에 운영자가 그려야 할 최소 대시보드
프로덕션에서 에이전트를 돌리는 MacXCode 고객을 위한 최소한:
- 리버스 프록시가 앞에 있을 때 nginx
$request_time의 요청률 + p95 지연. - 오류율—
5xx를 전체로 나눔. 알려진 유지보수 창을 제외하고 5분 동안 2% 초과면 알림. - CPU가 85% 초과를 10분 유지—소형 인스턴스에서 열 스로틀 전조. M4는 드물지만 임베딩 burst는 스파이크.
- 루트 APFS 여유 공간 < 12 GB—
~/.openclaw/logs로테이션이 막힘.
프로브 유형: 각각이 증명하는 것
| 프로브 | 증명 | 비용 / 위험 |
|---|---|---|
127.0.0.1:18789에 TCP 연결 |
accept 루프 생존 | 신호 약함. 인증 실패 놓침 |
HTTP GET /health(빌드별 경로) |
HTTP 스택 + 설정 로드 | 권장 기준 liveness |
| 인증된 합성 채팅 | 모델 라우팅 + 자격 증명 | 토큰 소비. 카나리아로 저빈도 |
| 디스크 inode + 여유 공간 | 로그 로테이션 건강 | 저렴한 호스트 가드레일 |
여섯 단계 런북: 아무것도 없는 상태에서 PagerDuty 준비까지
- 베이스라인—깨끗한 부팅 후
openclaw gateway status출력을 git에 저장. - 프로브 스크립트—
--failcurl, 연결 타임아웃 3초. 실패 시 비영 종료. - launchd plist—
StartInterval60,ThrottleInterval로 폭주 방지, 통합 로그로. - 상관 ID—각 점검마다 ISO8601 타임스탬프를 로그에 남겨 nginx와 교차 검색.
- 알림 배선—연속 3회 실패만 pager, 단일 실패는 Slack만.
- 게임 데이—분기마다 의도적으로 게이트웨이를 kill하고 15분 SLO 대비 MTTR 측정.
curl -fsS --max-time 3 http://127.0.0.1:18789/health || exit 1
프로브가 Nginx와 Tailscale과 어떻게 합쳐지는가
nginx가 TLS를 종료하면 liveness는내부 URL에 대해 실행해 에지 오설정과 게이트웨이 버그를 분리합니다. tailnet 전용 배포에서는 Tailscale에서 probe 태그 장치에서 합성을 돌려 ACL 변경이 모니터를 가리지 않게 합니다.
노이즈를 줄이는 알림 임계값
| 조건 | 권장 창 | 심각도 |
|---|---|---|
| 프로브 연속 3회 실패 | 간격 60초면 약 3분 | 온콜 페이지 |
| 내부 1홉 p95 > 800 ms | 10분 지속 | 경고 티켓 |
| Canary LLM 실패 | 1회 | Slack + bridge 이슈 자동 생성 |
FAQ: macOS 클라우드 Mac의 프로브
| 질문 | 답변 |
|---|---|
| 프로브를 root로 실행해야 하나요? | 아니요—~/.openclaw를 소유한 동일 서비스 사용자로 권한 회귀를 잡으세요. |
| 2차 관찰자는 어디에 두나요? | 다른 리전의 MacXCode 노드나 기존 관측 VPC. 작은 witness는 요금으로 비교. |
| debug 켠 뒤 로그가 폭주하면? | 구조화 로깅 지침을 따르고 지원 창에서만 debug를. |
프로브 충실도에 Mac mini M4 베어메탈이 돕는 이유
호스트가 과할당으로 떨리면 합성 점검은 무의미합니다. 베어메탈 Mac mini M4는 curl+JSON 파싱에 안정 CPU, 로그 append에 예측 가능한 NVMe, 개발 중 게이트웨이와 같은 Apple Silicon 동작을 줍니다. MacXCode HK / JP / KR / SG / US로 사용자 근처에 관측점을 두면서 SSH 비상 절차는 도움말에 문서화하세요.
한 줄: OpenClaw를 다른 프로덕션 API처럼—SLO를 정의하고 프로브로 증명하며 마케팅이 “항상 켜짐”을 말하기 전에 장애를 리허설하세요. 카나리아가 매주 울면 요금으로 용량을 늘리세요.