AI / Automation 2026년 4월 14일

2026 프로덕션 임대 클라우드 Mac의 OpenClaw 헬스 프로브와 준비 상태 점검

MacXCode Engineering Team 2026년 4월 14일 약 11분 읽기

홍콩·일본·한국·싱가포르·미국에서 Mac mini M4를 임대해 OpenClaw를 24/7 운영하면 127.0.0.1:18789의 게이트웨이는 프로덕션 인프라의 일부가 됩니다. Kubernetes에서는 이미 livenessreadiness가 말해지지만, macOS + launchd만 있는 환경에서도 kubelet 없이 같은 규율이 필요합니다. 이 2026 가이드는 어떤 신호를 긁을지, 프로브 유형 비교표, 여섯 단계 런북, 그리고 침묵 실패와 페이저 피로를 모두 피하는 임계값을 정의합니다. 네트워크와 프로세스 층을 넘나드는 장애에는 게이트웨이 트러블슈팅, 구조화 로깅, 웹훅용 nginx 인그레스, Tailscale 메시 액세스를 함께 보세요.

“프로세스가 돈다”는 것이 헬스 체크가 아닌 이유

launchd는 게이트웨이가 멎었어도 종료 코드 0을 줄 수 있습니다. TLS 컨텍스트가 오래되었거나, 모델 공급자 DNS가 들쭉날쭉하거나, ~/.openclaw에 설정이 부분 기록된 경우입니다. 좋은 프로브는 고객 트래픽과 같은 코드 경로—HTTP 핸들러, 인증 미들웨어, 선택적 다운스트림 모델 핑—를 돌리면서 유료 API를 난타하지 않습니다.

  • Liveness는 “게이트웨이를 재시작할까?”—저렴하게 60초마다.
  • Readiness는 “로드밸런서가 트래픽을 보낼까?”—더 엄격하며 의존성 검사를 넣을 수 있음.
  • Canary15분마다 합성 사용자 메시지를 보내 미세한 퇴행을 잡습니다. 토큰은 명시적으로 예산하세요.
황금 규칙: 공용 인터넷의 18789에 외부 모니터를 직접 겨냥하지 말 것—nginx에서 TLS를 종료하거나 Tailscale ACL에 따라 tailnet 안에서만 검사하세요.

온콜 주 전에 운영자가 그려야 할 최소 대시보드

프로덕션에서 에이전트를 돌리는 MacXCode 고객을 위한 최소한:

  • 리버스 프록시가 앞에 있을 때 nginx $request_time요청률 + p95 지연.
  • 오류율5xx를 전체로 나눔. 알려진 유지보수 창을 제외하고 5분 동안 2% 초과면 알림.
  • CPU가 85% 초과10분 유지—소형 인스턴스에서 열 스로틀 전조. M4는 드물지만 임베딩 burst는 스파이크.
  • 루트 APFS 여유 공간 < 12 GB~/.openclaw/logs 로테이션이 막힘.

프로브 유형: 각각이 증명하는 것

프로브 증명 비용 / 위험
127.0.0.1:18789에 TCP 연결 accept 루프 생존 신호 약함. 인증 실패 놓침
HTTP GET /health(빌드별 경로) HTTP 스택 + 설정 로드 권장 기준 liveness
인증된 합성 채팅 모델 라우팅 + 자격 증명 토큰 소비. 카나리아로 저빈도
디스크 inode + 여유 공간 로그 로테이션 건강 저렴한 호스트 가드레일

여섯 단계 런북: 아무것도 없는 상태에서 PagerDuty 준비까지

  1. 베이스라인—깨끗한 부팅 후 openclaw gateway status 출력을 git에 저장.
  2. 프로브 스크립트--fail curl, 연결 타임아웃 3초. 실패 시 비영 종료.
  3. launchd plistStartInterval 60, ThrottleInterval로 폭주 방지, 통합 로그로.
  4. 상관 ID—각 점검마다 ISO8601 타임스탬프를 로그에 남겨 nginx와 교차 검색.
  5. 알림 배선—연속 3회 실패만 pager, 단일 실패는 Slack만.
  6. 게임 데이—분기마다 의도적으로 게이트웨이를 kill하고 15분 SLO 대비 MTTR 측정.

curl -fsS --max-time 3 http://127.0.0.1:18789/health || exit 1

프로브가 Nginx와 Tailscale과 어떻게 합쳐지는가

nginx가 TLS를 종료하면 liveness는내부 URL에 대해 실행해 에지 오설정과 게이트웨이 버그를 분리합니다. tailnet 전용 배포에서는 Tailscale에서 probe 태그 장치에서 합성을 돌려 ACL 변경이 모니터를 가리지 않게 합니다.

노이즈를 줄이는 알림 임계값

조건 권장 창 심각도
프로브 연속 3회 실패 간격 60초면 약 3분 온콜 페이지
내부 1홉 p95 > 800 ms 10분 지속 경고 티켓
Canary LLM 실패 1회 Slack + bridge 이슈 자동 생성
토큰 예산: 카나리아 프롬프트 completion을 400 토큰으로 캡하고 라우팅을 여전히 검증하는 가장 저렴한 모델 프로필을 사용—플래그십은 실제 사용자용으로 남깁니다.

FAQ: macOS 클라우드 Mac의 프로브

질문 답변
프로브를 root로 실행해야 하나요? 아니요—~/.openclaw를 소유한 동일 서비스 사용자로 권한 회귀를 잡으세요.
2차 관찰자는 어디에 두나요? 다른 리전의 MacXCode 노드나 기존 관측 VPC. 작은 witness는 요금으로 비교.
debug 켠 뒤 로그가 폭주하면? 구조화 로깅 지침을 따르고 지원 창에서만 debug를.

프로브 충실도에 Mac mini M4 베어메탈이 돕는 이유

호스트가 과할당으로 떨리면 합성 점검은 무의미합니다. 베어메탈 Mac mini M4curl+JSON 파싱에 안정 CPU, 로그 append에 예측 가능한 NVMe, 개발 중 게이트웨이와 같은 Apple Silicon 동작을 줍니다. MacXCode HK / JP / KR / SG / US로 사용자 근처에 관측점을 두면서 SSH 비상 절차는 도움말에 문서화하세요.

한 줄: OpenClaw를 다른 프로덕션 API처럼—SLO를 정의하고 프로브로 증명하며 마케팅이 “항상 켜짐”을 말하기 전에 장애를 리허설하세요. 카나리아가 매주 울면 요금으로 용량을 늘리세요.

프로덕션급 관측 가능성으로 OpenClaw 실행

M4 노드 임대 · HK · JP · KR · SG · US · SSH / VNC