AI / Automation 14 апреля 2026

2026 Проверки здоровья и готовности OpenClaw на арендованном продакшн облачном Mac

MacXCode Engineering Team 14 апреля 2026 ~11 мин чтения

Круглосуточный OpenClaw на арендованном Mac mini M4 в Гонконге, Японии, Корее, Сингапуре или США делает шлюз на 127.0.0.1:18789 частью продакшн-инфраструктуры. В Kubernetes уже говорят про liveness и readiness; связка macOS + launchd требует той же дисциплины без kubelet. Этот гайд 2026 задаёт какие сигналы снимать, таблицу типов проб, шестишаговый runbook и пороги оповещений без тихих сбоев и выгорания дежурных. Сочетайте с разбором проблем шлюза, структурированным логированием, nginx ingress для webhooks и безопасным доступом через Tailscale, если сбои охватывают сеть и процессы.

Почему «процесс запущен» — это не health check

launchd может вернуть код 0, пока шлюз завис: устаревший TLS, флап DNS провайдера моделей или частичные записи в ~/.openclaw. Хорошие пробы проходят те же пути, что и пользовательский трафик—HTTP-обработчики, middleware авторизации, опциональные пинги моделей—не ддося платные API.

  • Liveness отвечает «перезапускать шлюз?» — дёшево, каждые 60 секунд.
  • Readiness — «пускать ли трафик с балансировщика?» — строже, можно включить проверки зависимостей.
  • Canary шлёт синтетическое пользовательское сообщение каждые 15 минут; токены бюджетируйте явно.
Золотое правило: не направляйте внешние мониторы прямо на публичный 18789 — завершайте TLS на nginx или держите проверки в tailnet по ACL Tailscale.

Сигналы для графиков до недели дежурств

Минимальные дашборды для клиентов MacXCode в проде:

  • RPS + p95 из nginx $request_time, если перед шлюзом reverse proxy.
  • Доля ошибок5xx к общему числу; алерт если > 2% в течение 5 минут после исключения окон обслуживания.
  • CPU > 85% 10 минут подряд — часто предшествует троттлингу на малых инстансах; у M4 редко, но всплески embedding бывают.
  • Свободно < 12 ГБ на корневом APFS — ротация ~/.openclaw/logs стопорится при нехватке места.

Типы проб: что доказывает каждая

Проба Доказывает Стоимость / риск
TCP к 127.0.0.1:18789 Жив цикл accept Слабый сигнал; не видит auth-провалы
HTTP GET /health (путь по билду) HTTP-стек + загрузка конфигурации Рекомендуемая базовая liveness
Аутентифицированный синтетический чат Маршрутизация моделей + учётные данные Жрёт токены; canary реже
Inode + свободное место Здоровье ротации логов Дёшевый host-level guardrail

Шестишаговый runbook: от нуля до готовности к PagerDuty

  1. База — после чистой загрузки сохранить вывод openclaw gateway status в git.
  2. Скрипт пробы — curl с --fail, connect-timeout 3 с; при ошибке ненулевой exit.
  3. launchd plistStartInterval 60; ThrottleInterval от штормов; единый лог.
  4. Корреляционные ID — ISO8601 на каждую проверку для скрещивания с nginx.
  5. Алерты — три подряд неудачи = page; одна = только Slack.
  6. Game day — ежеквартально убить шлюз намеренно, измерить MTTR к SLO 15 минут.

curl -fsS --max-time 3 http://127.0.0.1:18789/health || exit 1

Как пробы сочетаются с Nginx и Tailscale

Если nginx завершает TLS, liveness бейте по внутреннему URL, чтобы отделить косяки периметра от багов шлюза. В tailnet-only запускайте синтетику с устройства Tailscale с тегом probe, чтобы смена ACL не отключила мониторинг незаметно.

Пороги без шума

Условие Окно Серьёзность
3 подряд провала пробы ~3 мин при интервале 60 с Page дежурному
p95 > 800 ms на внутреннем hop 10 минут подряд Предупреждающий тикет
Провал canary LLM 1 раз Slack + авто-issue в bridge
Бюджет токенов: лимит canary completion 400 токенов и самый дешёвый профиль модели, который всё ещё качает маршрутизацию — флагманы оставьте реальным пользователям.

FAQ: пробы на облачных Mac с macOS

Вопрос Ответ
Запускать пробы от root? Нет — тем же сервисным пользователем, что владеет ~/.openclaw, чтобы ловить регрессии прав.
Где вторичные наблюдатели? Узел MacXCode в другом регионе или ваш VPC наблюдаемости; маленький witness — см. цены.
Логи взорвались после debug? Следуйте структурированному логированию — debug только в окнах поддержки.

Почему bare metal Mac mini M4 помогает точности проб

Синтетика бесполезна, если хост дёргается от оверсабскрипшна. Bare-metal Mac mini M4 даёт ровный CPU для curl+JSON, предсказуемый NVMe для append логов и то же поведение Apple Silicon, что в разработке. Регионы MacXCode HK / JP / KR / SG / US позволяют держать наблюдателей рядом с аудиторией и оформить SSH-аварийный доступ в справке.

Итог: относитесь к OpenClaw как к любому продакшн API — задайте SLO, докажите пробами, репетируйте сбои до обещаний маркетинга «всегда онлайн». Если canary чешется каждую неделю — масштабируйте через цены.

Запускайте OpenClaw с продакшн-наблюдаемостью

Аренда узлов M4 · HK · JP · KR · SG · US · SSH / VNC