2026 Проверки здоровья и готовности OpenClaw на арендованном продакшн облачном Mac
Круглосуточный OpenClaw на арендованном Mac mini M4 в Гонконге, Японии, Корее, Сингапуре или США делает шлюз на 127.0.0.1:18789 частью продакшн-инфраструктуры. В Kubernetes уже говорят про liveness и readiness; связка macOS + launchd требует той же дисциплины без kubelet. Этот гайд 2026 задаёт какие сигналы снимать, таблицу типов проб, шестишаговый runbook и пороги оповещений без тихих сбоев и выгорания дежурных. Сочетайте с разбором проблем шлюза, структурированным логированием, nginx ingress для webhooks и безопасным доступом через Tailscale, если сбои охватывают сеть и процессы.
Почему «процесс запущен» — это не health check
launchd может вернуть код 0, пока шлюз завис: устаревший TLS, флап DNS провайдера моделей или частичные записи в ~/.openclaw. Хорошие пробы проходят те же пути, что и пользовательский трафик—HTTP-обработчики, middleware авторизации, опциональные пинги моделей—не ддося платные API.
- Liveness отвечает «перезапускать шлюз?» — дёшево, каждые 60 секунд.
- Readiness — «пускать ли трафик с балансировщика?» — строже, можно включить проверки зависимостей.
- Canary шлёт синтетическое пользовательское сообщение каждые 15 минут; токены бюджетируйте явно.
18789 — завершайте TLS на nginx или держите проверки в tailnet по ACL Tailscale.
Сигналы для графиков до недели дежурств
Минимальные дашборды для клиентов MacXCode в проде:
- RPS + p95 из nginx
$request_time, если перед шлюзом reverse proxy. - Доля ошибок —
5xxк общему числу; алерт если > 2% в течение 5 минут после исключения окон обслуживания. - CPU > 85% 10 минут подряд — часто предшествует троттлингу на малых инстансах; у M4 редко, но всплески embedding бывают.
- Свободно < 12 ГБ на корневом APFS — ротация
~/.openclaw/logsстопорится при нехватке места.
Типы проб: что доказывает каждая
| Проба | Доказывает | Стоимость / риск |
|---|---|---|
TCP к 127.0.0.1:18789 |
Жив цикл accept | Слабый сигнал; не видит auth-провалы |
HTTP GET /health (путь по билду) |
HTTP-стек + загрузка конфигурации | Рекомендуемая базовая liveness |
| Аутентифицированный синтетический чат | Маршрутизация моделей + учётные данные | Жрёт токены; canary реже |
| Inode + свободное место | Здоровье ротации логов | Дёшевый host-level guardrail |
Шестишаговый runbook: от нуля до готовности к PagerDuty
- База — после чистой загрузки сохранить вывод
openclaw gateway statusв git. - Скрипт пробы — curl с
--fail, connect-timeout 3 с; при ошибке ненулевой exit. - launchd plist —
StartInterval60;ThrottleIntervalот штормов; единый лог. - Корреляционные ID — ISO8601 на каждую проверку для скрещивания с nginx.
- Алерты — три подряд неудачи = page; одна = только Slack.
- Game day — ежеквартально убить шлюз намеренно, измерить MTTR к SLO 15 минут.
curl -fsS --max-time 3 http://127.0.0.1:18789/health || exit 1
Как пробы сочетаются с Nginx и Tailscale
Если nginx завершает TLS, liveness бейте по внутреннему URL, чтобы отделить косяки периметра от багов шлюза. В tailnet-only запускайте синтетику с устройства Tailscale с тегом probe, чтобы смена ACL не отключила мониторинг незаметно.
Пороги без шума
| Условие | Окно | Серьёзность |
|---|---|---|
| 3 подряд провала пробы | ~3 мин при интервале 60 с | Page дежурному |
| p95 > 800 ms на внутреннем hop | 10 минут подряд | Предупреждающий тикет |
| Провал canary LLM | 1 раз | Slack + авто-issue в bridge |
FAQ: пробы на облачных Mac с macOS
| Вопрос | Ответ |
|---|---|
| Запускать пробы от root? | Нет — тем же сервисным пользователем, что владеет ~/.openclaw, чтобы ловить регрессии прав. |
| Где вторичные наблюдатели? | Узел MacXCode в другом регионе или ваш VPC наблюдаемости; маленький witness — см. цены. |
| Логи взорвались после debug? | Следуйте структурированному логированию — debug только в окнах поддержки. |
Почему bare metal Mac mini M4 помогает точности проб
Синтетика бесполезна, если хост дёргается от оверсабскрипшна. Bare-metal Mac mini M4 даёт ровный CPU для curl+JSON, предсказуемый NVMe для append логов и то же поведение Apple Silicon, что в разработке. Регионы MacXCode HK / JP / KR / SG / US позволяют держать наблюдателей рядом с аудиторией и оформить SSH-аварийный доступ в справке.
Итог: относитесь к OpenClaw как к любому продакшн API — задайте SLO, докажите пробами, репетируйте сбои до обещаний маркетинга «всегда онлайн». Если canary чешется каждую неделю — масштабируйте через цены.
Запускайте OpenClaw с продакшн-наблюдаемостью
Аренда узлов M4 · HK · JP · KR · SG · US · SSH / VNC