Сотрёт ли перезапуск шлюза переписки?

Зависит от настроек персистентности: OPENCLAW_STATE_DIR — источник истины; не удаляйте его при апгрейдах без резервной tarball-копии.

Должны ли checkpoints лежать рядом с DerivedData CI?

Нет — держите состояние ассистента на отдельных томах APFS или в каталогах, чтобы задачи очистки не затронули его.

ИИ / Автоматизация 8 мая 2026

2026-05-08 checkpoints состояния сессии OpenClaw и восстановление после перезапуска шлюза на безголовом арендованном облачном Mac Apple Silicon (HK / JP / KR / SG / US)

MacXCode Engineering Team 8 мая 2026 Чтение ~23 мин

Операторы наконец-то стабилизировали health-probes — затем во время апгрейда npm launchctl перезапустил шлюз, и Slack засиял сообщениями вроде «бот всё забыл». На самом деле модель ничего не забыла; сместились границы персистентности, потому что OPENCLAW_STATE_DIR не был снят в архив или уборка удалила scratch рядом с артефактами CI. На арендованных узлах Mac mini M4 в Гонконге, Токио, Сеуле, Сингапуре и США решение — процедуры: считать остатки сессий состоянием data-plane так же серьёзно, как ключи подписи. В этом гайде 2026-05-08 — как каталоги checkpoint сочетаются с окружениями launchd, как отрабатывать восстановление на синтетическом трафике и как связать сигналы из структурированного логирования, triage KeepAlive, апгрейда и отката шлюза и новых политик плагина передачи файлов, чтобы перезапуски стали скучными.

Почему перезапуски шлюза всё ещё застают дежурных врасплох

OpenClaw сочетает быстрые итерации с долговечной автоматизацией. Когда эти слои сталкиваются — postinstall-хуки npm меняют глобальные пакеты, инженер заходит по SSH под тем же пользователем, что и CI, — процесс шлюза может перезапуститься «чисто», но подгрузить другую семантику окружения. Без дисциплины checkpoint вы теряете не только транскрипты чатов, но и кэши дедупликации webhook и allowlist инструментов. Зафиксируйте ожидаемую персистентность прямо в том же README, где описаны метки launchctl.

Золотое правило: во время инцидентов не запускайте rm -rf по каталогам состояния — сначала снимок, затем diff.

Анатомия `OPENCLAW_STATE_DIR`

Мыслите слоями:

Подсказки сессии — разговорный каркас, который операторы ожидают после reconnect.
Кэши инструментов — ограниченные метаданные, которые должны пережить короткие паузы шлюза.
Учёт webhook — ключи дедупликации против двойного выполнения.

По возможности монтируйте или ограничивайте ACL каждый слой, чтобы CI-«уборщики» не поднялись вверх до состояния ассистента. Для общего UID следуйте рекомендациям из параллельных линий CI.

launchd: ThrottleInterval, коды выхода, повторные запуски

launchd может перезапустить шлюз быстрее, чем заметят люди, — особенно при агрессивной политике KeepAlive. Дополните этот текст triage повторных запусков: логируйте коды выхода, убеждайтесь, что ThrottleInterval режет тугие циклы падений, а StandardOutPath сохраняет разделение stderr. После правок plist всегда гоните матрицу curl из health-probes, прежде чем объявлять победу.

Playbook checkpoint перед окнами обслуживания

Заморозка: зафиксируйте pin npm/Mint; экспортируйте дерево зависимостей.
Снимок: OPENCLAW_STATE_DIR через tar или снимки APFS, если разрешено.
Уведомление: предупредите провайдеров webhook о возможных дублях во время replay-тестов.
Перезапуск: шлюз через launchctl kickstart, а не случайный kill -9.
Проверка: ключи дедупликации снова заполняются при синтетических входящих событиях.

Публикуйте фактическое время по шагам, чтобы финансы могли сравнить аренду дополнительного witness-узла с риском более длинного MTTR инцидента.

Матрица отказов

Симптом	Вероятная причина	Смягчение
Дубли писем клиентам после перезапуска	Кэш дедупликации очищен	Webhook-ID, безопасные к replay + внешний журнал
Отказы инструментов после апгрейда	Файлы политик не мигрированы	Версионированные allowlist по доке плагина
Выше RSS после перезапуска	Бандл skills загрузился дважды	Сравнить `npm ls` с tarball-бэкапом

Плагины и близость к передаче файлов

Плагин передачи файлов от 2026-05-07 добавляет семантику ФС, которая должна пережить перезапуски: если allowlist живут только во временных переменных окружения, после перезапуска доступ сузится незаметно. Храните политики под деревом состояния в Git или запечатанных конфигах. Сочетайте с дисциплиной чанков, чтобы возобновлённые сессии не порождали огромные выборки.

Безопасность: checkpoints могут содержать фрагменты клиентских данных — шифруйте off-host-бэкапы при регулируемых данных.

Структурированные логи и ID корреляции

Каждое событие шлюза должно нести id сессии, счётчик поколения шлюза и nonce перезапуска, чтобы в Grafana разделять окна до/после «отскока». Связывайте логи с краем nginx по гайду reverse proxy, когда входящие пики возникают при replay-тестах.

Восьмишаговый runbook восстановления

Детект перезапуска по времени старта процесса против дрейфа heartbeat.
Сравнить хэш tarball каталога состояния с живой ФС.
Синтетический CLI-диалог против staging-канала.
Повторить образец webhook с токенами идемпотентности.
Проверить политики плагинов: нежелательные корни по-прежнему отвергаются.
При подозрении на порчу — зафиксировать восстановительный pin npm.
Зафиксировать таймлайн инцидента с nonce перезапуска.
Запланировать ретро: сокращает ли witness-узел MTTR.

Таблица SLO

Сигнал	Порог	Действие
Ошибки возобновления сессии	> 0,5% reconnects	Заморозить деплой; аудит окружения plist
Коллизии дедупликации	Любой дубль побочных эффектов	Проверка целостности журнала replay
Возраст tarball checkpoint	старее 36 ч	Автоночные задачи снимков

FAQ

Вопрос	Практический ответ (2026-05-08)
Поддерживаются ли снимки ZFS/APFS?	Если аренда позволяет — согласуйте с провайдером; иначе tarball в объектное хранилище.
Синхронизировать checkpoints между регионами?	Нет — сессии региональны; реплицируйте конфигурацию, а не живые кэши чатов.

Почему Mac mini M4 подходит для stateful-шлюзов

Единая память и быстрый NVMe делают снимки checkpoint и сравнение tarball управляемыми под давлением инцидента — предсказуемое железо важнее «шумных соседей», когда нужно diff’ить деревья состояния на гигабайты. Бюджет — рядом с региональными ценами; онбординг — в справке и опционально VNC, когда GUI-согласие неизбежно.

Арендуйте witness-узлы, пока сессии не стали общей судьбой

HK / JP / KR / SG / US · SSH · опционально VNC

Сравнить регионы Гайд по доступу

Почему перезапуски шлюза всё ещё застают дежурных врасплох

Анатомия OPENCLAW_STATE_DIR

launchd: ThrottleInterval, коды выхода, повторные запуски

Playbook checkpoint перед окнами обслуживания

Матрица отказов

Плагины и близость к передаче файлов

Структурированные логи и ID корреляции

Восьмишаговый runbook восстановления

Таблица SLO

FAQ

Почему Mac mini M4 подходит для stateful-шлюзов

Арендуйте witness-узлы, пока сессии не стали общей судьбой

Анатомия `OPENCLAW_STATE_DIR`