2026 OpenClaw Health-Probes & Readiness auf gemietetem Produktions-Cloud-Mac
OpenClaw rund um die Uhr auf einem gemieteten Mac mini M4 in Hongkong, Japan, Korea, Singapur oder den USA zu betreiben, macht das Gateway auf 127.0.0.1:18789 zum Teil der Produktionsinfrastruktur. Kubernetes-Teams sprechen bereits von Liveness und Readiness; macOS-Setups mit launchd brauchen dieselbe Disziplin ohne Kubelet. Dieser Leitfaden 2026 definiert welche Signale gezeichnet werden, eine Vergleichstabelle der Probentypen, ein sechsstufiges Runbook und Schwellen, die stilles Versagen und Pager-Müdigkeit vermeiden. Kombinieren Sie ihn mit Gateway-Troubleshooting, strukturiertem Logging, nginx-Ingress für Webhooks und Tailscale-Mesh-Zugriff, wenn Fehler Netz- und Prozessebenen überschreiten.
Warum „Prozess läuft“ kein Health-Check ist
launchd kann Exit-Code 0 melden, während das Gateway klemmt: veralteter TLS-Kontext, DNS-Flattern des Modellanbieters oder teilweise Schreibvorgänge unter ~/.openclaw. Gute Proben nutzen dieselben Pfade wie Kundenverkehr—HTTP-Handler, Auth-Middleware, optionale Downstream-Model-Pings—ohne kostenpflichtige APIs zu hämmern.
- Liveness beantwortet „Gateway neu starten?“ — günstig, alle 60 Sekunden.
- Readiness beantwortet „Load Balancer Traffic senden?“ — strenger, ggf. mit Abhängigkeitsprüfungen.
- Canary sendet alle 15 Minuten eine synthetische Nutzernachricht; budgetieren Sie Tokens explizit.
18789 richten—TLS auf nginx beenden oder Prüfungen gemäß Tailscale-ACLs nur im Tailnet ausführen.
Signale vor der On-Call-Woche
Minimale Dashboards für MacXCode-Kunden in Produktion:
- Anfragerate + p95-Latenz aus nginx
$request_time, wenn ein Reverse-Proxy vorgeschaltet ist. - Fehlerquote —
5xxdurch Gesamtanzahl; Alarm wenn > 2 % für 5 Minuten nach Ausschluss bekannter Wartungsfenster. - CPU dauerhaft > 85 % für 10 Minuten — oft Vorläufer thermischer Drossel auf kleinen Instanzen; M4 drosselt selten, aber Embedding-Spitzen kommen vor.
- Freier Speicher < 12 GB auf dem Root-APFS-Volume — Logrotation unter
~/.openclaw/logsstockt bei knappem Dateisystem.
Probentypen: was jede beweist
| Probe | Beweist | Kosten / Risiko |
|---|---|---|
TCP zu 127.0.0.1:18789 |
Accept-Schleife lebendig | Schwaches Signal; verfehlt Auth-Fehler |
HTTP GET /health (Pfad je Build) |
HTTP-Stack + Config-Laden | Empfohlene Baseline-Liveness |
| Authentisierter synthetischer Chat | Model-Routing + Credentials | Verbraucht Tokens; als Canary seltener |
| Inode + freier Speicher | Logrotation gesund | Günstige Host-Guardrail |
Sechsstufiges Runbook: von null bis PagerDuty-bereit
- Baseline —
openclaw gateway statusnach sauberem Boot erfassen; in git ablegen. - Proben-Skript — curl mit
--failund Connect-Timeout 3 Sekunden; bei Fehler nicht-null beenden. - launchd-Plist —
StartInterval60;ThrottleIntervalgegen Stürme; einheitliches Log. - Korrelations-IDs — ISO8601-Zeitstempel pro Check für Kreuzsuche mit nginx.
- Alarmverdrahtung — drei aufeinanderfolgende Fehler = Page; einzelner Fehler nur Slack.
- Game Day — vierteljährlich Gateway absichtlich killen, MTTR gegen 15-Minuten-SLO messen.
curl -fsS --max-time 3 http://127.0.0.1:18789/health || exit 1
Zusammenspiel mit Nginx und Tailscale
Wenn nginx TLS beendet, Liveness gegen die interne URL fahren, um Randfehlkonfiguration von Gateway-Bugs zu trennen. Bei reinem Tailnet-Betrieb Synthetik von einem probe-getaggten Tailscale-Gerät ausführen, damit ACL-Änderungen Monitore nicht still abschalten.
Schwellen ohne Lärm
| Bedingung | Vorgeschlagenes Fenster | Schweregrad |
|---|---|---|
| 3 aufeinanderfolgende Probenfehler | ~3 Minuten bei 60s Intervall | On-Call page |
| p95 > 800 ms interner Hop | 10 Minuten anhaltend | Warning-Ticket |
| Canary-LLM-Fehlschlag | 1 Fehler | Slack + Bridge-Issue |
FAQ: Proben auf macOS-Cloud-Macs
| Frage | Antwort |
|---|---|
| Sollen Proben als root laufen? | Nein—denselben Service-User wie ~/.openclaw nutzen, um Berechtigungsregressionen zu sehen. |
| Wo sekundäre Beobachter hosten? | Anderer MacXCode-Regionenknoten oder bestehendes Observability-VPC; kleine Witness-Instanz über Preise vergleichen. |
| Logs explodieren nach debug? | Strukturiertes Logging befolgen—debug nur in Supportfenstern. |
Warum Mac-mini-M4-Bare-Metal der Probentreue hilft
Synthetik nützt nichts, wenn der Host durch Oversubscription zittert. Bare-Metal-Mac mini M4 liefern stabile CPU für curl+JSON, planbares NVMe für Log-Append und dasselbe Apple-Silicon-Verhalten wie in der Entwicklung. MacXCode-Regionen HK / JP / KR / SG / US platzieren Beobachter nah bei Nutzern und halten SSH-Notfallzugriff in Hilfe dokumentiert.
Fazit: OpenClaw wie jede Produktions-API behandeln—SLOs definieren, mit Proben belegen, Ausfälle üben bevor Marketing „immer an“ verspricht. Wenn Canaries wöchentlich schlagen, Kapazität über Preise skalieren.
OpenClaw mit produktionsreifer Observability betreiben
M4-Knoten mieten · HK · JP · KR · SG · US · SSH / VNC