AI / Automation 14. April 2026

2026 OpenClaw Health-Probes & Readiness auf gemietetem Produktions-Cloud-Mac

MacXCode Engineering-Team 14. April 2026 ~11 Min. Lesezeit

OpenClaw rund um die Uhr auf einem gemieteten Mac mini M4 in Hongkong, Japan, Korea, Singapur oder den USA zu betreiben, macht das Gateway auf 127.0.0.1:18789 zum Teil der Produktionsinfrastruktur. Kubernetes-Teams sprechen bereits von Liveness und Readiness; macOS-Setups mit launchd brauchen dieselbe Disziplin ohne Kubelet. Dieser Leitfaden 2026 definiert welche Signale gezeichnet werden, eine Vergleichstabelle der Probentypen, ein sechsstufiges Runbook und Schwellen, die stilles Versagen und Pager-Müdigkeit vermeiden. Kombinieren Sie ihn mit Gateway-Troubleshooting, strukturiertem Logging, nginx-Ingress für Webhooks und Tailscale-Mesh-Zugriff, wenn Fehler Netz- und Prozessebenen überschreiten.

Warum „Prozess läuft“ kein Health-Check ist

launchd kann Exit-Code 0 melden, während das Gateway klemmt: veralteter TLS-Kontext, DNS-Flattern des Modellanbieters oder teilweise Schreibvorgänge unter ~/.openclaw. Gute Proben nutzen dieselben Pfade wie Kundenverkehr—HTTP-Handler, Auth-Middleware, optionale Downstream-Model-Pings—ohne kostenpflichtige APIs zu hämmern.

  • Liveness beantwortet „Gateway neu starten?“ — günstig, alle 60 Sekunden.
  • Readiness beantwortet „Load Balancer Traffic senden?“ — strenger, ggf. mit Abhängigkeitsprüfungen.
  • Canary sendet alle 15 Minuten eine synthetische Nutzernachricht; budgetieren Sie Tokens explizit.
Goldene Regel: niemals externe Monitore direkt auf öffentliches 18789 richten—TLS auf nginx beenden oder Prüfungen gemäß Tailscale-ACLs nur im Tailnet ausführen.

Signale vor der On-Call-Woche

Minimale Dashboards für MacXCode-Kunden in Produktion:

  • Anfragerate + p95-Latenz aus nginx $request_time, wenn ein Reverse-Proxy vorgeschaltet ist.
  • Fehlerquote5xx durch Gesamtanzahl; Alarm wenn > 2 % für 5 Minuten nach Ausschluss bekannter Wartungsfenster.
  • CPU dauerhaft > 85 % für 10 Minuten — oft Vorläufer thermischer Drossel auf kleinen Instanzen; M4 drosselt selten, aber Embedding-Spitzen kommen vor.
  • Freier Speicher < 12 GB auf dem Root-APFS-Volume — Logrotation unter ~/.openclaw/logs stockt bei knappem Dateisystem.

Probentypen: was jede beweist

Probe Beweist Kosten / Risiko
TCP zu 127.0.0.1:18789 Accept-Schleife lebendig Schwaches Signal; verfehlt Auth-Fehler
HTTP GET /health (Pfad je Build) HTTP-Stack + Config-Laden Empfohlene Baseline-Liveness
Authentisierter synthetischer Chat Model-Routing + Credentials Verbraucht Tokens; als Canary seltener
Inode + freier Speicher Logrotation gesund Günstige Host-Guardrail

Sechsstufiges Runbook: von null bis PagerDuty-bereit

  1. Baselineopenclaw gateway status nach sauberem Boot erfassen; in git ablegen.
  2. Proben-Skript — curl mit --fail und Connect-Timeout 3 Sekunden; bei Fehler nicht-null beenden.
  3. launchd-PlistStartInterval 60; ThrottleInterval gegen Stürme; einheitliches Log.
  4. Korrelations-IDs — ISO8601-Zeitstempel pro Check für Kreuzsuche mit nginx.
  5. Alarmverdrahtung — drei aufeinanderfolgende Fehler = Page; einzelner Fehler nur Slack.
  6. Game Day — vierteljährlich Gateway absichtlich killen, MTTR gegen 15-Minuten-SLO messen.

curl -fsS --max-time 3 http://127.0.0.1:18789/health || exit 1

Zusammenspiel mit Nginx und Tailscale

Wenn nginx TLS beendet, Liveness gegen die interne URL fahren, um Randfehlkonfiguration von Gateway-Bugs zu trennen. Bei reinem Tailnet-Betrieb Synthetik von einem probe-getaggten Tailscale-Gerät ausführen, damit ACL-Änderungen Monitore nicht still abschalten.

Schwellen ohne Lärm

Bedingung Vorgeschlagenes Fenster Schweregrad
3 aufeinanderfolgende Probenfehler ~3 Minuten bei 60s Intervall On-Call page
p95 > 800 ms interner Hop 10 Minuten anhaltend Warning-Ticket
Canary-LLM-Fehlschlag 1 Fehler Slack + Bridge-Issue
Token-Budget: Canary-Prompts auf 400 Completion-Tokens deckeln und das billigste Modellprofil nutzen, das Routing noch trainiert—Flaggschiffe für echte Nutzer.

FAQ: Proben auf macOS-Cloud-Macs

Frage Antwort
Sollen Proben als root laufen? Nein—denselben Service-User wie ~/.openclaw nutzen, um Berechtigungsregressionen zu sehen.
Wo sekundäre Beobachter hosten? Anderer MacXCode-Regionenknoten oder bestehendes Observability-VPC; kleine Witness-Instanz über Preise vergleichen.
Logs explodieren nach debug? Strukturiertes Logging befolgen—debug nur in Supportfenstern.

Warum Mac-mini-M4-Bare-Metal der Probentreue hilft

Synthetik nützt nichts, wenn der Host durch Oversubscription zittert. Bare-Metal-Mac mini M4 liefern stabile CPU für curl+JSON, planbares NVMe für Log-Append und dasselbe Apple-Silicon-Verhalten wie in der Entwicklung. MacXCode-Regionen HK / JP / KR / SG / US platzieren Beobachter nah bei Nutzern und halten SSH-Notfallzugriff in Hilfe dokumentiert.

Fazit: OpenClaw wie jede Produktions-API behandeln—SLOs definieren, mit Proben belegen, Ausfälle üben bevor Marketing „immer an“ verspricht. Wenn Canaries wöchentlich schlagen, Kapazität über Preise skalieren.

OpenClaw mit produktionsreifer Observability betreiben

M4-Knoten mieten · HK · JP · KR · SG · US · SSH / VNC