Warum das Gateway nach einem npm-Upgrade zweimal neu starten?

Manche Releases lassen die Node-Modulauflösung bis zum zweiten Kaltstart „warm“—entspricht der Community-Mitigation bei veralteten globalen Referenzen.

Wo sollten Backups liegen?

Tarballs außerhalb des npm-Baums, z. B. datierte Archive neben der OPENCLAW_STATE_DIR-Dokumentation.

AI / Automation 22. April 2026

2026-04-22 OpenClaw npm-Upgrade, veraltete Modulreferenzen & Gateway-Neustart auf headless gemietetem Cloud-Mac

MacXCode Engineering-Team 22. April 2026 ~17 Min. Lesezeit

Betriebsteams, die OpenClaw als globale npm-Installation auf gemieteten Apple-Silicon-Macs betreiben, sehen nach Upgrades oft ein irritierendes Muster: openclaw --version zeigt das neue Semver, doch das Gateway lädt weiterhin ältere Module—Webhooks flattern, Kanäle verlieren Heartbeats, Logs verweisen auf gemischte Pfade. Dieser Artikel vom 2026-04-22 beschreibt ein Upgrade mit Stop zuerst, die doppelte Neustart-Mitigation im Einklang mit Community-Hinweisen zu veralteter Node-Auflösung sowie Rollback, passend zu Gateway-Upgrade & Rollback. Er ergänzt Onboarding & Daemon-Installation (Erststart) und Umgebung & Geheimnisse (Statuspfade).

Signale veralteter Module zum Protokollieren

Sammeln Sie Beweise, bevor Sie globale npm-Pakete ändern—Ihr späteres Ich beim Debuggen um 2:00 Uhr wird es schätzen.

Signal	Interpretation	Erfassungsbefehl
Gateway-Log zeigt zwei Semver-Strings	Binary aktualisiert, Worker importiert noch alten Baum	journalctl/stdout archivieren + `which openclaw`
Intermittierende ESM-Importfehler nach Upgrade	Gemischte `node_modules`-Auflösungspfade	`npm ls -g openclaw --all` + Gateway-Umgebungsdump
Erster Neustart gesund, Traffic wirkt dennoch falsch	Zweiter Neustart nötig, um Modulcache zu leeren	Zeitgestempelte Health-`curl`s auf `127.0.0.1`

Risiko quantifizieren: mindestens 3 frühere npm-Semver-Werte im Änderungsprotokoll, bei riskanten Upgrades 2 gesunde Gateways über Regionen, und 8–22 Minuten Wartungsfenster für npm- plus Gateway-Zyklen auf ausgelasteten Hosts einplanen.

Preflight-Snapshot & Backup

openclaw --version und node -v notieren (Ziel Node 22.16+ oder 24.x gemäß Upstream).
~/.openclaw als Tarball auf einen datierten Pfad außerhalb des globalen npm-Baums—wie in Gateway-Rollback.
launchd-Plist-Pfade exportieren, falls während Onboarding angepasst.
OPENCLAW_STATE_DIR und Geheimnis-Präzedenz per launchd-Umgebung prüfen.

Stop → Upgrade → Neustart (Reihenfolge zählt)

Erlauben Sie npm nicht, Globales zu überschreiben, solange das Gateway noch Dateisperren auf transpilierten Modulen hält. Zuerst Dienst stoppen, dann upgraden, dann neu starten—wie für jeden Node-Daemon in Produktion auf macOS.

openclaw gateway stop && npm install -g openclaw@latest && openclaw gateway start

Zuerst Doctor: Wenn Warnungen zu doppelten LaunchAgents erscheinen, Plist-Wildwuchs vor dem Upgrade bereinigen—sonst starten Sie den falschen Prozessbaum neu.

Doppelter Gateway-Neustart bei veralteten Modulen

Wenn Health-Checks weiter gemischte Versionen zeigen, einen zweiten sauberen Neustart ausführen: stoppen, auf Socket-Leerung warten, starten, lokale Probes erneut fahren. Das entspricht öffentlich diskutierten Mustern bei globalen npm-Upgrades, bei denen Node die veraltete Auflösung bis zum zweiten Kaltstart behält. Zwischen den Neustarts nginx-Upstreams nicht voreilig umschalten—Health-Probes abwarten, bevor HK / JP / KR / SG / US-Traffic wieder freigegeben wird.

Was zwischen den Neustarts beobachten

In der Ruhephase lauschende Ports erfassen (lsof -nP -iTCP -sTCP:LISTEN auf Gateway-Port gefiltert), prüfen, dass keine verwaisten node-Kinder bleiben, und Inode-Druck auf dem Volume mit dem globalen npm-Prefix prüfen. Teams, die das überspringen, „gewinnen“ oft beim ersten Neustart und liefern dennoch gemischte Modulgraphen, weil ein langlebiger Worker SIGTERM überlebt hat. Zeitstempel dokumentieren: mindestens 45–90 Sekunden zwischen Stop und Start auf ausgelasteten Hosts, 120 Sekunden, wenn Antivirus oder Indizierungsdienste um dieselben Pfade konkurrieren—häufig auf geteilten Build-Maschinen.

Anwendungslogs mit Systemlast korrelieren: bleibt load average während des Neustarts über 4× Kernzahl, Ingress erst wieder öffnen, wenn die CPU beruhigt ist—sonst flackern Health-Checks aus Gründen jenseits von npm. Für Chat-Bridges nach jedem Neustart eine synthetische Noop-Nachricht über Staging-Webhooks schicken, um Ende-zu-Ende-Lieferung zu beweisen, bevor die Route in Produktions-DNS geht.

Schließlich npm global root (npm root -g) und aufgelöstes Binary (which openclaw) ins Ticket—bei Semver-Divergenz fängt der Vergleich dieser Pfade Symlink-Drift früh. Betreiber mit mehreren Regionen die Checkliste pro Host wiederholen; unterschiedliche globale Prefixe zwischen JP- und US-Knoten sind eine häufige Quelle für „nur in einem DC“-Meldungen nach Upgrades.

Health, Logs und Ingress erneut aktivieren

Nach dem zweiten Neustart validieren:

Lokales curl gegen Admin-/Health-Endpunkte mit erwarteten JSON-Feldern.
Strukturierte Log-Kontinuität gemäß Produktions-Logging.
Ingress-TLS und Webhook-Pfade per nginx Reverse Proxy.

Validierung mit Negativtests erweitern: Downstream-Token in einem Sandbox-Agenten absichtlich brechen, damit Fehleroberflächen zu den String-Templates des neuen Builds passen—gemischte Semver zeigen sich oft zuerst in leicht anderer Fehlertextur. Mindestens fünf Basismetriken (p50/p95-Latenz, Fehlerrate, Queue-Tiefe, CPU, RSS) 15 Minuten nach der Änderung halten und mit Vorher-Vergleichen abgleichen; ohne Historie Dashboards vor npm anlegen.

Rollback, wenn Semver nicht konvergiert

Wenn doppelte Neustarts scheitern, letztes bekanntes gutes Semver per npm erneut installieren, Tarball von ~/.openclaw wiederherstellen und Gateway-Startsequenz wiederholen. Vorfall mit npm- und OpenClaw-Versionen für Support-Threads dokumentieren. Für Mesh-Zugriff in der Recovery-Phase: Tailscale-Mesh.

Szenario	Rollback-Fokus	Erwartete Zeit
Patch-Level-npm-Regression	Vorherigen Patch mit npm pinnen	6–12 Min.
Konfig-Drift nach Upgrade	Tarball wiederherstellen + JSON-Schema validieren	12–25 Min.
Regionweiter Vorfall	Failover auf zweiten MacXCode-Knoten	abhängig von DNS/TTL

Kanalprobleme nach Upgrades können sich mit Sub-Agenten & Kanal-Troubleshooting überschneiden; Skills-Verpackung unterscheidet sich—bei Skill-Migrationen Skills & ClawHub lesen.

FAQ: npm + Gateway auf Cloud-Mac

Frage	Antwort
Wird pnpm unterstützt?	Wenn Ihre Organisation pnpm standardisiert, dieselbe Stop-zuerst-Disziplin; globale Prefixe in `PATH` klar halten.
Soll ich stattdessen dockerisieren?	Abwägungen in Docker vs. natives npm—beides geht; dieser Artikel zielt auf Bare-Metal-Miete.
Wo laufende Health überwachen?	Hilfe-Links für Support-Kanäle und synthetische Probes gemäß Produktionsleitfaden.

Warum Mac mini M4 der stabile Host für OpenClaw-npm-Upgrades ist

Mac mini M4-Bare-Metal-Knoten liefern deterministische Kaltstartzeiten für Node-Gateways—wichtig, wenn Sie Dienste bewusst zweimal neu starten. Gegenüber überbuchten VMs verbringen Sie weniger Zeit mit Phantom-„CPU steal“-Symptomen, die wie veraltete Module wirken. MacXCode-SSH-first-Zugriff in HK · JP · KR · SG · US, optional 1–2 TB NVMe für Workspaces und planbares Netzwerk vereinfachen doppelte Gateways für Blue/Green-Upgrades. Wenn npm-Tempo steigt, Kapazität über Preise nachlegen statt Experimente auf einem überlasteten Host zu stapeln.

OpenClaw auf dedizierten M4-Gateways betreiben

SSH · Mehrere Regionen · Agentenfreundlich

Kapazität mieten Deployment-Hilfe

Signale veralteter Module zum Protokollieren

Preflight-Snapshot & Backup

Stop → Upgrade → Neustart (Reihenfolge zählt)

Doppelter Gateway-Neustart bei veralteten Modulen

Was zwischen den Neustarts beobachten

Health, Logs und Ingress erneut aktivieren

Rollback, wenn Semver nicht konvergiert

Verwandte Runbooks

FAQ: npm + Gateway auf Cloud-Mac

Warum Mac mini M4 der stabile Host für OpenClaw-npm-Upgrades ist

OpenClaw auf dedizierten M4-Gateways betreiben