429 突發是否總是提供商問題？

常見原因是你打開功能開關後提高了並行或工具深度；在向模型廠商提工單前先確認本地佇列與權杖核算。

503 是否應與 429 同樣重試？

503 多表示短暫不可用：首次退避更短、總嘗試次數更少；若錯誤率超過約百分之二且持續超過五分鐘應告警。

AI / 自動化 2026年4月27日

2026-04-27 租用無頭雲端 Mac（HK / JP / KR / SG / US）上的 OpenClaw、上游 LLM HTTP 429/503、重試預算與依組織的出站請求整形

MacXCode 技術團隊 2026年4月27日約 19 分鐘閱讀

當 OpenClaw 全天候跑在僅透過 SSH 或偶爾 VNC 可見的租用 Mac mini M4 上時，最響的「限流」症狀幾乎總像模型壞了：聊天回覆卡頓、工具呼叫在 trace 中途失敗，然後有人質疑 API 金鑰是否被輪換。事實上，出站 LLM 提供商路徑上的 HTTP 429 與 HTTP 503，與你在 nginx 入站 Webhook 邊緣自己回傳的 429 不是一類事故，也與出站、DNS、TLS 韌性文章裡討論的斷路由不同。這份寫於2026-04-27的指南面向需要可重複區分「我們濫用提供商配額」與「對端服務降級」的 SRE 與資深工程師：包含數值化退避預設、閘道不可逾越的依組織重試預算，以及結構化 JSON 日誌今天就能索引的欄位。若同一台機器還承擔 Xcode 建置，請對照姊妹篇多版本 Xcode 與 CI 矩陣，區分建置工具鏈漂移與模型 HTTP 飽和兩類告警。

兩種「429」表面：你的 nginx 與對方的 API 閘道

在高雜訊日——重大模型發布、區域故障，或市場團隊的演示指令稿一次性拉起四十路並發技能——很容易混淆：（A）有意節流的入站 Webhook、（B）上游 429/503，以及 （C）金鑰錯誤或過期導致的 401/403。實用分流：看日誌裡的來源 IP（本機回環到程序埠對比公網邊緣）、提供商回顯的使用者代理或程式庫標籤，以及 retry-after（若有）是秒級小數字還是分鐘級長視窗。香港與東京的維運在 2026-04-27 這類日期尤其需要此拆分，因為企業代理可能對突發回傳 429 而模型廠商健康，反之亦然。請在日誌模式為每行打上 edge=inbound|outbound 標籤，日後會感謝自己。

數量錨點：若出站 5xx 或 429 佔所有 LLM 往返的比例在超過五分鐘內持續高於所有往返的大約百分之二，請按網路級事件開 sev-2 橋——不要當成「模型品質漂移」。

把該閾值寫進運行手冊並與值班手機聯動，可以避免「群裡吵翻天但監控靜默」的反模式；同時要在變更管理裡記錄誰有權暫時調高並行，以免事後無法解釋流量形狀突變。

HTTP 401/403 對比 429 對比 503/529：閘道應有不同動作

狀態碼	實務含義	預設維運姿態
`401` / `403`	憑證、白名單或組織不匹配——往往在設定變更前具有確定性	自動重試不超過零到一次探測；核對金鑰輪換與 launchd 儲存的機密。
`429`	提供商側節流或權杖/請求桶耗盡	帶抖動退避；在指責「OpenClaw 有 bug」之前先降低在途工作量。
`503` / `529`（因廠商而異）	過載或某區域/池不可用	首次延遲更短、更少總嘗試次數；若策略允許可切到備用模型（見模型白名單排查）。

請讓內部 HTTP 客戶端設定誠實：無腦重試 401 可能在提供商側觸發帳戶保護；對 503 從不退避則會把小故障放大成來自 10 Gbps 網卡 Mac 閘道的自我 DDoS。建議在程式碼審查清單裡強制檢查重試策略與狀態碼分支，避免複製貼上遺留隱患。

並行、權杖視窗與組織級預算（而非僅依工作階段）

多數「被限流」工單源於自傷式並發：launchd 定時任務與 Discord 或 Slack 工具呼叫高峰重疊，每路又平行發出比真人打字大得多的 HTTP 體。先修流量形狀：

將同時使用工具的多輪對話限制為可寫進策略的數字，例如每個閘道程序 四條在途上游 HTTP（若做本地模型路由仍需為 HTTP 路徑設上限，即使 Neural Engine 有卸載）。
用業務語言為依組織的每日權杖上限定尺寸（客服、市場、研發），不要只在一份 JSON 裡放全域 MAX_TOKENS。
在 cron/launchd 層錯開定時任務，避免在 UTC 整點 堆疊——當美國與歐洲工作日與 新加坡、日本區域重疊時尤其明顯。

組織級預算還應與財務對帳：把權杖消耗依成本中心匯總，才能在「買更大套餐」與「寫更好的提示詞」之間做資料驅動決策，而不是直覺加機器。

抖動、指數上限與牆時預算（三個具體數字）

採用值班同事故意能貼進工單的書面策略，而不是憑感覺：

首次 429 重試前抖動 0.4–1.2 秒，不要硬編碼零秒熱迴圈。
指數退避封頂在32–64 秒之間，即便廠商在事故中說「兩分鐘後再來」——更長空檔應交人工升級。
對使用者可見的聊天輪次，整段作業累計重試等待硬停在一百八十秒，否則使用者以為閘道「卡死」並在頻道洗版，製造另一層 429。

sleep $((2 + RANDOM % 3)) curl -sS -D - "https://api.example/v1/health" -o /dev/null | head -n1

預算拆分：Webhook 429/503 的重試策略與 LLM 策略應是不同 YAML 區塊——若複製貼上，會放大重複投遞或餓死一側。

手冊：圖表變黃時的六步

凍結 openclaw 套件發布，除非正在回滾；在事故規則下兩分鐘內同伴審查的設定-only 變更可放行。
用日誌中的入站/出站標籤歸類邊緣；若是出站 429，快照當前並行與依組織上限（複製時脫敏）。
縮減而非擴張：把平行工具執行器砍一半，觀察 p95 是否改善——若改善，說明佇列飢餓而非算力不足。
與出站與 DNS 基線對比：若 TLS 錯誤在同一時段上升，可能是傳輸失敗被客戶端誤標為 503。
在與守護程序相同環境中重跑 openclaw doctor，遵循 doctor/白名單手冊，捕捉偽裝成節流的環境陳舊或模型白名單問題。
事後複盤數位三件套：（1）峰值在途數；（2）429 佔請求百分比；（3）每次呼叫中位權杖——若（3）跳漲，多半是提示範本回退，而非提供商鍋。

日誌應包含什麼，讓 Grafana 或 Loki 一條查詢答完

至少輸出：ts、provider、route（補全對比嵌入）、attempt、status、若回傳則 request_id、以及牆時 ms。若能加 org 與 surface（聊天對比無頭批跑），就能把客戶可見 SLO 與批次工作分開。這與本機回環探針的就緒與探針一脈相承：維護視窗可加低開銷量「金絲雀」補全，只要權杖科目預先獲批。將事故與陳舊模組升級交叉連結，因為 Node HTTP 堆疊版本不一致時，隨機 5xx 很像限流。進一步地，把取樣率與保留期寫成資料治理文件的一部分，避免日誌爆炸反過來拖垮本機磁碟。

常見問題：節流、公平與值班信任

問題	一句話答案
預設修復是「買更多 API 配額」嗎？	業務持續成長時有時是，但先整形流量——自訂技能裡設定錯誤的平行 for-each 可能在數小時內燒光新配額。
是否需要在區域內第二台實體 Mac？	若 CPU 低而 HTTP 飽和，第二節點常比加大廠商支出便宜——見區域方案並依組織或環境拆分。

可與出站 DNS/TLS（傳輸真相）、入站 Webhook 與重試語意（另一類 429），以及症狀是「卡在 Discord」而非字面 HTTP 429 時的子代理頻道排查對照閱讀。環境佈線請繼續遵循 launchd 與 API 金鑰衛生。

為何 HK / JP / KR / SG / US 的 Mac mini M4 仍適合突發模型流量

OpenClaw 混合了突發 CPU（工具編排、偶爾的本地嵌入）與全天網卡負載（HTTP/2 流、重複 TLS 握手、網橋背景心跳）。實體 Mac mini M4 把這些工作負載放在可預測堆疊上：沒有管理程式在退避演算法所需的計時器品質上撒謊，且有足夠統一記憶體容納冗長 JSON 日誌緩衝，而不會像 8 GB 的 Linux 切片那樣 OOM 抖動。將閘道與行動 QA、Xcode 建置機群放在同一城域，也意味著 SSH、磁碟與支援時段只需維護一家供應商關係——先用證據簡化，再擴展到雙節點。

讓閘道跑在經得起重試的硬體上

1–2 TB · Apple Silicon · SSH 與選用 VNC

閱讀維運說明與 SSH 查看區域 Mac 方案

兩種「429」表面：你的 nginx 與對方的 API 閘道

HTTP 401/403 對比 429 對比 503/529：閘道應有不同動作

並行、權杖視窗與組織級預算（而非僅依工作階段）

抖動、指數上限與牆時預算（三個具體數字）

手冊：圖表變黃時的六步

日誌應包含什麼，讓 Grafana 或 Loki 一條查詢答完

常見問題：節流、公平與值班信任

同一無頭節點上的延伸閱讀

為何 HK / JP / KR / SG / US 的 Mac mini M4 仍適合突發模型流量

讓閘道跑在經得起重試的硬體上