AI / 自動化

2026-05-23 租用 Mac mini M4Codex CLI 對比 Claude Code 基準測試(港 / 日 / 韓 / 新 / 美

租用 Mac mini M4 上 Codex CLI 與 Claude Code 基準測試

對已在 SSH-only Apple Silicon 主機上交付 iOS 建置的平台團隊而言,終端原生編碼 Agent 已是標配。2026 年 5 月,我們在與生產 CI 相同的租用 Mac mini M4 規格上,對 Codex CLIClaude Code 進行對照測試——衡量 Terminal-Bench 通過率、牆鐘時間與成功任務的計費 Token。核心數據:77.3%65.4%(固定子集),Codex CLI 成功任務的中位 Token 約為 Claude Code 的 四分之一。本文記錄硬體、方法、完整矩陣,以及如何把工作負載放在港 / 日 / 韓 / 新 / 美節點,而不必再添一台桌面 Mac。台灣團隊可透過租用節點做兩週 bake-off,避免把評測綁在辦公室實體機上。

揭露:MacXCode 即本文所述 Mac 租用服務提供方。定價資料來自 MacXCode 公開價目與 Apple 官網。

為何用 Mac mini M4 做 AI CLI 基準

Agent CLI 不是 GPU 訓練負載,但對單執行緒延遲、NVMe 暫存 I/O 與穩定 macOS 工具鏈很敏感。Mac mini M4 規格(10 核 CPU、16 GB 統一記憶體基線、PCIe SSD)與我們在裸金屬租用池中的配置一致:無嘈雜鄰居 VM、可預期的 gitripgrep 效能,且與現有 Xcode 流水線同架構。評估 Mac mini M4 租用還是購買 的團隊,應把 M4 視為共享建構層,而非一次性筆電替代。

  • 統一記憶體 — 並行 Agent 與輕量編譯可共處一顆晶片,無需獨立 GPU。
  • Apple Silicon 原生路徑 — arm64 CLI 與 Homebrew 瓶減少 Rosetta 意外。
  • 區域一致性 — 香港、日本、韓國、新加坡、美國池使用相同 M4 SKU,便於公平比較延遲。

基準方法(Terminal-Bench、Token、重試)

兩款工具針對凍結的 Terminal-Bench 子集(Shell 修復、修補套用、測試探索、小重構)在私有 harness 儲存庫中執行。每任務最多 3 輪 Agent,重試與逾時策略一致;超限失敗計入通過率。硬體為生產級 Mac mini M4,16 GB,512 GB SSD,macOS 15.x,全新使用者主目錄,無 GUI 工作階段。出站流量走主機區域預設路徑存取模型 API。台灣團隊若從本地 SSH 至海外節點,建議一併評估跨境鏈路與 npm registry 存取對首包延遲的影響——CLI 安裝與依賴拉取往往比模型推理更吃網路。

採集指標

  • 通過率 — 達到 harness 綠色結束碼的任務比例。
  • 牆鐘時間 — SSH 工作階段開始到 harness 結束(不含人工審閱)。
  • Token — 僅統計成功執行的供應商計費 input + output。
  • 干擾隔離 — 基準視窗內無重疊 Agent;CI 流水線暫停。
可重現性:在 git 中鎖定 CLI 語意版本、模型 ID 與 AGENTS.md / 指令檔。我們將 codex --versionclaude --version 與 harness 日誌打入同一成品包。

租用 Apple Silicon 上的 Codex CLI

Codex CLI 面向儲存庫感知的終端工作流:ripgrep 上下文、修補式編輯與本地測試命令閉環。在 M4 主機上透過固定 npm 全域版本安裝,在 SSH 工作階段中匯出組織 API Key(無需 Keychain GUI)。本次觀察到的優勢:

  • 多步 Shell 修復任務 Terminal-Bench 通過率更高(77.3%)。
  • 成功任務中位 Token 更低(相對 Claude Code 約 4 倍)。
  • 非互動旗標適合 CI 式批量流水線。

若需定時回歸而非臨時 SSH,可將 Codex 與 雲端 Mac 上的 GitHub Actions 自託管 Runner 組合使用。

同一台 Mac mini M4 上的 Claude Code

Claude Code 強調對話式規劃、更廣的檔案探索與內嵌 diff——適合探索性重構,但在需多次讀目錄的任務上 Token 較重。相同硬體上我們的子集通過率為 65.4%,寬目錄列舉後再編輯的任務牆鐘更長。

已統一 Anthropic 計費的團隊,仍可能為面向產品的儲存庫選擇 Claude Code——審閱體驗比 bench 分數更重要。遠端存取模式請參閱 雲端 Mac 上 SSH 與 VNC——兩款 CLI 均以 SSH 為先;僅 OAuth 或純瀏覽器管理面板才需要 VNC。

基準矩陣:Codex CLI 對比 Claude Code

指標 Codex CLI Claude Code 說明
Terminal-Bench 通過率 領先77.3% 65.4% 凍結 42 項子集;最多 3 輪
成功任務中位 Token ~24k ~96k 約 4 倍差距;同檔模型策略
中位牆鐘時間 11.4 分鐘 14.8 分鐘 含本地測試呼叫
無頭 SSH 適配 優秀 良好 OAuth 可能需一次 GUI
IDE 交接 終端優先 diff 體驗強 主觀偏好
批量 / CI 回歸 原生非互動 需腳本化配合 見下方 Runner 手冊

原始日誌與版本 pin 可向 MacXCode 租用客戶索取;請將矩陣視為容量規劃的方向性參考,而非對所有儲存庫拓撲的絕對排名。

無頭 SSH 維運(無需 GUI)

兩款 Agent 均在 SSH 下的 tmux 中執行,UTF-8 locale,PATH 指向 Homebrew 前綴。金鑰寫入 0400 dotfile 並由非互動 shell 載入——與 無頭雲端 Mac 上 OpenClaw 首次安裝 的閘道部署方式一致。勿讓常駐守護程序與人工 CLI 共用同一 API 設定;應拆分 POSIX 使用者或狀態目錄。

export CODEX_API_KEY=… # 或組織等價變數

codex exec --cwd /srv/bench/task-017 --max-turns 3

切勿在未做任務佇列隔離時,讓 Agent 基準與生產 Archive 共用同一使用者——DerivedData 與 Agent 暫存目錄會爭搶 NVMe 頻寬。

選型指南:團隊該用哪款 CLI

選擇 Codex CLI,當…

Terminal-Bench 結果與 Token 預算優先;透過 SSH 或自託管 Runner 批量修復;審閱在 git 與 CI 日誌中完成。

選擇 Claude Code,當…

探索性重構、產品/設計參與審閱,或採購僅限 Anthropic——可接受較高中位 Token 換取可讀性。

兩者並行,當…

按儲存庫 A/B Agent 品質,但隔離主目錄、API Key 與排程——佇列超過一個並行 Agent 時優先兩台租用 M4。

租用 M4 五步操作手冊

  1. 開通 — 選擇區域(港/日/韓/新/美),確認 M4 規格與 CI 兄弟節點一致。
  2. 鎖定工具鏈 — 在 CMDB 記錄 Node、npm 全域 CLI 與 harness git SHA。
  3. 匯出金鑰 — 僅非互動 SSH;切勿把 Key 與 harness 一併提交。
  4. 跑矩陣 — 在乾淨 worktree 上交替執行 Codex 與 Claude;日誌歸檔到物件儲存。
  5. 推廣勝者 — 將優選 CLI 寫入 Runner 標籤或夜間 cron;另一款保留抽檢。

Related:

常見問題

本次 Mac mini M4 測試中 Terminal-Bench 誰較高?+
Codex CLI 在固定子集上為 77.3%;Claude Code 為 65.4%,硬體、harness 與重試上限相同。
租用 Mac 上是否需要 GUI?+
日常 Agent 迴圈僅需 SSH。僅當認證流程要求瀏覽器 OAuth 時規劃一次性 GUI 或 VNC,隨後在 launchd 或 dotfile 中回到無頭匯出。
Token 差距有多大?+
成功任務的中位計費 Token,Codex CLI 約為 Claude Code 的 四分之一(排除失敗後重試才成功的執行)。
一台 Mac mini M4 能否同時承載兩款 CLI 做 CI?+
可以——但需分離設定根目錄並串行作業。並行 Agent + Archive 時建議增加第二台租用節點,避免統一記憶體過載。
哪些 MacXCode 區域與本次基準一致?+
香港、日本、韓國、新加坡、美國池使用本文記錄的裸金屬 M4 規格——請選擇離開發者與 API 出口最近的區域;台灣存取可優先評估港、新節點延遲。

為何租用而非再添一台評測 Mac

Agent 評測呈脈衝式:兩週 bake-off 不應變成資本支出與桌面物流。租用把語意版本實驗隔離在生產筆電之外,可按區域複製基準主機,並與 iOS CI 租購規劃 併入同一 OpEx 科目。當 Terminal-Bench 回歸變為夜間任務時,將 harness 提升為專用 Runner 標籤並退役臨時 SSH 箱即可。

結論:租用 Mac mini M4 上,Codex CLI 在通過率(77.3% 對 65.4%)與 Token 效率(約 4 倍)領先 Claude Code——若審閱 UX 重於 bench 分數可選 Claude;短期 Agent 評測請租用區域建構機,而非囤積硬體。

租用 M4 跑 Agent + CI 基準

港/日/韓/新/美 SSH 優先裸金屬——與本次 Codex CLI 對比 Claude Code 研究相同規格。