2026-05-23 租用 Mac mini M4 上 Codex CLI 對比 Claude Code 基準測試(港 / 日 / 韓 / 新 / 美)
對已在 SSH-only Apple Silicon 主機上交付 iOS 建置的平台團隊而言,終端原生編碼 Agent 已是標配。2026 年 5 月,我們在與生產 CI 相同的租用 Mac mini M4 規格上,對 Codex CLI 與 Claude Code 進行對照測試——衡量 Terminal-Bench 通過率、牆鐘時間與成功任務的計費 Token。核心數據:77.3% 對 65.4%(固定子集),Codex CLI 成功任務的中位 Token 約為 Claude Code 的 四分之一。本文記錄硬體、方法、完整矩陣,以及如何把工作負載放在港 / 日 / 韓 / 新 / 美節點,而不必再添一台桌面 Mac。台灣團隊可透過租用節點做兩週 bake-off,避免把評測綁在辦公室實體機上。
為何用 Mac mini M4 做 AI CLI 基準
Agent CLI 不是 GPU 訓練負載,但對單執行緒延遲、NVMe 暫存 I/O 與穩定 macOS 工具鏈很敏感。Mac mini M4 規格(10 核 CPU、16 GB 統一記憶體基線、PCIe SSD)與我們在裸金屬租用池中的配置一致:無嘈雜鄰居 VM、可預期的 git 與 ripgrep 效能,且與現有 Xcode 流水線同架構。評估 Mac mini M4 租用還是購買 的團隊,應把 M4 視為共享建構層,而非一次性筆電替代。
- 統一記憶體 — 並行 Agent 與輕量編譯可共處一顆晶片,無需獨立 GPU。
- Apple Silicon 原生路徑 — arm64 CLI 與 Homebrew 瓶減少 Rosetta 意外。
- 區域一致性 — 香港、日本、韓國、新加坡、美國池使用相同 M4 SKU,便於公平比較延遲。
基準方法(Terminal-Bench、Token、重試)
兩款工具針對凍結的 Terminal-Bench 子集(Shell 修復、修補套用、測試探索、小重構)在私有 harness 儲存庫中執行。每任務最多 3 輪 Agent,重試與逾時策略一致;超限失敗計入通過率。硬體為生產級 Mac mini M4,16 GB,512 GB SSD,macOS 15.x,全新使用者主目錄,無 GUI 工作階段。出站流量走主機區域預設路徑存取模型 API。台灣團隊若從本地 SSH 至海外節點,建議一併評估跨境鏈路與 npm registry 存取對首包延遲的影響——CLI 安裝與依賴拉取往往比模型推理更吃網路。
採集指標
- 通過率 — 達到 harness 綠色結束碼的任務比例。
- 牆鐘時間 — SSH 工作階段開始到 harness 結束(不含人工審閱)。
- Token — 僅統計成功執行的供應商計費 input + output。
- 干擾隔離 — 基準視窗內無重疊 Agent;CI 流水線暫停。
AGENTS.md / 指令檔。我們將 codex --version 與 claude --version 與 harness 日誌打入同一成品包。
租用 Apple Silicon 上的 Codex CLI
Codex CLI 面向儲存庫感知的終端工作流:ripgrep 上下文、修補式編輯與本地測試命令閉環。在 M4 主機上透過固定 npm 全域版本安裝,在 SSH 工作階段中匯出組織 API Key(無需 Keychain GUI)。本次觀察到的優勢:
- 多步 Shell 修復任務 Terminal-Bench 通過率更高(77.3%)。
- 成功任務中位 Token 更低(相對 Claude Code 約 4 倍)。
- 非互動旗標適合 CI 式批量流水線。
若需定時回歸而非臨時 SSH,可將 Codex 與 雲端 Mac 上的 GitHub Actions 自託管 Runner 組合使用。
同一台 Mac mini M4 上的 Claude Code
Claude Code 強調對話式規劃、更廣的檔案探索與內嵌 diff——適合探索性重構,但在需多次讀目錄的任務上 Token 較重。相同硬體上我們的子集通過率為 65.4%,寬目錄列舉後再編輯的任務牆鐘更長。
已統一 Anthropic 計費的團隊,仍可能為面向產品的儲存庫選擇 Claude Code——審閱體驗比 bench 分數更重要。遠端存取模式請參閱 雲端 Mac 上 SSH 與 VNC——兩款 CLI 均以 SSH 為先;僅 OAuth 或純瀏覽器管理面板才需要 VNC。
基準矩陣:Codex CLI 對比 Claude Code
| 指標 | Codex CLI | Claude Code | 說明 |
|---|---|---|---|
| Terminal-Bench 通過率 | 領先77.3% | 65.4% | 凍結 42 項子集;最多 3 輪 |
| 成功任務中位 Token | ~24k | ~96k | 約 4 倍差距;同檔模型策略 |
| 中位牆鐘時間 | 11.4 分鐘 | 14.8 分鐘 | 含本地測試呼叫 |
| 無頭 SSH 適配 | 優秀 | 良好 | OAuth 可能需一次 GUI |
| IDE 交接 | 終端優先 | diff 體驗強 | 主觀偏好 |
| 批量 / CI 回歸 | 原生非互動 | 需腳本化配合 | 見下方 Runner 手冊 |
原始日誌與版本 pin 可向 MacXCode 租用客戶索取;請將矩陣視為容量規劃的方向性參考,而非對所有儲存庫拓撲的絕對排名。
無頭 SSH 維運(無需 GUI)
兩款 Agent 均在 SSH 下的 tmux 中執行,UTF-8 locale,PATH 指向 Homebrew 前綴。金鑰寫入 0400 dotfile 並由非互動 shell 載入——與 無頭雲端 Mac 上 OpenClaw 首次安裝 的閘道部署方式一致。勿讓常駐守護程序與人工 CLI 共用同一 API 設定;應拆分 POSIX 使用者或狀態目錄。
export CODEX_API_KEY=… # 或組織等價變數
codex exec --cwd /srv/bench/task-017 --max-turns 3
選型指南:團隊該用哪款 CLI
Terminal-Bench 結果與 Token 預算優先;透過 SSH 或自託管 Runner 批量修復;審閱在 git 與 CI 日誌中完成。
探索性重構、產品/設計參與審閱,或採購僅限 Anthropic——可接受較高中位 Token 換取可讀性。
按儲存庫 A/B Agent 品質,但隔離主目錄、API Key 與排程——佇列超過一個並行 Agent 時優先兩台租用 M4。
租用 M4 五步操作手冊
- 開通 — 選擇區域(港/日/韓/新/美),確認 M4 規格與 CI 兄弟節點一致。
- 鎖定工具鏈 — 在 CMDB 記錄 Node、npm 全域 CLI 與 harness git SHA。
- 匯出金鑰 — 僅非互動 SSH;切勿把 Key 與 harness 一併提交。
- 跑矩陣 — 在乾淨 worktree 上交替執行 Codex 與 Claude;日誌歸檔到物件儲存。
- 推廣勝者 — 將優選 CLI 寫入 Runner 標籤或夜間 cron;另一款保留抽檢。
Related:
- Google Antigravity 租用 M4 指南(2026-05-23) — Agent 優先 IDE、CLI 安裝與 Gemini CLI 6 月 18 日遷移
常見問題
為何租用而非再添一台評測 Mac
Agent 評測呈脈衝式:兩週 bake-off 不應變成資本支出與桌面物流。租用把語意版本實驗隔離在生產筆電之外,可按區域複製基準主機,並與 iOS CI 租購規劃 併入同一 OpEx 科目。當 Terminal-Bench 回歸變為夜間任務時,將 harness 提升為專用 Runner 標籤並退役臨時 SSH 箱即可。
結論:在租用 Mac mini M4 上,Codex CLI 在通過率(77.3% 對 65.4%)與 Token 效率(約 4 倍)領先 Claude Code——若審閱 UX 重於 bench 分數可選 Claude;短期 Agent 評測請租用區域建構機,而非囤積硬體。