本次 Mac mini M4 測試中 Terminal-Bench 誰得分較高？

在我們固定的 Terminal-Bench 子集上，Codex CLI 通過率為 77.3%；Claude Code 在相同儲存庫、硬體與重試策略下為 65.4%。

兩款 CLI 在租用 Mac 上是否必須開啟圖形介面？

日常 Agent 迴圈不需要——兩者均可在無頭 Sonoma/Sequoia 上透過 SSH 執行。僅首次 OAuth 或鑰匙圈提示可能需要一次性 GUI；常駐程序請用 launchd 自動化匯出環境變數。

Token 效率差距有多大？

在相同模型檔位、且排除失敗後重試才成功的任務後，Codex CLI 成功任務的中位計費 Token 約為 Claude Code 的四分之一。

一台 Mac mini M4 能否同時承載兩款工具做 CI？

可以，但需隔離設定目錄、API 設定與並行上限。高並行流水線建議拆到兩台租用節點，避免多個 Agent 程序爭搶統一記憶體。

SSH 優先團隊應把建構機放在哪？

選擇離開發者與模型 API 出口最近的 MacXCode 區域——香港、日本、韓國、新加坡或美國——並使用與本文相同的裸金屬 M4 規格；台灣團隊可優先評估港、新節點對 API 延遲的影響。

AI / 自動化 2026年5月23日

2026-05-23 租用 Mac mini M4 上 Codex CLI 對比 Claude Code 基準測試（港 / 日 / 韓 / 新 / 美）

MacXCode 技術團隊 2026年5月23日約 16 分鐘閱讀

租用 Mac mini M4 上 Codex CLI 與 Claude Code 基準測試

對已在 SSH-only Apple Silicon 主機上交付 iOS 建置的平台團隊而言，終端原生編碼 Agent 已是標配。2026 年 5 月，我們在與生產 CI 相同的租用 Mac mini M4 規格上，對 Codex CLI 與 Claude Code 進行對照測試——衡量 Terminal-Bench 通過率、牆鐘時間與成功任務的計費 Token。核心數據：77.3% 對 65.4%（固定子集），Codex CLI 成功任務的中位 Token 約為 Claude Code 的 四分之一。本文記錄硬體、方法、完整矩陣，以及如何把工作負載放在港 / 日 / 韓 / 新 / 美節點，而不必再添一台桌面 Mac。台灣團隊可透過租用節點做兩週 bake-off，避免把評測綁在辦公室實體機上。

揭露：MacXCode 即本文所述 Mac 租用服務提供方。定價資料來自 MacXCode 公開價目與 Apple 官網。

為何用 Mac mini M4 做 AI CLI 基準

Agent CLI 不是 GPU 訓練負載，但對單執行緒延遲、NVMe 暫存 I/O 與穩定 macOS 工具鏈很敏感。Mac mini M4 規格（10 核 CPU、16 GB 統一記憶體基線、PCIe SSD）與我們在裸金屬租用池中的配置一致：無嘈雜鄰居 VM、可預期的 git 與 ripgrep 效能，且與現有 Xcode 流水線同架構。評估 Mac mini M4 租用還是購買的團隊，應把 M4 視為共享建構層，而非一次性筆電替代。

Headroom MCP：Claude API 省 4 倍
統一記憶體 — 並行 Agent 與輕量編譯可共處一顆晶片，無需獨立 GPU。
Apple Silicon 原生路徑 — arm64 CLI 與 Homebrew 瓶減少 Rosetta 意外。
區域一致性 — 香港、日本、韓國、新加坡、美國池使用相同 M4 SKU，便於公平比較延遲。

基準方法（Terminal-Bench、Token、重試）

兩款工具針對凍結的 Terminal-Bench 子集（Shell 修復、修補套用、測試探索、小重構）在私有 harness 儲存庫中執行。每任務最多 3 輪 Agent，重試與逾時策略一致；超限失敗計入通過率。硬體為生產級 Mac mini M4，16 GB，512 GB SSD，macOS 15.x，全新使用者主目錄，無 GUI 工作階段。出站流量走主機區域預設路徑存取模型 API。台灣團隊若從本地 SSH 至海外節點，建議一併評估跨境鏈路與 npm registry 存取對首包延遲的影響——CLI 安裝與依賴拉取往往比模型推理更吃網路。

採集指標

通過率 — 達到 harness 綠色結束碼的任務比例。
牆鐘時間 — SSH 工作階段開始到 harness 結束（不含人工審閱）。
Token — 僅統計成功執行的供應商計費 input + output。
干擾隔離 — 基準視窗內無重疊 Agent；CI 流水線暫停。

可重現性：在 git 中鎖定 CLI 語意版本、模型 ID 與 AGENTS.md / 指令檔。我們將 codex --version 與 claude --version 與 harness 日誌打入同一成品包。

租用 Apple Silicon 上的 Codex CLI

Codex CLI 面向儲存庫感知的終端工作流：ripgrep 上下文、修補式編輯與本地測試命令閉環。在 M4 主機上透過固定 npm 全域版本安裝，在 SSH 工作階段中匯出組織 API Key（無需 Keychain GUI）。本次觀察到的優勢：

多步 Shell 修復任務 Terminal-Bench 通過率更高（77.3%）。
成功任務中位 Token 更低（相對 Claude Code 約 4 倍）。
非互動旗標適合 CI 式批量流水線。

若需定時回歸而非臨時 SSH，可將 Codex 與雲端 Mac 上的 GitHub Actions 自託管 Runner 組合使用。

同一台 Mac mini M4 上的 Claude Code

Claude Code 強調對話式規劃、更廣的檔案探索與內嵌 diff——適合探索性重構，但在需多次讀目錄的任務上 Token 較重。相同硬體上我們的子集通過率為 65.4%，寬目錄列舉後再編輯的任務牆鐘更長。

已統一 Anthropic 計費的團隊，仍可能為面向產品的儲存庫選擇 Claude Code——審閱體驗比 bench 分數更重要。遠端存取模式請參閱雲端 Mac 上 SSH 與 VNC——兩款 CLI 均以 SSH 為先；僅 OAuth 或純瀏覽器管理面板才需要 VNC。

基準矩陣：Codex CLI 對比 Claude Code

指標	Codex CLI	Claude Code	說明
Terminal-Bench 通過率	領先77.3%	65.4%	凍結 42 項子集；最多 3 輪
成功任務中位 Token	~24k	~96k	約 4 倍差距；同檔模型策略
中位牆鐘時間	11.4 分鐘	14.8 分鐘	含本地測試呼叫
無頭 SSH 適配	優秀	良好	OAuth 可能需一次 GUI
IDE 交接	終端優先	diff 體驗強	主觀偏好
批量 / CI 回歸	原生非互動	需腳本化配合	見下方 Runner 手冊

原始日誌與版本 pin 可向 MacXCode 租用客戶索取；請將矩陣視為容量規劃的方向性參考，而非對所有儲存庫拓撲的絕對排名。

無頭 SSH 維運（無需 GUI）

兩款 Agent 均在 SSH 下的 tmux 中執行，UTF-8 locale，PATH 指向 Homebrew 前綴。金鑰寫入 0400 dotfile 並由非互動 shell 載入——與無頭雲端 Mac 上 OpenClaw 首次安裝的閘道部署方式一致。勿讓常駐守護程序與人工 CLI 共用同一 API 設定；應拆分 POSIX 使用者或狀態目錄。

export CODEX_API_KEY=… # 或組織等價變數

codex exec --cwd /srv/bench/task-017 --max-turns 3

切勿在未做任務佇列隔離時，讓 Agent 基準與生產 Archive 共用同一使用者——DerivedData 與 Agent 暫存目錄會爭搶 NVMe 頻寬。

選型指南：團隊該用哪款 CLI

選擇 Codex CLI，當…

Terminal-Bench 結果與 Token 預算優先；透過 SSH 或自託管 Runner 批量修復；審閱在 git 與 CI 日誌中完成。

選擇 Claude Code，當…

探索性重構、產品/設計參與審閱，或採購僅限 Anthropic——可接受較高中位 Token 換取可讀性。

兩者並行，當…

按儲存庫 A/B Agent 品質，但隔離主目錄、API Key 與排程——佇列超過一個並行 Agent 時優先兩台租用 M4。

租用 M4 五步操作手冊

開通 — 選擇區域（港/日/韓/新/美），確認 M4 規格與 CI 兄弟節點一致。
鎖定工具鏈 — 在 CMDB 記錄 Node、npm 全域 CLI 與 harness git SHA。
匯出金鑰 — 僅非互動 SSH；切勿把 Key 與 harness 一併提交。
跑矩陣 — 在乾淨 worktree 上交替執行 Codex 與 Claude；日誌歸檔到物件儲存。
推廣勝者 — 將優選 CLI 寫入 Runner 標籤或夜間 cron；另一款保留抽檢。

Related:

Understand-Anything 安裝指南（2026-05-25） — Claude Code、Cursor、Codex 在租用 M4 上的安裝步驟
Google Antigravity 租用 M4 指南（2026-05-23） — Agent 優先 IDE、CLI 安裝與 Gemini CLI 6 月 18 日遷移

Pair structured agent workflows with our obra Superpowers 安裝（2026-05-26）.

常見問題

本次 Mac mini M4 測試中 Terminal-Bench 誰較高？+

Codex CLI 在固定子集上為 77.3%；Claude Code 為 65.4%，硬體、harness 與重試上限相同。

租用 Mac 上是否需要 GUI？+

日常 Agent 迴圈僅需 SSH。僅當認證流程要求瀏覽器 OAuth 時規劃一次性 GUI 或 VNC，隨後在 launchd 或 dotfile 中回到無頭匯出。

Token 差距有多大？+

成功任務的中位計費 Token，Codex CLI 約為 Claude Code 的 四分之一（排除失敗後重試才成功的執行）。

一台 Mac mini M4 能否同時承載兩款 CLI 做 CI？+

可以——但需分離設定根目錄並串行作業。並行 Agent + Archive 時建議增加第二台租用節點，避免統一記憶體過載。

哪些 MacXCode 區域與本次基準一致？+

香港、日本、韓國、新加坡、美國池使用本文記錄的裸金屬 M4 規格——請選擇離開發者與 API 出口最近的區域；台灣存取可優先評估港、新節點延遲。

為何租用而非再添一台評測 Mac

Agent 評測呈脈衝式：兩週 bake-off 不應變成資本支出與桌面物流。租用把語意版本實驗隔離在生產筆電之外，可按區域複製基準主機，並與 iOS CI 租購規劃併入同一 OpEx 科目。當 Terminal-Bench 回歸變為夜間任務時，將 harness 提升為專用 Runner 標籤並退役臨時 SSH 箱即可。

結論：在租用 Mac mini M4 上，Codex CLI 在通過率（77.3% 對 65.4%）與 Token 效率（約 4 倍）領先 Claude Code——若審閱 UX 重於 bench 分數可選 Claude；短期 Agent 評測請租用區域建構機，而非囤積硬體。

租用 M4 跑 Agent + CI 基準

港/日/韓/新/美 SSH 優先裸金屬——與本次 Codex CLI 對比 Claude Code 研究相同規格。

查看價格了解更多