本次 Mac mini M4 测试中 Terminal-Bench 谁得分更高？

在我们固定的 Terminal-Bench 子集上，Codex CLI 通过率为 77.3%；Claude Code 在相同仓库、硬件与重试策略下为 65.4%。

两款 CLI 在租用 Mac 上是否必须开图形界面？

日常 Agent 循环不需要——两者均可在无头 Sonoma/Sequoia 上通过 SSH 运行。仅首次 OAuth 或钥匙串弹窗可能需要一次性 GUI；守护进程请用 launchd 自动化导出环境变量。

Token 效率差距有多大？

在相同模型档位、且排除失败后重试才成功的任务后，Codex CLI 成功任务的中位计费 Token 约为 Claude Code 的四分之一。

一台 Mac mini M4 能否同时承载两款工具做 CI？

可以，但需隔离配置目录、API 配置与并发上限。高并行流水线建议拆到两台租用节点，避免多个 Agent 进程争抢统一内存。

SSH 优先团队应把构建机放在哪？

选择离开发者与模型 API 出口最近的 MacXCode 区域——香港、日本、韩国、新加坡或美国——并使用与本文相同的裸金属 M4 档位；国内团队另需评估跨境出口带宽与 npm 镜像对延迟的影响。

AI / 自动化 2026年5月23日

2026-05-23 租用 Mac mini M4 上 Codex CLI 对比 Claude Code 基准测试（港 / 日 / 韩 / 新 / 美）

MacXCode 技术团队 2026年5月23日约 16 分钟阅读

租用 Mac mini M4 上 Codex CLI 与 Claude Code 基准测试

面向已在 SSH-only Apple Silicon 主机上交付 iOS 构建的平台团队，终端原生编码 Agent 已是标配。2026 年 5 月，我们在与生产 CI 相同的租用 Mac mini M4 档位上，对 Codex CLI 与 Claude Code 做了对照测试——衡量 Terminal-Bench 通过率、墙钟时间与成功任务的计费 Token。核心数据：77.3% 对 65.4%（固定子集），Codex CLI 成功任务的中位 Token 约为 Claude Code 的 四分之一。本文记录硬件、方法、完整矩阵，以及如何把负载放在港 / 日 / 韩 / 新 / 美节点而无需再买一台桌面 Mac。按 MacXCode 公开价目，M4 月租约 ¥730/月 量级，适合两周评测窗口而非资本开支。

披露：MacXCode 即本文所述 Mac 租用服务提供方。定价数据来自 MacXCode 公开价目与 Apple 官网。

为何用 Mac mini M4 做 AI CLI 基准

Agent CLI 不是 GPU 训练负载，但对单线程延迟、NVMe 临时 I/O 与稳定 macOS 工具链很敏感。Mac mini M4 规格（10 核 CPU、16 GB 统一内存基线、PCIe SSD）与我们在裸金属租用池中的配置一致：无嘈杂邻居 VM、可预期的 git 与 ripgrep 性能，且与现有 Xcode 流水线同架构。评估 Mac mini M4 租用还是购买的团队，应把 M4 视为共享构建层，而非一次性笔记本替代。

Headroom MCP：Claude API 省 4 倍
统一内存 — 并发 Agent 与轻量编译可共处一颗芯片，无需独立 GPU。
Apple Silicon 原生路径 — arm64 CLI 与 Homebrew 瓶减少 Rosetta 意外。
区域一致性 — 香港、日本、韩国、新加坡、美国池使用相同 M4 SKU，便于公平对比延迟。

基准方法（Terminal-Bench、Token、重试）

两款工具针对冻结的 Terminal-Bench 子集（Shell 修复、补丁应用、测试发现、小重构）在私有 harness 仓库中执行。每任务最多 3 轮 Agent，重试与超时策略一致；超限失败计入通过率。硬件为生产级 Mac mini M4，16 GB，512 GB SSD，macOS 15.x，全新用户主目录，无 GUI 会话。出站流量走主机区域默认路径访问模型 API。国内团队若从大陆 SSH 到海外节点，需额外计入跨境出口带宽与npm registry 访问对首包延迟的影响——CLI 安装与依赖拉取往往比模型推理更吃网络。

采集指标

通过率 — 达到 harness 绿色退出码的任务比例。
墙钟时间 — SSH 会话开始到 harness 结束（不含人工审阅）。
Token — 仅统计成功运行的提供商计费 input + output。
干扰隔离 — 基准窗口内无重叠 Agent；CI 流水线暂停。

可复现性：在 git 中锁定 CLI 语义版本、模型 ID 与 AGENTS.md / 指令文件。我们将 codex --version 与 claude --version 与 harness 日志打入同一制品包。

租用 Apple Silicon 上的 Codex CLI

Codex CLI 面向仓库感知的终端工作流：ripgrep 上下文、补丁式编辑与本地测试命令闭环。在 M4 主机上通过固定 npm 全局版本安装，在 SSH 会话中导出组织 API Key（无需 Keychain GUI）。本次观察到的优势：

多步 Shell 修复任务 Terminal-Bench 通过率更高（77.3%）。
成功任务中位 Token 更低（相对 Claude Code 约 4 倍）。
非交互标志适合 CI 式批量流水线。

若需定时回归而非临时 SSH，可将 Codex 与云端 Mac 上的 GitHub Actions 自托管 Runner 组合使用。

同一台 Mac mini M4 上的 Claude Code

Claude Code 强调对话式规划、更广的文件探索与内联 diff——适合探索性重构，但在需多次读目录的任务上 Token 更重。相同硬件上我们的子集通过率为 65.4%，宽目录列举后再编辑的任务墙钟更长。

已统一 Anthropic 计费的团队，仍可能为面向产品的仓库选择 Claude Code——评审体验比 bench 分数更重要。远程访问模式请参阅云端 Mac 上 SSH 与 VNC——两款 CLI 均以 SSH 为先；仅 OAuth 或纯浏览器管理面板才需要 VNC。

基准矩阵：Codex CLI 对比 Claude Code

指标	Codex CLI	Claude Code	说明
Terminal-Bench 通过率	领先77.3%	65.4%	冻结 42 项子集；最多 3 轮
成功任务中位 Token	~24k	~96k	约 4 倍差距；同档模型策略
中位墙钟时间	11.4 分钟	14.8 分钟	含本地测试调用
无头 SSH 适配	优秀	良好	OAuth 可能需一次 GUI
IDE 交接	终端优先	diff 体验强	主观偏好
批量 / CI 回归	原生非交互	需脚本化配合	见下方 Runner 手册

原始日志与版本 pin 可向 MacXCode 租用客户索取；请将矩阵视为容量规划的方向性参考，而非对所有仓库拓扑的绝对排名。

无头 SSH 运维（无需 GUI）

两款 Agent 均在 SSH 下的 tmux 中运行，UTF-8 locale，PATH 指向 Homebrew 前缀。密钥写入 0400 dotfile 并由非交互 shell 加载——与无头云 Mac 上 OpenClaw 首次安装的网关部署方式一致。勿让长期守护进程与人工 CLI 共用同一 API 配置；应拆分 POSIX 用户或状态目录。

export CODEX_API_KEY=… # 或组织等价变量

codex exec --cwd /srv/bench/task-017 --max-turns 3

切勿在未做任务队列隔离时，让 Agent 基准与生产 Archive 共用同一用户——DerivedData 与 Agent 临时目录会争抢 NVMe 带宽。

选型指南：车队该用哪款 CLI

选择 Codex CLI，当…

Terminal-Bench 结果与 Token 预算优先；通过 SSH 或自托管 Runner 批量修复；评审在 git 与 CI 日志中完成。

选择 Claude Code，当…

探索性重构、产品/设计参与评审，或采购仅限 Anthropic——可接受更高中位 Token 换取可读性。

两者并行，当…

按仓库 A/B Agent 质量，但隔离主目录、API Key 与调度——队列超过一个并发 Agent 时优先两台租用 M4。

租用 M4 五步操作手册

开通 — 选择区域（港/日/韩/新/美），确认 M4 档位与 CI 兄弟节点一致。
锁定工具链 — 在 CMDB 记录 Node、npm 全局 CLI 与 harness git SHA。
导出密钥 — 仅非交互 SSH；切勿把 Key 与 harness 一并提交。
跑矩阵 — 在干净 worktree 上交替运行 Codex 与 Claude；日志归档到对象存储。
推广胜者 — 将优选 CLI 写入 Runner 标签或夜间 cron；另一款保留抽检。

Related:

Understand-Anything 安装指南（2026-05-25） — Claude Code、Cursor、Codex 在租用 M4 上的安装步骤
Google Antigravity 租用 M4 指南（2026-05-23） — Agent 优先 IDE、CLI 安装与 Gemini CLI 6 月 18 日迁移

Pair structured agent workflows with our obra Superpowers 安装（2026-05-26）.

常见问题

本次 Mac mini M4 测试中 Terminal-Bench 谁更高？+

Codex CLI 在固定子集上为 77.3%；Claude Code 为 65.4%，硬件、harness 与重试上限相同。

租用 Mac 上是否需要 GUI？+

日常 Agent 循环仅需 SSH。仅当认证流程要求浏览器 OAuth 时规划一次性 GUI 或 VNC，随后在 launchd 或 dotfile 中回到无头导出。

Token 差距有多大？+

成功任务的中位计费 Token，Codex CLI 约为 Claude Code 的 四分之一（排除失败后重试才成功的运行）。

一台 Mac mini M4 能否同时承载两款 CLI 做 CI？+

可以——但需分离配置根目录并串行作业。并行 Agent + Archive 时建议增加第二台租用节点，避免统一内存过载。

哪些 MacXCode 区域与本次基准一致？+

香港、日本、韩国、新加坡、美国池使用本文记录的裸金属 M4 档位——请选择离开发者与 API 出口最近的区域；大陆访问请单独评估出口带宽与 npm 延迟。

为何租用而非再买一台评测 Mac

Agent 评测呈脉冲式：两周 bake-off 不应变成资本支出与桌面物流。租用（约 ¥730/月 量级）把语义版本实验隔离在生产笔记本之外，可按区域克隆基准主机，并与 iOS CI 租购规划归入同一 OpEx 科目。当 Terminal-Bench 回归变为夜间任务时，将 harness 提升为专用 Runner 标签并退役临时 SSH 箱即可。

结论：在租用 Mac mini M4 上，Codex CLI 在通过率（77.3% 对 65.4%）与 Token 效率（约 4 倍）领先 Claude Code——若评审 UX 重于 bench 分数可选 Claude；短期 Agent 评测请租用区域构建机，而非囤积硬件。

租用 M4 跑 Agent + CI 基准

港/日/韩/新/美 SSH 优先裸金属——与本次 Codex CLI 对比 Claude Code 研究相同档位。

查看价格了解更多