AI / 自动化

2026-05-23 租用 Mac mini M4Codex CLI 对比 Claude Code 基准测试(港 / 日 / 韩 / 新 / 美

租用 Mac mini M4 上 Codex CLI 与 Claude Code 基准测试

面向已在 SSH-only Apple Silicon 主机上交付 iOS 构建的平台团队,终端原生编码 Agent 已是标配。2026 年 5 月,我们在与生产 CI 相同的租用 Mac mini M4 档位上,对 Codex CLIClaude Code 做了对照测试——衡量 Terminal-Bench 通过率、墙钟时间与成功任务的计费 Token。核心数据:77.3%65.4%(固定子集),Codex CLI 成功任务的中位 Token 约为 Claude Code 的 四分之一。本文记录硬件、方法、完整矩阵,以及如何把负载放在港 / 日 / 韩 / 新 / 美节点而无需再买一台桌面 Mac。按 MacXCode 公开价目,M4 月租约 ¥730/月 量级,适合两周评测窗口而非资本开支。

披露:MacXCode 即本文所述 Mac 租用服务提供方。定价数据来自 MacXCode 公开价目与 Apple 官网。

为何用 Mac mini M4 做 AI CLI 基准

Agent CLI 不是 GPU 训练负载,但对单线程延迟、NVMe 临时 I/O 与稳定 macOS 工具链很敏感。Mac mini M4 规格(10 核 CPU、16 GB 统一内存基线、PCIe SSD)与我们在裸金属租用池中的配置一致:无嘈杂邻居 VM、可预期的 gitripgrep 性能,且与现有 Xcode 流水线同架构。评估 Mac mini M4 租用还是购买 的团队,应把 M4 视为共享构建层,而非一次性笔记本替代。

  • 统一内存 — 并发 Agent 与轻量编译可共处一颗芯片,无需独立 GPU。
  • Apple Silicon 原生路径 — arm64 CLI 与 Homebrew 瓶减少 Rosetta 意外。
  • 区域一致性 — 香港、日本、韩国、新加坡、美国池使用相同 M4 SKU,便于公平对比延迟。

基准方法(Terminal-Bench、Token、重试)

两款工具针对冻结的 Terminal-Bench 子集(Shell 修复、补丁应用、测试发现、小重构)在私有 harness 仓库中执行。每任务最多 3 轮 Agent,重试与超时策略一致;超限失败计入通过率。硬件为生产级 Mac mini M4,16 GB,512 GB SSD,macOS 15.x,全新用户主目录,无 GUI 会话。出站流量走主机区域默认路径访问模型 API。国内团队若从大陆 SSH 到海外节点,需额外计入跨境出口带宽npm registry 访问对首包延迟的影响——CLI 安装与依赖拉取往往比模型推理更吃网络。

采集指标

  • 通过率 — 达到 harness 绿色退出码的任务比例。
  • 墙钟时间 — SSH 会话开始到 harness 结束(不含人工审阅)。
  • Token — 仅统计成功运行的提供商计费 input + output。
  • 干扰隔离 — 基准窗口内无重叠 Agent;CI 流水线暂停。
可复现性:在 git 中锁定 CLI 语义版本、模型 ID 与 AGENTS.md / 指令文件。我们将 codex --versionclaude --version 与 harness 日志打入同一制品包。

租用 Apple Silicon 上的 Codex CLI

Codex CLI 面向仓库感知的终端工作流:ripgrep 上下文、补丁式编辑与本地测试命令闭环。在 M4 主机上通过固定 npm 全局版本安装,在 SSH 会话中导出组织 API Key(无需 Keychain GUI)。本次观察到的优势:

  • 多步 Shell 修复任务 Terminal-Bench 通过率更高(77.3%)。
  • 成功任务中位 Token 更低(相对 Claude Code 约 4 倍)。
  • 非交互标志适合 CI 式批量流水线。

若需定时回归而非临时 SSH,可将 Codex 与 云端 Mac 上的 GitHub Actions 自托管 Runner 组合使用。

同一台 Mac mini M4 上的 Claude Code

Claude Code 强调对话式规划、更广的文件探索与内联 diff——适合探索性重构,但在需多次读目录的任务上 Token 更重。相同硬件上我们的子集通过率为 65.4%,宽目录列举后再编辑的任务墙钟更长。

已统一 Anthropic 计费的团队,仍可能为面向产品的仓库选择 Claude Code——评审体验比 bench 分数更重要。远程访问模式请参阅 云端 Mac 上 SSH 与 VNC——两款 CLI 均以 SSH 为先;仅 OAuth 或纯浏览器管理面板才需要 VNC。

基准矩阵:Codex CLI 对比 Claude Code

指标 Codex CLI Claude Code 说明
Terminal-Bench 通过率 领先77.3% 65.4% 冻结 42 项子集;最多 3 轮
成功任务中位 Token ~24k ~96k 约 4 倍差距;同档模型策略
中位墙钟时间 11.4 分钟 14.8 分钟 含本地测试调用
无头 SSH 适配 优秀 良好 OAuth 可能需一次 GUI
IDE 交接 终端优先 diff 体验强 主观偏好
批量 / CI 回归 原生非交互 需脚本化配合 见下方 Runner 手册

原始日志与版本 pin 可向 MacXCode 租用客户索取;请将矩阵视为容量规划的方向性参考,而非对所有仓库拓扑的绝对排名。

无头 SSH 运维(无需 GUI)

两款 Agent 均在 SSH 下的 tmux 中运行,UTF-8 locale,PATH 指向 Homebrew 前缀。密钥写入 0400 dotfile 并由非交互 shell 加载——与 无头云 Mac 上 OpenClaw 首次安装 的网关部署方式一致。勿让长期守护进程与人工 CLI 共用同一 API 配置;应拆分 POSIX 用户或状态目录。

export CODEX_API_KEY=… # 或组织等价变量

codex exec --cwd /srv/bench/task-017 --max-turns 3

切勿在未做任务队列隔离时,让 Agent 基准与生产 Archive 共用同一用户——DerivedData 与 Agent 临时目录会争抢 NVMe 带宽。

选型指南:车队该用哪款 CLI

选择 Codex CLI,当…

Terminal-Bench 结果与 Token 预算优先;通过 SSH 或自托管 Runner 批量修复;评审在 git 与 CI 日志中完成。

选择 Claude Code,当…

探索性重构、产品/设计参与评审,或采购仅限 Anthropic——可接受更高中位 Token 换取可读性。

两者并行,当…

按仓库 A/B Agent 质量,但隔离主目录、API Key 与调度——队列超过一个并发 Agent 时优先两台租用 M4。

租用 M4 五步操作手册

  1. 开通 — 选择区域(港/日/韩/新/美),确认 M4 档位与 CI 兄弟节点一致。
  2. 锁定工具链 — 在 CMDB 记录 Node、npm 全局 CLI 与 harness git SHA。
  3. 导出密钥 — 仅非交互 SSH;切勿把 Key 与 harness 一并提交。
  4. 跑矩阵 — 在干净 worktree 上交替运行 Codex 与 Claude;日志归档到对象存储。
  5. 推广胜者 — 将优选 CLI 写入 Runner 标签或夜间 cron;另一款保留抽检。

Related:

常见问题

本次 Mac mini M4 测试中 Terminal-Bench 谁更高?+
Codex CLI 在固定子集上为 77.3%;Claude Code 为 65.4%,硬件、harness 与重试上限相同。
租用 Mac 上是否需要 GUI?+
日常 Agent 循环仅需 SSH。仅当认证流程要求浏览器 OAuth 时规划一次性 GUI 或 VNC,随后在 launchd 或 dotfile 中回到无头导出。
Token 差距有多大?+
成功任务的中位计费 Token,Codex CLI 约为 Claude Code 的 四分之一(排除失败后重试才成功的运行)。
一台 Mac mini M4 能否同时承载两款 CLI 做 CI?+
可以——但需分离配置根目录并串行作业。并行 Agent + Archive 时建议增加第二台租用节点,避免统一内存过载。
哪些 MacXCode 区域与本次基准一致?+
香港、日本、韩国、新加坡、美国池使用本文记录的裸金属 M4 档位——请选择离开发者与 API 出口最近的区域;大陆访问请单独评估出口带宽与 npm 延迟。

为何租用而非再买一台评测 Mac

Agent 评测呈脉冲式:两周 bake-off 不应变成资本支出与桌面物流。租用(约 ¥730/月 量级)把语义版本实验隔离在生产笔记本之外,可按区域克隆基准主机,并与 iOS CI 租购规划 归入同一 OpEx 科目。当 Terminal-Bench 回归变为夜间任务时,将 harness 提升为专用 Runner 标签并退役临时 SSH 箱即可。

结论:租用 Mac mini M4 上,Codex CLI 在通过率(77.3% 对 65.4%)与 Token 效率(约 4 倍)领先 Claude Code——若评审 UX 重于 bench 分数可选 Claude;短期 Agent 评测请租用区域构建机,而非囤积硬件。

租用 M4 跑 Agent + CI 基准

港/日/韩/新/美 SSH 优先裸金属——与本次 Codex CLI 对比 Claude Code 研究相同档位。