2026-05-23 租用 Mac mini M4 上 Codex CLI 对比 Claude Code 基准测试(港 / 日 / 韩 / 新 / 美)
面向已在 SSH-only Apple Silicon 主机上交付 iOS 构建的平台团队,终端原生编码 Agent 已是标配。2026 年 5 月,我们在与生产 CI 相同的租用 Mac mini M4 档位上,对 Codex CLI 与 Claude Code 做了对照测试——衡量 Terminal-Bench 通过率、墙钟时间与成功任务的计费 Token。核心数据:77.3% 对 65.4%(固定子集),Codex CLI 成功任务的中位 Token 约为 Claude Code 的 四分之一。本文记录硬件、方法、完整矩阵,以及如何把负载放在港 / 日 / 韩 / 新 / 美节点而无需再买一台桌面 Mac。按 MacXCode 公开价目,M4 月租约 ¥730/月 量级,适合两周评测窗口而非资本开支。
为何用 Mac mini M4 做 AI CLI 基准
Agent CLI 不是 GPU 训练负载,但对单线程延迟、NVMe 临时 I/O 与稳定 macOS 工具链很敏感。Mac mini M4 规格(10 核 CPU、16 GB 统一内存基线、PCIe SSD)与我们在裸金属租用池中的配置一致:无嘈杂邻居 VM、可预期的 git 与 ripgrep 性能,且与现有 Xcode 流水线同架构。评估 Mac mini M4 租用还是购买 的团队,应把 M4 视为共享构建层,而非一次性笔记本替代。
- 统一内存 — 并发 Agent 与轻量编译可共处一颗芯片,无需独立 GPU。
- Apple Silicon 原生路径 — arm64 CLI 与 Homebrew 瓶减少 Rosetta 意外。
- 区域一致性 — 香港、日本、韩国、新加坡、美国池使用相同 M4 SKU,便于公平对比延迟。
基准方法(Terminal-Bench、Token、重试)
两款工具针对冻结的 Terminal-Bench 子集(Shell 修复、补丁应用、测试发现、小重构)在私有 harness 仓库中执行。每任务最多 3 轮 Agent,重试与超时策略一致;超限失败计入通过率。硬件为生产级 Mac mini M4,16 GB,512 GB SSD,macOS 15.x,全新用户主目录,无 GUI 会话。出站流量走主机区域默认路径访问模型 API。国内团队若从大陆 SSH 到海外节点,需额外计入跨境出口带宽与npm registry 访问对首包延迟的影响——CLI 安装与依赖拉取往往比模型推理更吃网络。
采集指标
- 通过率 — 达到 harness 绿色退出码的任务比例。
- 墙钟时间 — SSH 会话开始到 harness 结束(不含人工审阅)。
- Token — 仅统计成功运行的提供商计费 input + output。
- 干扰隔离 — 基准窗口内无重叠 Agent;CI 流水线暂停。
AGENTS.md / 指令文件。我们将 codex --version 与 claude --version 与 harness 日志打入同一制品包。
租用 Apple Silicon 上的 Codex CLI
Codex CLI 面向仓库感知的终端工作流:ripgrep 上下文、补丁式编辑与本地测试命令闭环。在 M4 主机上通过固定 npm 全局版本安装,在 SSH 会话中导出组织 API Key(无需 Keychain GUI)。本次观察到的优势:
- 多步 Shell 修复任务 Terminal-Bench 通过率更高(77.3%)。
- 成功任务中位 Token 更低(相对 Claude Code 约 4 倍)。
- 非交互标志适合 CI 式批量流水线。
若需定时回归而非临时 SSH,可将 Codex 与 云端 Mac 上的 GitHub Actions 自托管 Runner 组合使用。
同一台 Mac mini M4 上的 Claude Code
Claude Code 强调对话式规划、更广的文件探索与内联 diff——适合探索性重构,但在需多次读目录的任务上 Token 更重。相同硬件上我们的子集通过率为 65.4%,宽目录列举后再编辑的任务墙钟更长。
已统一 Anthropic 计费的团队,仍可能为面向产品的仓库选择 Claude Code——评审体验比 bench 分数更重要。远程访问模式请参阅 云端 Mac 上 SSH 与 VNC——两款 CLI 均以 SSH 为先;仅 OAuth 或纯浏览器管理面板才需要 VNC。
基准矩阵:Codex CLI 对比 Claude Code
| 指标 | Codex CLI | Claude Code | 说明 |
|---|---|---|---|
| Terminal-Bench 通过率 | 领先77.3% | 65.4% | 冻结 42 项子集;最多 3 轮 |
| 成功任务中位 Token | ~24k | ~96k | 约 4 倍差距;同档模型策略 |
| 中位墙钟时间 | 11.4 分钟 | 14.8 分钟 | 含本地测试调用 |
| 无头 SSH 适配 | 优秀 | 良好 | OAuth 可能需一次 GUI |
| IDE 交接 | 终端优先 | diff 体验强 | 主观偏好 |
| 批量 / CI 回归 | 原生非交互 | 需脚本化配合 | 见下方 Runner 手册 |
原始日志与版本 pin 可向 MacXCode 租用客户索取;请将矩阵视为容量规划的方向性参考,而非对所有仓库拓扑的绝对排名。
无头 SSH 运维(无需 GUI)
两款 Agent 均在 SSH 下的 tmux 中运行,UTF-8 locale,PATH 指向 Homebrew 前缀。密钥写入 0400 dotfile 并由非交互 shell 加载——与 无头云 Mac 上 OpenClaw 首次安装 的网关部署方式一致。勿让长期守护进程与人工 CLI 共用同一 API 配置;应拆分 POSIX 用户或状态目录。
export CODEX_API_KEY=… # 或组织等价变量
codex exec --cwd /srv/bench/task-017 --max-turns 3
选型指南:车队该用哪款 CLI
Terminal-Bench 结果与 Token 预算优先;通过 SSH 或自托管 Runner 批量修复;评审在 git 与 CI 日志中完成。
探索性重构、产品/设计参与评审,或采购仅限 Anthropic——可接受更高中位 Token 换取可读性。
按仓库 A/B Agent 质量,但隔离主目录、API Key 与调度——队列超过一个并发 Agent 时优先两台租用 M4。
租用 M4 五步操作手册
- 开通 — 选择区域(港/日/韩/新/美),确认 M4 档位与 CI 兄弟节点一致。
- 锁定工具链 — 在 CMDB 记录 Node、npm 全局 CLI 与 harness git SHA。
- 导出密钥 — 仅非交互 SSH;切勿把 Key 与 harness 一并提交。
- 跑矩阵 — 在干净 worktree 上交替运行 Codex 与 Claude;日志归档到对象存储。
- 推广胜者 — 将优选 CLI 写入 Runner 标签或夜间 cron;另一款保留抽检。
Related:
- Google Antigravity 租用 M4 指南(2026-05-23) — Agent 优先 IDE、CLI 安装与 Gemini CLI 6 月 18 日迁移
常见问题
为何租用而非再买一台评测 Mac
Agent 评测呈脉冲式:两周 bake-off 不应变成资本支出与桌面物流。租用(约 ¥730/月 量级)把语义版本实验隔离在生产笔记本之外,可按区域克隆基准主机,并与 iOS CI 租购规划 归入同一 OpEx 科目。当 Terminal-Bench 回归变为夜间任务时,将 harness 提升为专用 Runner 标签并退役临时 SSH 箱即可。
结论:在租用 Mac mini M4 上,Codex CLI 在通过率(77.3% 对 65.4%)与 Token 效率(约 4 倍)领先 Claude Code——若评审 UX 重于 bench 分数可选 Claude;短期 Agent 评测请租用区域构建机,而非囤积硬件。