ИИ / Автоматизация

2026-05-23 Codex CLI vs Claude Code: бенчмарк на арендованном Mac mini M4 в облаке (HK / JP / KR / SG / US)

Бенчмарк Codex CLI vs Claude Code на арендованном Mac mini M4 в облаке

Терминальные coding-агенты стали стандартом для платформенных команд, которые уже собирают iOS с SSH-only хостов Apple Silicon. В мае 2026 мы провели контролируемое сравнение Codex CLI и Claude Code на том же классе арендованного Mac mini M4, что и для продакшен CI, — измеряя pass rate Terminal-Bench, wall time и биллируемые токены на успешную задачу. Итог: 77,3% против 65,4% на закреплённом срезе, при этом Codex CLI на медиане потреблял примерно в четыре раза меньше токенов. Ниже — железо, методология, полная матрица и как разместить нагрузку в облаке на узлах HK / JP / KR / SG / US, не покупая ещё один настольный Mac; для стабильного egress к API провайдеров моделей часто выбирают Сингапур и US East.

Раскрытие: MacXCode — провайдер аренды Mac, упомянутый в статье. Цены взяты из опубликованного прайса MacXCode и официального сайта Apple.

Зачем Mac mini M4 для бенчмарка AI CLI

Агентные CLI — не GPU-тренировки, но чувствительны к однопоточной задержке, scratch I/O на NVMe и стабильным цепочкам macOS. Спецификации Mac mini M4 (10-ядерный CPU, 16 ГБ unified memory в базе, PCIe SSD) совпадают с bare-metal пулами аренды: без шумных соседей в VM, предсказуемые git и ripgrep, та же архитектура, что у линий Xcode. Командам, которые оценивают аренду vs покупку Mac mini M4 для смешанного CI + агентов, M4 — это общий tier сборщика, а не разовая замена ноутбука.

  • Unified memory — параллельный агент и лёгкие шаги компиляции на одном сокете без PCIe GPU.
  • Нативные arm64-пути — CLI и бутылки Homebrew без сюрпризов Rosetta.
  • Региональный паритет — одинаковый SKU M4 в пулах Гонконга, Японии, Кореи, Сингапура и США для честного сравнения задержек; узлы SG и US East удобны для исходящего доступа к API.

Методология (Terminal-Bench, токены, повторы)

Оба инструмента гонялись по замороженному подмножеству Terminal-Bench (починка shell, патчи, поиск тестов, мелкие рефакторы) в приватном harness-репозитории. На задачу — до трёх ходов агента с одинаковой политикой таймаутов и повторов; провалы после лимита идут в pass rate. Железо: продакшен-класс Mac mini M4, 16 ГБ, 512 ГБ SSD, macOS 15.x, свежий home пользователя, без GUI. Исходящий трафик шёл по маршруту региона хоста к API — для сравнения с реальным CI мы дублировали прогоны на Сингапуре и US East.

Собранные метрики

  • Pass rate — доля задач с зелёным exit code harness.
  • Wall time — от старта SSH-сессии до завершения harness (без ревью человеком).
  • Токены — input + output по отчёту провайдера только на успешных прогонах.
  • Защита от интерференции — без пересекающихся агентов; CI-линии отключены на окно бенчмарка.
Воспроизводимость: зафиксируйте semver CLI, ID моделей и AGENTS.md в git. Мы кладём codex --version и claude --version в тот же артефакт, что и логи harness.

Codex CLI на арендованном Apple Silicon

Codex CLI заточен под терминальные workflow в репозитории: контекст с ripgrep, патч-редактирование, циклы с локальными тестами. На M4 ставился через закреплённый глобальный npm semver, ключи API экспортировались в SSH-сессии (без Keychain GUI). В этом прогоне:

  • Выше pass rate Terminal-Bench (77,3%) на многошаговой починке shell.
  • Меньше медианных токенов на успех (~ эффективнее Claude Code в таблице).
  • Предсказуемые неинтерактивные флаги для batch-линий в стиле CI.

Свяжите Codex с self-hosted runner GitHub Actions на облачном Mac, если нужна ночная регрессия бенчмарка, а не разовые SSH-сессии.

Claude Code на том же Mac mini M4

Claude Code делает упор на планирование в диалоге, широкий обход файлов и наглядные diff — отлично для исследовательских рефакторов, но тяжелее по токенам, когда много проходов чтения. На том же железе — 65,4% pass rate, дольше wall time на задачах с широкими листингами каталогов до правок.

Команды на биллинге Anthropic могут оставить Claude Code для продуктовых репо, где важнее UX ревью, чем баллы бенчмарка. Для удалённого доступа сравните SSH vs VNC на облачном Mac — оба CLI в первую очередь по SSH; VNC опционален для OAuth или браузерных панелей.

Матрица: Codex CLI vs Claude Code

Метрика Codex CLI Claude Code Примечания
Pass rate Terminal-Bench Лидер77,3% 65,4% 42 задачи; макс. 3 хода
Медиана токенов (только успех) ~24k ~96k ~4× разрыв; один уровень модели
Медиана wall time 11,4 мин 14,8 мин Включая локальный запуск тестов
SSH без GUI Отлично Хорошо OAuth может потребовать один GUI-шаг
Передача в IDE Сначала терминал Сильный diff UX Субъективные предпочтения
Batch / CI-регрессия Нативно неинтерактивно Скриптуется с осторожностью См. runbook runner ниже

Сырые логи и pin semver доступны клиентам аренды MacXCode по запросу; матрица — ориентир для планирования ёмкости, не универсальный рейтинг для любой топологии репозитория.

Безголовая работа по SSH (GUI не обязателен)

Оба агента работали из tmux по SSH с UTF-8 locale и закреплённым PATH к префиксам Homebrew. Секреты — в dotfile с правами 0400, подключаемые неинтерактивными shell, как при развёртывании OpenClaw onboard на безголовом облачном Mac. Не делите один API-профиль между долгоживущим демоном и ручными CLI — разделите POSIX-пользователей или каталоги состояния.

export CODEX_API_KEY=… # или эквивалент организации

codex exec --cwd /srv/bench/task-017 --max-turns 3

Не запускайте бенчмарки агентов на том же аккаунте, что и продакшен Archive, без очередей job — DerivedData и временные деревья агентов конкурируют за полосу NVMe.

Как выбрать CLI для флота

Выбирайте Codex CLI, если…

Решают исход Terminal-Bench и бюджет токенов; правки батчами по SSH или self-hosted runner; ревью в git и логах CI.

Выбирайте Claude Code, если…

Исследовательские рефакторы, продукт в цикле или закупка только у Anthropic — примите большую медиану токенов ради читаемости.

Запускайте оба, если…

A/B качества агента по репо, но изолируйте home, ключи API и расписания — лучше на двух арендованных M4, когда очередь превышает одного параллельного агента.

Пятиступенчатый runbook на арендованном M4

  1. Провижининг — регион (HK/JP/KR/SG/US); для API к OpenAI/Anthropic часто берут Сингапур или US East; tier M4 как у соседних CI.
  2. Закрепить toolchain — Node, глобальные CLI npm и git SHA harness в CMDB.
  3. Экспорт секретов — только неинтерактивный SSH; не коммитьте ключи рядом с harness.
  4. Прогнать матрицу — Codex, затем Claude (или наоборот) на чистых worktree; архив логов в object storage.
  5. Закрепить победителя — предпочтительный CLI в метки runner или nightly cron; второй — для spot-проверок.

Related:

FAQ

Кто набрал больше на Terminal-Bench в этом прогоне Mac mini M4?+
Codex CLI — 77,3% pass rate на закреплённом срезе; Claude Code — 65,4% при том же железе, harness и лимите повторов.
Нужен ли GUI на арендованном Mac?+
Обычные циклы агента — только SSH. Заложите разовый GUI или VNC, если auth требует браузерный OAuth, затем снова headless через launchd или dotfiles.
Насколько велик разрыв по токенам?+
Медиана успешных задач — примерно в четыре раза меньше биллируемых токенов у Codex CLI против Claude Code без учёта неудач, дошедших до успеха повтором.
Может ли один Mac mini M4 хостить оба CLI для CI?+
Да — с разными корнями конфигурации и сериализацией job. При параллельном агенте + Archive добавьте второй арендованный узел вместо перегрузки unified memory.
Какие регионы MacXCode соответствуют этому бенчмарку?+
Пулы Гонконга, Японии, Кореи, Сингапура и США (включая US East) на том же bare-metal M4 — выберите ближе к разработчикам; для egress к API часто оптимальны Сингапур и US East.

Зачем аренда в облаке, а не покупка ещё одного bench-Mac

Оценка агентов — всплески: двухнедельный bake-off не должен становиться CapEx и логистикой стола. Аренда держит эксперименты semver вне продакшен-ноутбуков, даёт клонировать bench-хост по региону и ложится в ту же OpEx-строку, что и аренда vs покупка для iOS CI. Когда регрессии Terminal-Bench станут ночными — вынесите harness в метку runner и снимите ad-hoc SSH-бокс.

Итог: на арендованном Mac mini M4 в облаке Codex CLI опередил Claude Code по pass rate (77,3% vs 65,4%) и эффективности токенов (~) в нашем SSH-first бенчмарке мая 2026 — берите Claude, когда UX ревью важнее баллов, и арендуйте региональные сборщики (в т.ч. SG / US East для API) вместо запаса железа под короткие прогоны агентов.

Арендуйте M4 для бенчмарков агентов и CI

Bare metal с приоритетом SSH в HK, JP, KR, SG и US — тот же класс Mac mini M4, что в этом сравнении Codex CLI vs Claude Code; узлы Сингапур и US East для стабильного доступа к API.