AI / Automation

2026-05-23 Benchmark Codex CLI vs Claude Code sur Mac mini M4 loué (HK / JP / KR / SG / US)

Benchmark Codex CLI vs Claude Code sur Mac mini M4 loué cloud Mac

Les agents de codage natifs terminal sont devenus l’équipement standard des équipes plateforme qui livrent déjà des builds iOS depuis des hôtes Apple Silicon uniquement en SSH. En mai 2026, nous avons mené une comparaison contrôlée de Codex CLI et Claude Code sur la même classe de Mac mini M4 loué que la CI de production — en mesurant le taux de réussite Terminal-Bench, le temps mur et les tokens facturés par tâche réussie. Chiffres clés : 77,3 % vs 65,4 % sur notre tranche de benchmark figée, Codex CLI consommant environ quatre fois moins de tokens en médiane. Cet article documente le matériel, la méthodologie, la matrice complète et comment placer la charge sur les nœuds HK / JP / KR / SG / US sans acheter un autre Mac de bureau.

Transparence : MacXCode est le prestataire de location Mac cité dans cet article. Les tarifs proviennent de la grille publiée par MacXCode et du site officiel Apple.

Pourquoi un Mac mini M4 pour les benchmarks CLI IA

Les CLI agent ne sont pas des charges d’entraînement GPU, mais elles sont sensibles à la latence mono-thread, à l’I/O NVMe scratch et aux chaînes d’outils macOS stables. Les spécifications Mac mini M4 (CPU 10 cœurs, 16 Go de mémoire unifiée en base, SSD PCIe) correspondent à ce que nous provisionnons en pools bare metal en location : pas de VM bruyantes, performances git et ripgrep prévisibles, même architecture que vos lanes Xcode. Les équipes qui évaluent s’il vaut mieux louer ou acheter un Mac mini M4 pour des cycles mixtes CI + agent doivent traiter le M4 comme un niveau builder partagé, pas un remplacement ponctuel de portable.

  • Mémoire unifiée — agent concurrent + compilations légères sur un seul socket, sans carte GPU PCIe.
  • Chemins arm64 natifs — CLI et bouteilles Homebrew sans surprise Rosetta.
  • Parité régionale — même SKU M4 à Hong Kong, Japon, Corée, Singapour et États-Unis pour des comparaisons de latence équitables.

Méthodologie de benchmark (Terminal-Bench, tokens, relances)

Nous avons exécuté les deux outils sur un sous-ensemble Terminal-Bench figé (réparation shell, application de patch, découverte de tests, petits refactors) versionné dans un dépôt harness privé. Chaque tâche autorisait jusqu’à trois tours agent avec politique identique de relance et timeout ; les échecs après la limite comptent dans le taux de réussite. Matériel : Mac mini M4, 16 Go, SSD 512 Go de classe production, macOS 15.x, home utilisateur vierge, sans session GUI. L’egress réseau suivait le chemin par défaut de la région hôte vers les API modèles.

Métriques capturées

  • Taux de réussite — fraction de tâches avec code de sortie harness vert.
  • Temps mur — début de session SSH à fin harness (hors revue humaine).
  • Tokens — entrée + sortie rapportées par le fournisseur, runs réussis uniquement.
  • Garde-fou interférences — aucun processus agent chevauché ; lanes CI désactivées pendant la fenêtre benchmark.
Reproductibilité : figez le semver CLI, les ID modèle et les fichiers AGENTS.md / consignes dans git. Nous snapshotons codex --version et claude --version dans le même bundle d’artefacts que les logs harness.

Codex CLI sur Apple Silicon loué

Codex CLI cible les workflows terminal ancrés au dépôt : contexte compatible ripgrep, edits orientés patch et boucles serrées avec commandes de test locales. Sur l’hôte M4, installation via semver npm global épinglé, authentification par clés API org exportées en session SSH (sans GUI Keychain). Points forts observés :

  • Taux Terminal-Bench plus élevé (77,3 %) sur réparations shell multi-étapes.
  • Médiane de tokens plus basse par succès (~ vs Claude Code dans notre tableau).
  • Flags non interactifs prévisibles pour lanes batch type CI.

Associez Codex aux runners GitHub Actions self-hosted sur Mac cloud pour des régressions benchmark planifiées, pas seulement des sessions SSH ad hoc.

Claude Code sur le même Mac mini M4

Claude Code met l’accent sur la planification conversationnelle, l’exploration large de fichiers et les diffs inline riches — excellent pour refactors exploratoires, un peu plus gourmand en tokens quand les tâches exigent de nombreuses passes de lecture. Sur matériel identique : 65,4 % de réussite sur notre tranche, temps mur plus long quand de larges listages de répertoires précèdent l’édition.

Les équipes déjà sur la facturation Anthropic peuvent préférer Claude Code pour les dépôts produit où l’ergonomie de revue prime sur le score bench. Pour l’accès distant, comparez SSH vs VNC sur Mac cloud — les deux CLI sont SSH-first ; le VNC reste optionnel pour OAuth ou panneaux admin navigateur uniquement.

Matrice benchmark : Codex CLI vs Claude Code

Métrique Codex CLI Claude Code Notes
Taux de réussite Terminal-Bench Leader77,3 % 65,4 % Tranche 42 tâches figée ; max 3 tours
Tokens médians (succès seul) ~24k ~96k Écart ~4× ; même politique de tier modèle
Temps mur médian 11,4 min 14,8 min Inclut invocation test locale
Adéquation SSH sans GUI Excellente Bonne OAuth peut exiger un saut GUI ponctuel
Passage IDE Terminal d’abord UX diff forte Préférence développeur subjective
Régression batch / CI Non interactif natif Scriptable avec précaution Voir runbook runner ci-dessous

Logs bruts et épingles semver disponibles sur demande pour les clients en location MacXCode ; traitez la matrice comme guide directionnel pour la planification de capacité, pas un classement universel pour toute topologie de dépôt.

Exploitation SSH sans affichage (sans GUI requise)

Les deux agents tournaient depuis tmux en SSH avec locale UTF-8 et PATH épinglé vers les préfixes Homebrew. Secrets dans des dotfiles 0400 sourcés par shells non interactifs — comme pour OpenClaw onboard sur Mac cloud sans tête. N’utilisez pas un même profil API entre démon longue durée et sessions CLI humaines ; séparez utilisateurs POSIX ou répertoires d’état.

export CODEX_API_KEY=… # ou équivalent org

codex exec --cwd /srv/bench/task-017 --max-turns 3

Ne pas lancer de benchmarks agent sur le même compte utilisateur que les lanes Archive de production sans files d’attente type cgroup — DerivedData et arbres temp agent se disputent la bande passante NVMe.

Guide de choix : quelle CLI pour votre flotte

Choisir Codex CLI quand…

Les résultats Terminal-Bench et le budget tokens dominent ; vous batcher des correctifs via SSH ou runners self-hosted ; les relecteurs vivent dans git et les logs CI.

Choisir Claude Code quand…

Refactors exploratoires, product managers dans la boucle, ou achats Anthropic uniquement — acceptez une médiane de tokens plus élevée pour la lisibilité.

Faire tourner les deux quand…

Vous faites de l’A/B qualité agent par dépôt mais isolez homes, clés API et plannings — idéalement sur deux nœuds M4 loués dès qu’une file dépasse un agent concurrent.

Runbook en cinq étapes sur un M4 loué

  1. Provisionner — choisir la région (HK/JP/KR/SG/US), confirmer que le tier M4 correspond aux siblings CI.
  2. Épingler les toolchains — noter Node, CLI npm globaux et SHA git harness dans le CMDB.
  3. Exporter les secrets — SSH non interactif uniquement ; ne jamais committer les clés à côté du harness.
  4. Exécuter la matrice — Codex puis Claude (ou l’inverse) sur worktrees propres ; archiver les logs vers l’object storage.
  5. Promouvoir le gagnant — brancher la CLI préférée sur les labels runner ou cron nocturne ; garder l’autre pour contrôles ponctuels.

Related:

FAQ

Quel score Terminal-Bench sur ce Mac mini M4 ?+
Codex CLI a atteint 77,3 % sur notre tranche figée ; Claude Code 65,4 % avec matériel, harness et plafonds de relance identiques.
Faut-il une GUI sur le Mac loué ?+
Les boucles agent courantes sont SSH uniquement. Prévoyez un saut GUI ou VNC ponctuel si l’auth exige OAuth navigateur — puis revenez aux exports headless dans launchd ou dotfiles.
Quelle était l’écart de tokens ?+
Les tâches réussies en médiane ont consommé environ quatre fois moins de tokens facturés avec Codex CLI qu’avec Claude Code, hors échecs puis relance jusqu’à succès.
Un Mac mini M4 peut-il héberger les deux CLI pour la CI ?+
Oui — avec racines de config séparées et sérialisation des jobs. Pour agent + Archive en parallèle, ajoutez un second nœud loué plutôt que de saturer la mémoire unifiée.
Quelles régions MacXCode correspondent à ce benchmark ?+
Les pools Hong Kong, Japon, Corée, Singapour et États-Unis utilisent la même classe M4 bare metal documentée ici — choisissez la région la plus proche des développeurs et de l’egress API.

Pourquoi louer plutôt qu’acheter un Mac de bench supplémentaire

L’évaluation agent est par à-coups : un bake-off de deux semaines ne devrait pas devenir un CapEx plus logistique de bureau. La location garde les expériences semver hors des portables de production, permet de cloner l’hôte benchmark par région et s’aligne sur la même ligne OpEx que la planification location vs achat CI iOS. Quand les régressions Terminal-Bench deviennent nocturnes, promouvez le harness en label runner dédié et retirez la box SSH ad hoc.

En bref : sur un Mac mini M4 loué, Codex CLI a devancé Claude Code en taux de réussite (77,3 % vs 65,4 %) et efficacité tokens (~) dans notre benchmark SSH-first de mai 2026 — choisissez Claude quand l’UX de revue prime sur le score bench, et louez des builders régionaux plutôt que d’empiler du matériel pour de courtes évaluations agent.

Louez un M4 pour benchmarks agent + CI

Bare metal SSH-first à HK, JP, KR, SG et US — même classe Mac mini M4 que cette étude Codex CLI vs Claude Code.