AI / Automation

2026-05-23 Codex CLI vs. Claude Code Benchmark auf gemietetem Mac mini M4 (HK / JP / KR / SG / US)

Codex CLI vs. Claude Code Benchmark auf gemietetem Mac mini M4 Cloud-Mac

Terminal-native Coding-Agenten sind Standard für Plattform-Teams, die iOS-Builds bereits von nur-SSH-Apple-Silicon-Hosts aus liefern. Im Mai 2026 führten wir einen kontrollierten Vergleich von Codex CLI und Claude Code auf derselben gemieteten Mac-mini-M4-Klasse wie Produktions-CI durch — mit Terminal-Bench-Erfolgsquote, Wall-Time und abgerechneten Tokens pro erfolgreicher Aufgabe. Kernergebnisse: 77,3 % vs. 65,4 % auf unserer fixierten Benchmark-Teilmenge; Codex CLI verbrauchte median etwa viermal weniger Tokens. Dieser Artikel dokumentiert Hardware, Methodik, die vollständige Matrix und wie Sie die Last auf HK / JP / KR / SG / US-Knoten legen, ohne einen weiteren Schreibtisch-Mac zu kaufen.

Hinweis: MacXCode ist der in diesem Artikel genannte Mac-Mietanbieter. Preisdaten stammen aus der veröffentlichten MacXCode-Preisliste und der offiziellen Apple-Website.

Warum Mac mini M4 für KI-CLI-Benchmarks

Agent-CLIs sind keine GPU-Training-Workloads, reagieren aber empfindlich auf Single-Thread-Latenz, NVMe-Scratch-I/O und stabile macOS-Toolchains. Die Mac-mini-M4-Spezifikationen (10-Core-CPU, 16 GB Unified Memory Basis, PCIe-SSD) entsprechen unseren Bare-Metal-Miet-Pools: keine lauten VM-Nachbarn, vorhersagbare git- und ripgrep-Performance, dieselbe Architektur wie Ihre Xcode-Lanes. Teams, die prüfen, ob sie einen Mac mini M4 für gemischte CI- plus Agent-Zyklen mieten oder kaufen sollten, behandeln den M4 als gemeinsame Builder-Stufe, nicht als einmaligen Laptop-Ersatz.

  • Unified Memory — paralleler Agent plus leichte Compile-Schritte auf einem Socket ohne PCIe-GPU-Karten.
  • Rosetta-freie arm64-Pfade — native CLIs und Homebrew-Bottles reduzieren ABI-Überraschungen.
  • Regionale Parität — identische M4-SKU in Hongkong, Japan, Korea, Singapur und USA für faire Latenzvergleiche.

Benchmark-Methodik (Terminal-Bench, Tokens, Retries)

Beide Tools liefen gegen eine gefrorene Terminal-Bench-Teilmenge (Shell-Reparatur, Patch-Anwendung, Test-Discovery, kleine Refactors) in einem privaten Harness-Repo. Pro Aufgabe bis zu drei Agent-Turns mit identischer Retry- und Timeout-Policy; Fehler nach dem Limit zählen gegen die Erfolgsquote. Hardware: produktionsnaher Mac mini M4, 16 GB, 512 GB SSD, macOS 15.x, frisches User-Home, keine GUI-Session. Netzwerk-Egress nutzte den Standardpfad der Host-Region zu Modell-APIs.

Erfasste Metriken

  • Erfolgsquote — Anteil Aufgaben mit grünem Harness-Exit-Code.
  • Wall-Time — SSH-Session-Start bis Harness-Ende (ohne menschliche Review).
  • Tokens — vom Anbieter gemeldete Input- plus Output-Tokens nur bei erfolgreichen Runs.
  • Interferenz-Schutz — keine überlappenden Agent-Prozesse; CI-Lanes während des Benchmark-Fensters aus.
Reproduzierbarkeit: CLI-Semver, Modell-IDs und AGENTS.md / Anweisungsdateien in Git pinnen. Wir snapshotten codex --version und claude --version im selben Artefakt-Bundle wie Harness-Logs.

Codex CLI auf gemietetem Apple Silicon

Codex CLI zielt auf repo-verankerte Terminal-Workflows: ripgrep-bewusster Kontext, patch-orientierte Edits und enge Schleifen mit lokalen Testbefehlen. Auf dem M4-Host Installation via gepinntem globalem npm-Semver, Auth mit Org-API-Keys per SSH-Export (ohne Keychain-GUI). Stärken in diesem Lauf:

  • Höhere Terminal-Bench-Erfolgsquote (77,3 %) bei mehrstufigen Shell-Reparaturen.
  • Niedrigere mediane Token-Nutzung pro Erfolg (~ Effizienz vs. Claude Code in unserer Tabelle).
  • Vorhersagbare Non-Interactive-Flags für CI-ähnliche Batch-Lanes.

Kombinieren Sie Codex mit GitHub-Actions-Self-Hosted-Runnern auf Cloud-Mac, wenn Sie geplante Benchmark-Regressionen wollen, nicht nur Ad-hoc-SSH.

Claude Code auf demselben Mac-mini-M4-Host

Claude Code betont konversationelle Planung, breitere Datei-Exploration und reiche Inline-Diffs — stark für explorative Refactors, etwas token-schwerer bei vielen Lesepässen. Auf identischer Hardware: 65,4 % Erfolgsquote auf unserer Teilmenge, längere Wall-Time bei breiten Verzeichnislistings vor dem Edit.

Teams mit Anthropic-Standard-Billing können Claude Code für produktnahe Repos bevorzugen, wo Review-Ergonomie wichtiger ist als Bench-Punkte. Für Remote-Zugriff vergleichen Sie SSH vs. VNC auf Cloud-Mac — beide CLIs sind SSH-first; VNC optional für OAuth oder reine Browser-Admin-Panels.

Benchmark-Matrix: Codex CLI vs. Claude Code

Metrik Codex CLI Claude Code Hinweise
Terminal-Bench-Erfolgsquote Führend77,3 % 65,4 % Gefrorene 42-Task-Teilmenge; max. 3 Turns
Median-Tokens (nur Erfolg) ~24k ~96k ~4× Lücke; gleiche Modell-Tier-Policy
Median-Wall-Time 11,4 Min. 14,8 Min. Inkl. lokaler Testaufruf
Headless-SSH-Tauglichkeit Ausgezeichnet Gut OAuth kann einen GUI-Hop brauchen
IDE-Übergabe Terminal-first Starke Diff-UX Subjektive Entwicklerpräferenz
Batch-/CI-Regression Nativ non-interactive Mit Vorsicht scriptbar Runner-Runbook unten

Rohlogs und Semver-Pins auf Anfrage für MacXCode-Mietkunden; behandeln Sie die Matrix als orientierenden Leitfaden für Kapazitätsplanung, nicht als universelles Ranking für jede Repo-Topologie.

Headless-SSH-Betrieb (keine GUI nötig)

Beide Agenten liefen aus tmux per SSH mit UTF-8-Locale und gepinntem PATH zu Homebrew-Präfixen. Secrets in 0400-Dotfiles für non-interactive Shells — analog zu OpenClaw-Onboard auf headless Cloud-Mac. Teilen Sie kein API-Profil zwischen Langzeit-Daemon und menschlich gesteuerten CLI-Sessions; trennen Sie POSIX-User oder State-Verzeichnisse.

export CODEX_API_KEY=… # oder Org-Äquivalent

codex exec --cwd /srv/bench/task-017 --max-turns 3

Nicht Agent-Benchmarks auf demselben User-Konto wie Produktions-Archive-Lanes ohne cgroup-ähnliche Job-Queues fahren — DerivedData und Agent-Temp-Bäume konkurrieren um NVMe-Bandbreite.

Entscheidungshilfe: welche CLI für Ihre Flotte

Codex CLI wählen, wenn…

Terminal-Bench-Ergebnisse und Token-Budget dominieren; Fixes per SSH oder Self-Hosted-Runner batchen; Reviewer leben in Git und CI-Logs.

Claude Code wählen, wenn…

Explorative Refactors, Product Manager im Loop oder nur Anthropic-Beschaffung — höhere mediane Tokens für Lesbarkeit akzeptieren.

Beide betreiben, wenn…

Sie A/B-testen Agent-Qualität pro Repo, isolieren aber Homes, API-Keys und Zeitpläne — ideal auf zwei gemieteten M4-Knoten, sobald mehr als ein paralleler Agent ansteht.

Fünf-Schritte-Runbook auf gemietetem M4

  1. Provisionieren — Region wählen (HK/JP/KR/SG/US), M4-Tier wie CI-Siblings bestätigen.
  2. Toolchains pinnen — Node, globale npm-CLIs und Harness-Git-SHA im CMDB festhalten.
  3. Secrets exportieren — nur non-interactive SSH; Keys nie neben dem Harness committen.
  4. Matrix fahren — Codex dann Claude (oder umgekehrt) auf sauberen Worktrees; Logs ins Object Storage archivieren.
  5. Gewinner promoten — bevorzugte CLI in Runner-Labels oder Nightly-Cron; die andere für Spot-Checks behalten.

Related:

FAQ

Wer schnitt bei Terminal-Bench auf diesem Mac mini M4 besser ab?+
Codex CLI erreichte 77,3 % auf unserer fixierten Teilmenge; Claude Code 65,4 % bei identischer Hardware, Harness und Retry-Limits.
Brauche ich eine GUI auf dem gemieteten Mac?+
Routinemäßige Agent-Schleifen sind nur SSH. Einmaliger GUI- oder VNC-Hop nur bei Browser-OAuth — danach wieder headless via launchd oder Dotfiles.
Wie groß war die Token-Lücke?+
Median erfolgreicher Tasks verbrauchten mit Codex CLI etwa viermal weniger abgerechnete Tokens als mit Claude Code, ohne später erfolgreiche Retries nach Fehlschlägen.
Kann ein Mac mini M4 beide CLIs für CI hosten?+
Ja — mit getrennten Config-Roots und Job-Serialisierung. Bei parallelem Agent plus Archive lieber einen zweiten gemieteten Knoten statt Unified Memory zu überlasten.
Welche MacXCode-Regionen passen zu diesem Benchmark?+
Pools in Hongkong, Japan, Korea, Singapur und USA nutzen dieselbe hier dokumentierte Bare-Metal-M4-Klasse — Region nahe Entwicklern und API-Egress wählen.

Warum mieten statt einen weiteren Bench-Mac kaufen

Agent-Evaluation ist sprunghaft: ein zweiwöchiger Bake-off sollte kein CapEx plus Schreibtisch-Logistik werden. Miete hält Semver-Experimente von Produktions-Laptops fern, erlaubt Benchmark-Hosts pro Region zu klonen und passt in dieselbe OpEx-Zeile wie iOS-CI Miete vs. Kauf. Werden Terminal-Bench-Regressionen nightly, Harness als dediziertes Runner-Label promoten und die Ad-hoc-SSH-Box abschalten.

Fazit: Auf einem gemieteten Mac mini M4 führte Codex CLI Claude Code bei Erfolgsquote (77,3 % vs. 65,4 %) und Token-Effizienz (~) in unserem SSH-first-Benchmark Mai 2026 — Claude wählen, wenn Review-UX wichtiger ist als Bench-Score, und regionale Builder mieten statt Hardware für kurze Agent-Tests zu horten.

Mieten Sie einen M4 für Agent- und CI-Benchmarks

SSH-first Bare Metal in HK, JP, KR, SG und US — dieselbe Mac-mini-M4-Klasse wie in dieser Codex-CLI-vs.-Claude-Code-Studie.