2026-05-23 Codex CLI vs. Claude Code Benchmark auf gemietetem Mac mini M4 (HK / JP / KR / SG / US)
Terminal-native Coding-Agenten sind Standard für Plattform-Teams, die iOS-Builds bereits von nur-SSH-Apple-Silicon-Hosts aus liefern. Im Mai 2026 führten wir einen kontrollierten Vergleich von Codex CLI und Claude Code auf derselben gemieteten Mac-mini-M4-Klasse wie Produktions-CI durch — mit Terminal-Bench-Erfolgsquote, Wall-Time und abgerechneten Tokens pro erfolgreicher Aufgabe. Kernergebnisse: 77,3 % vs. 65,4 % auf unserer fixierten Benchmark-Teilmenge; Codex CLI verbrauchte median etwa viermal weniger Tokens. Dieser Artikel dokumentiert Hardware, Methodik, die vollständige Matrix und wie Sie die Last auf HK / JP / KR / SG / US-Knoten legen, ohne einen weiteren Schreibtisch-Mac zu kaufen.
Warum Mac mini M4 für KI-CLI-Benchmarks
Agent-CLIs sind keine GPU-Training-Workloads, reagieren aber empfindlich auf Single-Thread-Latenz, NVMe-Scratch-I/O und stabile macOS-Toolchains. Die Mac-mini-M4-Spezifikationen (10-Core-CPU, 16 GB Unified Memory Basis, PCIe-SSD) entsprechen unseren Bare-Metal-Miet-Pools: keine lauten VM-Nachbarn, vorhersagbare git- und ripgrep-Performance, dieselbe Architektur wie Ihre Xcode-Lanes. Teams, die prüfen, ob sie einen Mac mini M4 für gemischte CI- plus Agent-Zyklen mieten oder kaufen sollten, behandeln den M4 als gemeinsame Builder-Stufe, nicht als einmaligen Laptop-Ersatz.
- Unified Memory — paralleler Agent plus leichte Compile-Schritte auf einem Socket ohne PCIe-GPU-Karten.
- Rosetta-freie arm64-Pfade — native CLIs und Homebrew-Bottles reduzieren ABI-Überraschungen.
- Regionale Parität — identische M4-SKU in Hongkong, Japan, Korea, Singapur und USA für faire Latenzvergleiche.
Benchmark-Methodik (Terminal-Bench, Tokens, Retries)
Beide Tools liefen gegen eine gefrorene Terminal-Bench-Teilmenge (Shell-Reparatur, Patch-Anwendung, Test-Discovery, kleine Refactors) in einem privaten Harness-Repo. Pro Aufgabe bis zu drei Agent-Turns mit identischer Retry- und Timeout-Policy; Fehler nach dem Limit zählen gegen die Erfolgsquote. Hardware: produktionsnaher Mac mini M4, 16 GB, 512 GB SSD, macOS 15.x, frisches User-Home, keine GUI-Session. Netzwerk-Egress nutzte den Standardpfad der Host-Region zu Modell-APIs.
Erfasste Metriken
- Erfolgsquote — Anteil Aufgaben mit grünem Harness-Exit-Code.
- Wall-Time — SSH-Session-Start bis Harness-Ende (ohne menschliche Review).
- Tokens — vom Anbieter gemeldete Input- plus Output-Tokens nur bei erfolgreichen Runs.
- Interferenz-Schutz — keine überlappenden Agent-Prozesse; CI-Lanes während des Benchmark-Fensters aus.
AGENTS.md / Anweisungsdateien in Git pinnen. Wir snapshotten codex --version und claude --version im selben Artefakt-Bundle wie Harness-Logs.
Codex CLI auf gemietetem Apple Silicon
Codex CLI zielt auf repo-verankerte Terminal-Workflows: ripgrep-bewusster Kontext, patch-orientierte Edits und enge Schleifen mit lokalen Testbefehlen. Auf dem M4-Host Installation via gepinntem globalem npm-Semver, Auth mit Org-API-Keys per SSH-Export (ohne Keychain-GUI). Stärken in diesem Lauf:
- Höhere Terminal-Bench-Erfolgsquote (77,3 %) bei mehrstufigen Shell-Reparaturen.
- Niedrigere mediane Token-Nutzung pro Erfolg (~4× Effizienz vs. Claude Code in unserer Tabelle).
- Vorhersagbare Non-Interactive-Flags für CI-ähnliche Batch-Lanes.
Kombinieren Sie Codex mit GitHub-Actions-Self-Hosted-Runnern auf Cloud-Mac, wenn Sie geplante Benchmark-Regressionen wollen, nicht nur Ad-hoc-SSH.
Claude Code auf demselben Mac-mini-M4-Host
Claude Code betont konversationelle Planung, breitere Datei-Exploration und reiche Inline-Diffs — stark für explorative Refactors, etwas token-schwerer bei vielen Lesepässen. Auf identischer Hardware: 65,4 % Erfolgsquote auf unserer Teilmenge, längere Wall-Time bei breiten Verzeichnislistings vor dem Edit.
Teams mit Anthropic-Standard-Billing können Claude Code für produktnahe Repos bevorzugen, wo Review-Ergonomie wichtiger ist als Bench-Punkte. Für Remote-Zugriff vergleichen Sie SSH vs. VNC auf Cloud-Mac — beide CLIs sind SSH-first; VNC optional für OAuth oder reine Browser-Admin-Panels.
Benchmark-Matrix: Codex CLI vs. Claude Code
| Metrik | Codex CLI | Claude Code | Hinweise |
|---|---|---|---|
| Terminal-Bench-Erfolgsquote | Führend77,3 % | 65,4 % | Gefrorene 42-Task-Teilmenge; max. 3 Turns |
| Median-Tokens (nur Erfolg) | ~24k | ~96k | ~4× Lücke; gleiche Modell-Tier-Policy |
| Median-Wall-Time | 11,4 Min. | 14,8 Min. | Inkl. lokaler Testaufruf |
| Headless-SSH-Tauglichkeit | Ausgezeichnet | Gut | OAuth kann einen GUI-Hop brauchen |
| IDE-Übergabe | Terminal-first | Starke Diff-UX | Subjektive Entwicklerpräferenz |
| Batch-/CI-Regression | Nativ non-interactive | Mit Vorsicht scriptbar | Runner-Runbook unten |
Rohlogs und Semver-Pins auf Anfrage für MacXCode-Mietkunden; behandeln Sie die Matrix als orientierenden Leitfaden für Kapazitätsplanung, nicht als universelles Ranking für jede Repo-Topologie.
Headless-SSH-Betrieb (keine GUI nötig)
Beide Agenten liefen aus tmux per SSH mit UTF-8-Locale und gepinntem PATH zu Homebrew-Präfixen. Secrets in 0400-Dotfiles für non-interactive Shells — analog zu OpenClaw-Onboard auf headless Cloud-Mac. Teilen Sie kein API-Profil zwischen Langzeit-Daemon und menschlich gesteuerten CLI-Sessions; trennen Sie POSIX-User oder State-Verzeichnisse.
export CODEX_API_KEY=… # oder Org-Äquivalent
codex exec --cwd /srv/bench/task-017 --max-turns 3
Entscheidungshilfe: welche CLI für Ihre Flotte
Terminal-Bench-Ergebnisse und Token-Budget dominieren; Fixes per SSH oder Self-Hosted-Runner batchen; Reviewer leben in Git und CI-Logs.
Explorative Refactors, Product Manager im Loop oder nur Anthropic-Beschaffung — höhere mediane Tokens für Lesbarkeit akzeptieren.
Sie A/B-testen Agent-Qualität pro Repo, isolieren aber Homes, API-Keys und Zeitpläne — ideal auf zwei gemieteten M4-Knoten, sobald mehr als ein paralleler Agent ansteht.
Fünf-Schritte-Runbook auf gemietetem M4
- Provisionieren — Region wählen (HK/JP/KR/SG/US), M4-Tier wie CI-Siblings bestätigen.
- Toolchains pinnen — Node, globale npm-CLIs und Harness-Git-SHA im CMDB festhalten.
- Secrets exportieren — nur non-interactive SSH; Keys nie neben dem Harness committen.
- Matrix fahren — Codex dann Claude (oder umgekehrt) auf sauberen Worktrees; Logs ins Object Storage archivieren.
- Gewinner promoten — bevorzugte CLI in Runner-Labels oder Nightly-Cron; die andere für Spot-Checks behalten.
Related:
- Google Antigravity auf gemietetem M4 (2026-05-23) — Agent-IDE, CLI und Gemini-CLI-Migration am 18. Juni
FAQ
Warum mieten statt einen weiteren Bench-Mac kaufen
Agent-Evaluation ist sprunghaft: ein zweiwöchiger Bake-off sollte kein CapEx plus Schreibtisch-Logistik werden. Miete hält Semver-Experimente von Produktions-Laptops fern, erlaubt Benchmark-Hosts pro Region zu klonen und passt in dieselbe OpEx-Zeile wie iOS-CI Miete vs. Kauf. Werden Terminal-Bench-Regressionen nightly, Harness als dediziertes Runner-Label promoten und die Ad-hoc-SSH-Box abschalten.
Fazit: Auf einem gemieteten Mac mini M4 führte Codex CLI Claude Code bei Erfolgsquote (77,3 % vs. 65,4 %) und Token-Effizienz (~4×) in unserem SSH-first-Benchmark Mai 2026 — Claude wählen, wenn Review-UX wichtiger ist als Bench-Score, und regionale Builder mieten statt Hardware für kurze Agent-Tests zu horten.
Mieten Sie einen M4 für Agent- und CI-Benchmarks
SSH-first Bare Metal in HK, JP, KR, SG und US — dieselbe Mac-mini-M4-Klasse wie in dieser Codex-CLI-vs.-Claude-Code-Studie.