2026-05-23 임대 Mac mini M4에서 Codex CLI vs Claude Code 벤치마크 (HK / JP / KR / SG / US · 서울 노드)
터미널 중심 코딩 에이전트는 이미 SSH만 사용하는 Apple Silicon 호스트에서 iOS 빌드를 보내는 플랫폼 팀의 기본 도구입니다. 2026년 5월, 본문 CI와 동일한 임대 Mac mini M4 클래스에서 Codex CLI와 Claude Code를 대조 실험했고, Terminal-Bench 통과율·경과 시간·성공 작업당 과금 토큰을 측정했습니다. 요약 수치는 77.3% 대 65.4%, 중앙값 기준 Codex CLI 토큰은 약 4분의 1 수준입니다. 하드웨어, 측정 방법, 전체 표, 서울 노드를 포함한 HK / JP / KR / SG / US 배치 방법을 정리합니다. 책상용 Mac을 추가로 사지 않고 검증할 수 있습니다.
AI CLI 벤치마크에 Mac mini M4를 쓰는 이유
에이전트 CLI는 GPU 학습 워크로드는 아니지만, 단일 스레드 지연·NVMe 스크래치 I/O·안정적인 macOS 툴체인에 민감합니다. Mac mini M4 사양(10코어 CPU, 16GB 통합 메모리 기본, PCIe SSD)은 베어 메탈 임대 풀과 일치합니다. VM의 noisy neighbor가 없고 git·ripgrep 성능이 예측 가능하며, 기존 Xcode 레인과 같은 아키텍처입니다. CI와 에이전트를 함께 쓴다면 Mac mini M4 임대 vs 구매 논의와 맞춰 M4를 공유 빌더 계층으로 보는 것이 현실적입니다.
- 통합 메모리 — 에이전트와 가벼운 컴파일을 한 소켓에 두고 PCIe GPU는 필요 없습니다.
- Apple Silicon 네이티브 — arm64 CLI와 Homebrew 병으로 Rosetta ABI 서프라이즈를 줄입니다.
- 리전 동형 — 홍콩·일본·한국(서울 노드)·싱가포르·미국에서 동일 M4 SKU로 공정한 지연 비교가 가능합니다.
측정 방법 (Terminal-Bench, 토큰, 재시도)
두 도구를 고정 Terminal-Bench 서브셋(셸 수리, 패치 적용, 테스트 탐색, 소규모 리팩터)에 대해 실행했습니다. 각 작업은 최대 3턴, 재시도·타임아웃 정책은 동일합니다. 상한 초과 실패는 통과율에 포함합니다. 하드웨어는 Mac mini M4·16GB·512GB SSD, macOS 15.x, 새 사용자 홈, GUI 세션 없음. 아웃바운드는 호스트 리전 기본 경로로 모델 API에 연결했습니다.
수집 지표
- 통과율 — 하네스가 성공 종료 코드를 반환한 작업 비율입니다.
- 경과 시간 — SSH 시작부터 하네스 완료까지(사람 리뷰 제외)입니다.
- 토큰 — 성공 런만, 프로바이더 보고 입·출력 합산입니다.
- 간섭 방지 — 에이전트 중복 실행 없음. 측정 구간에는 CI 레인을 중지했습니다.
AGENTS.md 등을 git에 고정합니다. codex --version과 claude --version은 하네스 로그와 같은 아티팩트에 저장했습니다.
임대 Apple Silicon에서 Codex CLI
Codex CLI는 리포지토리 기반 터미널 워크플로에 맞춰져 있습니다. ripgrep 문맥, 패치 중심 편집, 로컬 테스트와의 짧은 루프가 강점입니다. M4에서는 npm global을 고정 semver로 설치하고, 조직 API 키를 SSH 세션에 export(Keychain GUI 불필요)했습니다. 이번 관측:
- 다단계 셸 수리에서 Terminal-Bench 77.3%.
- 성공당 중앙 토큰이 적음(표 기준 Claude Code 대 약 4배 효율).
- CI형 비대화 플래그가 안정적입니다.
야간 벤치마크 회귀를 돌리려면 클라우드 Mac의 GitHub Actions 셀프호스트 Runner와 조합하는 것이 좋습니다.
동일 Mac mini M4 호스트의 Claude Code
Claude Code는 대화형 계획, 넓은 파일 탐색, 풍부한 인라인 diff에 강합니다. 탐색적 리팩터에는 좋지만, 넓은 읽기가 이어지면 토큰이 늘기 쉽습니다. 동일 하드웨어에서 65.4%, 편집 전 넓은 디렉터리 목록을 먼저 뽑는 작업에서 경과 시간이 길었습니다.
Anthropic 과금에 이미 맞춘 팀은 벤치 점수보다 리뷰 경험을 우선해 Claude Code를 선택할 수 있습니다. 원격 접속은 클라우드 Mac SSH vs VNC를 비교하세요. 두 CLI 모두 SSH 우선이며 OAuth·브라우저 관리에는 VNC가 보조입니다.
벤치마크 표: Codex CLI vs Claude Code
| 지표 | Codex CLI | Claude Code | 비고 |
|---|---|---|---|
| Terminal-Bench 통과율 | 우위77.3% | 65.4% | 고정 42작업·최대 3턴 |
| 중앙 토큰(성공만) | 약 24k | 약 96k | 약 4배 차·동일 모델 티어 |
| 중앙 경과 시간 | 11.4분 | 14.8분 | 로컬 테스트 포함 |
| 헤드리스 SSH 적합 | 매우 좋음 | 좋음 | OAuth는 GUI 1회 가능 |
| IDE 인계 | 터미널 중심 | diff UX 강함 | 주관적 선호 |
| 배치/CI 회귀 | 비대화 기본 | 신중한 스크립트 | 아래 절차 참고 |
원시 로그와 semver 고정은 MacXCode 임대 고객에게 요청 시 제공합니다. 표는 용량 계획용 방향성이며 모든 리포 토폴로지의 절대 순위는 아닙니다.
헤드리스 SSH 운영 (GUI 불필요)
두 에이전트는 UTF-8 로케일과 Homebrew 우선 PATH를 고정한 tmux SSH에서 실행했습니다. 시크릿은 비대화 셸이 읽는 0400 dotfile에 두었으며, 헤드리스 클라우드 Mac OpenClaw 온보딩과 같습니다. 상주 데몬과 수동 CLI가 같은 API 프로필을 공유하지 마세요. POSIX 사용자 또는 상태 디렉터리를 분리합니다.
export CODEX_API_KEY=… # 조직 키
codex exec --cwd /srv/bench/task-017 --max-turns 3
선정 가이드: 어떤 CLI를 플릿에 둘까
Terminal-Bench 결과와 토큰 예산이 최우선. SSH 또는 셀프호스트 Runner로 배치 수정하고, 리뷰는 git·CI 로그 중심입니다.
탐색적 리팩터, PM 동석, Anthropic 단독 조달 등. 가독성을 위해 중앙 토큰 증가를 허용합니다.
리포별 A/B하되 홈·API 키·스케줄은 분리. 동시 에이전트가 1을 넘으면 두 번째 M4 임대를 권장합니다.
임대 M4에서 5단계 절차
- 프로비저닝 — 리전(HK/JP/KR/SG/US, 한국은 서울 노드)을 고르고 CI 형제와 M4 티어를 맞춥니다.
- 툴체인 고정 — Node, npm global CLI, 하네스 git SHA를 CMDB에 기록합니다.
- 시크릿 export — 비대화 SSH만. 하네스 옆에 키를 커밋하지 않습니다.
- 표 실행 — 깨끗한 worktree에서 Codex→Claude(또는 반대). 로그는 객체 스토리지에 보관합니다.
- 승자 승격 — 우선 CLI를 Runner 라벨·야간 cron에 연결하고, 다른 쪽은 스팟 검증용으로 둡니다.
Related:
- Google Antigravity 렌탈 M4 (2026-05-23) — 에이전트 IDE, CLI, Gemini CLI 6월 18일 마이그레이션
FAQ
검증용 Mac을 사지 않고 임대하는 이유
에이전트 평가는 버스트형입니다. 2주 베이크오프를 CapEx와 책상 물류로 만들 필요가 없습니다. 임대는 프로덕션 노트북을 오염시키지 않고, 리전별 벤치 호스트를 복제하며, iOS CI 임대 vs 구매와 같은 OpEx 항목에 둡니다. Terminal-Bench 회귀가 야간화되면 전용 Runner 라벨로 승격하고 임시 SSH 상자는 은퇴시킵니다.
요약: 임대 Mac mini M4에서 2026년 5월 SSH 우선 벤치로 Codex CLI가 통과율(77.3% 대 65.4%)과 토큰 효율(약 4배)에서 앞섰습니다. 리뷰 UX가 벤치보다 중요하면 Claude Code를 고르고, 단기 평가를 위해 하드웨어를 쌓지 말고 지역 빌더를 임대하세요.