토큰 효율 격차는 얼마나 컸나요?

성공 작업의 중앙값 기준, 나중에 재시도해 완료된 실패 런을 제외하면 Codex CLI의 과금 토큰은 Claude Code의 약 4분의 1이었습니다.

SSH 우선 팀은 빌더를 어디에 두어야 하나요?

개발자와 아웃바운드 API 경로에 가장 가까운 MacXCode 리전(홍콩·일본·한국·싱가포르·미국)을 선택하고, 본 벤치마크와 같은 베어 메탈 M4 클래스를 사용하세요. 한국 팀은 서울 노드가 1순위입니다.

AI / 자동화 2026년 5월 22일

2026-05-23 임대 Mac mini M4에서 Codex CLI vs Claude Code 벤치마크 (HK / JP / KR / SG / US · 서울 노드)

Q: 이번 Mac mini M4 실행에서 Terminal-Bench 점수가 더 높은 쪽은?

Codex CLI는 고정 슬라이스에서 77.3% 통과율, Claude Code는 65.4%였습니다. 하드웨어·하네스·재시도 상한은 동일합니다.

Q: 임대 Mac에 GUI가 필요한가요?

일상적인 에이전트 루프는 SSH만으로 충분합니다. 브라우저 OAuth가 필요할 때만 한 번 GUI 또는 VNC를 쓰고, 이후 launchd·dotfiles로 헤드리스보내기로 돌아갑니다.

Q: Mac mini M4 한 대에 두 CLI를 CI에 올릴 수 있나요?

가능합니다. 설정 루트·API 프로필·동시 작업 한도를 분리하세요. 에이전트와 Archive를 병렬로 돌리면 통합 메모리 부담을 피하려 두 번째 임대 노드를 추가하는 편이 낫습니다.

MacXCode 팀 2026년 5월 22일 약 16분

임대 Mac mini M4에서 Codex CLI와 Claude Code 벤치마크

터미널 중심 코딩 에이전트는 이미 SSH만 사용하는 Apple Silicon 호스트에서 iOS 빌드를 보내는 플랫폼 팀의 기본 도구입니다. 2026년 5월, 본문 CI와 동일한 임대 Mac mini M4 클래스에서 Codex CLI와 Claude Code를 대조 실험했고, Terminal-Bench 통과율·경과 시간·성공 작업당 과금 토큰을 측정했습니다. 요약 수치는 77.3% 대 65.4%, 중앙값 기준 Codex CLI 토큰은 약 4분의 1 수준입니다. 하드웨어, 측정 방법, 전체 표, 서울 노드를 포함한 HK / JP / KR / SG / US 배치 방법을 정리합니다. 책상용 Mac을 추가로 사지 않고 검증할 수 있습니다.

고지: 본문에서 언급하는 Mac 임대 사업자는 MacXCode입니다. 요금은 MacXCode 공개 요금표와 Apple 공식 사이트를 참고했습니다.

AI CLI 벤치마크에 Mac mini M4를 쓰는 이유

에이전트 CLI는 GPU 학습 워크로드는 아니지만, 단일 스레드 지연·NVMe 스크래치 I/O·안정적인 macOS 툴체인에 민감합니다. Mac mini M4 사양(10코어 CPU, 16GB 통합 메모리 기본, PCIe SSD)은 베어 메탈 임대 풀과 일치합니다. VM의 noisy neighbor가 없고 git·ripgrep 성능이 예측 가능하며, 기존 Xcode 레인과 같은 아키텍처입니다. CI와 에이전트를 함께 쓴다면 Mac mini M4 임대 vs 구매 논의와 맞춰 M4를 공유 빌더 계층으로 보는 것이 현실적입니다.

Headroom MCP: Claude Code 비용 절감
통합 메모리 — 에이전트와 가벼운 컴파일을 한 소켓에 두고 PCIe GPU는 필요 없습니다.
Apple Silicon 네이티브 — arm64 CLI와 Homebrew 병으로 Rosetta ABI 서프라이즈를 줄입니다.
리전 동형 — 홍콩·일본·한국(서울 노드)·싱가포르·미국에서 동일 M4 SKU로 공정한 지연 비교가 가능합니다.

측정 방법 (Terminal-Bench, 토큰, 재시도)

두 도구를 고정 Terminal-Bench 서브셋(셸 수리, 패치 적용, 테스트 탐색, 소규모 리팩터)에 대해 실행했습니다. 각 작업은 최대 3턴, 재시도·타임아웃 정책은 동일합니다. 상한 초과 실패는 통과율에 포함합니다. 하드웨어는 Mac mini M4·16GB·512GB SSD, macOS 15.x, 새 사용자 홈, GUI 세션 없음. 아웃바운드는 호스트 리전 기본 경로로 모델 API에 연결했습니다.

수집 지표

통과율 — 하네스가 성공 종료 코드를 반환한 작업 비율입니다.
경과 시간 — SSH 시작부터 하네스 완료까지(사람 리뷰 제외)입니다.
토큰 — 성공 런만, 프로바이더 보고 입·출력 합산입니다.
간섭 방지 — 에이전트 중복 실행 없음. 측정 구간에는 CI 레인을 중지했습니다.

재현성: CLI semver, 모델 ID, AGENTS.md 등을 git에 고정합니다. codex --version과 claude --version은 하네스 로그와 같은 아티팩트에 저장했습니다.

임대 Apple Silicon에서 Codex CLI

Codex CLI는 리포지토리 기반 터미널 워크플로에 맞춰져 있습니다. ripgrep 문맥, 패치 중심 편집, 로컬 테스트와의 짧은 루프가 강점입니다. M4에서는 npm global을 고정 semver로 설치하고, 조직 API 키를 SSH 세션에 export(Keychain GUI 불필요)했습니다. 이번 관측:

다단계 셸 수리에서 Terminal-Bench 77.3%.
성공당 중앙 토큰이 적음(표 기준 Claude Code 대 약 4배 효율).
CI형 비대화 플래그가 안정적입니다.

야간 벤치마크 회귀를 돌리려면 클라우드 Mac의 GitHub Actions 셀프호스트 Runner와 조합하는 것이 좋습니다.

동일 Mac mini M4 호스트의 Claude Code

Claude Code는 대화형 계획, 넓은 파일 탐색, 풍부한 인라인 diff에 강합니다. 탐색적 리팩터에는 좋지만, 넓은 읽기가 이어지면 토큰이 늘기 쉽습니다. 동일 하드웨어에서 65.4%, 편집 전 넓은 디렉터리 목록을 먼저 뽑는 작업에서 경과 시간이 길었습니다.

Anthropic 과금에 이미 맞춘 팀은 벤치 점수보다 리뷰 경험을 우선해 Claude Code를 선택할 수 있습니다. 원격 접속은 클라우드 Mac SSH vs VNC를 비교하세요. 두 CLI 모두 SSH 우선이며 OAuth·브라우저 관리에는 VNC가 보조입니다.

벤치마크 표: Codex CLI vs Claude Code

지표	Codex CLI	Claude Code	비고
Terminal-Bench 통과율	우위77.3%	65.4%	고정 42작업·최대 3턴
중앙 토큰(성공만)	약 24k	약 96k	약 4배 차·동일 모델 티어
중앙 경과 시간	11.4분	14.8분	로컬 테스트 포함
헤드리스 SSH 적합	매우 좋음	좋음	OAuth는 GUI 1회 가능
IDE 인계	터미널 중심	diff UX 강함	주관적 선호
배치/CI 회귀	비대화 기본	신중한 스크립트	아래 절차 참고

원시 로그와 semver 고정은 MacXCode 임대 고객에게 요청 시 제공합니다. 표는 용량 계획용 방향성이며 모든 리포 토폴로지의 절대 순위는 아닙니다.

헤드리스 SSH 운영 (GUI 불필요)

두 에이전트는 UTF-8 로케일과 Homebrew 우선 PATH를 고정한 tmux SSH에서 실행했습니다. 시크릿은 비대화 셸이 읽는 0400 dotfile에 두었으며, 헤드리스 클라우드 Mac OpenClaw 온보딩과 같습니다. 상주 데몬과 수동 CLI가 같은 API 프로필을 공유하지 마세요. POSIX 사용자 또는 상태 디렉터리를 분리합니다.

export CODEX_API_KEY=… # 조직 키

codex exec --cwd /srv/bench/task-017 --max-turns 3

금지: 프로덕션 Archive 레인과 같은 사용자에서 작업 큐 없이 에이전트 벤치를 돌리지 마세요. DerivedData와 에이전트 임시 트리가 NVMe 대역을 경쟁합니다.

선정 가이드: 어떤 CLI를 플릿에 둘까

Codex CLI를 고를 때…

Terminal-Bench 결과와 토큰 예산이 최우선. SSH 또는 셀프호스트 Runner로 배치 수정하고, 리뷰는 git·CI 로그 중심입니다.

Claude Code를 고를 때…

탐색적 리팩터, PM 동석, Anthropic 단독 조달 등. 가독성을 위해 중앙 토큰 증가를 허용합니다.

둘 다 쓸 때…

리포별 A/B하되 홈·API 키·스케줄은 분리. 동시 에이전트가 1을 넘으면 두 번째 M4 임대를 권장합니다.

임대 M4에서 5단계 절차

프로비저닝 — 리전(HK/JP/KR/SG/US, 한국은 서울 노드)을 고르고 CI 형제와 M4 티어를 맞춥니다.
툴체인 고정 — Node, npm global CLI, 하네스 git SHA를 CMDB에 기록합니다.
시크릿 export — 비대화 SSH만. 하네스 옆에 키를 커밋하지 않습니다.
표 실행 — 깨끗한 worktree에서 Codex→Claude(또는 반대). 로그는 객체 스토리지에 보관합니다.
승자 승격 — 우선 CLI를 Runner 라벨·야간 cron에 연결하고, 다른 쪽은 스팟 검증용으로 둡니다.

Related:

Understand-Anything 설치 (2026-05-25) — 렌탈 M4 3에이전트 설치
Google Antigravity 렌탈 M4 (2026-05-23) — 에이전트 IDE, CLI, Gemini CLI 6월 18일 마이그레이션

Pair structured agent workflows with our obra Superpowers install (2026-05-26).

FAQ

이번 Mac mini M4 실행에서 Terminal-Bench 점수가 더 높은 쪽은?+

Codex CLI는 고정 슬라이스에서 77.3%, Claude Code는 65.4%였습니다. 하드웨어·하네스·재시도 상한은 동일합니다.

임대 Mac에 GUI가 필요한가요?+

일상 루프는 SSH만으로 충분합니다. 브라우저 OAuth가 필요하면 한 번 GUI 또는 VNC 후 launchd·dotfiles로 헤드리스로 돌아갑니다.

토큰 격차는 얼마나 컸나요?+

성공 작업 중앙값 기준 Codex CLI 과금 토큰은 Claude Code의 약 4분의 1이었습니다(나중에 성공한 실패 런 제외).

Mac mini M4 한 대에 두 CLI를 CI에 올릴 수 있나요?+

가능합니다. 설정 루트와 작업 직렬화를 분리하세요. 에이전트와 Archive를 병렬하면 두 번째 임대 노드를 추가합니다.

이 벤치마크에 맞는 MacXCode 리전은?+

홍콩·일본·한국(서울 노드)·싱가포르·미국은 동일 베어 메탈 M4 클래스입니다. 개발자와 API 아웃바운드에 가장 가까운 리전을 고르세요.

검증용 Mac을 사지 않고 임대하는 이유

에이전트 평가는 버스트형입니다. 2주 베이크오프를 CapEx와 책상 물류로 만들 필요가 없습니다. 임대는 프로덕션 노트북을 오염시키지 않고, 리전별 벤치 호스트를 복제하며, iOS CI 임대 vs 구매와 같은 OpEx 항목에 둡니다. Terminal-Bench 회귀가 야간화되면 전용 Runner 라벨로 승격하고 임시 SSH 상자는 은퇴시킵니다.

요약: 임대 Mac mini M4에서 2026년 5월 SSH 우선 벤치로 Codex CLI가 통과율(77.3% 대 65.4%)과 토큰 효율(약 4배)에서 앞섰습니다. 리뷰 UX가 벤치보다 중요하면 Claude Code를 고르고, 단기 평가를 위해 하드웨어를 쌓지 말고 지역 빌더를 임대하세요.

에이전트·CI 벤치용 M4 임대

HK·JP·KR(서울)·SG·US의 SSH 우선 베어 메탈—본문과 동일 Mac mini M4 클래스입니다.

요금 보기 MacXCode 소개