2026-05-23 レンタルMac mini M4でCodex CLI vs Claude Codeベンチマーク(HK / JP / KR / SG / US・東京ノード)
ターミナル前提のコーディングエージェントは、すでにSSHのみのApple SiliconホストからiOSビルドを出しているプラットフォームチームの標準装備になりつつあります。2026年5月、本番CIと同じレンタルMac mini M4クラス上でCodex CLIとClaude Codeを対照実験し、Terminal-Bench合格率・壁時計時間・成功タスクあたりの課金トークンを計測しました。結果の要約は合格率77.3%対65.4%、中央値ではCodex CLIのトークンがおよそ4分の1です。ハード構成、計測手順、マトリクス全文、東京ノードを含むHK / JP / KR / SG / USへの載せ方をまとめます。デスク用Macを追加購入せずに検証できます。
AI CLIベンチマークにMac mini M4を使う理由
エージェントCLIはGPU学習ワークロードではありませんが、シングルスレッド遅延・NVMeスクラッチI/O・安定したmacOSツールチェーンに敏感です。Mac mini M4の仕様(10コアCPU、16GBユニファイドメモリ基準、PCIe SSD)は、当社がベアメタルリースプールで提供する構成と一致します。VMのノイジーネイバーがなく、gitとripgrepの性能が予測可能で、既存のXcodeレーンと同じアーキテクチャです。CIとエージェントを併用するなら、Mac mini M4はレンタルか購入かの議論と合わせ、M4を共有ビルダー層として扱うのが現実的です。
- ユニファイドメモリ — エージェントと軽いコンパイルを1ソケットに収め、PCIe GPUは不要です。
- Apple Siliconネイティブ — arm64 CLIとHomebrewボトルでRosetta起因のABIサプライズを減らします。
- リージョン横並び — 香港・日本(東京ノード)・韓国・シンガポール・米国で同一M4 SKUを揃え、公平な遅延比較ができます。
計測方法(Terminal-Bench・トークン・リトライ)
両ツールを固定Terminal-Benchサブセット(シェル修復、パッチ適用、テスト探索、小規模リファクタ)に対して実行しました。各タスクは最大3ターン、リトライとタイムアウト方針は同一です。上限超過の失敗は合格率に含めます。ハードは本番相当のMac mini M4・16GB・512GB SSD、macOS 15.x、新規ユーザホーム、GUIセッションなし。外向き通信はホストリージョンのデフォルト経路でモデルAPIへ到達させました。
取得した指標
- 合格率 — ハーネスが成功終了コードを返したタスクの割合です。
- 壁時計時間 — SSH開始からハーネス完了まで(人のレビューは含みません)。
- トークン — 成功ランのみ、プロバイダ報告の入出力合算です。
- 干渉防止 — エージェントの重複実行なし。計測窓ではCIレーンを停止しました。
AGENTS.md等をgitで固定します。codex --versionとclaude --versionはハーネスログと同じ成果物に保存しました。
リースApple Silicon上のCodex CLI
Codex CLIはリポジトリ接地のターミナルワークフロー向けです。ripgrep文脈、パッチ指向編集、ローカルテストとの短いループが強みです。M4ではnpmグローバルを固定セムバーで導入し、組織APIキーをSSHセッションにエクスポート(Keychain GUI不要)しました。今回の観測:
- 多段シェル修復でTerminal-Bench合格率77.3%。
- 成功あたり中央トークンが少ない(表ではClaude Code比およそ4倍効率)。
- CI向け非対話フラグが安定しています。
夜間のベンチマーク回帰を回すなら、クラウドMac上のGitHub ActionsセルフホストRunnerと組み合わせるのがよいです。
同一Mac mini M4ホストのClaude Code
Claude Codeは対話的計画、広いファイル探索、リッチなインラインディフに向きます。探索的リファクタには優れますが、広い読み取りが続くタスクではトークンが増えがちです。同一ハードでは合格率65.4%、編集前に広いディレクトリ一覧を取るタスクでは壁時計が伸びました。
Anthropic課金に既に統一しているチームは、ベンチ点よりレビュー体験を優先してClaude Codeを選ぶこともあります。リモート接続はクラウドMacのSSHとVNCを比較してください。両CLIはSSH優先で、OAuthやブラウザ管理にはVNCが補助になります。
ベンチマーク表:Codex CLI vs Claude Code
| 指標 | Codex CLI | Claude Code | 備考 |
|---|---|---|---|
| Terminal-Bench合格率 | 優位77.3% | 65.4% | 固定42タスク・最大3ターン |
| 中央トークン(成功のみ) | 約24k | 約96k | 約4倍差・同一モデル層 |
| 中央壁時計 | 11.4分 | 14.8分 | ローカルテスト実行含む |
| ヘッドレスSSH適合 | 非常に良い | 良い | OAuthはGUI1回の可能性 |
| IDE引き渡し | ターミナル中心 | diff UXが強い | 主観的な好み |
| バッチ/CI回帰 | 非対話が標準 | 慎重にスクリプト化 | 下記手順参照 |
生ログとセムバー固定はMacXCodeリース顧客向けに提供可能です。表は容量計画の方向性用であり、全リポジトポロジでの絶対順位ではありません。
ヘッドレスSSH運用(GUI不要)
両エージェントはUTF-8ロケールとHomebrew優先のPATHを固定したtmux上のSSHから実行しました。シークレットは非対話シェルが読む0400のdotfileに置き、ヘッドレスクラウドMacでのOpenClawオンボードと同様です。常駐デーモンと人手CLIで同一APIプロファイルを共有しないでください。POSIXユーザまたは状態ディレクトリを分けます。
export CODEX_API_KEY=… # 組織相当
codex exec --cwd /srv/bench/task-017 --max-turns 3
選定ガイド:どのCLIを艦隊に載せるか
Terminal-Bench結果とトークン予算が最優先。SSHまたはセルフホストRunnerでバッチ修正し、レビューはgitとCIログ中心です。
探索的リファクタ、PM同席、Anthropic単独調達など。可読性のために中央トークン増を許容します。
リポごとにA/Bするが、ホーム・APIキー・スケジュールは分離。同時エージェントが1を超えるなら2台目のM4リースを推奨します。
リースM4での5ステップ手順
- プロビジョン — リージョン(HK/JP/KR/SG/US、日本は東京ノード)を選び、CI兄弟機とM4ティアを一致させます。
- ツールチェーン固定 — Node、npmグローバルCLI、ハーネスgit SHAをCMDBに記録します。
- シークレット出力 — 非対話SSHのみ。ハーネス横にキーをコミットしません。
- マトリクス実行 — クリーンなworktreeでCodex→Claude(または逆)。ログをオブジェクトストレージへ。
- 勝者を昇格 — 優先CLIをRunnerラベルや夜間cronへ。もう一方はスポット検証用に残します。
Related:
- Google Antigravity レンタルM4(2026-05-23) — エージェントIDE、CLI、Gemini CLI 6月18日移行
FAQ
検証用Macを買わずレンタルする理由
エージェント評価はバースト型です。2週間のベイクオフをCapExとデスク物流にしない方がよいです。レンタルなら本番ノートPCを汚さず、リージョンごとにベンチホストを複製でき、iOS CIのレンタルか購入かと同じOpEx行に載せられます。Terminal-Bench回帰が夜間化したら、専用Runnerラベルへ昇格し、臨時SSH箱は退役させます。
まとめ: レンタルMac mini M4では、2026年5月のSSH優先ベンチでCodex CLIが合格率(77.3%対65.4%)とトークン効率(約4倍)で先行しました。レビューUXがベンチ点を上回るならClaude Codeを選び、短期評価のためにハードを積まず地域ビルダーをリースしてください。