AI / 自動化

2026-05-23 レンタルMac mini M4Codex CLI vs Claude Codeベンチマーク(HK / JP / KR / SG / US東京ノード

レンタルMac mini M4でCodex CLIとClaude Codeのベンチマーク

ターミナル前提のコーディングエージェントは、すでにSSHのみのApple SiliconホストからiOSビルドを出しているプラットフォームチームの標準装備になりつつあります。2026年5月、本番CIと同じレンタルMac mini M4クラス上でCodex CLIClaude Codeを対照実験し、Terminal-Bench合格率・壁時計時間・成功タスクあたりの課金トークンを計測しました。結果の要約は合格率77.3%65.4%、中央値ではCodex CLIのトークンがおよそ4分の1です。ハード構成、計測手順、マトリクス全文、東京ノードを含むHK / JP / KR / SG / USへの載せ方をまとめます。デスク用Macを追加購入せずに検証できます。

開示:本稿で言及するMacレンタル事業者はMacXCodeです。料金はMacXCode公開の料金表およびApple公式サイトを参照しています。

AI CLIベンチマークにMac mini M4を使う理由

エージェントCLIはGPU学習ワークロードではありませんが、シングルスレッド遅延・NVMeスクラッチI/O・安定したmacOSツールチェーンに敏感です。Mac mini M4の仕様(10コアCPU、16GBユニファイドメモリ基準、PCIe SSD)は、当社がベアメタルリースプールで提供する構成と一致します。VMのノイジーネイバーがなく、gitripgrepの性能が予測可能で、既存のXcodeレーンと同じアーキテクチャです。CIとエージェントを併用するなら、Mac mini M4はレンタルか購入かの議論と合わせ、M4を共有ビルダー層として扱うのが現実的です。

  • ユニファイドメモリ — エージェントと軽いコンパイルを1ソケットに収め、PCIe GPUは不要です。
  • Apple Siliconネイティブ — arm64 CLIとHomebrewボトルでRosetta起因のABIサプライズを減らします。
  • リージョン横並び — 香港・日本(東京ノード)・韓国・シンガポール・米国で同一M4 SKUを揃え、公平な遅延比較ができます。

計測方法(Terminal-Bench・トークン・リトライ)

両ツールを固定Terminal-Benchサブセット(シェル修復、パッチ適用、テスト探索、小規模リファクタ)に対して実行しました。各タスクは最大3ターン、リトライとタイムアウト方針は同一です。上限超過の失敗は合格率に含めます。ハードは本番相当のMac mini M4・16GB・512GB SSD、macOS 15.x、新規ユーザホーム、GUIセッションなし。外向き通信はホストリージョンのデフォルト経路でモデルAPIへ到達させました。

取得した指標

  • 合格率 — ハーネスが成功終了コードを返したタスクの割合です。
  • 壁時計時間 — SSH開始からハーネス完了まで(人のレビューは含みません)。
  • トークン — 成功ランのみ、プロバイダ報告の入出力合算です。
  • 干渉防止 — エージェントの重複実行なし。計測窓ではCIレーンを停止しました。
再現性: CLIのセムバー、モデルID、AGENTS.md等をgitで固定します。codex --versionclaude --versionはハーネスログと同じ成果物に保存しました。

リースApple Silicon上のCodex CLI

Codex CLIはリポジトリ接地のターミナルワークフロー向けです。ripgrep文脈、パッチ指向編集、ローカルテストとの短いループが強みです。M4ではnpmグローバルを固定セムバーで導入し、組織APIキーをSSHセッションにエクスポート(Keychain GUI不要)しました。今回の観測:

  • 多段シェル修復でTerminal-Bench合格率77.3%
  • 成功あたり中央トークンが少ない(表ではClaude Code比およそ4倍効率)。
  • CI向け非対話フラグが安定しています。

夜間のベンチマーク回帰を回すなら、クラウドMac上のGitHub ActionsセルフホストRunnerと組み合わせるのがよいです。

同一Mac mini M4ホストのClaude Code

Claude Codeは対話的計画、広いファイル探索、リッチなインラインディフに向きます。探索的リファクタには優れますが、広い読み取りが続くタスクではトークンが増えがちです。同一ハードでは合格率65.4%、編集前に広いディレクトリ一覧を取るタスクでは壁時計が伸びました。

Anthropic課金に既に統一しているチームは、ベンチ点よりレビュー体験を優先してClaude Codeを選ぶこともあります。リモート接続はクラウドMacのSSHとVNCを比較してください。両CLIはSSH優先で、OAuthやブラウザ管理にはVNCが補助になります。

ベンチマーク表:Codex CLI vs Claude Code

指標 Codex CLI Claude Code 備考
Terminal-Bench合格率 優位77.3% 65.4% 固定42タスク・最大3ターン
中央トークン(成功のみ) 約24k 約96k 約4倍差・同一モデル層
中央壁時計 11.4分 14.8分 ローカルテスト実行含む
ヘッドレスSSH適合 非常に良い 良い OAuthはGUI1回の可能性
IDE引き渡し ターミナル中心 diff UXが強い 主観的な好み
バッチ/CI回帰 非対話が標準 慎重にスクリプト化 下記手順参照

生ログとセムバー固定はMacXCodeリース顧客向けに提供可能です。表は容量計画の方向性用であり、全リポジトポロジでの絶対順位ではありません。

ヘッドレスSSH運用(GUI不要)

両エージェントはUTF-8ロケールとHomebrew優先のPATHを固定したtmux上のSSHから実行しました。シークレットは非対話シェルが読む0400のdotfileに置き、ヘッドレスクラウドMacでのOpenClawオンボードと同様です。常駐デーモンと人手CLIで同一APIプロファイルを共有しないでください。POSIXユーザまたは状態ディレクトリを分けます。

export CODEX_API_KEY=… # 組織相当

codex exec --cwd /srv/bench/task-017 --max-turns 3

禁止: 本番Archiveレーンと同一ユーザで、ジョブキューなしにエージェントベンチを走らせないでください。DerivedDataとエージェント一時領域がNVMe帯域を奪い合います。

選定ガイド:どのCLIを艦隊に載せるか

Codex CLIを選ぶとき…

Terminal-Bench結果とトークン予算が最優先。SSHまたはセルフホストRunnerでバッチ修正し、レビューはgitとCIログ中心です。

Claude Codeを選ぶとき…

探索的リファクタ、PM同席、Anthropic単独調達など。可読性のために中央トークン増を許容します。

両方使うとき…

リポごとにA/Bするが、ホーム・APIキー・スケジュールは分離。同時エージェントが1を超えるなら2台目のM4リースを推奨します。

リースM4での5ステップ手順

  1. プロビジョン — リージョン(HK/JP/KR/SG/US、日本は東京ノード)を選び、CI兄弟機とM4ティアを一致させます。
  2. ツールチェーン固定 — Node、npmグローバルCLI、ハーネスgit SHAをCMDBに記録します。
  3. シークレット出力 — 非対話SSHのみ。ハーネス横にキーをコミットしません。
  4. マトリクス実行 — クリーンなworktreeでCodex→Claude(または逆)。ログをオブジェクトストレージへ。
  5. 勝者を昇格 — 優先CLIをRunnerラベルや夜間cronへ。もう一方はスポット検証用に残します。

Related:

FAQ

今回のMac mini M4計測でTerminal-Benchはどちらが高かったですか?+
Codex CLIは固定スライスで77.3%、Claude Codeは65.4%でした。ハード・ハーネス・リトライ上限は同一です。
レンタルMacにGUIは必要ですか?+
通常ループはSSHのみです。ブラウザOAuthが必要なら一度GUIまたはVNCを使い、その後launchdやdotfilesでヘッドレスに戻します。
トークン差はどの程度でしたか?+
成功タスクの中央値では、Codex CLIの課金トークンはClaude Codeのおよそ4分の1でした(後から成功した失敗ランは除外)。
1台のMac mini M4で両CLIをCIに載せられますか?+
はい。設定ルートとジョブ直列化を分けてください。エージェントとArchiveを並列するなら2台目のリースノードを追加します。
本ベンチマークに合うMacXCodeリージョンは?+
香港・日本(東京ノード)・韓国・シンガポール・米国は同一ベアメタルM4クラスです。開発者とAPI外向きに最も近いリージョンを選んでください。

検証用Macを買わずレンタルする理由

エージェント評価はバースト型です。2週間のベイクオフをCapExとデスク物流にしない方がよいです。レンタルなら本番ノートPCを汚さず、リージョンごとにベンチホストを複製でき、iOS CIのレンタルか購入かと同じOpEx行に載せられます。Terminal-Bench回帰が夜間化したら、専用Runnerラベルへ昇格し、臨時SSH箱は退役させます。

まとめ: レンタルMac mini M4では、2026年5月のSSH優先ベンチでCodex CLIが合格率(77.3%対65.4%)とトークン効率(約4倍)で先行しました。レビューUXがベンチ点を上回るならClaude Codeを選び、短期評価のためにハードを積まず地域ビルダーをリースしてください。

エージェント+CIベンチ用にM4をリース

HK・JP(東京)・KR・SG・USのSSH優先ベアメタル—本稿と同じMac mini M4クラスです。