4× Claude Code-Nutzung: Headroom MCP Budget-Optimierung (2026-06-04)
Indie-Hacker mit Claude Code auf echten Repos kennen den Schmerz: Jeder grep, Testlog und MCP-Dump landet wieder im Kontext—Anthropic berechnet Ein- und Ausgabe-Tokens. Headroom (Apache 2.0, 10k+ GitHub-Stars Mitte 2026) komprimiert Tool-Ausgaben, Logs, Dateien und RAG-Chunks lokal, mit veröffentlichten Workloads bei 60–95 % weniger Tokens und README-Demo 10.144 → 1.260 Tokens für FATAL in Logs.
Echter Rechnungs-Math- + Setup-Guide für headroom wrap claude und den MCP-Server—kein Hype, Claude zu ersetzen, sondern Schluss mit Vollpreis für stderr-Megabytes, die Sie schon gesehen haben.
Warum Claude Code Budget auf Engineering-Repos verbrennt
Claude Codes Stärke—das Repo wie ein Engineer lesen—ist auch der Zähler:
- Tool-Output-Inflation —
bash, Suche und MCP können 10k–80k Tokens pro Turn auf großen Monorepos sein. - Erneut gesendeter Kontext — Tool-Blobs bleiben im Thread; Kosten summieren sich über 45 Minuten Refactor.
- MCP-Sprawl — jeder Server fügt JSON hinzu; drei gesprächige Tools können Eingabe-Tokens verdoppeln.
Noch am Harness wählen? Siehe Codex CLI vs Claude Code und Agent-Vergleich 2026—dieser Artikel setzt Claude Code voraus und will Marge zurück.
Architektur — wo Headroom sitzt
Claude Code (or Cursor / Codex via wrap)
│ tool calls · logs · file reads
▼
┌──────────────────────────────────────┐
│ Headroom (local — Python 3.10+) │
│ CacheAligner → ContentRouter → CCR │
│ SmartCrusher (JSON) │
│ CodeCompressor (AST) │
│ Kompress-base (text) │
│ MCP: compress · retrieve · stats │
└──────────────────────────────────────┘
│ compressed context + retrieve tool
▼
Anthropic API (Claude)
- CCR (reversibel) — Originale lokal gespeichert; Modell kann
headroom_retrievefür Verbatim-Text nutzen. - MCP-Modus —
headroom_compress,headroom_retrieve,headroom_statsfür jeden MCP-Client. - Proxy-Modus —
headroom proxy --port 8787für OpenAI-kompatible Clients ohne Codeänderung.
Offizielle Docs: headroom-docs.vercel.app · Quelle: github.com/chopratejas/headroom.
Abrechnungsmatrix — veröffentlichte Workloads vs „rohes Claude Code“
Nutzen Sie Headrooms veröffentlichte Vorher/Nachher-Tabelle als Planungszahlen—keine Garantie für Ihr Repo. Multiplizieren mit Ihrem $/MTok.
| Workload (Docs) | Vorher | Nachher | Ersparnis | Für Indies |
|---|---|---|---|---|
| Codesuche (100) | 17,765 | 1,408 | 92% | Schwere rg-Tage: von ~20 $/Session zum Kaffeepreis |
| SRE-Vorfall | 65,694 | 5,118 | 92% | Log-Triage ohne --verbose wegzulassen |
| GitHub-Issue-Triage | 54,174 | 14,761 | 73% | Issue-Bots auf Max tragbar |
| Codebase-Exploration | 78,502 | 41,254 | 47% | Lohnt sich; breite Reads weniger Kompression |
Illustrative Monatsrechnung (hypothetisch)
Angenommen ~3 $/MTok Eingabe Sonnet-Klasse (aktuelle Anthropic-Seite prüfen):
| Szenario | Roh/Monat | ~75 % effektiv | $ Eingabe roh | $ mit Headroom |
|---|---|---|---|---|
| Solo indie (50M in) | 50M | 12.5M | $150 | ~$38 |
| Small team (200M in) | 200M | 50M | $600 | ~$150 |
| "Log hell" week (+30M logs) | 30M | 3M (90% on logs) | $90 | ~$9 |
4× Nutzung im Titel: bei konstantem Dollar-Budget ~75 % Ersparnis ≈ ~4× mehr Turns für dieselbe Ausgabe—kein magisches Unlimited.
Szenario A — headroom wrap claude (schnellster Weg)
Für: tägliches Claude Code im Terminal.
# Python 3.10+ required
pip install "headroom-ai[all]"
# One-command wrap (starts compression + optional memory)
headroom wrap claude
# After a session, inspect savings
headroom perf
Headroom fängt Tool-Ausgaben und Kontext vor API ab.
Wenn X, dann Y: obra auf gemietetem Mac → Headroom auf demselben Host — obra-Setup.
Szenario B — MCP-Server
Teams mit kuratierten MCP-Servern.
pip install "headroom-ai[mcp]"
# Install MCP config for supported clients
headroom mcp install
Claude-Code-MCP-Konfig:
{
"mcpServers": {
"headroom": {
"command": "headroom",
"args": ["mcp", "serve"]
}
}
}
MCP-Tools:
| Tool | Rolle |
|---|---|
headroom_compress | Blob vor Chat schrumpfen |
headroom_retrieve | Original aus CCR |
headroom_stats | Token-Ersparnis-Telemetrie |
Riesiges JSON → zuerst Headroom.
Szenario C — Proxy
headroom proxy --port 8787
# Point OpenAI-compatible clients at http://127.0.0.1:8787
Eine Kompressionsschicht für gemischte Stacks.
Runbook — erste produktive Stunde
- Installieren —
pip install "headroom-ai[all]". - Baseline — ohne Headroom ; Eingabe-Tokens notieren.
- Wrap —
headroom wrap claude. - Vergleichen —
headroom perf. - MCP —
headroom mcp install. - Erwartung — ~47 %.
- CCR —
headroom_retrieve. - Überspringen — Proxy auf gemietetem Mac.
Fehlerbehebung
wrap startet Claude Code nicht
CLI zuerst.
Ersparnis ~0 %
Großes Repo rg testen.
Detail verpasst
headroom_retrieve.
MCP rot
headroom mcp serve.
Empfohlene Pfade
| Situation | Tun |
|---|---|
| Solo, nur Terminal | headroom wrap claude + wöchentlich headroom perf |
| Viele MCP (5+) | MCP install + größter Payload-Server zuerst |
| Team mit gemischten Agents | headroom proxy auf gemeinsamem Mac mini |
| Knappes Max-Budget | Zuerst Logs/Suche (bis 92 %) |
| Festland-China | pip-Mirror; gemieteter Mac HK/SG |