LLM local 30B : accélérateur neural M5 vs moteur IA M6 (FR / BE / CH / CA, 2026-06-02)
Vous avez acheté un Mac pour arrêter de louer des tokens — puis découvert que « faire tourner Llama en local » dépend surtout de la bande passante mémoire, du format de quantification et du silicium qui exécute la multiplication matricielle. La génération M5 d’Apple (annoncée en octobre 2025) place l’IA dans chaque cœur GPU avec un Neural Accelerator programmable via les API tenseur Metal 4. Les rumeurs M6 évoquent un « cerveau IA » plus intégré sur la puce — débit Neural Engine plus élevé, plus de fusion CPU/GPU/NPU et bande passante mémoire unifiée accrue pour les modèles 30B.
Ce guide compare le modèle d’accélérateur neural par cœur M5 au récit du moteur IA hyper-intégré M6 pour les équipes qui veulent des modèles locaux type DeepSeek/Llama, des copilotes IDE et des essaims d’agents — sans traiter le Mac comme un substitut magique aux API. Les chiffres citent le communiqué M5 d’Apple et les spécifications Apple Silicon lorsqu’ils sont confirmés ; les sections M6 sont marquées spéculatives jusqu’à une annonce officielle.
Contexte éditorial : IA / Matériel — inférence LLM locale sur Apple Silicon, M5 en production vs trajectoire M6 pour les charges 30B et les matrices d’agents en 2026.
La décision que vous prenez vraiment
Le confort d’un LLM local sur Mac dépend rarement du « chip avec le plus de TOPS ». En pratique :
- Où vivent les poids — capacité mémoire unifiée (24–128 Go sur la gamme M5 Max publique).
- Vitesse des tenseurs — bande passante (M5 de base 153 Go/s ; M5 Max jusqu’à 614 Go/s en config max).
- Qui possède le calcul — MLX, llama.cpp/Ollama, PyTorch MPS ou noyaux Metal 4 sur les Neural Accelerators par cœur GPU.
Si la même machine fait agents + CI Xcode, lisez aussi notre comparatif frameworks agents IA 2026 — le matériel fixe le plafond, le logiciel la facture API mensuelle.
Instantané d’architecture — M5 en vente vs M6 rumeur
M5 (confirmé) : Neural Accelerator par cœur GPU
Apple indique un Neural Accelerator dans chaque cœur GPU M5, avec environ 4× le pic de calcul GPU IA vs M4 à niveau comparable, tout en conservant un Neural Engine 16 cœurs pour Apple Intelligence. Les développeurs ciblent les chemins neuronaux GPU via les API tenseur Metal 4 — noyaux personnalisés et diffusion locale, pas seulement les interfaces de chat.
[M5 unified memory: weights + KV cache]
|
+----+----+----+
| | | |
GPU GPU ... GPU (each core: Neural Accelerator)
| | |
+----+----+----+
|
16-core Neural Engine (ANE) — Apple Intelligence / Core ML fast path
|
CPU (performance + efficiency cores)
M6 (spéculatif) : hyper-intégration « moteur IA »
Les récits fuites/analystes (mi-2026, hors communiqué Apple) décrivent notamment :
- Mac mini M5 WWDC 2026 vs pénurie DRAM
- ANE ↔ mémoire à plus haut débit — moins de copies d’activations entre ANE et GPU.
- Fusion de graphe plus automatique — moins de copies explicites attention GPU + ops ANE.
- Densité 2 nm — plus de transistors pour le débit soutenu INT4/FP16 des transformeurs.
Traitez les chiffres M6 comme hypothèses de planification jusqu’à des tableaux WWDC ou newsroom. Achetez le M5 sur des benchmarks disponibles, pas sur des slides.
Matrice de décision — LLM local 30B et charges agents
| Dimension | M5 (M5 Max, en vente) | M6 (moteur IA intégré, rumeurs) | Impact pour un LLM local 30B |
|---|---|---|---|
| Pic marketing IA | 4× calcul GPU IA vs M4 ; Neural Accelerator par cœur GPU | Fuites : ANE ~2× vs classe M5 | M5 mesurable aujourd’hui ; M6 prospectif |
| Bande passante mémoire unifiée | Jusqu’à 614 Go/s (M5 Max max) | Rumeurs ~600 Go/s+ en Max | 30B Q4 : ~20–24 Go de poids + KV — ensuite la bande passante fixe les tok/s |
| Programmabilité | Neural Accelerator GPU + Metal 4 Tensor API + MLX | Chemins « fusionnés » plus opaques | Développeurs noyau → M5 |
| Rôle ANE | 16 cœurs Neural Engine + chemin mémoire Pro/Max | ANE « hyper-intégré » planifiant plus de graphe | Modèles Apple ; poids ouverts souvent GPU/MLX |
| Expérience 30B typique (2026) | 8–25 tok/s sur M5 Max (quant + outil) | Inconnu avant silicium | Mesurez votre quant + contexte |
| Maîtrise coût API | Plafond cloud ; électricité + amortissement Mac | Idem si M6 sort | Le matériel est un plafond, pas la qualité du modèle |
| Matrice multi-agents | Fort en 64–128 Go M5 Max si agents sérialisés | Marge théorique si bande passante monte | RAM > TOPS bruts pour multi-agents |
Ancrage externe : le communiqué M5 cite explicitement l’exécution de grands modèles de langage en local sur MacBook Pro et iPad Pro — direction officielle « LLM local », à valider avec MLX et Ollama.
Scénario A — Développement local intensif + 7B–14B toujours chargés
Choisissez un Mac M5 (MacBook Pro / Mac mini) aujourd’hui si vous voulez :
- Assistance IDE (Cursor, Claude Code) + 7B–14B toujours en mémoire pour Q&R dépôt.
- Un jeu de travail <20 Go — la bande passante de base 153 Go/s suffit.
- Expérimenter Metal/MLX sans attendre la maturité outillage M6.
Quand écouter les rumeurs M6 : seulement si vous repoussez l’achat de 12+ mois et que le Mac actuel ne tient même pas une quantification minimale.
Astuce ops : un runtime par machine (Ollama ou MLX LM) et une quant (Q4_K_M) — chaque agent qui relance son 14B multiplie la RAM.
Scénario B — Modèles 30B au quotidien
M5 Max 64–128 Go mémoire unifiée est la plateforme réaliste 2026 pour le chat 30B Q4 local — les seuls poids approchent 18–22 Go avant le cache KV.
Ce qui fait vraiment monter les tok/s :
| Goulot | Levier M5 | Réglage pratique |
|---|---|---|
| Poids + KV RAM | Configs 64 Go+ | Contexte plus court ; discipline --ctx-size |
| Bande passante | 307–614 Go/s Pro/Max | Privilégier GPU+MLX, moins d’allers-retours ANE |
| Qualité noyaux | Neural Accelerator + Metal 4 | Mettre à jour MLX/llama.cpp post-M5 |
| Thermique | Refroidissement Mac Studio / MacBook Pro | tok/s soutenus < pic burst |
L’hyper-intégration M6 aide si Apple et les runtimes open source routent automatiquement les blocs transformeur vers des pipelines ANE+GPU fusionnés sans basculer device= à la main. En attendant, un M5 Max bien réglé avec MLX bat souvent l’attente.
Attente honnête : « plus fluide que le cloud » ≠ « plus rapide qu’un GPT-4 cloud ». Vous échangez confidentialité et coût matériel fixe contre le raisonnement cloud maximal.
Scénario C — Matrice multi-agents sur une machine
Passerelles type Hermes/OpenClaw + LLM locaux : le goulot est souvent la RAM et le nombre de processus, pas les FLOPS seuls.
| Modèle | Adéquation M5 | Risque |
|---|---|---|
| Un 14B partagé pour tous les agents | Correct dès 48 Go+ | Sérialiser les prompts ; éviter 3 chargements dupliqués |
| 30B juge + 7B workers | M5 Max 128 Go | Contexte dupliqué mange la RAM |
| API cloud pour tâches dures | Tout M5 | Hybride coût optimal |
Suite : Hermes vs OpenClaw vs OpenHuman sur Mac M4/M5 loués — où placer la passerelle ; tout agent n’a pas besoin d’un 30B local.
Pour les benchmarks CLI IDE, voir Codex CLI vs Claude Code sur Mac M4/M5.
Note location (neutre) : agents 24/7 avec inférence sur le portable → petite location optionnelle ; tout sur un hôte headless → priorité RAM avant génération de puce.
Parcours recommandé (explicite)
- LLM local ce trimestre → M5 Max (64 Go min. pour 30B Q4) ; bench MLX ou llama.cpp ; ignorer les fuites M6 tant qu’Apple ne publie pas les specs.
- Vie en 7B–14B → bande passante M5 Pro/Max de base suffit ; investissez d’abord en mémoire unifiée.
- Noyaux perso / fine-tuning → pari Neural Accelerator par cœur + Metal 4 vs chemins ANE seuls.
- Apple Intelligence uniquement → Neural Engine 16 cœurs déjà ciblé ; les poids ouverts gagnent souvent plus sur les cœurs neuronaux GPU.
- Si M6 confirme ~2× ANE et 600 Go/s+ en Max → re-bench votre quant 30B ; upgrade si tok/s > 1,5× votre baseline M5 au quotidien.
Runbook outillage — mesurer avant le mythe
- Baseline machine :
sysctl -n machdep.cpu.brand_stringet RAM (system_profiler SPHardwareDataType | grep Memory). - Une quant 30B (ex.
Q4_K_M) et un runtime (MLX LM ou Ollama). - Chargement à chaud, puis prompts fixes (512 / 2k / 8k tokens de contexte).
- Journaliser tok/s ; noter GPU vs ANE si exposé.
- Surveiller la pression mémoire — jaune soutenu = modèle plus petit ou plus de RAM.
- Comparer au coût API cloud sur un mois — le matériel gagne en volume et confidentialité.
Exemple MLX (vérifiez la doc courante) :
pip install mlx-lm
python -m mlx_lm.generate --model mlx-community/DeepSeek-R1-Distill-Llama-8B-4bit \
--prompt "Résumez le Neural Accelerator Metal 4 en 3 puces." --max-tokens 120
Ne montez en taille de modèle qu’après 8B stable >30 tok/s sans pression mémoire.
Dépannage
La pression mémoire tue les tok/s après 2 minutes
Symptôme : première réponse rapide, puis forte lenteur ; swap en hausse.
Correctif : réduire --ctx-size, quant plus léger (Q4_0 vs Q6), décharger les agents dupliqués, ou passer à 64 Go+ M5 Max. 30B sur 36 Go = mauvais dimensionnement, pas un bug pilote.
MLX indique GPU mais la vitesse ressemble au CPU
Symptôme : faibles tok/s, ventilateurs au ralenti.
Correctif : mettre à jour macOS et MLX M5 ; confirmer les poids GPU (mx.metal). Certains graphes M5 précoces laissent de l’attention sur CPU — réessayer après mises à jour framework.
Ollama / llama.cpp « tient en RAM » mais qualité effondrée
Symptôme : RAM OK, sorties incohérentes en quant agressive.
Correctif : monter d’un cran de quant (souvent +4–6 Go) ou passer à 14B haute quant plutôt qu’30B ultra-basse quant. L’économie API locale ne compense pas trois relances de prompt.
FAQ
Lecture associée
LLM locaux sur Apple Silicon loué
Nœuds HK/JP/KR/SG/US : passerelles MLX/Ollama 24/7 et CI Xcode.