GPT-4 compterait environ 1,8 trillion de paramètres. Pourtant, sur n’importe quel token — un mot, un signe de ponctuation — la grande majorité de ces paramètres reste totalement inactive. Le modèle n’active qu’une fraction de sa capacité totale pour chaque prédiction. Pendant des années, les chercheurs en IA ont su que c’était un gaspillage computationnel considérable. La question était de savoir comment y remédier de manière systématique. La réponse qu’ils ont trouvée porte un nom : Mixture of Experts.
MoE n’est pas une idée nouvelle. Elle remonte à des travaux académiques du début des années 1990. Mais dans le contexte des grands modèles de langage, elle est devenue l’une des décisions d’architecture les plus importantes de la génération actuelle d’IA. C’est la raison principale pour laquelle Mistral AI — une startup parisienne disposant d’une fraction des ressources d’OpenAI — a pu publier en 2023 un modèle qui égale ou dépasse des modèles trois fois plus grands. C’est pourquoi xAI a construit Grok avec 314 milliards de paramètres mais fait tourner l’inférence au coût d’un modèle dense de 70B. Et c’est pourquoi l’économie de l’IA de pointe évolue plus vite que la plupart des acheteurs en entreprise ne le réalisent.
La Dichotomie Dense vs Sparse
Pour comprendre MoE, il faut d’abord comprendre ce que fait un modèle « dense » — car tous les LLMs basés sur les transformers que vous connaissez (GPT, Claude, Llama) sont denses par défaut.
Dans un modèle dense, chaque token qui traverse une couche de transformateur active chaque neurone de cette couche. Si le réseau feed-forward d’une couche donnée comporte 10 000 neurones, tous les 10 000 s’activent sur chaque token, que vous traitiez le mot « le » ou une expression arithmétique complexe. C’est computationnellement uniforme, ce qui le rend facile à implémenter et à comprendre. Mais c’est aussi spectaculairement inefficace : le réseau apprend des représentations spécialisées dans différents neurones, mais les force tous à participer à chaque calcul quelle que soit leur pertinence.
Un modèle sparse inverse cette logique. Au lieu d’un grand bloc feed-forward qui s’active toujours, un modèle sparse remplace ce bloc par une collection de réseaux feed-forward plus petits — les « experts » — et un mécanisme de routage qui décide, pour chaque token, quel ou quels experts doivent le traiter. La plupart des experts restent inactifs pour un token donné. Seuls les experts sélectionnés calculent. Le nombre total de paramètres (la capacité) reste élevé ; le nombre de paramètres réellement utilisés par token (le calcul actif) reste faible. Voilà l’intuition centrale.
Le routeur — parfois appelé réseau de gating — est un réseau léger appris qui se place devant le pool d’experts. Il prend la représentation cachée du token comme entrée et produit une distribution de probabilité sur tous les experts disponibles. Les K premiers experts par score reçoivent le token ; les autres non. Dans la plupart des implémentations, K est égal à 2 : chaque token est traité par exactement deux experts par couche, quel que soit le nombre d’experts dans le pool.
Comment MoE Fonctionne Concrètement
Prenons un exemple concret. Imaginez une couche MoE avec 8 experts et un routage top-2.
Un token arrive. Le réseau de gating produit 8 scores — un par expert. Les deux experts ayant les scores les plus élevés reçoivent le token. Chaque expert le traite indépendamment via son propre réseau feed-forward. Leurs sorties sont pondérées par les scores du gating et sommées pour produire la sortie de la couche pour ce token. Le token suivant arrive. Le réseau de gating peut sélectionner une paire d’experts complètement différente. Sur des millions de tokens, chaque expert se spécialise progressivement : certains deviennent forts sur le code, d’autres sur la mémorisation factuelle, d’autres encore sur la syntaxe.
Cela semble simple en théorie. En pratique, deux problèmes apparaissent immédiatement.
Le premier est le déséquilibre de charge. Sans contrainte, le réseau de gating converge pour toujours sélectionner les mêmes un ou deux experts — ceux qu’il a appris à préférer tôt dans l’entraînement. C’est ce qu’on appelle l’effondrement des experts ou l’effondrement du routage des experts. Si cela se produit, on se retrouve avec un modèle de 8 experts n’en utilisant effectivement qu’un seul, ce qui annule l’intérêt. La solution standard est un terme de perte auxiliaire d’équilibrage de charge ajouté à l’objectif d’entraînement. Cette perte pénalise le modèle lorsque la distribution des tokens entre les experts devient trop asymétrique, forçant le routeur à répartir la charge de manière plus équilibrée.
Le deuxième est le compromis mémoire vs calcul. Un modèle MoE avec 8 experts a environ 8 fois plus de paramètres qu’un équivalent à un seul expert dans ses couches feed-forward. Tous ces paramètres doivent résider en mémoire GPU (ou être déchargés, ce qui est lent). Mais le calcul — les multiplications matricielles réellement exécutées par token — correspond seulement aux 2 experts actifs. On paie le coût mémoire du modèle complet mais seulement le coût de calcul d’une fraction. Pour l’inférence à grande échelle, c’est un compromis avantageux : le calcul GPU est le goulot d’étranglement qui détermine le coût par token, et MoE le réduit considérablement.
Les Modèles Qui L’ont Prouvé
Le paysage commercial et open source a changé visiblement dès que MoE a cessé d’être une curiosité de recherche pour devenir une architecture de production.
Mixtral 8x7B, publié par Mistral AI en décembre 2023, a été le premier grand modèle MoE à poids ouverts à susciter une attention sérieuse dans l’industrie. Son architecture : 8 experts par couche, routage top-2, 46,7 milliards de paramètres totaux mais seulement ~12,9 milliards de paramètres actifs par token. Les benchmarks ont montré qu’il égale ou dépasse Llama 2 70B sur la plupart des tâches tout en utilisant environ un cinquième du calcul actif. Pour les équipes qui considéraient les modèles denses 70B comme le plafond open source, Mixtral a été un événement de recalibrage. De façon cruciale, Mistral l’a publié sous la licence Apache 2.0 — ce qui signifie que n’importe quelle organisation pouvait le télécharger, l’affiner et le déployer commercialement sans restriction.
Grok-1, publié par xAI en mars 2024 sous une licence Apache 2.0, a porté l’architecture à une échelle différente. Paramètres totaux : 314 milliards. Paramètres actifs par passage : environ 25%, soit environ 78 milliards. Grok utilise un mélange de 8 experts avec un routage top-2, cohérent avec l’approche de Mixtral mais à une échelle qui serait prohibitivement coûteuse à faire tourner en tant que modèle dense. La publication open source était significative : un modèle de 314B paramètres fonctionnant au coût de calcul d’un modèle dense de ~78B est opérationnellement très différent d’un modèle dense de 314B.
Gemini 1.5, la version de Google DeepMind de mi-2024, utilise selon toute vraisemblance une architecture MoE, bien que Google n’ait pas divulgué les détails architecturaux avec le même niveau de précision que les publications open source. Ce qui est documenté publiquement, c’est sa capacité à gérer des fenêtres de contexte d’un million de tokens à des coûts d’inférence commercialement viables — un exploit qui serait économiquement déraisonnable avec une architecture entièrement dense à capacité comparable.
Les variantes DeepSeek MoE, publiées tout au long de 2024 et 2025, ont repoussé la frontière de l’efficacité MoE. L’approche de DeepSeek a introduit une granularité d’experts plus fine et une conception d’« experts partagés » — un petit ensemble d’experts qui s’activent toujours aux côtés des experts routés dynamiquement — ce qui a amélioré l’équilibrage de charge et réduit les frais de routage.
Advertisement
Pourquoi Cela Compte pour les Coûts
La réduction des coûts qu’offre MoE n’est pas marginale. Elle est structurelle.
Pour l’inférence, la métrique opérationnelle est les FLOPS par token — le nombre d’opérations en virgule flottante nécessaires pour générer un token de sortie. Dans un modèle dense, cela est proportionnel au nombre total de paramètres. Dans un modèle MoE avec un routage top-2 sur 8 experts, le calcul actif par token est approximativement celui d’un modèle dense avec un quart du total de paramètres. Mixtral 8x7B fonctionne avec le budget FLOPS d’un modèle dense d’environ 12B tout en puisant dans la capacité d’un modèle de 46B.
Cela compte à chaque niveau de la pile technologique. Pour les fournisseurs d’API, cela signifie un coût de service inférieur et un meilleur débit par GPU. Pour les entreprises qui font tourner l’inférence sur site, cela signifie atteindre des seuils de capacité sur du matériel qui était auparavant insuffisant. Un Mixtral 8x7B quantisé peut fonctionner sur deux GPU A100 grand public. Un modèle dense de capacité équivalente nécessiterait bien plus.
La surcharge mémoire est le vrai coût. Vous devez conserver tous les poids des experts en VRAM même si seulement une fraction s’active par token. Pour les organisations ayant une mémoire GPU limitée, cela impose des choix : faire tourner moins d’instances, utiliser la quantisation plus agressivement, ou accepter que certains déploiements MoE fonctionnent mieux distribués sur plusieurs GPU que sur un seul nœud.
Limites et Défis
MoE n’est pas une solution propre à tous les problèmes.
La surcharge de communication multi-GPU est réelle et significative. Dans l’inférence distribuée, différents experts peuvent résider sur différents GPU. Lorsqu’un token est routé vers un expert sur un appareil différent, l’activation doit être transférée via l’interconnexion — NVLink ou InfiniBand. À grande échelle, ce motif de communication all-to-all crée une latence qui peut partiellement annuler les économies de calcul. C’est un défi d’ingénierie que les modèles denses n’ont tout simplement pas à affronter.
Le déséquilibre de charge des experts à l’inférence est un problème distinct du déséquilibre au moment de l’entraînement. Même avec une perte auxiliaire, les distributions de tokens du monde réel peuvent activer certains experts beaucoup plus que d’autres selon le domaine de l’entrée. Un expert qui gère le code sera surchargé dans un déploiement d’assistant de codage, créant des pics de latence difficiles à prédire.
La complexité du fine-tuning est supérieure à celle des modèles denses. Le mécanisme de routage introduit une sensibilité que les pipelines de fine-tuning denses n’ont pas besoin de prendre en compte. Les techniques comme LoRA fonctionnent sur les modèles MoE mais nécessitent une attention particulière quant à savoir si les adaptateurs sont appliqués à tous les experts ou seulement aux couches partagées.
L’effondrement des experts reste un risque d’entraînement même avec une perte auxiliaire. Trouver le bon équilibre entre l’objectif d’entraînement principal et la perte auxiliaire n’est pas trivial ; la sur-pondérer peut dégrader les performances sur les tâches tandis que la sous-pondérer fait revenir à l’effondrement.
Le Boom Open Source des Modèles MoE
La stratégie de publication de Mistral était délibérément conçue pour perturber le marché. En publiant Mixtral sous Apache 2.0, ils ont semé un écosystème communautaire de fine-tuning quasiment du jour au lendemain. En quelques semaines après la publication de décembre 2023, le hub de modèles Hugging Face contenait des dizaines de dérivés de Mixtral : variantes affinées pour les instructions, versions optimisées pour le chat, modèles quantisés tenant sur un seul A100, fine-tunes spécialisés pour des applications juridiques, médicales et de codage.
Cela a des implications stratégiques majeures pour toute entreprise évaluant des déploiements d’IA. Le calcul précédent — « nous avons besoin de la qualité GPT-4, donc nous utilisons l’API d’OpenAI » — n’est plus universellement correct. Un Mixtral affiné et déployé sur site peut égaler ou dépasser GPT-3.5-Turbo sur des tâches spécifiques à un domaine, sans que les données quittent l’infrastructure de l’organisation et sans coûts d’API par token. Pour les industries réglementées où la résidence des données est une contrainte, c’est un changement de catégorie, pas une amélioration marginale.
Le boom open source plus large des MoE — Mixtral, Grok-1, les variantes DeepSeek et les modèles de plus petits laboratoires — a effectivement créé un niveau de modèles fondamentaux disponibles publiquement qui aurait été considéré comme le territoire exclusif des modèles fermés dix-huit mois auparavant. L’écart entre ce que l’on peut héberger soi-même et ce que seuls les modèles fermés de pointe pouvaient fournir se réduit à un rythme que les feuilles de route d’entreprise élaborées en 2024 ont peut-être systématiquement sous-estimé.
Advertisement
Radar de Décision (Prisme Algérie)
| Dimension | Évaluation |
|---|---|
| Pertinence pour l’Algérie | Élevée — Les modèles MoE comme Mixtral peuvent fonctionner sur du matériel bien moins puissant que les équivalents denses, rendant l’IA hébergée localement plus accessible pour les startups algériennes et les institutions de recherche avec des budgets GPU limités |
| Infrastructure Prête ? | Partielle — Faire tourner Mixtral 8x7B nécessite ~90 Go de VRAM (2x A100 ou équivalent) — à portée des grandes entreprises et universités ; les petites organisations auront encore besoin d’un accès API cloud |
| Compétences Disponibles ? | Partielles — Les ingénieurs ML capables de fine-tuner et déployer des modèles denses peuvent travailler avec les architectures MoE ; l’optimisation MoE avancée requiert une expertise spécialisée pas encore largement disponible en Algérie |
| Calendrier d’Action | 6-12 mois |
| Parties Prenantes Clés | Chercheurs en IA, ingénieurs ML, DSI évaluant l’IA auto-hébergée, départements informatiques universitaires, startups algériennes en IA |
| Type de Décision | Stratégique |
En bref : L’architecture MoE est la raison principale pour laquelle les modèles open source comblent l’écart avec les modèles fermés de pointe à une fraction du coût. Les équipes IA algériennes devraient benchmarker Mixtral et les variantes DeepSeek MoE avant de se tourner par défaut vers les API OpenAI — l’économie de l’auto-hébergement a fondamentalement changé.
Sources et lectures complémentaires
- Mixtral of Experts — Blog Mistral AI
- Grok-1 Open Release — Blog xAI
- Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity — Google Research (Fedus et al., 2021)
- Mixture of Experts Explained — Blog Hugging Face
- DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models — DeepSeek AI (2024)





Advertisement