Ce que cela signifie pour l’infrastructure IA
Les chiffres publiés par Xiaomi en juin 2026 s’opposent directement à l’hypothèse dominante selon laquelle l’inférence à l’échelle frontière exige du silicium propriétaire. Selon l’analyse de MarkTechPost sur la sortie de MiMo-V2.5-Pro-UltraSpeed, le système atteint des vitesses de décodage supérieures à 1 000 tokens par seconde sur un modèle d’un billion de paramètres, en utilisant un seul nœud standard de 8 GPU — la même classe de matériel que l’on trouve dans la flotte GPU de n’importe quel grand fournisseur cloud.
Pour situer le contexte, les modèles de production largement utilisés fonctionnent à une fraction de ce débit à une échelle comparable. L’implication est directe : si un modèle MoE d’1,02 billion de paramètres peut atteindre 1 200 tokens par seconde sur du matériel grand public, la courbe de coût par token pour les systèmes IA les plus performants va bientôt s’infléchir fortement vers le bas.
1. Recalibrez vos hypothèses budgétaires d’inférence pour 2026–2027
Le résultat de MiMo UltraSpeed impose une réévaluation de ce que signifie une « inférence coûteuse ». La couverture de la sortie par Let’s Data Science confirme la tarification API : UltraSpeed coûte 3 fois le tarif standard de MiMo-V2.5-Pro, mais offre environ 10 fois la vitesse de génération. En termes de coût par token délivré, le calcul favorise le niveau le plus rapide pour les applications sensibles à la latence.
Les équipes d’infrastructure qui ont verrouillé des plans d’allocation GPU pluriannuels basés sur les benchmarks de débit de 2024 devraient considérer ces plans comme provisoires. L’effet cumulatif des améliorations de quantification, du décodage spéculatif et de l’optimisation des runtimes avance plus vite que les feuilles de route matérielles annuelles. Tout budget construit sur des hypothèses de « tokens par dollar » vieilles de plus de douze mois devrait être testé par rapport aux nouveaux chiffres.
2. Comprenez l’optimisation à deux couches qui rend cela possible
Le résultat d’UltraSpeed n’est pas un seul tour de passe-passe — c’est le produit de deux optimisations complémentaires appliquées sur l’architecture MoE, chacune abordant un goulot d’étranglement différent.
La première couche est la quantification. L’analyse technique de GizChina sur MiMo-V2.5-Pro explique que la précision FP4 (spécifiquement MXFP4) est appliquée sélectivement aux couches d’experts MoE uniquement, tandis que les autres modules — dont les mécanismes d’attention — restent en FP8. Cette approche chirurgicale préserve la qualité du modèle tout en réduisant considérablement la pression sur la bande passante mémoire pour le calcul des experts, là où les modèles MoE passent la majorité de leurs cycles lors de l’inférence.
La deuxième couche est le décodage spéculatif via DFlash. Contrairement au décodage spéculatif classique, qui génère des tokens avec un petit modèle et les vérifie avec le modèle complet, DFlash utilise un modèle de brouillon à Sliding Window Attention opérant en mode de prédiction parallèle masquée au niveau des blocs, avec une taille de bloc plafonnée à 8 tokens. Le résultat est des longueurs d’acceptation de 6,30 tokens par tour de vérification sur les tâches de codage, 5,56 sur les mathématiques et le raisonnement, et 4,29 sur les tâches d’agents. Ces taux d’acceptation signifient que le grand modèle n’est effectivement nécessaire que pour la vérification une fraction du temps — c’est là que se matérialise le multiplicateur de débit.
Le runtime GPU TileRT sous-tend les deux optimisations. Son architecture de noyau persistant utilise la Warp Specialization pour superposer les transferts de données et le calcul, éliminant la latence de commutation d’opérateurs qui affecte les stacks d’inférence standards. Le résultat net est un système où l’utilisation du matériel reste élevée tout au long de la phase de décodage, pas seulement au niveau des couches d’attention.
3. Intégrez la publication open source dans votre planification des capacités
Xiaomi et TileRT n’ont pas gardé le résultat propriétaire. Le checkpoint du modèle FP4-DFlash a été publié sur Hugging Face sous le nom MiMo-V2.5-Pro-FP4-DFlash, et TileRT a rendu open source des modules de runtime sélectionnés sur GitHub. Cela signifie que la pile d’optimisation est disponible pour inspection, adaptation et intégration dans des pipelines d’inférence tiers.
Pour les équipes d’ingénierie qui évaluent s’il faut construire ou acheter une infrastructure d’inférence, la publication open source change le calcul. Les techniques — quantification FP4 sélective sur les experts MoE, décodage spéculatif au niveau des blocs, runtimes à noyau persistant — sont désormais documentées et reproductibles. Les équipes disposant de solides capacités MLOps peuvent étudier l’architecture directement plutôt que d’attendre qu’un fournisseur la conditionne.
L’API d’essai, qui a fonctionné du 9 au 23 juin 2026, était limitée aux entreprises et aux développeurs professionnels, avec 10 entrées de file d’attente par jour et des limites de session de 30 minutes. La publication open source du checkpoint suggère qu’une disponibilité de production plus large suivra, bien que le calendrier exact n’ait pas été annoncé.
Publicité
Les techniques derrière la vitesse
Les composants individuels de la pile MiMo UltraSpeed méritent un examen plus approfondi, car chacun résout un problème qui a contraint l’inférence de grands modèles pendant des années.
Quantification sélective vs. quantification généralisée. La plupart des déploiements FP4 en production appliquent la quantification uniformément à tous les poids du modèle. L’approche MiMo ne quantifie que les couches d’experts MoE, qui portent la majorité du nombre de paramètres dans un modèle MoE d’un billion de paramètres mais sont accessées de façon éparse lors de chaque passe directe. Les couches d’attention — qui traitent chaque token — restent en FP8. Cette asymétrie signifie que le système ne sacrifie pas la précision qui compte le plus pour la qualité de génération tout en capturant les économies de bande passante mémoire du FP4 là où le nombre de paramètres est le plus élevé. L’entraînement tenant compte de la quantification (QAT, Quantization-Aware Training) a été utilisé pour maintenir la parité des capacités avec la référence FP8, de sorte que le gain de vitesse ne se fait pas au détriment d’une régression des benchmarks.
Décodage spéculatif au niveau des blocs. Le décodage spéculatif classique génère une séquence de tokens brouillons avec un petit modèle, puis les vérifie tous en une seule passe directe du grand modèle. L’efficacité dépend entièrement du taux d’acceptation : si la plupart des tokens brouillons sont rejetés, le coût de fonctionnement du modèle brouillon annule les économies. La prédiction parallèle masquée au niveau des blocs de DFlash — avec une taille de bloc de 8 — signifie que le modèle brouillon propose jusqu’à 8 tokens simultanément, et le grand modèle vérifie le bloc complet en une seule opération. Avec des longueurs d’acceptation dépassant en moyenne 6 tokens par tour sur les tâches de codage, le grand modèle effectue bien moins de passes directes totales par token généré qu’avec une référence autorégressive naïve. C’est là que se matérialise le multiplicateur de débit de 10 fois.
Efficacité du runtime via TileRT. Le runtime à noyau persistant de TileRT maintient les cœurs GPU continuellement occupés en superposant les transferts de mémoire au calcul via la Warp Specialization. Dans les runtimes d’inférence standards, chaque opérateur (attention, dispatch des experts, projection) se termine avant que le suivant ne commence, laissant le GPU inactif pendant les déplacements de données. Le pipeline hétérogène de TileRT élimine ces périodes d’inactivité. Le résultat est que les deux couches d’optimisation ci-dessus — quantification et décodage spéculatif — opèrent sur un runtime qui gaspille presque aucun cycle GPU entre elles.
Vers où se dirige l’inférence frontière
Le résultat de MiMo UltraSpeed est une étape importante, mais il est mieux compris comme un avant-goût d’une tendance structurelle plutôt que comme un accomplissement isolé. La combinaison des architectures MoE (qui maintiennent les nombres de paramètres actifs bas par token malgré des nombres totaux de paramètres élevés), de la quantification agressive (FP4 n’est pas le plancher — la recherche sur FP2 est active) et du décodage spéculatif (les taux d’acceptation s’améliorent encore avec de meilleurs modèles brouillons) pointe vers un avenir où l’inférence à l’échelle du billion de paramètres est un service de commodité plutôt qu’une spécialité premium.
La comparaison avec les fournisseurs de silicium personnalisé est instructive. Des systèmes comme le Cerebras Wafer-Scale Engine et le LPU de Groq atteignent un débit élevé en adaptant le matériel aux workloads IA, le moteur wafer-scale de Cerebras ayant atteint 969 tokens par seconde sur Llama 3.1 405B — un modèle 2,5 fois plus petit que MiMo. MiMo UltraSpeed atteint un débit comparable — à l’échelle du billion de paramètres — sur du matériel GPU standard grâce à l’optimisation au niveau logiciel. Aucune approche n’est obsolète ; chacune a des économies différentes à différentes échelles. Mais l’écart entre commodity et personnalisé s’est considérablement réduit.
Pour les praticiens de l’IA, la conclusion immédiate est que les contraintes de débit qui semblaient permanentes il y a six mois sont maintenant négociables. La surface d’ingénierie pour l’optimisation de l’inférence — précision de quantification, architecture de décodage spéculatif, conception de runtime — est active et produit des résultats plus rapidement que les cycles d’approvisionnement en matériel. Les équipes qui traitent l’optimisation de l’inférence comme un problème logiciel, et pas seulement comme un problème d’approvisionnement en matériel, trouveront plus de leviers disponibles qu’elles ne l’anticipaient.
La publication open source du checkpoint et des modules de runtime signifie que la communauté apprendra de, étendra et améliorera probablement la référence MiMo UltraSpeed dans les mois à venir. Le chiffre de 1 200 tokens par seconde pour un modèle d’un billion de paramètres est impressionnant aujourd’hui ; d’ici mi-2027, il pourrait bien être l’attente de référence.
Questions Fréquemment Posées
Q: En quoi MiMo UltraSpeed diffère-t-il de l’inférence standard de grands modèles ?
L’inférence autorégressive standard génère un token à la fois, nécessitant une passe directe complète à travers le modèle pour chaque token. MiMo UltraSpeed combine la quantification sélective FP4 sur les couches d’experts MoE avec le décodage spéculatif DFlash au niveau des blocs, ce qui permet au système de vérifier jusqu’à 8 tokens brouillons en une seule passe directe du grand modèle. Avec des longueurs d’acceptation moyennes de 6,30 tokens par tour sur les tâches de codage, le nombre effectif de passes directes complètes par token généré chute considérablement — c’est la source principale du gain de débit de 10 fois par rapport au modèle de référence.
Q: La quantification FP4 dégrade-t-elle la qualité du modèle ?
Selon les détails techniques publiés avec MiMo-V2.5-Pro-UltraSpeed, l’entraînement tenant compte de la quantification (QAT) a été utilisé spécifiquement pour maintenir la parité des capacités avec la référence FP8. La précision FP4 est également appliquée de manière sélective — uniquement aux couches de poids d’experts MoE, pas aux modules d’attention ou aux autres composants où la perte de précision aurait un impact plus important sur la qualité de la sortie. Les résultats de benchmarks publiés ne montrent aucune régression significative par rapport au modèle standard MiMo-V2.5-Pro.
Q: Comment cela se compare-t-il au matériel d’inférence IA dédié ?
Des systèmes matériels IA personnalisés comme le Cerebras Wafer-Scale Engine et le LPU de Groq atteignent un débit élevé en redessinant le matériel autour des patterns de workload IA — déplaçant les données sur puce et éliminant les goulots d’étranglement DRAM. MiMo UltraSpeed atteint plus de 1 000 tokens par seconde sur un modèle d’un billion de paramètres en utilisant des nœuds standard de 8 GPU grands publics grâce à l’optimisation au niveau logiciel : quantification sélective, décodage spéculatif et runtime à noyau persistant. L’écart entre le matériel standard optimisé logiciellement et le silicium personnalisé s’est considérablement réduit, l’approche grand public offrant l’avantage de la disponibilité auprès de n’importe quel grand fournisseur cloud.
Sources et lectures complémentaires
- Xiaomi MiMo et TileRT poussent un modèle d’un billion de paramètres au-delà de 1 000 tokens par seconde — MarkTechPost
- Xiaomi MiMo atteint 1 000 tokens par seconde en inférence — Let’s Data Science
- Xiaomi MiMo-V2.5-Pro vient d’atteindre 1 000 tokens par seconde — GizChina
- Modèle 1T, 1 000 tokens/s, 8 GPU : Xiaomi redéfinit les limites de l’inférence — China Biz Insider













