Le désaccord le plus coûteux de l’IA
L’industrie de l’IA souffre d’un problème de consensus. Pratiquement tous les grands laboratoires — OpenAI, Anthropic, Google DeepMind, xAI — misent des milliards sur la même architecture fondamentale : de grands modèles de langage entraînés sur du texte, dimensionnés à des milliers de milliards de paramètres, générant des tokens un par un. Le marché a tranché. Les produits construits sur les LLM génèrent de vrais revenus. La trajectoire semble inévitable.
Et puis il y a Yann LeCun.
L’un des trois chercheurs récompensés par le prix ACM Turing en 2018 — aux côtés de Yoshua Bengio et Geoffrey Hinton — pour leurs travaux fondateurs sur le deep learning, LeCun a passé plus d’une décennie chez Meta à bâtir ce qui est devenu l’un des laboratoires de recherche en IA les plus prestigieux au monde, FAIR. Mais depuis trois ans, il défend une thèse que presque personne dans la Silicon Valley ne veut entendre : les grands modèles de langage sont une impasse. Pas une étape intermédiaire. Pas un socle sur lequel construire. Une impasse.
En novembre 2025, LeCun a mis sa carrière au service de sa critique. Il a quitté Meta après douze ans pour fonder AMI Labs (Advanced Machine Intelligence Labs), une startup basée à Paris visant une valorisation de 3,5 milliards de dollars avant même d’avoir livré un seul produit. Sa mission : construire des « modèles du monde » — des systèmes d’IA qui comprennent la physique, maintiennent une mémoire persistante et planifient des actions complexes plutôt que de simplement prédire le mot suivant.
Le chemin vers une IA de niveau humain, soutient LeCun, ne passe pas par des modèles toujours plus grands prédisant le prochain token. Il passe par quelque chose de fondamentalement différent — des machines qui apprennent à comprendre le monde physique comme le font les humains et les animaux. L’architecture qu’il propose s’appelle JEPA : Joint Embedding Predictive Architecture.
L’argument central : pourquoi la prédiction de tokens n’est pas de la compréhension
La critique de LeCun envers les LLM ne porte pas sur des benchmarks de performance ou des cas d’échec triés sur le volet. Elle est architecturale. Son argument attaque le mécanisme fondamental par lequel ces systèmes fonctionnent.
Les LLM sont des modèles autorégressifs. Ils prédisent le prochain token dans une séquence en fonction de tous les tokens précédents. C’est ainsi que GPT-4 rédige des essais, que Claude génère du code et que Gemini répond aux questions. L’approche fonctionne remarquablement bien pour les tâches linguistiques. Mais la thèse de LeCun est que prédire des tokens de texte est catégoriquement différent de comprendre le monde que ce texte décrit.
Prenons un scénario physique simple : une balle roulant au bord d’une table. Un enfant en bas âge comprend ce qui va se passer. La balle va tomber. La gravité n’est pas un concept que l’enfant a appris explicitement — c’est quelque chose qu’il a intégré au fil de milliers d’heures d’expérience sensorielle, en observant les objets interagir avec le monde. Il a construit ce que les sciences cognitives appellent un modèle du monde : une représentation interne du fonctionnement de la réalité physique.
Un LLM, en revanche, a traité des millions de descriptions de balles tombant de tables. Il peut générer un paragraphe parfaitement cohérent sur la gravité. Mais LeCun soutient qu’il ne possède aucun modèle interne de la réalité physique. Il fait de la reconnaissance de motifs sur du texte. La connaissance est linguistique, pas ancrée dans le réel. La distinction est importante car le langage ne couvre qu’une fraction infime de la connaissance humaine. La majeure partie de ce que les humains savent du monde — les relations spatiales, la dynamique physique, la causalité, l’intuition sociale — n’a jamais été mise par écrit. Elle a été acquise par l’expérience sensorielle directe.
LeCun quantifie cet écart de manière provocante. Un enfant humain, estime-t-il, reçoit environ 10 puissance 14 octets de données sensorielles par ses seuls yeux durant ses quatre premières années de vie. L’intégralité du corpus textuel utilisé pour entraîner les plus grands LLM représente environ 10 puissance 13 octets. Un enfant de quatre ans a traité plus d’informations brutes sur le monde que n’importe quel modèle de langage jamais entraîné. Et de manière critique, les données de l’enfant sont multimodales, ancrées dans le réel et interactives — pas du texte statique collecté sur internet.
JEPA : la prédiction dans l’espace des représentations
L’alternative proposée par LeCun, JEPA, représente une approche fondamentalement différente de l’apprentissage. Exposée pour la première fois dans son article de position de juin 2022, « A Path Towards Autonomous Machine Intelligence », JEPA prédit des représentations abstraites dans un espace d’embedding appris plutôt que des séquences exactes de tokens.
La distinction est significative. Les modèles autorégressifs doivent prédire chaque détail de leur sortie. Lors de la génération d’une image pixel par pixel ou d’une phrase mot par mot, le modèle doit s’engager sur des détails précis à chaque étape. Cela l’oblige à modéliser l’incertitude sur des détails non pertinents — la nuance exacte d’un pixel, le choix précis d’un mot dans une paraphrase — consommant la capacité du modèle sur du bruit plutôt que sur la structure.
JEPA contourne ce problème en opérant dans un espace de représentation compressé. Plutôt que de prédire « la balle va toucher le sol, rebondir deux fois et rouler sous le canapé », un système JEPA prédit la trajectoire abstraite — la balle va se déplacer vers le bas, percuter une surface, perdre de l’énergie — sans s’engager sur les détails de bas niveau. C’est plus proche de la façon dont les humains pensent. Lorsque vous imaginez lancer une balle, vous ne rendez pas mentalement chaque image de sa trajectoire à la résolution rétinienne. Vous prédisez le résultat abstrait.
L’architecture comporte deux composants clés. Premièrement, un encodeur qui projette les entrées brutes (images, vidéo, audio) dans un espace d’embedding de haute dimension. Deuxièmement, un prédicteur qui opère entièrement dans cet espace d’embedding, anticipant les états futurs sans jamais revenir aux données brutes. Le modèle apprend en comparant ses embeddings prédits aux embeddings réels des états futurs.
Les résultats de recherche se sont accumulés régulièrement. I-JEPA, publié en 2023 et présenté à CVPR, a montré que prédire des embeddings de patchs d’images plutôt que des pixels produit des représentations qui se transfèrent bien aux tâches en aval. V-JEPA, publié en 2024, a étendu cette approche à la vidéo, apprenant la dynamique temporelle à partir de données vidéo non étiquetées et atteignant 82,1 % de précision sur Kinetics-400 et 71,2 % sur Something-Something v2 — surpassant les modèles vidéo de référence précédents. V-JEPA 2, publié par Meta en juin 2025, a été dimensionné à 1,2 milliard de paramètres entraînés sur plus d’un million d’heures de vidéo, atteignant des performances de pointe sur les benchmarks de raisonnement physique. Plus récemment, VL-JEPA a étendu l’architecture aux tâches vision-langage.
Ce sont encore des systèmes de recherche, pas des produits en production. Mais la trajectoire allant des patchs d’images à la vidéo, du raisonnement physique au langage, représente un programme de recherche cohérent qui prend de l’élan.
Advertisement
Le problème Système 1 / Système 2
Le cadre conceptuel de LeCun gagne en profondeur lorsqu’on l’examine à travers le prisme de la théorie des processus duaux de Daniel Kahneman — une connexion que LeCun a explorée publiquement, notamment lors d’un panel AAAI en 2020 aux côtés de Kahneman, Hinton et Bengio.
Le cadre de Kahneman divise la cognition humaine en Système 1 (rapide, intuitif, automatique) et Système 2 (lent, délibéré, logique). Reconnaître un visage relève du Système 1. Résoudre un problème mathématique inédit relève du Système 2. Les LLM actuels, soutient LeCun, sont purement des machines de Système 1. Ils génèrent des réponses par reconnaissance rapide de motifs sans aucun mécanisme de raisonnement délibéré et pas à pas sur des problèmes nouveaux.
Le prompting en chaîne de pensée et les modes de réflexion étendue peuvent sembler ajouter des capacités de Système 2, mais LeCun les considère comme cosmétiques. Le modèle continue de générer des tokens de manière autorégressive. Il ne planifie pas réellement, n’explore pas un espace de problèmes, ne raisonne pas causalement. Il produit du texte qui ressemble à du raisonnement parce qu’il a été entraîné sur du texte écrit par des humains qui raisonnaient. L’imitation est sophistiquée mais fragile — c’est pourquoi les LLM échouent sur des problèmes nécessitant une véritable planification en plusieurs étapes, particulièrement les problèmes dont la structure diffère de tout ce qui figure dans leurs données d’entraînement.
L’architecture cognitive proposée par LeCun envisage des systèmes d’IA dotés de capacités explicites de Système 2 : un modèle du monde qui maintient un état interne, une fonction de coût qui évalue les actions potentielles, et un processus d’optimisation qui recherche des séquences d’actions minimisant ce coût. C’est plus proche de l’apprentissage par renforcement basé sur un modèle que de la modélisation linguistique. Et c’est, de l’aveu même de LeCun, loin de fonctionner à l’échelle et avec la généralité requises. AMI Labs existe pour combler cet écart.
Les contre-arguments : pourquoi LeCun pourrait avoir tort
La critique de LeCun est intellectuellement sérieuse, mais les contre-arguments sont substantiels.
Le plus puissant est empirique : les LLM continuent de s’améliorer. Chaque année apporte de nouvelles capacités que les critiques estimaient impossibles avec la prédiction de tokens. Du raisonnement mathématique que les premiers critiques jugeaient irréalisable. De la génération de code de qualité production. Des modèles multimodaux traitant images et vidéos en parallèle du texte. Les critères de ce qui constitue une « véritable compréhension » ne cessent de se déplacer parce que les LLM ne cessent de franchir la barre.
Les partisans des lois de mise à l’échelle soutiennent que nombre des objections de LeCun se dissolvent avec une échelle suffisante. L’incapacité à raisonner causalement ? Entraînez sur plus de données avec plus de paramètres et le raisonnement émerge. L’incapacité à comprendre la physique ? Entraînez sur de la vidéo et des données de simulation et l’intuition physique émerge. De ce point de vue, JEPA est une solution à un problème qui pourrait se résoudre de lui-même à mesure que les LLM intègrent plus de modalités et montent en échelle.
Il y a aussi un argument pratique. Les LLM fonctionnent aujourd’hui. Ils alimentent des produits générant des milliards de revenus. Ils écrivent du code, traduisent des langues, synthétisent des documents et assistent dans la recherche. JEPA, en revanche, a produit des articles de recherche prometteurs mais aucun produit commercial. Aucune entreprise n’a déployé un système basé sur JEPA à grande échelle. L’écart entre « direction de recherche intéressante » et « alternative viable aux Transformers » se mesure en années et en milliards de dollars — des milliards qu’AMI Labs est en train de lever.
Certains chercheurs occupent une position intermédiaire, suggérant que l’avenir impliquera probablement des architectures hybrides — des systèmes combinant la fluidité linguistique des modèles autorégressifs avec la compréhension ancrée du monde que les architectures de type JEPA visent à fournir. LeCun lui-même a reconnu que les LLM resteront probablement utiles pour les tâches spécifiquement linguistiques. Son argument porte sur ce qui ne peut pas être accompli par la seule prédiction de tokens, pas sur le fait que la prédiction de tokens est inutile.
AMI Labs : le pari devient une entreprise
Ce qui fait de la position de LeCun plus qu’un débat académique, c’est qu’il y a désormais engagé un poids institutionnel.
AMI Labs, basé à Paris avec Alexandre LeBrun (précédemment cofondateur et PDG de Nabla) au poste de PDG et LeCun en tant que Président exécutif, prévoit de développer des modèles du monde pour des applications critiques incluant la santé, la robotique, l’automatisation et les systèmes industriels. Meta, malgré la perte de son Chief AI Scientist, a accepté de s’associer avec AMI Labs — bien qu’il n’investisse pas directement.
La valorisation de 3,5 milliards de dollars avant même le lancement est extraordinaire pour une entreprise construite sur une architecture qui n’a pas encore produit de produit commercial. Elle signale que les investisseurs traitent la critique de LeCun comme bien plus que du contrariannisme académique. Si les LLM continuent de monter en échelle sans heurts — si la prochaine génération de modèles démontre un raisonnement de plus en plus robuste, une compréhension physique et une véritable capacité de planification — AMI Labs aura du mal à justifier sa valorisation.
Mais si la montée en échelle atteint des rendements décroissants — si la prochaine génération nécessite exponentiellement plus de calcul pour des améliorations marginales, si les benchmarks de raisonnement plafonnent, si la compréhension physique reste obstinément fragile malgré l’entraînement multimodal — alors AMI Labs et son approche par modèles du monde apparaîtront comme visionnaires. La dépendance croissante au calcul à l’inférence (chaîne de pensée, recherche arborescente, réflexion étendue) plutôt qu’à la seule mise à l’échelle des modèles suggère que les gains faciles du scaling pourraient déjà s’amenuiser. Mais ce sont des signaux précoces, pas des preuves.
Ce qui est clair, c’est que LeCun pose la bonne question, même si sa réponse s’avère erronée. L’engagement quasi unanime de l’industrie de l’IA envers un paradigme unique — prédire le prochain token — est historiquement inhabituel et potentiellement risqué. Disposer d’une alternative sérieuse en développement actif, soutenue par un lauréat du prix Turing et des milliards de financement, n’est pas une distraction. C’est une assurance.
Advertisement
🧭 Radar de Décision (Perspective Algérie)
| Dimension | Évaluation |
|---|---|
| Pertinence pour l’Algérie | Moyenne — le débat LLM vs. modèles du monde déterminera dans quelles architectures IA les développeurs et chercheurs algériens devraient investir au cours de la prochaine décennie ; le siège parisien d’AMI Labs crée également une proximité pour les talents IA algéro-français |
| Infrastructure prête ? | Partielle — les universités algériennes proposent des cours de deep learning mais aucun groupe de recherche ne travaille sur JEPA ou les architectures de modèles du monde ; le fine-tuning de LLM est accessible via les fournisseurs cloud |
| Compétences disponibles ? | Non — l’apprentissage auto-supervisé et la prédiction dans l’espace des embeddings nécessitent des compétences avancées en recherche ML qui ne sont pas largement disponibles en Algérie ; les compétences en application des LLM sont plus accessibles |
| Calendrier d’action | 12-24 mois — suivre le débat de paradigme ; investir dans une formation fondamentale en ML qui transcende toute architecture spécifique |
| Parties prenantes clés | Chercheurs en IA, départements d’informatique universitaires, ingénieurs ML, directeurs techniques de startups évaluant leur stack IA |
| Type de décision | Éducatif |
En bref : Les équipes IA algériennes ne devraient pas prendre parti dans ce débat — mais elles devraient le comprendre en profondeur. Les organisations qui construisent des produits sur les LLM aujourd’hui devraient continuer, tandis que les chercheurs et doctorants devraient étudier les deux paradigmes. Le siège parisien d’AMI Labs crée une opportunité de proximité rare pour les talents IA algériens. Le pire scénario serait de former toute une génération de praticiens IA algériens exclusivement au prompt engineering pour un paradigme qui pourrait plafonner d’ici cinq ans.
Sources et lectures complémentaires
- A Path Towards Autonomous Machine Intelligence — Yann LeCun (2022) — L’article de position fondateur de LeCun exposant l’architecture JEPA et sa vision des modèles du monde.
- I-JEPA: The First AI Model Based on Yann LeCun’s Vision for More Human-like AI — Meta FAIR (2023) — La première implémentation de JEPA par Meta pour la compréhension d’images.
- V-JEPA 2: Introducing the V-JEPA 2 World Model and New Benchmarks for Physical Reasoning — Meta (2025) — V-JEPA 2 dimensionné à 1,2 milliard de paramètres avec des performances de pointe en raisonnement physique.
- Meta Chief AI Scientist Yann LeCun Is Leaving the Company — CNBC (November 2025) — Reportage sur le départ de LeCun de Meta pour fonder AMI Labs.
- Yann LeCun’s New Venture Is a Contrarian Bet Against Large Language Models — MIT Technology Review (January 2026) — Portrait approfondi d’AMI Labs et de sa stratégie de modèles du monde.
- Fathers of the Deep Learning Revolution Receive ACM A.M. Turing Award — ACM (2018) — Annonce officielle du prix Turing pour LeCun, Bengio et Hinton.





Advertisement