Un continent construit sa propre IA

Dans la course mondiale à l’IA, le récit a été dominé par une poignée d’acteurs : OpenAI et Anthropic aux États-Unis, Google DeepMind entre Londres et Mountain View, Mistral à Paris et un groupe de laboratoires ambitieux en Chine. Le reste du monde — la grande majorité de l’humanité — a été cantonné au rôle de consommateur d’une IA construite ailleurs, entraînée sur des données qui reflètent la langue, la culture et les priorités d’autrui.

Le Chili vient de remettre en question ce récit. Le 10 février 2026, le Centre national d’intelligence artificielle (CENIA) a dévoilé Latam-GPT en présence du président chilien Gabriel Boric. Construit sur l’architecture Llama 3.1 de Meta et entraîné sur plus de 300 milliards de tokens de données latino-américaines en espagnol et en portugais, Latam-GPT est le premier modèle fondationnel ouvert créé entièrement en Amérique latine — de la collecte de données au pré-entraînement jusqu’au post-entraînement. Soutenu par un consortium de plus de 60 institutions et près de 200 spécialistes répartis dans huit pays clés d’Amérique latine, le projet a été présenté conjointement par le CENIA, la CAF (la Banque de développement de l’Amérique latine et des Caraïbes), le gouvernement du Chili, AWS et le Data Observatory.

Le chiffre le plus remarquable de l’histoire de Latam-GPT n’est peut-être pas l’échelle du modèle mais son budget : 550 000 dollars — financé principalement par le CENIA et la CAF. Dans un domaine où les entraînements de modèles de pointe coûtent couramment des centaines de millions de dollars, le projet démontre ce qu’un effort concentré et collaboratif peut accomplir même avec des ressources modestes.

Le projet n’est pas seulement une prouesse technique. C’est une déclaration politique sur qui a le droit de façonner les systèmes d’IA qui servent de plus en plus d’intermédiaires pour l’accès à l’information, aux services et aux opportunités. Dans un monde où les modèles d’IA dominants sont entraînés principalement sur des données en anglais — l’espagnol représente environ 4 % des données d’entraînement typiques d’un LLM, le portugais seulement 2 % — Latam-GPT est une affirmation que les quelque 660 millions d’habitants de l’Amérique latine méritent une IA qui comprend leurs langues, leurs contextes et leurs besoins.

L’architecture technique

Latam-GPT n’a pas été entraîné à partir de zéro — une entreprise qui aurait nécessité des milliards de dollars en calcul, bien au-delà du budget de toute institution latino-américaine. Le projet a plutôt adopté une approche pragmatique : il a pris Llama 3.1 de Meta comme fondation et a réalisé une campagne extensive de pré-entraînement continu axée sur les données latino-américaines.

Le jeu de données d’entraînement, constitué sur plus de deux ans par des équipes à travers le consortium, comprend des documents gouvernementaux de pays d’Amérique latine, des articles académiques d’universités régionales, des décisions de justice, des registres de bibliothèques, des manuels scolaires, des articles de presse de grands médias latino-américains, des œuvres littéraires du domaine public, des textes juridiques et du contenu web sélectionné en espagnol et en portugais. Le jeu de données total dépasse huit téraoctets — comprenant plus de 300 milliards de tokens en texte brut, équivalant à environ 230 milliards de mots. Modeste selon les standards de l’entraînement de modèles de pointe mais substantiel pour un effort régional, et surtout, hautement focalisé sur les contextes linguistiques et culturels spécifiques que les modèles globaux gèrent mal.

Le processus de pré-entraînement continu a adapté les connaissances existantes de Llama aux spécificités de l’espagnol et du portugais latino-américains. L’espagnol latino-américain diffère substantiellement de l’espagnol européen en vocabulaire, en expressions idiomatiques et en registre. Le portugais brésilien et le portugais européen divergent encore plus nettement. Un modèle entraîné principalement sur du texte espagnol européen ou générique mécomprendra les expressions régionales, traitera mal la terminologie spécifique aux pays et produira des résultats qui sembleront étrangers aux utilisateurs latino-américains. Latam-GPT a été spécifiquement conçu pour combler cet écart. Les données d’entraînement incluent également des langues autochtones — nahuatl, quechua et mapudungun — ainsi que des variantes dialectales caribéennes, bien que le support complet de ces langues soit prévu pour les versions futures.

Après l’entraînement, le modèle a subi un affinage par instructions et un alignement utilisant les retours de locuteurs natifs de plusieurs pays. Ce processus a garanti que le modèle non seulement comprenne le texte latino-américain mais puisse générer des réponses perçues comme naturelles et culturellement appropriées par les utilisateurs au Mexique, en Colombie, au Brésil, en Argentine, au Chili, au Pérou et dans les autres pays représentés dans le consortium.

La première version a été entraînée sur l’infrastructure cloud AWS, avec un supercalculateur de 4,5 millions de dollars prévu pour installation à l’Université de Tarapaca dans le nord du Chili au premier semestre 2026 pour soutenir les futures sessions d’entraînement. Le modèle a été publié en tant que modèle ouvert, avec un outillage initial disponible sur Hugging Face. Point crucial, Latam-GPT est positionné non comme un chatbot grand public mais comme une infrastructure fondamentale — conçue pour les flux de travail à forte intensité textuelle courants dans l’administration et les services publics, y compris la rédaction de documents, le résumé, la traduction, la recherche de connaissances et le support aux citoyens.

Pourquoi l’IA souveraine compte

Le concept d’« IA souveraine » — le développement de systèmes d’IA qui reflètent et servent les intérêts d’une nation ou d’une région spécifique — a pris un élan considérable dans le monde entier. La France a défendu Mistral comme réponse européenne à la domination américaine en IA. Les États du Golfe investissent massivement, avec le Technology Innovation Institute d’Abu Dhabi publiant Falcon 3 et Falcon-H1 Arabic — désormais le principal modèle d’IA arabe — utilisant une architecture hybride Mamba-Transformer novatrice. L’Inde a lancé Bhashini, une plateforme gouvernementale prenant en charge l’IA dans 22 langues indiennes, récemment migrée vers une infrastructure cloud et GPU domestique. Le Japon, la Corée du Sud et Singapour ont chacun annoncé des stratégies nationales d’IA avec un financement public significatif.

La motivation n’est pas un simple nationalisme technologique. Elle reflète une préoccupation authentique et bien fondée sur ce qui se passe quand les systèmes d’IA dont une société dépend sont construits ailleurs, par des personnes ayant des valeurs, des priorités et des contextes culturels différents.

La langue est la dimension la plus évidente. Malgré les progrès en capacités multilingues, les modèles d’IA de pointe restent substantiellement meilleurs en anglais que dans toute autre langue. Ils comprennent les expressions idiomatiques anglaises, l’humour, les références culturelles et la terminologie technique avec une profondeur qu’ils ne peuvent égaler en espagnol, portugais, arabe ou hindi. Pour les milliards de personnes qui ne parlent pas l’anglais comme langue principale, cela signifie que la révolution de l’IA livre un produit dégradé — et la dégradation est la plus grande précisément dans les domaines où la spécificité culturelle et linguistique compte le plus.

Mais la préoccupation va au-delà de la langue. Les modèles d’IA encodent des valeurs et des suppositions dans leurs données d’entraînement et leurs processus d’alignement. Un modèle entraîné principalement sur des données américaines et européennes reflétera les perspectives américaines et européennes sur des sujets allant de la gouvernance à l’économie en passant par les normes sociales. Il peut mécomprendre ou déformer les contextes locaux, recommander des solutions inappropriées aux problèmes locaux ou simplement manquer de connaissances sur des enjeux cruciaux pour les sociétés non occidentales.

Latam-GPT répond directement à ces préoccupations. En s’entraînant sur des données latino-américaines, avec les retours d’utilisateurs latino-américains, sous la direction de chercheurs latino-américains, le modèle est conçu pour servir la région selon ses propres termes. Ce n’est pas une couche de traduction par-dessus un modèle américain — c’est un modèle qui a été adapté en profondeur pour penser en espagnol et en portugais latino-américains.

Advertisement

Le modèle du consortium

L’une des innovations les plus significatives de Latam-GPT est organisationnelle plutôt que technique. Construire un modèle d’IA compétitif nécessite d’énormes ressources — données, calcul, talents et financement — qu’aucune institution latino-américaine seule ne pourrait fournir. La solution a été un consortium continental mutualisant les ressources au-delà des frontières nationales.

Le consortium inclut des universités, des agences gouvernementales et des instituts de recherche du Chili, du Brésil, du Mexique, de la Colombie, de l’Argentine, du Pérou, de l’Équateur et de l’Uruguay comme nations contributives principales de données, le réseau plus large s’étendant à jusqu’à 15 pays d’Amérique latine et des Caraïbes. Chaque partenaire a contribué des données, une expertise et dans certains cas des ressources de calcul. La coordination était assurée par le CENIA à Santiago, qui servait de centre technique et d’installation principale d’entraînement, AWS fournissant l’infrastructure cloud pour l’entraînement initial.

Ce modèle présente des avantages et des défis. Les avantages sont clairs : la mutualisation des ressources rend possible ce qu’aucune institution seule ne pourrait accomplir. La diversité des organisations contributives garantit que les données d’entraînement et les critères d’évaluation reflètent toute l’étendue des cultures latino-américaines plutôt que la perspective d’un seul pays. Le Brésil a apporté son expertise en langue portugaise et des données de la région amazonienne. Le Mexique a fourni des spécialistes des langues autochtones et du contenu éducatif. La Colombie a contribué des systèmes de connaissances en biodiversité et en agriculture. Le modèle de publication ouverte signifie que les bénéfices profitent à l’ensemble de la région plutôt que de revenir à une seule entité commerciale.

Les défis sont tout aussi réels. Coordonner plus de 60 institutions dans plusieurs pays nécessite de naviguer entre différents cadres réglementaires, cultures institutionnelles et dynamiques politiques. Le partage de données au-delà des frontières nationales soulève des préoccupations en matière de vie privée et de souveraineté. Et le modèle de financement — 550 000 dollars du CENIA et de la CAF, complétés par des crédits cloud AWS et des contributions institutionnelles — crée une incertitude quant à la durabilité à long terme du projet. Le développement d’IA de pointe n’est pas un investissement ponctuel mais un engagement continu nécessitant du calcul, une curation de données et des mises à jour de modèles permanents. Le supercalculateur de 4,5 millions de dollars prévu à l’Université de Tarapaca représente un pas important vers l’indépendance d’infrastructure, mais l’écart entre un investissement de 5 millions de dollars et les milliards dépensés par les laboratoires d’IA américains et chinois reste considérable.

Leçons pour l’Afrique et le monde arabe

Le projet Latam-GPT a des implications profondes pour d’autres régions qui se trouvent du côté consommateur du fossé de l’IA. L’Afrique, le monde arabe et l’Asie du Sud-Est font tous face à des défis similaires : des populations linguistiquement diverses mal servies par des modèles d’IA centrés sur l’anglais, une infrastructure de calcul domestique limitée et une dépendance croissante envers des systèmes d’IA construits dans la Silicon Valley ou à Pékin.

Le modèle du consortium offre un modèle à suivre. Aucune nation africaine seule n’a les ressources pour construire un modèle d’IA de pointe, mais un effort continental ou sous-régional — mutualisant les données de plusieurs pays, exploitant les talents de la diaspora et se coordonnant via des institutions existantes comme l’Union africaine ou la Ligue arabe — pourrait potentiellement accomplir ce que Latam-GPT a démontré.

Pour le monde arabe spécifiquement, les parallèles sont frappants. L’arabe standard moderne est raisonnablement bien représenté dans les données d’entraînement des modèles de pointe, mais l’arabe dialectal — la langue que les gens parlent réellement — est considérablement sous-représenté. Le Technology Innovation Institute des Émirats arabes unis a fait des progrès significatifs avec Falcon-H1 Arabic, mais un effort régional plus large couvrant l’arabe égyptien, l’arabe du Golfe, l’arabe maghrébin et l’arabe levantin avec la même fluidité que l’anglais serait transformateur pour des centaines de millions de personnes. Un tel modèle nécessiterait un effort collaboratif à travers le monde arabe, mutualisant les données de dialectes divers et construisant des cadres d’évaluation reflétant tout le spectre de l’usage de la langue arabe.

Pour l’Afrique, le défi est encore plus aigu. Avec plus de 2 000 langues, la diversité linguistique du continent dépasse celle de toute autre région. La communauté de recherche Masakhane — désormais un réseau de plus de 2 000 chercheurs africains — a établi le Masakhane African Languages Hub en juillet 2025 et a lancé en janvier 2026 une initiative majeure pour construire des jeux de données d’IA pour 50 langues africaines, avec l’objectif d’autonomiser un milliard d’Africains d’ici 2029 grâce à des outils d’IA conçus localement. L’initiative, soutenue par Google.org, le FCDO, le CRDI et la Fondation Gates, construit des jeux de données pour la reconnaissance automatique de la parole, des benchmarks d’IA en conditions réelles et des données multimodales culturellement pertinentes dans 40 langues. Mais l’écart entre ces efforts fondamentaux et un déploiement à l’échelle de Latam-GPT reste substantiel.

Le mouvement « IA pour le reste du monde »

Latam-GPT fait partie d’un mouvement mondial croissant qui remet en question l’hypothèse selon laquelle l’IA doit être construite dans une poignée de pays riches et consommée partout ailleurs. Ce mouvement inclut les modèles Tiny Aya de Cohere — publiés en février 2026 avec un support pour plus de 70 langues et des variantes régionales pour les langues africaines, sud-asiatiques et Asie-Pacifique — la plateforme Bhashini de l’Inde fonctionnant désormais entièrement sur une infrastructure cloud et GPU indienne, et la famille de modèles Falcon des Émirats arabes unis, entre autres.

Ce que ces projets partagent est la reconnaissance que l’IA n’est pas une infrastructure culturellement neutre comme l’électricité ou la plomberie. Les systèmes d’IA encodent la langue, les valeurs et les connaissances. Quand ces systèmes sont construits exclusivement par et pour les sociétés occidentales anglophones, ils marginalisent inévitablement la majorité de la population mondiale. Le mouvement de l’IA souveraine est, en son cœur, une affirmation que chaque société a le droit à une IA qui reflète sa propre langue, sa culture et ses priorités.

L’argument économique renforce l’argument culturel. À mesure que l’IA s’intègre dans l’éducation, la santé, les services publics et le commerce, les sociétés qui dépendent entièrement de systèmes d’IA étrangers font face à une nouvelle forme de dépendance numérique. Elles deviennent consommatrices d’une technologie qu’elles ne contrôlent pas, soumises à la tarification, aux politiques et aux priorités d’entreprises étrangères. Construire des capacités locales en IA n’est pas seulement une question de fierté culturelle — c’est une question de souveraineté économique.

Latam-GPT a prouvé que l’IA souveraine régionale est techniquement faisable et organisationnellement réalisable — et pour une fraction du coût que beaucoup estimaient nécessaire. La prochaine question est de savoir si d’autres régions suivront l’exemple du Chili — et si l’écosystème mondial de l’IA évoluera vers un paysage multipolaire où des communautés diverses construisent une IA qui sert leurs propres besoins, ou restera un système unipolaire dominé par une poignée d’entreprises dans une poignée de pays.

Advertisement

🧭 Radar de Décision (Prisme Algérien)

Dimension Évaluation
Pertinence pour l’Algérie Élevée — L’Algérie fait face au même défi fondamental : l’arabe (surtout le dialecte maghrébin) est sévèrement sous-représenté dans les modèles d’IA mondiaux, et le pays dépend entièrement de systèmes d’IA étrangers
Infrastructure prête ? Partiellement — L’Algérie dispose d’une capacité croissante en cloud et centres de données mais manque du calcul GPU et des jeux de données curatés en arabe/amazigh nécessaires pour l’entraînement d’un modèle souverain
Compétences disponibles ? Partiellement — Les universités algériennes forment des talents en IA/ML (USTHB, ESI, Tlemcen), mais l’expertise spécifique en pré-entraînement de LLM, alignement RLHF et curation de données multilingues est rare
Calendrier d’action 6-12 mois — Entamer les discussions de consortium avec les partenaires maghrébins/arabes ; 12-24 mois pour un modèle régional pilote
Parties prenantes clés Ministère de la Numérisation, Ministère de l’Enseignement Supérieur, CERIST, universités algériennes, initiatives technologiques de la Ligue arabe, Masakhane (pour l’amazigh/tamazight), banques de développement arabes équivalentes à la CAF
Type de décision Stratégique — Le modèle de consortium de Latam-GPT est directement réplicable pour un effort d’IA souveraine maghrébin ou panarabe

Sources et lectures complémentaires