IA & AutomatisationCybersécuritéCloudCompétencesPolitiqueStartupsÉconomie Numérique

Qui possède les données d’entraînement de l’IA ? Les procès en droit d’auteur qui définiront l’avenir de l’IA

février 24, 2026

Judge desk with brass gavel laptop showing AI art and scattered photographs

La Question à Un Milliard de Dollars Derrière Chaque Modèle d’IA

Chaque grand modèle de langage et générateur d’images en exploitation commerciale aujourd’hui a été entraîné sur des données créées par des humains : articles, livres, photographies, œuvres d’art, code, musique et vidéo. Les entreprises qui ont construit ces modèles — OpenAI, Google, Meta, Anthropic, Stability AI, Midjourney — ont ingéré ce matériel à une échelle sans précédent dans l’histoire de la propriété intellectuelle. Le jeu de données d’entraînement de GPT-4 d’OpenAI est estimé inclure plus d’un billion de tokens tirés de livres, sites web, articles académiques et contenu propriétaire. Le modèle Stable Diffusion de Stability AI a été entraîné sur des sous-ensembles du jeu de données LAION-5B, qui contient 5,85 milliards de paires image-texte extraites d’Internet, dont beaucoup sont des photographies et œuvres d’art protégées.

La question juridique fondamentale est simple à énoncer et énormément lourde de conséquences : l’entraînement d’un modèle d’IA sur du matériel protégé par le droit d’auteur sans autorisation constitue-t-il une violation du droit d’auteur, ou est-ce une utilisation licite, que ce soit par le biais du fair use (aux États-Unis), du fair dealing (au Royaume-Uni), ou des exceptions pour l’exploration de textes et de données (dans l’UE) ? La réponse déterminera si les entreprises d’IA doivent des milliards en frais de licence, si leurs modèles existants font face à des injonctions, et si l’ensemble du modèle commercial de l’IA générative nécessite une restructuration.

Les enjeux financiers ne sont pas abstraits. OpenAI a généré environ 6 milliards de dollars de chiffre d’affaires en 2024 et son revenu annualisé a dépassé 20 milliards de dollars en 2025, représentant un triplement d’une année sur l’autre. Stability AI, malgré des difficultés financières persistantes, a levé plus de 200 millions de dollars en capital-risque sur plusieurs tours. Bloomberg Intelligence projette que le marché plus large de l’IA générative atteindra 1 300 milliards de dollars d’ici 2032, avec un taux de croissance annuel composé d’environ 42 %. Si les tribunaux statuent que l’entraînement constitue une violation, les obligations de licence rétroactives pourraient absorber une part significative de ces revenus, ou forcer des changements fondamentaux dans la façon dont les modèles sont construits.


Les Affaires en Cours : Une Carte Juridique

L’affaire la plus suivie est The New York Times Company c. Microsoft Corporation et OpenAI Inc., déposée dans le district sud de New York en décembre 2023. Le Times allègue qu’OpenAI et Microsoft ont systématiquement copié des millions de ses articles pour entraîner les modèles GPT, que les modèles peuvent reproduire le contenu du Times mot pour mot, et que ChatGPT et Bing Chat sont en concurrence directe avec le Times pour les lecteurs, détournant les revenus publicitaires et d’abonnement. La plainte inclut des pièces montrant ChatGPT reproduisant des passages presque mot pour mot d’articles du Times, y compris des enquêtes ayant coûté des centaines de milliers de dollars à produire.

La défense d’OpenAI repose sur le fair use, le test d’équilibrage à quatre facteurs codifié dans le 17 U.S.C. Section 107. L’entreprise argue que l’entraînement est « transformatif » car il crée un produit fondamentalement différent (un assistant IA polyvalent, pas une archive de presse), que seule une petite portion de chaque œuvre individuelle est reproduite dans les résultats du modèle, et que les outils IA sont complémentaires plutôt que substitutifs de la consommation traditionnelle d’actualités. OpenAI a également argumenté que le Times a eu recours à des incitations contradictoires (adversarial prompting) pour obtenir des reproductions verbatim, un comportement qu’il qualifie de non représentatif de l’utilisation normale. En mars 2025, le juge Sidney Stein a réduit la portée du procès mais a autorisé les réclamations principales en violation du droit d’auteur à se poursuivre. En janvier 2026, le tribunal a confirmé une ordonnance obligeant OpenAI à produire un échantillon de 20 millions de journaux de conversation ChatGPT pour la phase de découverte, une victoire significative pour le Times qui pourrait révéler des schémas sur la substitution des œuvres originales par les résultats de l’IA. Les mémoires en vue du jugement sommaire doivent être conclus d’ici avril 2026, le procès restant envisageable.

Getty Images c. Stability AI, déposé devant la High Court du Royaume-Uni et le tribunal de district américain pour le district du Delaware, présente la dimension des arts visuels. Getty allègue que Stability AI a extrait plus de 12 millions d’images appartenant à Getty, filigranes visibles inclus, pour entraîner Stable Diffusion. Les preuves sont frappantes : les résultats de Stable Diffusion incluent parfois des versions déformées du filigrane Getty, suggérant fortement que les données d’entraînement incluaient des images filigranées. L’affaire britannique a abouti à un résultat historique en novembre 2025, lorsque la High Court a largement rejeté les réclamations de Getty en matière de droit d’auteur, estimant que les poids d’un modèle d’IA ne sont pas une « copie » des images d’entraînement au sens requis par le Copyright, Designs and Patents Act. Getty avait abandonné ses réclamations principales en matière de droit d’auteur et de droit de base de données après avoir accepté qu’il n’existait aucune preuve que l’entraînement avait eu lieu au Royaume-Uni. Le tribunal a cependant constaté des violations limitées de marque lorsque les résultats reproduisaient des filigranes Getty déformés. Getty a obtenu l’autorisation de faire appel. L’affaire américaine séparée au Delaware, où Getty réclame des dommages pouvant atteindre 1,7 milliard de dollars, est toujours en cours.

D’autres affaires forment une constellation croissante. Des auteurs dont Sarah Silverman, Michael Chabon et Paul Tremblay ont poursuivi OpenAI et Meta alléguant que leurs livres ont été utilisés dans l’entraînement sans autorisation, probablement issus de bibliothèques pirates comme Library Genesis et Z-Library. La plupart des réclamations non liées au droit d’auteur dans ces affaires ont été rejetées, mais les allégations principales de violation du droit d’auteur persistent. Des éditeurs de musique ont poursuivi des entreprises de génération musicale par IA. Des artistes visuels ont déposé un recours collectif contre Stability AI, Midjourney et DeviantArt. Au total, plus de 50 procès liés aux données d’entraînement de l’IA étaient pendants devant les tribunaux américains fin 2025, avec des procédures supplémentaires au Royaume-Uni, dans l’UE et au Japon. Aucun tribunal américain n’a encore statué sur le fair use dans le contexte de l’entraînement de l’IA ; les premières décisions substantielles sont attendues mi-fin 2026.


Advertisement

Les Arguments Juridiques : Fair Use, Exploration de Données et le Clivage Mondial

L’analyse du fair use devant les tribunaux américains portera sur les quatre facteurs statutaires, les facteurs « utilisation transformative » et « effet sur le marché » s’avérant probablement décisifs. La décision de la Cour suprême de mai 2023 dans Andy Warhol Foundation c. Goldsmith (598 U.S. 508) a restreint la doctrine de l’utilisation transformative, statuant par 7 voix contre 2 que le simple ajout d’une expression nouvelle est insuffisant si la nouvelle œuvre sert substantiellement le même objectif que l’originale. Les entreprises d’IA doivent argumenter qu’un modèle d’IA est un type de produit fondamentalement différent des œuvres sur lesquelles il a été entraîné, pas simplement une nouvelle façon d’accéder aux mêmes informations.

Le facteur d’effet sur le marché est tout aussi controversé. Les éditeurs argumentent que le contenu généré par l’IA remplace directement la demande pour les œuvres originales : pourquoi s’abonner au New York Times si ChatGPT peut fournir les mêmes informations ? Les entreprises d’IA rétorquent que leurs modèles génèrent de nouveaux types de valeur et que beaucoup d’utilisateurs n’auraient pas accédé au contenu original de toute façon. Les preuves empiriques s’accumulent et orientent fortement vers la substitution. Les données publiées dans le rapport Journalism and Technology Trends and Predictions 2026 du Reuters Institute, basées sur les analyses de Chartbeat, ont révélé que le trafic de recherche Google vers les éditeurs a diminué globalement d’environ un tiers sur l’année se terminant en novembre 2025, les fonctionnalités de recherche pilotées par l’IA jouant un rôle significatif.

Hors des États-Unis, le paysage juridique diverge nettement. La Directive européenne sur le droit d’auteur (2019/790) prévoit une exception pour l’exploration de textes et de données (TDM) à l’article 4, qui autorise l’exploration d’œuvres légalement accessibles à toute fin, sauf si le titulaire des droits a « expressément réservé » ses droits de manière lisible par machine. Ce mécanisme d’opt-out signifie que les éditeurs et artistes européens qui n’ont pas implémenté d’exclusions robots.txt ou de réservations de métadonnées peuvent avoir involontairement renoncé à leur objection. L’AI Act de l’UE, entré en vigueur le 1er août 2024, ajoute une obligation de transparence : les fournisseurs de modèles d’IA à usage général doivent publier des résumés suffisamment détaillés du contenu utilisé pour l’entraînement. Les obligations pour les fournisseurs de GPAI sont applicables depuis le 2 août 2025, et le Bureau IA de la Commission européenne a publié son modèle obligatoire de résumé des données d’entraînement le 24 juillet 2025.

L’approche du Japon est la plus permissive. L’article 30-4 de la loi japonaise sur le droit d’auteur autorise l’utilisation d’œuvres protégées pour l’analyse de données, y compris l’entraînement de l’IA, sans l’autorisation du titulaire des droits, tant que le but n’est pas de « jouir » de l’expression elle-même. Cependant, l’Agence des Affaires Culturelles a publié sa « Checklist & Guidance on AI and Copyright » le 31 juillet 2025, clarifiant que l’exception ne s’applique pas lorsque l’utilisation porte atteinte de manière injuste aux intérêts du titulaire du droit d’auteur.


Implications pour les Modèles Économiques : Du Scraping aux Licences

Indépendamment de la décision finale des tribunaux, l’industrie de l’IA évolue déjà vers un modèle de licences. OpenAI a signé des accords de licence de contenu avec l’Associated Press (juillet 2023), Axel Springer (décembre 2023), Le Monde et Prisa Media (mars 2024), le Financial Times (avril 2024) et News Corp (mai 2024, estimé à plus de 250 millions de dollars sur cinq ans). Google a établi des accords de licence avec Reddit (60 millions de dollars par an, annoncé en février 2024) et plusieurs éditeurs. Ces accords suggèrent que les principales entreprises d’IA se couvrent contre des décisions judiciaires défavorables en constituant des portefeuilles de données d’entraînement sous licence.

La tendance aux licences crée sa propre dynamique de marché. Les grands éditeurs avec des marques reconnues et des archives étendues commandent des prix élevés. Les petits éditeurs, les journalistes indépendants et les artistes individuels manquent du pouvoir de négociation pour obtenir des conditions de licence significatives. Le résultat pourrait être un système à deux vitesses : les grands propriétaires de contenu extraient des revenus de licence des entreprises d’IA, tandis que la grande majorité des créateurs dont le travail a été utilisé dans l’entraînement ne reçoivent rien.

Pour le contexte algérien, les implications du droit d’auteur croisent le cadre de propriété intellectuelle du pays. L’Algérie est signataire de la Convention de Berne et dispose d’une loi nationale sur le droit d’auteur (Ordonnance n° 03-05 du 19 juillet 2003) qui protège les œuvres littéraires et artistiques. Cependant, l’Algérie n’a pas d’équivalent du fair use américain ni de l’exception TDM européenne. Si une entreprise d’IA a entraîné son modèle sur des articles de presse algériens, des articles académiques ou des œuvres créatives — via les jeux de données Common Crawl ou le scraping direct — les titulaires de droits algériens auraient théoriquement des réclamations en violation. L’application pratique de telles réclamations contre des entreprises sans présence ni actifs en Algérie est une tout autre question.

Advertisement

🧭 Radar de Décision (Prisme Algérien)

Dimension Évaluation
Pertinence pour l’Algérie Modérée à élevée — Les créateurs de contenu, éditeurs et institutions académiques algériens sont concernés à la fois comme consommateurs d’outils IA et comme titulaires de droits potentiels dont les œuvres ont pu être utilisées dans l’entraînement
Infrastructure prête ? Non applicable au sens traditionnel — L’infrastructure pertinente est juridique : les mécanismes d’application du droit d’auteur et l’expertise judiciaire en PI numérique sont sous-développés en Algérie
Compétences disponibles ? Limitées — L’Algérie dispose d’avocats en propriété intellectuelle mais peu avec une expertise en questions de droit d’auteur spécifiques à l’IA. Une formation académique et judiciaire est nécessaire
Calendrier d’action 12-24 mois pour les premières décisions américaines clés ; le cadre de l’UE est déjà opérationnel avec les obligations de transparence GPAI en vigueur depuis août 2025 ; l’Algérie devrait surveiller et préparer des réponses politiques nationales
Parties prenantes clés Ministère de la Culture, ONDA (Office National des Droits d’Auteur), éditeurs et médias algériens, institutions académiques, startups IA, entreprises d’IA internationales desservant le marché algérien
Type de décision Suivi politique et préparation

En bref : La question du droit d’auteur dans l’IA verra ses premières décisions substantielles sur le fair use aux États-Unis mi-fin 2026, tandis que la décision Getty c. Stability AI au Royaume-Uni a déjà établi un précédent précoce. Le modèle de licence émergent favorise les grands propriétaires de contenu et crée une nouvelle source de revenus pour les éditeurs disposés à négocier. Les créateurs et institutions algériens devraient commencer à documenter et à faire valoir leurs droits dès maintenant, avant que la structure du marché ne se solidifie sans eux.

Sources et lectures complémentaires

Laisser un commentaire

Advertisement