Wikipédia exige un paiement des sociétés d’IA pour l’utilisation des données

20

La Fondation Wikimedia, l’organisation à but non lucratif derrière Wikipédia, recherche désormais activement une compensation auprès des sociétés d’intelligence artificielle (IA) qui utilisent ses données pour entraîner leurs modèles. Cette décision représente un changement significatif dans la manière dont les référentiels de connaissances en ligne interagiront avec le secteur de l’IA en pleine expansion.

Le problème central : récupération de données et durabilité

Pendant des années, les développeurs d’IA se sont appuyés sur des ensembles de données accessibles au public – y compris le vaste contenu édité en collaboration par Wikipédia – pour former de grands modèles linguistiques (LLM). Cependant, la Fondation Wikimedia estime que cette pratique n’est pas durable. La maintenance de Wikipédia, le septième site Web le plus visité au monde, a coûté 179 millions de dollars au cours de l’exercice 2023-2024. La fondation fonctionne principalement grâce aux dons et ne dépend pas des revenus publicitaires, ce qui la rend particulièrement vulnérable aux changements de comportement des utilisateurs.

Le problème n’est pas seulement financier ; c’est une question d’accès. À mesure que les chatbots IA comme ChatGPT deviennent plus répandus, les utilisateurs peuvent contourner complètement Wikipédia, ignorant les invites de don qui maintiennent le site à flot. Cela crée un conflit direct entre les champions du modèle d’accès gratuit de Wikipédia et la nature axée sur le profit du développement de l’IA.

La solution proposée : accès aux API commerciales

Wikimedia propose une solution : les entreprises d’IA devraient payer pour utiliser son API d’entreprise. Cela permettrait un accès évolutif au contenu de Wikipédia sans surcharger les serveurs de l’organisation à but non lucratif. L’API fournirait également une source de revenus, soutenant la mission de diffusion gratuite des connaissances de la fondation.

La proposition n’est pas nouvelle. Google a conclu un accord commercial similaire avec Wikimedia en 2022, démontrant la viabilité de l’accès payant aux connaissances structurées. Cependant, la plupart des principaux acteurs de l’IA – notamment OpenAI, Meta, Anthropic, DeepSeek et xAI – n’ont pas encore répondu à la demande de Wikimedia.

Une tendance plus large : les créateurs de contenu repoussent

La position de Wikimédia s’aligne sur un mouvement croissant parmi les créateurs de contenu en ligne exigeant une compensation pour l’utilisation des données de l’IA. Des éditeurs comme le New York Times et News Corp poursuivent activement les sociétés d’IA pour violation du droit d’auteur, tandis que d’autres, comme Associated Press et Reuters, ont négocié des accords de licence. Cela reflète une tension fondamentale entre la philosophie open source des premiers Internet et le paysage de plus en plus commercialisé de l’IA.

La décision de la Fondation Wikimedia souligne un tournant critique : la gratuité des données n’est plus garantie. À mesure que les modèles d’IA deviennent plus sophistiqués, la valeur des informations de haute qualité organisées par l’homme ne fera qu’augmenter. Cela obligera inévitablement les entreprises d’IA à prendre en compte les coûts – à la fois financiers et éthiques – liés au recours à des données librement récupérées.

En conclusion, la demande de paiement de Wikipédia aux sociétés d’IA ne concerne pas seulement sa propre survie. C’est le signe avant-coureur d’une prise de conscience plus large dans le secteur de l’IA, où l’accès aux données aura de plus en plus un prix.