Wikipédia ouvre ses données à l'IA et conclut des accords avec Amazon, Meta et Perplexity

Wikipédia ouvre ses données à l’IA et conclut des accords avec Amazon, Meta et Perplexity

L’encyclopédie en ligne la plus consultée au monde entre officiellement dans la supply chain de l’intelligence artificielle. Wikimedia a annoncé de nouveaux accords avec certaines des plus grandes entreprises technologiques pour permettre un accès structuré aux données Wikipédia pour le développement de modèles d’IA.

Wikipédia et IA entre données, licences et nouveaux accords

L’organisation qui gère Wikipédia a confirmé des partenariats avec Amazon, Meta, Microsoft, Mistral AI et Perplexity, leur permettant d’utiliser les API officielles pour former et améliorer les grands modèles linguistiques.

Les accords ont été formalisés l’année dernière via Wikimedia Enterprise, mais n’ont été rendus publics que maintenant, coïncidant avec le 25e anniversaire de Wikipédia.

Accès aux données au lieu du web scraping

L’objectif des partenariats est de surmonter le web scraping.

Les entreprises paieront pour accéder directement aux données structurées de Wikipédia, réduisant ainsi la charge sur les serveurs et introduisant un modèle de licence transparent.

Selon Wikimedia, cette approche permet l’intégration des connaissances gouvernées par l’homme au sein des plateformes d’IA, maintenant ainsi un contrôle plus clair sur l’utilisation du contenu.

Wikimedia Enterprise est le canal par lequel l’organisation monétise l’accès professionnel à son contenu, offrant des API fiables et des données à jour pour un usage commercial.

Cette infrastructure est déjà utilisée par plusieurs acteurs technologiques et devient désormais centrale dans la stratégie d’IA.

Google parmi les premiers partenaires historiques

Parmi les partenaires déjà actifs, il y a également Google, qui a été en 2022 l’une des premières entreprises à rejoindre Wikimedia Enterprise.

Au fil du temps, Ecosia, Pleias et ProRata ont également été ajoutés, créant un écosystème de plus en plus large autour du contenu Wikipédia comme base d’informations pour les produits numériques avancés.

Wikipédia comme infrastructure de connaissances pour l’IA

Selon la Fondation Wikimedia, le contenu de l’encyclopédie alimente désormais les chatbots génératifs, les moteurs de recherche, les assistants vocaux et de nombreux autres systèmes basés sur l’IA.

La dépendance de l’IA à l’égard des connaissances produites par les humains est un thème de plus en plus central dans le débat technologique.

La valeur stratégique de la connaissance humaine

Un porte-parole de Wikimédia a souligné que l’avenir de l’IA dépend de la capacité à soutenir des projets comme Wikipédia, qui produisent du contenu fiable, vérifié et collaboratif.

En ce sens, les accords représentent également une reconnaissance économique du travail éditorial et bénévole qui alimente l’encyclopédie.

Droits sur les données et le contenu généré par l’utilisateur

L’expansion de l’IA a mis en lumière les droits sur les données, les droits d’auteur et l’utilisation du contenu généré par les utilisateurs, impliquant des plateformes telles que Wikipédia et Reddit.

Le sujet est au centre de procès, de débats réglementaires et de nouvelles politiques de licences.

Un précédent pour le secteur technologique

L’approche de Wikimedia pourrait créer un précédent, poussant d’autres plateformes à facturer l’utilisation de leurs données dans les modèles d’IA, plutôt que de subir une extraction non réglementée.

Le défi idéologique de Grokipedia et Elon Musk

Pendant ce temps, le fondateur de xAI, Elon Musk, a lancé Grokipedia, un projet alternatif à Wikipédia basé exclusivement sur le contenu généré par l’IA.

Le service était présenté comme moins orienté vers la culture dite woke et plus « neutre », selon la vision de Musk.

Encyclopédie collaborative contre les contenus synthétiques

Contrairement à Wikipédia, Grokipedia ne repose pas sur des contributions humaines vérifiées, mais sur des textes générés par le modèle Grok, soulevant des questions sur la fiabilité, le biais et la qualité de l’information.

La comparaison entre modèles collaboratifs et systèmes entièrement automatisés constitue l’un des enjeux centraux de l’avenir de la connaissance en ligne.


Ce texte a été créé avec le soutien de l’intelligence artificielle.