ChatGPT cite Grokipedia comme source sur divers sujets selon The Guardian
Dans le débat de plus en plus houleux sur la fiabilité des systèmes d’intelligence artificielle, un nouvel élément attire l’attention des chercheurs et des observateurs. ChatGPT cite Grokipedia, l’encyclopédie de l’IA liée à Elon Musk, comme source d’informations sur une gamme de sujets complexes et politiquement sensibles.
ChatGPT cite Grokipedia dans les tests du Guardian
Selon une enquête menée par The Guardian, le dernier modèle GPT-5.2 faisait référence à Grokipedia dans neuf réponses différentes, sur plus d’une douzaine de requêtes. Les questions allaient des sujets géopolitiques iraniens aux profils historiques liés au négationnisme.
ChatGPT a notamment cité Grokipedia en réponse à des questions sur les conglomérats iraniens et les structures paramilitaires telles que le Basij et la Fondation Mostazafan.
Différentes sources selon la complexité des questions
L’une des principales conclusions des tests est que ChatGPT n’a pas fait référence à Grokipedia lorsqu’il a été interrogé sur des sujets largement débattus et déjà sujets à des informations erronées, comme l’assaut du 6 janvier aux États-Unis ou la pandémie du VIH/Sida. Les citations ont plutôt émergé sur des sujets plus spécialisés ou moins couverts.
Qu’est-ce que Grokipedia et pourquoi est-il controversé
Grokipedia est une encyclopédie en ligne générée par l’IA, lancée en octobre dernier avec l’ambition de concurrencer Wikipédia. Contrairement à la plateforme collaborative traditionnelle, Grokipedia ne permet pas l’édition humaine directe : le contenu est écrit par un modèle d’IA et édité uniquement sur demande.
La plateforme appartient à xAI, une société fondée par Elon Musk, et a été critiquée à plusieurs reprises pour avoir diffusé des discours de droite sur des questions telles que les droits LGBTQ+ et l’insurrection du 6 janvier.
Un modèle éditorial radicalement différent de Wikipédia
L’absence d’examen humain et le système de mise à jour fermé rendent Grokipedia particulièrement vulnérable aux erreurs, aux biais et aux distorsions. C’est précisément cet aspect qui inquiète ceux qui étudient la propagation de la désinformation dans les systèmes d’IA générative.
ChatGPT cite Grokipedia sur l’Iran et le déni
L’un des exemples les plus pertinents concerne les informations sur MTN-Irancell. Citant Grokipedia, ChatGPT a fait état d’affirmations plus fortes que celles de Wikipédia, affirmant des liens directs avec le bureau du guide suprême iranien.
Le modèle cite également Grokipedia répétant des informations que le Guardian a déjà réfutées, notamment sur le travail de l’historien Sir Richard Evans en tant que témoin expert dans le procès en diffamation de David Irving.
Quand la citation devient amplification
Le risque n’est pas seulement l’erreur elle-même, mais son amplification. Lorsqu’un LLM cite une source, cette source gagne automatiquement en crédibilité aux yeux de l’utilisateur, même si le contenu est inexact ou trompeur.
Pas seulement ChatGPT : le problème est systémique
GPT-5.2 n’est pas le seul modèle référencé sur Grokipedia. Selon des témoignages recueillis par le Guardian, Claude d’Anthropic a également cité l’encyclopédie de l’IA sur des sujets allant de la production pétrolière aux bières écossaises.
Le phénomène suggère que la présence de Grokipedia dans les ensembles de données publics commence à se propager à travers de grands modèles linguistiques.
La réponse d’OpenAI
Un porte-parole d’OpenAI a déclaré que le système de recherche Web du modèle s’appuie sur un large éventail de sources accessibles au public, appliquant des filtres de sécurité pour réduire le risque de préjudice grave et signalant de manière transparente les sources utilisées.
Le toilettage LLM et le risque de désinformation
Pour les chercheurs en désinformation, le cas Grokipedia remet sur le devant de la scène le sujet du LLM grooming, c’est-à-dire la stratégie consistant à inonder le web de contenus faux ou déformés pour influencer indirectement la formation des modèles d’IA.
Déjà en 2025, des experts en sécurité avaient fait état d’opérations à grande échelle, également attribuées aux réseaux de propagande russes, dans le but de « ensemencer » les ensembles de données utilisés par les LLM.
Le précédent des Gémeaux et du Xinjiang
Le problème n’est pas nouveau. En juin dernier, le Congrès américain avait exprimé ses inquiétudes concernant le géant de Google Gemini, accusé de répéter la position du gouvernement chinois sur les violations des droits de l’homme au Xinjiang et la gestion du Covid-19.
LIRE AUSSI : OpenAI renforce la sécurité des enfants sur ChatGPT avec un nouveau système de prédiction de l’âge
Pourquoi réparer l’IA est si difficile
Selon Nina Jankowicz, chercheuse spécialisée dans la désinformation et le toilettage LLM, une fois que la désinformation entre dans un chatbot, la supprimer est extrêmement complexe.
Jankowicz dit avoir découvert une fausse citation qui lui est attribuée dans un article médiatique majeur. Malgré la correction de l’article, pendant des mois, les modèles d’IA ont continué à répéter cette phrase comme étant authentique.
Confiance automatique dans les sources citées
Le plus grand risque, explique Jankowicz, est l’effet domino. Si ChatGPT cite Grokipedia, l’utilisateur a tendance à penser que la source a été vérifiée. Cela peut pousser les gens à le consulter directement, renforçant ainsi la circulation des contenus problématiques.
LIRE AUSSI : L’IA de Google peut désormais accéder à Gmail et Google Photos pour fournir des résultats de recherche améliorés
La réaction de xAI et le problème non résolu
Lorsqu’on lui a demandé un commentaire, un porte-parole de xAI a répondu par une déclaration directe : « Les mensonges des médias hérités ». Une réponse qui, pour de nombreux observateurs, ne répond pas au nœud central du problème.
Le cas Grokipedia montre comment la crédibilité de l’information à l’ère de l’IA n’est plus seulement une question éditoriale, mais une question structurelle qui concerne les ensembles de données, les sources, les citations et la confiance du public.
Et c’est précisément pour cette raison qu’aujourd’hui plus que jamais, la question n’est pas seulement de savoir ce que savent les modèles d’IA, mais de qui ils l’ont appris.
