llms.txt vs robots.txt : comment être lu et cité par l'IA

llms.txt vs robots.txt : comment être lu et cité par l’IA

Pendant des années, nous avons raisonné ainsi : « Si Google ne m’indexe pas, je n’existe pas. » En 2026, la phrase change : « si les IA ne me comprennent pas (et ne me citent pas), je n’existe pas au point où l’utilisateur le décide. » Et c’est là qu’interviennent deux lignes qui, de l’extérieur, semblent similaires… mais en réalité elles font deux tâches différentes :

  • robots.txt = réguler l’accès des robots,
  • llms.txt = essaie d’« expliquer » le site aux IA.

La bonne question n’est donc pas « lequel dois-je utiliser ? », mais : « quel problème est-ce que je résout ? »

1) robots.txt : c’est un portail, pas un manuel

robots.txt a commencé sa vie sous le nom de Robots Exclusion Protocol : un fichier à la racine qui indique aux robots ce qu’ils peuvent et ne peuvent pas analyser. Il est principalement utilisé pour gérer le trafic des robots et, dans certains cas, pour éviter l’exploration des ressources. Mais elle a une limite fondamentale : elle ne peut rien « imposer ». C’est une convention que les robots respectent s’ils sont « polis ». C’est important car dans le monde de l’IA il existe des bots « officiels » et transparents (qui respectent les robots) et des bots « opaques » (qui peuvent l’ignorer).
Donc robots.txt n’est pas la sécurité, c’est la gouvernance.

2) Est-ce que mettre un agent IA dans robots.txt est acceptable ?

Nous arrivons ici à la question directe : « Est-ce que l’insertion d’une IA d’agent utilisateur dans robots.txt en vaut vraiment la peine ? » Oui, cela existe et est concrètement utile pour gérer la manière dont certains systèmes d’IA accèdent au contenu. OpenAI, par exemple, documente explicitement ses robots et comment les gérer via robots.txt (avec des agents utilisateurs dédiés et des objectifs différents). Et voici une distinction clé (dont presque personne ne parle) :

  • certains bots sont utilisés pour la formation/collecte,
  • d’autres robots sont destinés à la récupération/recherche (ceux qui vous apportent des citations et du trafic).

Si les « bots IA » sont bloqués sans discernement, on risque de faire quelque chose de paradoxal : on protège le contenu de la formation… mais on se rend invisible dans les systèmes qui citent et relient… et en fait OpenAI dit clairement : si vous voulez apparaître dans ChatGPT Search avec des citations et des liens, vous n’êtes pas obligé de bloquer le robot de recherche (OAI-SearchBot).
Donc? Oui : il est logique de mettre les agents IA dans le fichier robots.txt, mais seulement si cela est fait de manière sélective.

3) llms.txt : ce n’est pas un « portail ». Il s’agit d’un « indice raisonné » pour le LLM.

llms.txt est une proposition récente (pas encore un standard Web « officiel » comme les robots). L’idée est simple : créer un fichier en racine (/llms.txt) qui contient un guide pour les modèles de langage : qu’est-ce que le site, quelles pages sont « canoniques », où se trouvent les meilleures ressources dans un format lisible, quels répertoires utiliser, etc. Le fait est que llms.txt ne bloque rien. Il n’est pas dit « n’entrez pas ». Il dit : « si vous avez besoin de comprendre ce site, commencez ici ». C’est le passage du SEO à… la documentation pour le renseignement.

4) Alors lequel utiliser ? Les deux, mais avec des objectifs différents.

robots.txt (étant entendu qu’il est « volontaire », non coercitif), si l’on veut :

  • gouverner OMS peut ramper,
  • faire la distinction entre les robots d’entraînement et les robots de récupération,
  • éviter de ramper inutilement sur des zones inutiles,
  • rendre explicite la politique envers les robots d’exploration.

robots.txt, si nous voulons :

  • indiquer les meilleures ressources à l’IA,
  • faire ressortir les pages « fondamentales » (guides, glossaire, pilier),
  • réduire l’ambiguïté et la dispersion du contenu,
  • augmenter la probabilité qu’un agent choisisse des pages lorsqu’il répond.

En bref, robots.txt est la politique, llms.txt est l’intégration.

5) La troisième façon que beaucoup oublient : les signaux qui comptent vraiment pour la citation

Si notre objectif doit être cité, les robots et les films sont utiles, mais ils ne suffisent pas à eux seuls. En pratique, les IA (et les systèmes comme AI Overview) ont tendance à préférer les sources :

  • clair, structuré, avec paternité,
  • avec des données vérifiables,
  • avec un balisage et un contexte cohérents.

Ici, ils incluent :

  • Schema.org (Personne/Organisation/BlogPosting + about/keywords/articleBody),
  • FAQ bien écrite,
  • pages d’auteur « stables » (avec @id persistant),
  • cohérence cross-canal (l’« entité de marque » que vous enseignez).

Les robots/llms sont du « routage ». La citation se gagne avec contenu + structure + identité. Une stratégie concrète, une preuve pour 2026 ?

  1. robots.txt
    • ne bloquez pas les robots de « recherche/récupération » si nous voulons des citations et des liens,
    • évaluer les blocs sélectifs uniquement pour la formation, s’il s’agit d’une politique.
  2. llms.txt
    • mettre 10/20 liens « canoniques » (pilier, glossaire, pages auteurs, guides),
    • utiliser un texte simple et axé sur la compréhension.
  3. Schema.org + paternité

les robots vous défendent. llms vous présente. Le devis vous récompense.

Dans le web classique, celui qui se positionne gagne, tandis que dans le web conversationnel, celui qui devient source gagne. robots.txt est utilisé pour dire « ceci est ma maison » et llms.txt est utilisé pour dire « voici par où commencer ». Le reste dépend de la qualité du contenu et de l’identité sémantique. Et ici, honnêtement, l’avenir a déjà commencé.