llms.txt : 97 % des fichiers ignorés par les bots IA

Le fichier llms.txt fait beaucoup parler depuis plusieurs mois. L’idée de base : créer un fichier lisible par les IA pour les guider dans leur compréhension de ton site. En pratique, les données Ahrefs publiées le 16 juin 2026 racontent une autre histoire.

Ahrefs a analysé les logs de 137 000 domaines et le résultat est net : 97 % des fichiers llms.txt n’ont reçu aucune requête. Ni bot, ni humain.

Ce que les chiffres disent vraiment

Environ 28 % des 137 000 domaines de l’échantillon publient un fichier llms.txt. Ahrefs précise d’emblée que sa base clients est plus technique que la moyenne : l’adoption réelle sur le web global est probablement encore plus faible.

Sur environ 38 000 domaines disposant d’un fichier valide, seuls 1 100 ont reçu du trafic. Soit un taux de “fichier actif” de moins de 3 %.

Parmi les requêtes effectivement enregistrées, la distribution est instructive :

Outils d’audit SEO : 21 % des requêtes
Bots non identifiés : 14 %
Crawlers web classiques (dont Googlebot) : 13 %
Outils de tech-profiling (type BuiltWith) : 11 %
Bots IA, toutes catégories confondues : 19 %

Ce 19 % d’IA mérite d’être décomposé. Les agents de coding (Claude-Code en tête) génèrent 10 % des requêtes, les crawlers d’entraînement 5 %, les assistants conversationnels 2 %. Les bots de retrieval directement liés à ChatGPT et Perplexity ? Ils représentent 1 % du total.

Pour mettre ça en perspective : Slackbot a fetchté llms.txt plus souvent que PerplexityBot.

Un écosystème qui s’étudie lui-même

Le chiffre le plus révélateur de cette analyse est peut-être celui-ci : 12 % des requêtes proviennent d’outils qui auditent, scannent ou cataloguent le format llms.txt plutôt que de l’utiliser réellement.

Les outils de scoring GEO/AEO représentent 5 % des requêtes. Les scanners et validateurs dédiés au format llms.txt en génèrent 3 %. C’est plus que les bots de retrieval IA et les assistants réunis.

Un segment entier de l’industrie s’est développé autour de la notation et du catalogage d’un format de fichier avant même qu’une audience significative n’existe pour le consommer. Je te laisse tirer tes propres conclusions sur la valeur de certains “outils de préparation GEO” vendus en ce moment.

Si tu t’intéresses à la façon dont les LLM choisissent vraiment leurs sources, l’article sur le query fan-out et les sources IA est plus utile que n’importe quel fichier llms.txt.

Ce que ça change pour ta stratégie GEO

Les erreurs 404 sur /llms.txt n’attirent aucun trafic IA. Les humains qui frappent ces URLs dans leur navigateur sont, selon Ahrefs, des personnes qui vérifient si leurs concurrents ont adopté le format. Pas des bots qui cherchent à citer ton contenu.

John Mueller a été clair sur ce point depuis plus d’un an. Interrogé par Lily Ray sur le décalage entre le refus de Google Search et l’audit llms.txt intégré dans Chrome Lighthouse, il a déclaré que llms.txt « n’est pas fait pour la recherche » et l’a qualifié de « béquille temporaire, peut-être pour économiser des tokens » dans les outils de coding IA.

Les données confirment ce positionnement : l’audience réelle du fichier, c’est les agents de coding et les crawlers d’entraînement, pas les bots de retrieval qui génèrent des citations dans les résultats IA.

C’est cohérent avec ce que j’ai déjà analysé sur la différence entre trafic IA et trafic organique classique : les mécanismes de sélection des LLM ne ressemblent pas à ceux de Google Search.

Un risque à ne pas ignorer : les injections de prompts

Ahrefs a identifié dans son dataset un crawler dont l’objectif déclaré était d’étudier llms.txt comme vecteur d’injection de prompts. La logique : les agents IA font confiance au contenu qu’ils ingèrent. Un fichier llms.txt mal contrôlé peut devenir un point d’entrée pour manipuler le comportement d’un agent.

Si tu génères ton fichier llms.txt automatiquement via un plugin CMS ou un outil tiers, prends le temps de vérifier son contenu. C’est un risque concret, pas une hypothèse théorique.

Mon avis

Je ne pense pas que llms.txt soit inutile à long terme. Mais en juin 2026, les données montrent clairement que ce n’est pas une priorité pour qui cherche à apparaître dans les réponses IA. L’énergie est mieux investie dans la qualité du contenu, l’EEAT, et la compréhension de comment les LLM sélectionnent leurs sources, comme je l’explique dans mon analyse sur le SEO et le GEO face aux LLM.

Créer un fichier llms.txt ne coûte pas grand-chose si tu as le bon setup. Mais le traiter comme un levier de visibilité IA en 2026, c’est s’avancer trop vite sur des données qui ne valident pas encore cette thèse. La situation peut changer, et je suivrai l’évolution des chiffres de requêtes dans les prochains mois.

Pour la base, concentre-toi sur ce qui convertit réellement dans une stratégie de contenu plutôt que sur des signaux dont l’impact reste à prouver.

FAQ

Est-ce que llms.txt aide à apparaître dans ChatGPT ou Perplexity ?

Selon les données Ahrefs de mai 2026, les bots de retrieval liés à ChatGPT et Perplexity représentent 1 % des requêtes sur les fichiers llms.txt actifs. Une étude antérieure de SE Ranking sur 300 000 domaines n’a trouvé aucune corrélation entre la présence d’un llms.txt et la fréquence de citation IA. À ce stade, non.

Qui fetche vraiment les fichiers llms.txt ?

Principalement les outils d’audit SEO (21 %), les bots non identifiés (14 %), Googlebot et crawlers classiques (13 %), les agents de coding IA comme Claude-Code (10 %), et les outils de tech-profiling. Les assistants IA conversationnels représentent 2 % du total.

Google prend-il en compte llms.txt pour le référencement naturel ?

Non. John Mueller a confirmé que llms.txt n’est pas conçu pour Google Search. Il le qualifie de béquille temporaire utile aux outils de coding IA pour économiser des tokens, pas d’un signal de référencement.

Dois-je quand même créer un fichier llms.txt sur mon site ?

Si ton CMS le génère automatiquement sans effort, pourquoi pas. Mais vérifie son contenu pour éviter tout risque d’injection de prompts. Si ça demande du temps de développement, l’investissement ne se justifie pas sur les données actuelles.

Qu’est-ce que le risque d’injection de prompts via llms.txt ?

Les agents IA font confiance au contenu ingéré via llms.txt. Un crawler identifié par Ahrefs étudie ce vecteur comme moyen de manipuler le comportement des agents. Si tu génères ce fichier automatiquement via un plugin, audite son contenu pour éviter toute dérive involontaire ou malveillante.