Lucas Kliminski

ClaudeBot, Claude-User, Claude-SearchBot : comprendre les 3 crawlers d'Anthropic et leur impact SEO

Anthropic a mis à jour sa documentation le 20 février 2026 pour détailler trois robots distincts : ClaudeBot (entraînement des modèles), Claude-User (navigation initiée par les utilisateurs) et Claude-SearchBot (indexation pour les résultats de recherche Claude).

Chaque crawler peut être bloqué indépendamment via le fichier robots.txt. Bloquer ClaudeBot empêche l’utilisation de vos contenus pour l’entraînement. Bloquer Claude-SearchBot réduit votre visibilité dans les résultats de recherche de Claude. Les trois respectent la directive Crawl-delay.

Cette structure à trois niveaux reproduit le modèle d’OpenAI (GPTBot, ChatGPT-User, OAI-SearchBot). La différence notable : Anthropic affirme que Claude-User respecte le robots.txt, contrairement à ChatGPT-User chez OpenAI.

• Pour les sites qui avaient bloqué « tous les crawlers IA » en 2024, cette mise à jour impose un audit du fichier robots.txt : bloquer l’entraînement tout en autorisant la recherche est désormais possible et stratégiquement recommandé.

Pourquoi Anthropic distingue désormais trois crawlers

Jusqu’à récemment, la documentation d’Anthropic ne mentionnait qu’un seul robot : ClaudeBot, avec une description générale de collecte de données pour le développement des modèles.

Avant ClaudeBot, Anthropic utilisait les user agents « Claude-Web » et « Anthropic-AI », tous deux désormais obsolètes. La mise à jour du 20 février 2026, repérée par Pedro Dias sur la documentation officielle d’Anthropic, change la donne. Anthropic sépare clairement trois fonctions distinctes, chacune avec son propre user agent dans le fichier robots.txt.

L’objectif : permettre aux éditeurs de sites de choisir précisément ce qu’ils autorisent. Ce découpage suit une tendance initiée par OpenAI fin 2024, quand il a séparé GPTBot de OAI-SearchBot et ChatGPT-User.

L’enjeu est le même : distinguer l’entraînement des modèles de la recherche en temps réel, car les éditeurs n’ont pas les mêmes intérêts pour chaque usage.

Une formation SEO 100% gratuite

Tout comprendre sur le référencement naturel, lors d’une visioconférence ou en physique. Pour les entreprises désirantes d’apprendre à (mieux) utiliser le SEO.

Les trois crawlers d’Anthropic : rôle, user agent et conséquences du blocage

Voici le détail de chaque robot, avec les conséquences exactes de son blocage selon la documentation officielle d’Anthropic :

Crawler Fonction Si vous le bloquez
ClaudeBot Collecte du contenu web public pour l’entraînement et la sécurité des modèles IA d’Anthropic Vos contenus sont exclus des futurs datasets d’entraînement de Claude
Claude-User Accède aux pages web quand un utilisateur pose une question à Claude (navigation en temps réel) Claude ne peut plus consulter votre site pour répondre aux questions des utilisateurs — visibilité réduite
Claude-SearchBot Explore le web pour indexer le contenu et améliorer la pertinence des résultats de recherche Claude Votre site n’est plus indexé pour la recherche Claude — visibilité et précision réduites dans les réponses
Les trois robots respectent le fichier robots.txt et la directive Crawl-delay, qui permet de contrôler la fréquence d’exploration. C’est un point important : vous pouvez limiter la charge serveur sans bloquer complètement l’accès.

Comment configurer votre robots.txt pour chaque crawler ?

La configuration recommandée dépend de votre stratégie. Voici les scénarios les plus courants :

Scénario 1 — Bloquer l’entraînement, autoriser la recherche (recommandé) :
User-agent: ClaudeBot Disallow: / User-agent: Claude-User Allow: / User-agent: Claude-SearchBot Allow: /

Scénario 2 — Tout autoriser (maximiser la visibilité IA) :
User-agent: ClaudeBot Allow: / User-agent: Claude-User Allow: / User-agent: Claude-SearchBot Allow: /

Scénario 3 — Tout bloquer : User-agent: ClaudeBot Disallow: / User-agent: Claude-User Disallow: / User-agent: Claude-SearchBot Disallow: /

Le scénario 3 vous rend invisible dans les résultats de recherche Claude. C’est le choix de nombreux éditeurs qui ont copié-collé des listes de blocage en 2024 sans distinguer entraînement et recherche.

Votre fichier robots.txt est-il correctement configuré pour les crawlers IA ?

La multiplication des crawlers IA (Anthropic, OpenAI, Perplexity, Google) rend la gestion du robots.txt de plus en plus technique. Si vous n’êtes pas certain que votre configuration actuelle reflète votre stratégie de visibilité, je peux auditer votre fichier et vous recommander les ajustements nécessaires.

Comparatif : Anthropic vs OpenAI vs Perplexity

Le modèle à trois niveaux d’Anthropic n’est pas isolé. OpenAI et Perplexity ont adopté des structures similaires, avec des différences notables sur le respect du robots.txt.

Fonction Anthropic OpenAI Perplexity
Entraînement ClaudeBot GPTBot PerplexityBot
Recherche / indexation Claude-SearchBot OAI-SearchBot PerplexityBot (même bot)
Navigation utilisateur Claude-User ChatGPT-User Perplexity-User
Respecte robots.txt (user bot) ✅ Oui ⚠️ Pas garanti ❌ Non
Directive Crawl-delay ✅ Oui ✅ Oui Non documenté
La différence clé : Anthropic affirme que Claude-User respecte le robots.txt. OpenAI prévient explicitement que ChatGPT-User « peut ne pas être soumis au robots.txt de la même manière que ses crawlers automatisés ». Perplexity-User ne respecte généralement pas le robots.txt non plus. C’est un avantage pour les éditeurs soucieux de garder le contrôle.

Le parallèle avec Google-Extended

Ce découpage rappelle ce que Google a fait avec Google-Extended. Ce user agent permet aux sites de refuser l’entraînement de Gemini tout en restant indexés dans les résultats Google Search. Le principe est identique : séparer l’entraînement de la diffusion. La différence : Google avait un monopole sur la recherche classique, donc bloquer Google-Extended n’avait aucun coût de visibilité.

Avec les crawlers IA, la situation est plus nuancée. Bloquer Claude-SearchBot, c’est perdre de la visibilité dans un canal de recherche émergent dont le trafic croît rapidement. Selon les données de Hostinger analysées par Search Engine Journal, la couverture du crawler de recherche d’OpenAI est passée de 4,7% à plus de 55% des sites échantillonnés, tandis que celle du crawler d’entraînement a chuté de 84% à 12%.

Les éditeurs autorisent la recherche et bloquent l’entraînement — exactement ce que ces structures à trois niveaux encouragent.

Pourquoi bloquer les crawlers IA en masse est une erreur stratégique

En 2024, de nombreux sites ont ajouté des blocs massifs dans leur robots.txt pour interdire l’accès à tous les crawlers IA. Une étude de BuzzStream rapportée par Search Engine Journal montre que 79% des grands sites d’actualité bloquent au moins un bot d’entraînement IA. Mais 71% bloquent aussi au moins un bot de recherche ou de récupération, se coupant potentiellement des citations dans les résultats IA. C’est une erreur stratégique. Les moteurs IA deviennent progressivement un canal de trafic significatif.

Bloquer les crawlers de recherche, c’est se rendre invisible dans les réponses de Claude, ChatGPT et Perplexity — exactement comme ignorer Googlebot vous rendrait invisible dans Google.

La bonne approche pour une PME :

Bloquer l’entraînement (ClaudeBot, GPTBot) si vous ne souhaitez pas que vos contenus alimentent les modèles.

Autoriser la recherche (Claude-SearchBot, OAI-SearchBot) pour rester visible dans les réponses IA.

Autoriser les user bots (Claude-User, ChatGPT-User) pour que vos pages soient consultables en temps réel. C’est l’approche que je recommande également dans ma checklist SEO refonte : auditer le robots.txt fait partie des vérifications techniques prioritaires.

Impact sur la visibilité IA : ce que ça change pour le GEO

Cette mise à jour d’Anthropic a des implications directes pour votre stratégie GEO (Generative Engine Optimization). Si Claude-SearchBot ne peut pas indexer votre site, vos contenus ne remonteront pas dans les résultats de recherche Claude, peu importe leur qualité.

C’est la même logique que pour Google : sans crawl, pas d’indexation ; sans indexation, pas de visibilité. La différence, c’est que le budget de crawl des moteurs IA est encore mal documenté. On ne sait pas encore à quelle fréquence Claude-SearchBot repasse sur vos pages, ni comment il priorise les URL.

Ce que vous pouvez faire dès maintenant :

• Vérifiez que votre robots.txt n’inclut pas de Disallow global qui bloquerait les crawlers de recherche IA.

• Ajoutez des directives spécifiques pour chaque bot (voir la section configuration plus haut).

• Structurez vos contenus avec des données structurées pour faciliter l’extraction par les LLMs.

• Consultez la documentation officielle d’Anthropic pour rester à jour sur les évolutions.

L’évolution des crawlers IA : ce qui se dessine pour 2026

La séparation entraînement / recherche / navigation est désormais le standard chez les trois principaux fournisseurs d’IA. Cette convergence indique que les crawlers IA s’alignent progressivement sur le modèle de Googlebot,  un robot clairement identifié, avec des règles documentées et un impact direct sur la visibilité. Plusieurs tendances se dessinent :

Le robots.txt devient stratégique pour l’IA.
Il ne s’agit plus seulement de gérer Googlebot et Bingbot. Chaque fournisseur IA a ses propres bots, et les conséquences de leur blocage sont différentes.

Les crawlers de recherche IA vont gagner en volume.
Les données montrent une croissance rapide de la couverture des crawlers de recherche, à mesure que ChatGPT Search, Claude Search et Perplexity gagnent des utilisateurs.

Le trafic référé par les IA va augmenter.
Pour l’instant, l’écart entre le volume de crawl et le trafic effectivement renvoyé reste large. Mais la tendance est à la hausse et les sites visibles dans les réponses IA en bénéficieront en premier. Pour approfondir l’impact des AI Overviews sur le SEO, consultez mon analyse de l’étude Ahrefs.

Checklist technique : auditer votre robots.txt pour les crawlers IA

Voici les vérifications à effectuer immédiatement sur votre fichier robots.txt :

Listez tous les user agents IA présents dans votre robots.txt actuel. Cherchez : ClaudeBot, Claude-User, Claude-SearchBot, GPTBot, OAI-SearchBot, ChatGPT-User, PerplexityBot, Perplexity-User, Google-Extended.

Identifiez les blocages involontaires.
Un « Disallow: / » générique appliqué à tous les user agents bloque aussi les bots de recherche IA. Certains éditeurs utilisent un wildcard (*) qui inclut sans le savoir les bots de recherche.

Séparez les directives par fonction.
Créez des entrées distinctes pour les bots d’entraînement (à bloquer si souhaité) et les bots de recherche (à autoriser si vous voulez rester visible).

Testez avec la Search Console ou un crawler.
Utilisez l’outil de test du robots.txt de Google pour vérifier que vos directives fonctionnent comme prévu. Pensez aussi au sitemap XML : il aide les crawlers IA à découvrir vos pages prioritaires.

Documentez votre choix. Notez pourquoi vous bloquez ou autorisez chaque bot. Quand les règles changent (et elles changent souvent dans l’IA), vous saurez quoi ajuster.

Pour aller plus loin sur la gestion des crawlers

Cette mise à jour d’Anthropic s’inscrit dans un mouvement plus large de structuration de la relation entre sites web et moteurs IA. Pour approfondir :

• Comprenez le fonctionnement du fichier robots.txt en détail.

• Maîtrisez les enjeux du budget de crawl et ses implications pour votre site.
• Découvrez comment apparaître dans les résultats ChatGPT, la logique est similaire pour Claude Search.

• Consultez le rapport de performance IA de Bing Webmaster Tools pour comprendre comment Microsoft gère ses propres crawlers IA.

• Explorez tous mes articles sur le sujet dans la section blog SEO.

Dernière mise à jour sur le sujet

La documentation d’Anthropic évolue régulièrement. Je recommande de consulter directement la page officielle sur privacy.claude.com pour vérifier les éventuelles modifications. Pour les prochaines mises à jour des crawlers IA et leur impact SEO, retrouvez mes analyses dans la section blog SEO.

FAQ — Crawlers Claude d’Anthropic

Bloquer ClaudeBot empêche-t-il aussi Claude-SearchBot et Claude-User ?

Non. Chaque crawler est indépendant. Bloquer ClaudeBot (entraînement) n’affecte ni Claude-SearchBot (indexation recherche) ni Claude-User (navigation temps réel). C’est exactement le même fonctionnement que chez OpenAI où bloquer GPTBot ne bloque pas OAI-SearchBot. Vous devez configurer une directive robots.txt distincte pour chaque user agent.

C’est ce qu’Anthropic affirme dans sa documentation mise à jour. C’est une différence notable avec OpenAI, qui prévient que ChatGPT-User peut ne pas respecter le robots.txt de la même manière que ses crawlers automatisés. Perplexity-User ne le respecte généralement pas non plus. Si le contrôle du robots.txt est important pour vous, Anthropic est actuellement le plus transparent sur ce point.

Oui. En 2026, un fichier robots.txt bien configuré doit inclure des directives pour : Googlebot, Bingbot, Google-Extended (entraînement Gemini), GPTBot et OAI-SearchBot (OpenAI), ClaudeBot et Claude-SearchBot (Anthropic), et PerplexityBot. Chaque bot a un impact différent sur votre visibilité. Un audit technique régulier de votre robots.txt est devenu indispensable.

Oui. Anthropic confirme que ses trois crawlers respectent la directive Crawl-delay, qui permet de définir un délai minimum entre deux requêtes d’un même bot. C’est utile si votre serveur a des ressources limitées : vous autorisez l’accès sans surcharger votre hébergement. Par exemple, « Crawl-delay: 10 » impose un délai de 10 secondes entre chaque requête du bot. Notez que Googlebot ne respecte pas cette directive — il faut utiliser la Search Console pour limiter la fréquence de crawl Google.