Alerte configuration — Guide 2026

Robots.txt et crawlers IA : comment autoriser GPTBot, ClaudeBot et PerplexityBot

22 avril 2026 Lecture : 9 min Par GeoScoring Impact immédiat

Un crawler IA est un programme automatisé qui visite votre site web pour en extraire le contenu et l'intégrer dans les réponses d'une IA générative (ChatGPT, Perplexity, Claude). Si votre fichier robots.txt contient Disallow: / sans exception, vous êtes invisible pour toutes ces IA. La vérification prend 30 secondes, la correction prend 5 minutes.

1. Qu'est-ce qu'un crawler IA ?

Les crawlers IA sont des bots spécialisés déployés par les entreprises développant des modèles de langage. Leur mission : explorer le web, lire votre contenu, et l'utiliser pour enrichir les réponses générées par leurs IA. GPTBot collecte du contenu pour ChatGPT, ClaudeBot pour Claude, PerplexityBot pour Perplexity — et ainsi de suite pour chaque acteur du marché.

Contrairement aux crawlers SEO classiques comme Googlebot qui indexent vos pages dans un moteur de recherche, les crawlers IA utilisent votre contenu différemment : ils entraînent des modèles ou alimentent des bases de connaissances utilisées en temps réel pour répondre aux questions des utilisateurs.

La distinction est importante pour la stratégie GEO : bloquer Googlebot vous coûte vos positions dans Google Search. Bloquer GPTBot vous rend invisible dans ChatGPT. En 2026, ce second risque est aussi grave que le premier.

!

Selon l'analyse de 15 000 sites par GeoScoring en mars 2026, 34% des sites bloquent au moins un crawler IA majeur à cause d'une mauvaise configuration robots.txt héritée. La plupart des webmasters l'ignorent.

2. Les 14 principaux crawlers IA à connaître

Voici la liste complète des crawlers IA que vous devez connaître pour configurer correctement votre robots.txt :

User-Agent Entreprise IA associée Respecte robots.txt Priorité
GPTBotOpenAIChatGPT / GPT-4oOuiCritique
ChatGPT-UserOpenAIChatGPT BrowseOuiCritique
ClaudeBotAnthropicClaude 3.x / 4OuiCritique
anthropic-aiAnthropicClaude (entraînement)OuiÉlevée
PerplexityBotPerplexity AIPerplexityOuiCritique
Google-ExtendedGoogleGemini / AI OverviewsOuiCritique
Applebot-ExtendedAppleApple IntelligenceOuiÉlevée
Meta-ExternalAgentMetaLlama / Meta AIOuiÉlevée
Meta-ExternalFetcherMetaMeta AI (fetch temps réel)OuiÉlevée
DiffbotDiffbotPlusieurs LLM via APIPartielMoyenne
cohere-aiCohereCommand R+OuiMoyenne
YouBotYou.comYou.com AIOuiMoyenne
BytespiderByteDanceDoubao / Grok concurrentVariableMoyenne
CCBotCommon CrawlEntraînement open-sourceOuiMoyenne

3. Comment vérifier si vous les bloquez

La vérification est simple et prend moins d'une minute. Suivez ces étapes :

Étape 1 : Lire votre robots.txt actuel

Ouvrez votre navigateur et accédez à : https://www.votredomaine.com/robots.txt

Si la page affiche une erreur 404, vous n'avez pas de robots.txt — les crawlers peuvent tout crawler par défaut. Si vous voyez un fichier, passez à l'étape 2.

Étape 2 : Identifier les règles problématiques

Cherchez ces patterns dangereux dans votre fichier :

Patterns bloquants dans robots.txt
# DANGER : bloque TOUT le monde y compris toutes les IA
User-agent: *
Disallow: /

# DANGER : bloque GPTBot spécifiquement
User-agent: GPTBot
Disallow: /

# DANGER : bloque les requêtes de type "crawl"
User-agent: *
Disallow: /
# Sans exceptions pour les crawlers IA

Étape 3 : Tester avec l'outil Google

Google Search Console propose un testeur de robots.txt. Allez dans Search Console > Paramètres > Testeur robots.txt. Entrez le user-agent GPTBot et une URL de votre site. S'il affiche "Bloqué", c'est à corriger.

Vérification via terminal

Terminal
# Télécharger et afficher votre robots.txt
curl https://www.votresite.com/robots.txt

# Chercher si GPTBot est bloqué
curl https://www.votresite.com/robots.txt | grep -i "gptbot"

# Simuler une visite GPTBot pour voir si bloqué (code HTTP)
curl -I -A "GPTBot/1.0" https://www.votresite.com/

4. Ajouter les permissions — code complet robots.txt à copier

Voici un fichier robots.txt complet, optimisé pour autoriser les crawlers IA tout en protégeant les zones sensibles de votre site. Copiez-le et remplacez les URLs par les vôtres :

robots.txt — Configuration GEO complète 2026
# ============================================
# robots.txt — Configuration GEO optimisée
# Dernière mise à jour : avril 2026
# ============================================

# --- Crawlers SEO classiques ---

User-agent: Googlebot
Allow: /
Disallow: /admin/
Disallow: /compte/
Disallow: /panier/
Disallow: /checkout/
Disallow: /api/private/

User-agent: Bingbot
Allow: /
Disallow: /admin/
Disallow: /compte/

# --- Crawlers IA prioritaires ---

User-agent: GPTBot
Allow: /
Disallow: /admin/
Disallow: /compte/
Disallow: /api/private/

User-agent: ChatGPT-User
Allow: /
Disallow: /admin/
Disallow: /compte/

User-agent: ClaudeBot
Allow: /
Disallow: /admin/
Disallow: /compte/
Disallow: /api/private/

User-agent: anthropic-ai
Allow: /
Disallow: /admin/
Disallow: /compte/

User-agent: PerplexityBot
Allow: /
Disallow: /admin/
Disallow: /compte/
Disallow: /api/private/

User-agent: Google-Extended
Allow: /
Disallow: /admin/
Disallow: /compte/

# --- Crawlers IA secondaires ---

User-agent: Applebot-Extended
Allow: /
Disallow: /admin/

User-agent: Meta-ExternalAgent
Allow: /
Disallow: /admin/
Disallow: /compte/

User-agent: Meta-ExternalFetcher
Allow: /
Disallow: /admin/

User-agent: cohere-ai
Allow: /
Disallow: /admin/

User-agent: YouBot
Allow: /
Disallow: /admin/

# --- Règle par défaut pour tous les autres ---

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /compte/
Disallow: /panier/
Disallow: /checkout/
Disallow: /api/private/
Disallow: /*.json$
Disallow: /wp-admin/

# --- Sitemap ---

Sitemap: https://www.votresite.com/sitemap.xml

Si votre site a du contenu payant (abonnement, espace membres), ajoutez Disallow: /espace-membres/ pour tous les crawlers IA. Vous restez visible dans les résultats IA pour les pages publiques, mais votre contenu premium reste protégé.

5. Les erreurs de configuration courantes

Ces erreurs représentent 90% des problèmes rencontrés lors des audits GeoScoring :

Erreur #1 : Le Disallow universel hérité

La plus fréquente. Un développeur a activé Disallow: / pendant le développement du site pour éviter l'indexation, et personne ne l'a modifié en production. Résultat : le site est invisible pour toutes les IA depuis son lancement.

Erreur #2 : Bloquer GPTBot mais pas les autres

Certains sites ont suivi les recommandations de 2023 de bloquer GPTBot pour éviter l'entraînement des modèles OpenAI, mais ont ensuite oublié de désactiver cette règle. En 2026, cette pratique prive le site de visibilité dans ChatGPT sans bénéfice clair.

Erreur #3 : Confondre robots.txt et htaccess

Bloquer les crawlers via .htaccess ou par règles IP retourne une erreur 403, que les crawlers IA interprètent comme un blocage définitif. Le crawler note votre domaine comme hostile et réduit drastiquement la fréquence de visite.

Erreur #4 : Oublier les sous-domaines

Le robots.txt de votresite.com ne couvre pas blog.votresite.com. Si votre blog est sur un sous-domaine, il faut un robots.txt séparé à sa racine.

Erreur #5 : Syntax incorrecte

Syntaxe correcte vs incorrecte
# INCORRECT — espace avant le deux-points
User-agent : GPTBot
Disallow : /admin

# CORRECT — pas d'espace avant le deux-points
User-agent: GPTBot
Disallow: /admin/

# INCORRECT — Disallow sans slash final pour un dossier
Disallow: /admin

# CORRECT — avec slash final (évite de bloquer /admin2, /admins, etc.)
Disallow: /admin/

6. Crawlers IA vs crawlers SEO classiques : différences

CritèreCrawlers SEO (Googlebot)Crawlers IA (GPTBot, etc.)
ObjectifIndexer pour moteur de rechercheExtraire pour entraîner / alimenter LLM
FréquenceRégulière, basée sur le crawl budgetVariable, souvent moins fréquente
Contenu viséTout le site crawlableContenu factuel, expertise, FAQ
Respect robots.txtToujours (ou presque)Principaux acteurs : oui. Autres : variable
Impact si bloquéDésindexation Google SearchInvisibilité dans les réponses IA
Logs serveurGooglebot/2.1GPTBot/1.0, ClaudeBot, PerplexityBot
Indicateur de performancePositions dans SERPCitations dans les réponses IA

La différence fondamentale : un crawler SEO construit un index consultable par les utilisateurs. Un crawler IA construit une compréhension du web que le modèle utilise pour générer des réponses. Dans le second cas, votre contenu ne mène pas vers un lien cliquable — il devient la réponse elle-même. C'est pourquoi la qualité et la précision de votre contenu sont encore plus critiques pour le GEO.

7. Tester son robots.txt après modification

Une fois votre robots.txt mis à jour, voici comment valider que la configuration est correcte :

Test 1 : Accès direct

Visitez https://votresite.com/robots.txt et vérifiez que le fichier reflète vos nouvelles règles.

Test 2 : Testeur Google Search Console

Search Console > Paramètres > Testeur robots.txt. Testez chaque user-agent important (GPTBot, ClaudeBot, PerplexityBot) avec votre page d'accueil et quelques URLs clés.

Test 3 : Validateur en ligne

Utilisez des validateurs comme robotstxt.org pour vérifier la syntaxe de votre fichier.

Test 4 : Vérification via logs après 48h

Commandes log Apache/Nginx
# Apache : chercher les visites GPTBot dans les logs
grep -i "gptbot" /var/log/apache2/access.log | tail -20

# Nginx : même chose
grep -i "gptbot" /var/log/nginx/access.log | tail -20

# Voir tous les crawlers IA en une commande
grep -iE "gptbot|claudebot|perplexitybot|google-extended|anthropic-ai" \
  /var/log/nginx/access.log | tail -50

# Compter les visites par crawler IA
grep -iE "gptbot|claudebot|perplexitybot|google-extended" \
  /var/log/nginx/access.log | awk '{print $12}' | sort | uniq -c | sort -rn

Si aucun crawler IA n'apparaît dans vos logs après 5-7 jours, vérifiez que votre robots.txt est bien accessible (pas de redirect, pas d'authentification HTTP), et que vos pages ont une valeur en contenu suffisante pour attirer l'indexation IA.

8. FAQ — Robots.txt et crawlers IA

La plupart des crawlers IA majeurs (GPTBot, ClaudeBot, PerplexityBot, Google-Extended) respectent le fichier robots.txt. OpenAI, Anthropic et Perplexity ont tous publié des engagements publics à respecter les directives robots.txt. Cependant, certains crawlers moins connus ou moins scrupuleux peuvent ignorer ces règles — c'est une réalité du web.

Non directement. Googlebot et Google-Extended sont deux crawlers distincts. Bloquer Google-Extended (qui alimente les AI Overviews de Google) n'affecte pas votre indexation classique dans Google Search. En revanche, être absent des AI Overviews réduit votre visibilité globale sur Google, qui intègre de plus en plus l'IA dans ses résultats.

Pas nécessairement. Autorisez au minimum GPTBot, ClaudeBot, PerplexityBot et Google-Extended — ce sont les crawlers des IA les plus utilisées. Pour les autres, évaluez selon vos besoins et votre stratégie de contenu. Si votre contenu est exclusif ou payant, vous pouvez bloquer sélectivement certains crawlers pour protéger votre avantage compétitif.

Analysez vos logs serveur Apache ou Nginx et filtrez par user-agent. Cherchez GPTBot, ClaudeBot, PerplexityBot, anthropic-ai, Google-Extended dans vos fichiers access.log. Google Analytics ne capture pas les bots, donc les logs serveur sont indispensables pour cette analyse. Vous pouvez aussi utiliser geoscoring.app qui automatise cette analyse.

Le robots.txt contrôle l'accès : il dit aux crawlers ce qu'ils peuvent ou ne peuvent pas visiter. Le llms.txt guide la compréhension du contenu : il explique aux IA ce que fait votre site, quelles pages sont importantes, comment vous présenter. Vous avez besoin des deux. Le robots.txt laisse entrer les IA, le llms.txt les guide une fois entrées.

Oui, dans un cas très fréquent : si votre robots.txt contient User-agent: * suivi de Disallow: /, TOUS les crawlers sont bloqués, y compris toutes les IA. C'est souvent une erreur de configuration héritée d'une période de développement. Il faut ajouter des exceptions explicites pour chaque crawler IA que vous voulez autoriser, en les plaçant AVANT la règle générique User-agent: *.

Vérifiez votre robots.txt maintenant

GeoScoring analyse votre robots.txt et identifie immédiatement quels crawlers IA sont bloqués. Rapport complet en 2 minutes, corrections suggérées incluses.

Lancer l'audit gratuit →