Les IA comme ChatGPT, Perplexity et Claude citent un site web en fonction de 8 signaux combinés : autorisation des crawlers IA, structure extractible du contenu, structured data Schema.org, présence d'un fichier llms.txt, crédibilité E-E-A-T, mentions sur des plateformes tierces, indexation Bing, et fraîcheur du contenu. Chaque signal absent réduit vos chances d'être cité.
Comment les LLMs décident quoi citer
La question "comment les IA choisissent leurs sources" est au cœur du GEO. La réponse dépend du type de système IA :
Processus de sélection des sources par un LLM avec accès web
Les 8 signaux décrits ci-dessous influencent chacune de ces étapes. Un signal bloquant à l'étape 1 ou 2 suffit à exclure entièrement votre site, quelle que soit la qualité de votre contenu.
Signal 1 : L'autorisation des crawlers IA
Le fichier robots.txt est le premier point de contrôle. Si un crawler IA y est bloqué, votre site est totalement invisible pour le moteur correspondant — votre contenu peut être excellent, votre structured data parfait : sans accès, pas de citation.
En 2026, les bots IA principaux à autoriser sont :
| Bot IA | Plateforme | User-agent |
|---|---|---|
| GPTBot | ChatGPT / OpenAI | GPTBot |
| ClaudeBot | Claude / Anthropic | ClaudeBot |
| PerplexityBot | Perplexity AI | PerplexityBot |
| Google-Extended | Gemini / Google AI | Google-Extended |
| Meta-ExternalAgent | Meta AI | Meta-ExternalAgent |
| Applebot-Extended | Apple Intelligence | Applebot-Extended |
| YouBot | You.com AI | YouBot |
Configuration recommandée dans votre robots.txt :
# Bots IA — autoriser explicitement
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
Signal 2 : La structure extractible du contenu
Un LLM cherche à extraire des informations précises pour les intégrer dans sa réponse. Un contenu extractible répond à ces critères :
- Réponse directe dans les 60 premiers mots : l'IA extrait généralement le début de l'article comme réponse candidate. Si vous commencez par une introduction vague, vous perdez cette opportunité.
- Structure H1 → H2 → H3 cohérente : les titres permettent à l'IA de comprendre l'architecture du document et d'extraire des sections précises.
- Listes à puces et numérotées : format nativement extractible, particulièrement valorisé pour les "comment faire" et "top X".
- Paragraphes courts (3-5 lignes max) avec une idée par paragraphe. Les blocs denses de texte réduisent la précision d'extraction.
Signal 3 : Les schémas structured data
Les structured data Schema.org sont l'équivalent d'une traduction simultanée pour les IA : au lieu d'interpréter votre contenu, elles lisent directement les métadonnées structurées. Les schemas prioritaires pour le GEO :
- FAQPage : le format reine pour être cité. Les IA adorent les paires question-réponse balisées — elles les extraient et les intègrent directement dans leurs réponses.
- Article avec
datePublished,dateModified,authoretheadline: donne au LLM le contexte temporel et l'autorité de l'auteur. - Organization avec
name,url,logo,sameAs: ancre votre entité dans le graphe de connaissances de l'IA. - HowTo : format idéal pour les tutoriels et guides étape par étape, très cités dans les réponses procédurales.
Validez vos schemas via l'outil Rich Results Test de Google et le Schema Markup Validator.
Signal 4 : Le fichier llms.txt
Le fichier llms.txt est placé à la racine de votre site (accessible via votresite.com/llms.txt). Il fournit aux modèles de langage un résumé structuré de qui vous êtes, ce que vous faites, et quelles sont vos pages importantes.
Exemple de structure llms.txt :
# [Nom de votre entreprise]
> [Description en 1-2 phrases de ce que fait votre entreprise]
## À propos
[Votre description complète, mission, valeurs]
## Services / Produits
- [Service 1] : [description courte]
- [Service 2] : [description courte]
## Pages importantes
- [Page 1](https://votresite.com/page1): [description]
- [Page 2](https://votresite.com/page2): [description]
## Contact
- Site : https://votresite.com
- Email : contact@votresite.com
Un llms.txt bien structuré aide les LLMs à comprendre votre site sans avoir à crawler chaque page individuellement. C'est particulièrement important pour les modèles qui limitent leur nombre de requêtes HTTP par domaine.
Signal 5 : L'E-E-A-T et la crédibilité
Les LLMs évaluent la crédibilité d'une source de façon différente de Google. Ils cherchent des preuves vérifiables d'expertise, pas des indicateurs de popularité (backlinks).
Les signaux E-E-A-T détectables par les IA :
- Auteurs nommés avec biographie, titre professionnel, et lien vers profil LinkedIn ou page institutionnelle
- Sources citées dans le contenu — les IA font plus confiance aux articles qui sourcent leurs affirmations avec des liens vers des études, institutions, ou données primaires
- Page À propos complète avec historique de l'entreprise, équipe, certifications, partenaires
- Mentions institutionnelles sur Crunchbase, LinkedIn, Wikipedia, annuaires professionnels reconnus
- Données cohérentes NAP (Nom, Adresse, Téléphone) pour les entreprises avec présence locale
Signal 6 : Les mentions tierces (Reddit, LinkedIn, GitHub)
Les LLMs sont entraînés massivement sur le contenu de Reddit, GitHub, LinkedIn et des forums spécialisés. Si votre marque ou votre contenu est mentionné positivement dans ces espaces, vous augmentez votre probabilité d'être reconnu comme source légitime.
Actions concrètes :
- Reddit : répondez aux questions dans les subreddits de votre secteur en citant vos ressources (naturellement, sans spam). Un thread Reddit mentionnant votre site peut être vu des millions de fois par les LLMs lors de leur entraînement.
- LinkedIn : publiez régulièrement des articles techniques ou sectoriels. LinkedIn est massivement indexé et fait partie des données d'entraînement des principaux LLMs.
- GitHub : si vous êtes dans la tech, avoir un dépôt GitHub cité ou étoilé est un signal fort de crédibilité pour les LLMs.
- Forums et communautés sectorielles : participez activement aux discussions de votre domaine. La reconnaissance entre pairs est un signal de confiance pour les IA.
Signal 7 : L'indexation Bing
OpenAI et Microsoft ont conclu un partenariat stratégique : ChatGPT en mode "Browse" utilise l'index de Bing pour ses recherches en temps réel. Un site non indexé par Bing a une visibilité significativement réduite pour ChatGPT avec accès web.
Actions à réaliser :
- Créer un compte Bing Webmaster Tools (webmaster.bing.com)
- Vérifier votre site et soumettre votre sitemap.xml
- Vérifier que Bingbot n'est pas bloqué dans votre robots.txt
- Contrôler régulièrement l'état d'indexation de vos pages prioritaires
Bonne nouvelle : si votre site est bien indexé par Google, il l'est généralement par Bing aussi. La vérification reste utile pour s'assurer qu'aucun blocage spécifique n'affecte Bing.
Signal 8 : La fraîcheur du contenu
Les LLMs sont de plus en plus sensibles à la fraîcheur des informations, en particulier pour les sujets en évolution rapide (technologie, finance, santé, actualité). Un contenu daté de 2019 sur un sujet qui a beaucoup évolué aura moins de chances d'être cité qu'un article mis à jour en 2026.
Optimisations de fraîcheur :
- Ajouter
"datePublished"et"dateModified"dans chaque schema Article - Afficher la date de dernière mise à jour de façon visible sur la page
- Mettre à jour régulièrement vos articles les plus importants avec de nouvelles données
- Créer de nouveaux contenus sur les évolutions récentes de votre secteur
Checklist : vérifiez vos 8 signaux
Pour mesurer automatiquement votre état sur chacun de ces signaux, utilisez l'audit gratuit de geoscoring.app. L'outil vérifie les 8 signaux et vous indique les actions prioritaires.
Pour comprendre comment ces signaux sont agrégés en score GEO, consultez notre article : Score GEO : qu'est-ce que c'est et comment est-il calculé ?