Les IA comme ChatGPT, Perplexity et Claude citent un site web en fonction de 8 signaux combinés : autorisation des crawlers IA, structure extractible du contenu, structured data Schema.org, présence d'un fichier llms.txt, crédibilité E-E-A-T, mentions sur des plateformes tierces, indexation Bing, et fraîcheur du contenu. Chaque signal absent réduit vos chances d'être cité.

Comment les LLMs décident quoi citer

La question "comment les IA choisissent leurs sources" est au cœur du GEO. La réponse dépend du type de système IA :

Processus de sélection des sources par un LLM avec accès web

🔎
Étape 1 — Requête de recherche
L'utilisateur pose une question. Le LLM génère des requêtes de recherche pour trouver des sources pertinentes (via Bing, son propre index, ou des APIs dédiées).
🤖
Étape 2 — Crawl et extraction
Le bot IA visite les pages candidates (si l'accès est autorisé par le robots.txt). Il extrait le contenu textuel et les données structurées.
⚖️
Étape 3 — Évaluation de la qualité
Le LLM évalue chaque source selon des critères de fiabilité, d'exactitude factuelle, de pertinence, et d'extractibilité du contenu.
✍️
Étape 4 — Génération et citation
La réponse est générée en intégrant les informations extraites. Les sources retenues sont citées (avec lien sur Perplexity, sans lien sur ChatGPT dans la réponse principale).

Les 8 signaux décrits ci-dessous influencent chacune de ces étapes. Un signal bloquant à l'étape 1 ou 2 suffit à exclure entièrement votre site, quelle que soit la qualité de votre contenu.

Signal 1 : L'autorisation des crawlers IA

1
Robots.txt — Autorisation explicite des bots IA
Prérequis absolu · Sans cette autorisation, rien d'autre ne compte
Impact critique

Le fichier robots.txt est le premier point de contrôle. Si un crawler IA y est bloqué, votre site est totalement invisible pour le moteur correspondant — votre contenu peut être excellent, votre structured data parfait : sans accès, pas de citation.

En 2026, les bots IA principaux à autoriser sont :

Bot IAPlateformeUser-agent
GPTBotChatGPT / OpenAIGPTBot
ClaudeBotClaude / AnthropicClaudeBot
PerplexityBotPerplexity AIPerplexityBot
Google-ExtendedGemini / Google AIGoogle-Extended
Meta-ExternalAgentMeta AIMeta-ExternalAgent
Applebot-ExtendedApple IntelligenceApplebot-Extended
YouBotYou.com AIYouBot

Configuration recommandée dans votre robots.txt :

# Bots IA — autoriser explicitement
User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

Signal 2 : La structure extractible du contenu

2
Contenu structuré pour l'extraction directe
HTML sémantique · Réponse directe · Listes et titres hiérarchiques
Impact élevé

Un LLM cherche à extraire des informations précises pour les intégrer dans sa réponse. Un contenu extractible répond à ces critères :

  • Réponse directe dans les 60 premiers mots : l'IA extrait généralement le début de l'article comme réponse candidate. Si vous commencez par une introduction vague, vous perdez cette opportunité.
  • Structure H1 → H2 → H3 cohérente : les titres permettent à l'IA de comprendre l'architecture du document et d'extraire des sections précises.
  • Listes à puces et numérotées : format nativement extractible, particulièrement valorisé pour les "comment faire" et "top X".
  • Paragraphes courts (3-5 lignes max) avec une idée par paragraphe. Les blocs denses de texte réduisent la précision d'extraction.

Signal 3 : Les schémas structured data

3
Schema.org — Le langage natif des LLMs
FAQPage · Article · Organization · HowTo · Product
Impact élevé

Les structured data Schema.org sont l'équivalent d'une traduction simultanée pour les IA : au lieu d'interpréter votre contenu, elles lisent directement les métadonnées structurées. Les schemas prioritaires pour le GEO :

  • FAQPage : le format reine pour être cité. Les IA adorent les paires question-réponse balisées — elles les extraient et les intègrent directement dans leurs réponses.
  • Article avec datePublished, dateModified, author et headline : donne au LLM le contexte temporel et l'autorité de l'auteur.
  • Organization avec name, url, logo, sameAs : ancre votre entité dans le graphe de connaissances de l'IA.
  • HowTo : format idéal pour les tutoriels et guides étape par étape, très cités dans les réponses procédurales.

Validez vos schemas via l'outil Rich Results Test de Google et le Schema Markup Validator.

Signal 4 : Le fichier llms.txt

4
llms.txt — La fiche d'identité pour les IA
Standard émergent 2024-2026 · Adopté par les principaux LLMs
Impact élevé

Le fichier llms.txt est placé à la racine de votre site (accessible via votresite.com/llms.txt). Il fournit aux modèles de langage un résumé structuré de qui vous êtes, ce que vous faites, et quelles sont vos pages importantes.

Exemple de structure llms.txt :

# [Nom de votre entreprise]

> [Description en 1-2 phrases de ce que fait votre entreprise]

## À propos
[Votre description complète, mission, valeurs]

## Services / Produits
- [Service 1] : [description courte]
- [Service 2] : [description courte]

## Pages importantes
- [Page 1](https://votresite.com/page1): [description]
- [Page 2](https://votresite.com/page2): [description]

## Contact
- Site : https://votresite.com
- Email : contact@votresite.com

Un llms.txt bien structuré aide les LLMs à comprendre votre site sans avoir à crawler chaque page individuellement. C'est particulièrement important pour les modèles qui limitent leur nombre de requêtes HTTP par domaine.

Signal 5 : L'E-E-A-T et la crédibilité

5
Experience · Expertise · Authoritativeness · Trustworthiness
Crédibilité vérifiable · Auteurs identifiés · Données sourcées
Impact élevé

Les LLMs évaluent la crédibilité d'une source de façon différente de Google. Ils cherchent des preuves vérifiables d'expertise, pas des indicateurs de popularité (backlinks).

Les signaux E-E-A-T détectables par les IA :

  • Auteurs nommés avec biographie, titre professionnel, et lien vers profil LinkedIn ou page institutionnelle
  • Sources citées dans le contenu — les IA font plus confiance aux articles qui sourcent leurs affirmations avec des liens vers des études, institutions, ou données primaires
  • Page À propos complète avec historique de l'entreprise, équipe, certifications, partenaires
  • Mentions institutionnelles sur Crunchbase, LinkedIn, Wikipedia, annuaires professionnels reconnus
  • Données cohérentes NAP (Nom, Adresse, Téléphone) pour les entreprises avec présence locale

Signal 6 : Les mentions tierces (Reddit, LinkedIn, GitHub)

6
Social proof pour les LLMs
Reddit · LinkedIn · GitHub · Forums sectoriels · Médias
Impact moyen-élevé

Les LLMs sont entraînés massivement sur le contenu de Reddit, GitHub, LinkedIn et des forums spécialisés. Si votre marque ou votre contenu est mentionné positivement dans ces espaces, vous augmentez votre probabilité d'être reconnu comme source légitime.

Actions concrètes :

  • Reddit : répondez aux questions dans les subreddits de votre secteur en citant vos ressources (naturellement, sans spam). Un thread Reddit mentionnant votre site peut être vu des millions de fois par les LLMs lors de leur entraînement.
  • LinkedIn : publiez régulièrement des articles techniques ou sectoriels. LinkedIn est massivement indexé et fait partie des données d'entraînement des principaux LLMs.
  • GitHub : si vous êtes dans la tech, avoir un dépôt GitHub cité ou étoilé est un signal fort de crédibilité pour les LLMs.
  • Forums et communautés sectorielles : participez activement aux discussions de votre domaine. La reconnaissance entre pairs est un signal de confiance pour les IA.

Signal 7 : L'indexation Bing

7
Bing — Le moteur partenaire d'OpenAI
ChatGPT · Copilot · OpenAI Browse
Impact moyen

OpenAI et Microsoft ont conclu un partenariat stratégique : ChatGPT en mode "Browse" utilise l'index de Bing pour ses recherches en temps réel. Un site non indexé par Bing a une visibilité significativement réduite pour ChatGPT avec accès web.

Actions à réaliser :

  • Créer un compte Bing Webmaster Tools (webmaster.bing.com)
  • Vérifier votre site et soumettre votre sitemap.xml
  • Vérifier que Bingbot n'est pas bloqué dans votre robots.txt
  • Contrôler régulièrement l'état d'indexation de vos pages prioritaires

Bonne nouvelle : si votre site est bien indexé par Google, il l'est généralement par Bing aussi. La vérification reste utile pour s'assurer qu'aucun blocage spécifique n'affecte Bing.

Signal 8 : La fraîcheur du contenu

8
Contenu à jour et daté explicitement
datePublished · dateModified · Contenu récent
Impact moyen

Les LLMs sont de plus en plus sensibles à la fraîcheur des informations, en particulier pour les sujets en évolution rapide (technologie, finance, santé, actualité). Un contenu daté de 2019 sur un sujet qui a beaucoup évolué aura moins de chances d'être cité qu'un article mis à jour en 2026.

Optimisations de fraîcheur :

  • Ajouter "datePublished" et "dateModified" dans chaque schema Article
  • Afficher la date de dernière mise à jour de façon visible sur la page
  • Mettre à jour régulièrement vos articles les plus importants avec de nouvelles données
  • Créer de nouveaux contenus sur les évolutions récentes de votre secteur

Checklist : vérifiez vos 8 signaux

Audit rapide des signaux de citation IA
GPTBot, ClaudeBot, PerplexityBot autorisés dans robots.txt
Fichier llms.txt créé et accessible à la racine
Schema Organization présent sur toutes les pages
Schema FAQPage sur les articles et pages de service
Réponse directe dans les 60 premiers mots de chaque article
Auteurs identifiés avec biographie et liens professionnels
Site vérifié et sitemap soumis à Bing Webmaster Tools
datePublished et dateModified présents dans les schemas Article

Pour mesurer automatiquement votre état sur chacun de ces signaux, utilisez l'audit gratuit de geoscoring.app. L'outil vérifie les 8 signaux et vous indique les actions prioritaires.

Pour comprendre comment ces signaux sont agrégés en score GEO, consultez notre article : Score GEO : qu'est-ce que c'est et comment est-il calculé ?

Questions fréquentes

Pour être cité par ChatGPT : 1) Autorisez GPTBot dans votre robots.txt, 2) Créez un fichier llms.txt, 3) Ajoutez des structured data Schema.org (FAQPage, Article), 4) Assurez-vous que votre site est indexé par Bing, 5) Proposez des réponses directes et factuelles dans votre contenu. Vérifiez votre état actuel gratuitement sur geoscoring.app.
Le fichier llms.txt est un fichier texte placé à la racine de votre site (example.com/llms.txt) qui donne aux LLMs un guide structuré de votre contenu et de votre organisation. Il inclut typiquement : une description de votre activité, la liste de vos pages importantes, vos domaines d'expertise, et vos coordonnées. C'est l'équivalent d'une fiche d'identité pour les IA.
Non, Perplexity sélectionne ses sources selon des critères de qualité et de pertinence. Il privilégie les sites avec structured data bien formés, des réponses directes extractibles, et une crédibilité tierce vérifiable. L'autorisation du crawler PerplexityBot dans le robots.txt est le prérequis minimum pour être éligible à la citation.
Indirectement, oui. Les sites avec beaucoup de backlinks de qualité ont généralement plus de mentions sur des plateformes tierces (LinkedIn, Reddit, médias) qui sont détectées par les LLMs. Mais un site avec peu de backlinks SEO peut obtenir d'excellentes citations IA s'il présente les bons signaux GEO. Les deux logiques sont distinctes.
Plusieurs méthodes : 1) Testez directement dans ChatGPT ou Perplexity en posant des questions sur votre secteur et vérifiez si votre site apparaît en source. 2) Vérifiez dans Google Analytics le trafic provenant de perplexity.ai, chat.openai.com, claude.ai. 3) Utilisez geoscoring.app pour obtenir un audit complet de votre citabilité IA actuelle.