Les 8 signaux que les IA utilisent pour citer un site web

Les IA comme ChatGPT, Perplexity et Claude citent un site web en fonction de 8 signaux combinés : autorisation des crawlers IA, structure extractible du contenu, structured data Schema.org, présence d'un fichier llms.txt, crédibilité E-E-A-T, mentions sur des plateformes tierces, indexation Bing, et fraîcheur du contenu. Chaque signal absent réduit vos chances d'être cité.

Comment les LLMs décident quoi citer

La question "comment les IA choisissent leurs sources" est au cœur du GEO. La réponse dépend du type de système IA :

Processus de sélection des sources par un LLM avec accès web

🔎

Étape 1 — Requête de recherche

L'utilisateur pose une question. Le LLM génère des requêtes de recherche pour trouver des sources pertinentes (via Bing, son propre index, ou des APIs dédiées).

🤖

Étape 2 — Crawl et extraction

Le bot IA visite les pages candidates (si l'accès est autorisé par le robots.txt). Il extrait le contenu textuel et les données structurées.

⚖️

Étape 3 — Évaluation de la qualité

Le LLM évalue chaque source selon des critères de fiabilité, d'exactitude factuelle, de pertinence, et d'extractibilité du contenu.

✍️

Étape 4 — Génération et citation

La réponse est générée en intégrant les informations extraites. Les sources retenues sont citées (avec lien sur Perplexity, sans lien sur ChatGPT dans la réponse principale).

Les 8 signaux décrits ci-dessous influencent chacune de ces étapes. Un signal bloquant à l'étape 1 ou 2 suffit à exclure entièrement votre site, quelle que soit la qualité de votre contenu.

Signal 1 : L'autorisation des crawlers IA

Robots.txt — Autorisation explicite des bots IA

Prérequis absolu · Sans cette autorisation, rien d'autre ne compte

Impact critique

Le fichier robots.txt est le premier point de contrôle. Si un crawler IA y est bloqué, votre site est totalement invisible pour le moteur correspondant — votre contenu peut être excellent, votre structured data parfait : sans accès, pas de citation.

En 2026, les bots IA principaux à autoriser sont :

Bot IA	Plateforme	User-agent
GPTBot	ChatGPT / OpenAI	GPTBot
ClaudeBot	Claude / Anthropic	ClaudeBot
PerplexityBot	Perplexity AI	PerplexityBot
Google-Extended	Gemini / Google AI	Google-Extended
Meta-ExternalAgent	Meta AI	Meta-ExternalAgent
Applebot-Extended	Apple Intelligence	Applebot-Extended
YouBot	You.com AI	YouBot

Configuration recommandée dans votre robots.txt :

# Bots IA — autoriser explicitement
User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

Signal 2 : La structure extractible du contenu

Contenu structuré pour l'extraction directe

HTML sémantique · Réponse directe · Listes et titres hiérarchiques

Impact élevé

Un LLM cherche à extraire des informations précises pour les intégrer dans sa réponse. Un contenu extractible répond à ces critères :

Réponse directe dans les 60 premiers mots : l'IA extrait généralement le début de l'article comme réponse candidate. Si vous commencez par une introduction vague, vous perdez cette opportunité.
Structure H1 → H2 → H3 cohérente : les titres permettent à l'IA de comprendre l'architecture du document et d'extraire des sections précises.
Listes à puces et numérotées : format nativement extractible, particulièrement valorisé pour les "comment faire" et "top X".
Paragraphes courts (3-5 lignes max) avec une idée par paragraphe. Les blocs denses de texte réduisent la précision d'extraction.

Signal 3 : Les schémas structured data

Schema.org — Le langage natif des LLMs

FAQPage · Article · Organization · HowTo · Product

Impact élevé

Les structured data Schema.org sont l'équivalent d'une traduction simultanée pour les IA : au lieu d'interpréter votre contenu, elles lisent directement les métadonnées structurées. Les schemas prioritaires pour le GEO :

FAQPage : le format reine pour être cité. Les IA adorent les paires question-réponse balisées — elles les extraient et les intègrent directement dans leurs réponses.
Article avec datePublished, dateModified, author et headline : donne au LLM le contexte temporel et l'autorité de l'auteur.
Organization avec name, url, logo, sameAs : ancre votre entité dans le graphe de connaissances de l'IA.
HowTo : format idéal pour les tutoriels et guides étape par étape, très cités dans les réponses procédurales.

Validez vos schemas via l'outil Rich Results Test de Google et le Schema Markup Validator.

Signal 4 : Le fichier llms.txt

llms.txt — La fiche d'identité pour les IA

Standard émergent 2024-2026 · Adopté par les principaux LLMs

Impact élevé

Le fichier llms.txt est placé à la racine de votre site (accessible via votresite.com/llms.txt). Il fournit aux modèles de langage un résumé structuré de qui vous êtes, ce que vous faites, et quelles sont vos pages importantes.

Exemple de structure llms.txt :

# [Nom de votre entreprise]

> [Description en 1-2 phrases de ce que fait votre entreprise]

## À propos
[Votre description complète, mission, valeurs]

## Services / Produits
- [Service 1] : [description courte]
- [Service 2] : [description courte]

## Pages importantes
- [Page 1](https://votresite.com/page1): [description]
- [Page 2](https://votresite.com/page2): [description]

## Contact
- Site : https://votresite.com
- Email : contact@votresite.com

Un llms.txt bien structuré aide les LLMs à comprendre votre site sans avoir à crawler chaque page individuellement. C'est particulièrement important pour les modèles qui limitent leur nombre de requêtes HTTP par domaine.

Signal 5 : L'E-E-A-T et la crédibilité

Experience · Expertise · Authoritativeness · Trustworthiness

Crédibilité vérifiable · Auteurs identifiés · Données sourcées

Impact élevé

Les LLMs évaluent la crédibilité d'une source de façon différente de Google. Ils cherchent des preuves vérifiables d'expertise, pas des indicateurs de popularité (backlinks).

Les signaux E-E-A-T détectables par les IA :

Auteurs nommés avec biographie, titre professionnel, et lien vers profil LinkedIn ou page institutionnelle
Sources citées dans le contenu — les IA font plus confiance aux articles qui sourcent leurs affirmations avec des liens vers des études, institutions, ou données primaires
Page À propos complète avec historique de l'entreprise, équipe, certifications, partenaires
Mentions institutionnelles sur Crunchbase, LinkedIn, Wikipedia, annuaires professionnels reconnus
Données cohérentes NAP (Nom, Adresse, Téléphone) pour les entreprises avec présence locale

Signal 6 : Les mentions tierces (Reddit, LinkedIn, GitHub)

Social proof pour les LLMs

Reddit · LinkedIn · GitHub · Forums sectoriels · Médias

Impact moyen-élevé

Les LLMs sont entraînés massivement sur le contenu de Reddit, GitHub, LinkedIn et des forums spécialisés. Si votre marque ou votre contenu est mentionné positivement dans ces espaces, vous augmentez votre probabilité d'être reconnu comme source légitime.

Actions concrètes :

Reddit : répondez aux questions dans les subreddits de votre secteur en citant vos ressources (naturellement, sans spam). Un thread Reddit mentionnant votre site peut être vu des millions de fois par les LLMs lors de leur entraînement.
LinkedIn : publiez régulièrement des articles techniques ou sectoriels. LinkedIn est massivement indexé et fait partie des données d'entraînement des principaux LLMs.
GitHub : si vous êtes dans la tech, avoir un dépôt GitHub cité ou étoilé est un signal fort de crédibilité pour les LLMs.
Forums et communautés sectorielles : participez activement aux discussions de votre domaine. La reconnaissance entre pairs est un signal de confiance pour les IA.

Signal 7 : L'indexation Bing

Bing — Le moteur partenaire d'OpenAI

ChatGPT · Copilot · OpenAI Browse

Impact moyen

OpenAI et Microsoft ont conclu un partenariat stratégique : ChatGPT en mode "Browse" utilise l'index de Bing pour ses recherches en temps réel. Un site non indexé par Bing a une visibilité significativement réduite pour ChatGPT avec accès web.

Actions à réaliser :

Créer un compte Bing Webmaster Tools (webmaster.bing.com)
Vérifier votre site et soumettre votre sitemap.xml
Vérifier que Bingbot n'est pas bloqué dans votre robots.txt
Contrôler régulièrement l'état d'indexation de vos pages prioritaires

Bonne nouvelle : si votre site est bien indexé par Google, il l'est généralement par Bing aussi. La vérification reste utile pour s'assurer qu'aucun blocage spécifique n'affecte Bing.

Signal 8 : La fraîcheur du contenu

Contenu à jour et daté explicitement

datePublished · dateModified · Contenu récent

Impact moyen

Les LLMs sont de plus en plus sensibles à la fraîcheur des informations, en particulier pour les sujets en évolution rapide (technologie, finance, santé, actualité). Un contenu daté de 2019 sur un sujet qui a beaucoup évolué aura moins de chances d'être cité qu'un article mis à jour en 2026.

Optimisations de fraîcheur :

Ajouter "datePublished" et "dateModified" dans chaque schema Article
Afficher la date de dernière mise à jour de façon visible sur la page
Mettre à jour régulièrement vos articles les plus importants avec de nouvelles données
Créer de nouveaux contenus sur les évolutions récentes de votre secteur

Checklist : vérifiez vos 8 signaux

Audit rapide des signaux de citation IA

GPTBot, ClaudeBot, PerplexityBot autorisés dans robots.txt

Fichier llms.txt créé et accessible à la racine

Schema Organization présent sur toutes les pages

Schema FAQPage sur les articles et pages de service

Réponse directe dans les 60 premiers mots de chaque article

Auteurs identifiés avec biographie et liens professionnels

Site vérifié et sitemap soumis à Bing Webmaster Tools

datePublished et dateModified présents dans les schemas Article

Pour mesurer automatiquement votre état sur chacun de ces signaux, utilisez l'audit gratuit de geoscoring.app. L'outil vérifie les 8 signaux et vous indique les actions prioritaires.

Pour comprendre comment ces signaux sont agrégés en score GEO, consultez notre article : Score GEO : qu'est-ce que c'est et comment est-il calculé ?

Questions fréquentes

Pour être cité par ChatGPT : 1) Autorisez GPTBot dans votre robots.txt, 2) Créez un fichier llms.txt, 3) Ajoutez des structured data Schema.org (FAQPage, Article), 4) Assurez-vous que votre site est indexé par Bing, 5) Proposez des réponses directes et factuelles dans votre contenu. Vérifiez votre état actuel gratuitement sur geoscoring.app.

Le fichier llms.txt est un fichier texte placé à la racine de votre site (example.com/llms.txt) qui donne aux LLMs un guide structuré de votre contenu et de votre organisation. Il inclut typiquement : une description de votre activité, la liste de vos pages importantes, vos domaines d'expertise, et vos coordonnées. C'est l'équivalent d'une fiche d'identité pour les IA.

Non, Perplexity sélectionne ses sources selon des critères de qualité et de pertinence. Il privilégie les sites avec structured data bien formés, des réponses directes extractibles, et une crédibilité tierce vérifiable. L'autorisation du crawler PerplexityBot dans le robots.txt est le prérequis minimum pour être éligible à la citation.

Indirectement, oui. Les sites avec beaucoup de backlinks de qualité ont généralement plus de mentions sur des plateformes tierces (LinkedIn, Reddit, médias) qui sont détectées par les LLMs. Mais un site avec peu de backlinks SEO peut obtenir d'excellentes citations IA s'il présente les bons signaux GEO. Les deux logiques sont distinctes.

Plusieurs méthodes : 1) Testez directement dans ChatGPT ou Perplexity en posant des questions sur votre secteur et vérifiez si votre site apparaît en source. 2) Vérifiez dans Google Analytics le trafic provenant de perplexity.ai, chat.openai.com, claude.ai. 3) Utilisez geoscoring.app pour obtenir un audit complet de votre citabilité IA actuelle.

Comment les LLMs décident quoi citer

Signal 1 : L'autorisation des crawlers IA

Signal 2 : La structure extractible du contenu

Signal 3 : Les schémas structured data

Signal 4 : Le fichier llms.txt

Signal 5 : L'E-E-A-T et la crédibilité

Signal 6 : Les mentions tierces (Reddit, LinkedIn, GitHub)

Signal 7 : L'indexation Bing

Signal 8 : La fraîcheur du contenu

Checklist : vérifiez vos 8 signaux

Questions fréquentes

Vérifiez vos 8 signaux en 60 secondes

Articles connexes