Lucas Kliminski

Pourquoi ChatGPT cite une page plutôt qu'une autre : ce que révèle l'étude Ahrefs sur 1,4 million de prompts

Article écrit par :

Lucas Kliminski - Consultant SEO pour PME

Je vous partage des informations toutes fraîches sur la recherche en ligne ainsi que l’intelligence artificielle. Passionné par le SEO, je vous partage mes conseils, astuces pour développer au mieux votre activité.
  • Ahrefs a analysé 1,4 million de prompts ChatGPT (février 2025, desktop) pour comprendre pourquoi certaines pages sont citées et d’autres ignorées. Résultat : ChatGPT récupère en moyenne 33 URLs par prompt, mais n’en cite que la moitié (50%).

  • 88% des citations proviennent du canal « search » (résultats de recherche web). Les contenus Reddit représentent 67,8% des URLs non citées : ChatGPT les utilise pour comprendre le contexte mais ne les cite presque jamais (1,93%).

  • Le facteur le plus déterminant est la pertinence sémantique du titre par rapport aux fan-out queries (les sous-questions que ChatGPT génère en interne). Les pages citées ont un score de similarité titre/fan-out de 0,656 contre 0,484 pour les pages ignorées.

  • Les URLs avec des slugs en langage naturel ont un taux de citation de 89,78% contre 81,11% pour les URLs opaques. Le titre et l’URL agissent comme un filtre avant même que ChatGPT ne lise le contenu de la page.

Comment ChatGPT décide de citer (ou pas) une page

Quand vous posez une question à ChatGPT, le modèle ne se contente pas de générer une réponse à partir de sa mémoire. Il lance des recherches web en parallèle, récupère des dizaines d’URLs, et décide ensuite lesquelles méritent d’être citées dans sa réponse.

Selon les recherches de Dan Petrovic, chaque résultat récupéré par ChatGPT est accompagné de quatre éléments : le titre de la page, un court extrait (snippet), l’URL et un identifiant interne. C’est sur la base de ces éléments que ChatGPT décide d’ouvrir ou non la page complète.

Cela signifie qu’il existe un filtre de pré-sélection avant même que ChatGPT ne lise votre contenu. Si votre titre et votre URL ne correspondent pas à ce que l’IA cherche, votre page ne sera jamais ouverte, et donc jamais citée, peu importe la qualité du contenu à l’intérieur.

Une formation SEO 100% gratuite

Tout comprendre sur le référencement naturel, lors d’une visioconférence ou en physique. Pour les entreprises désirantes d’apprendre à (mieux) utiliser le SEO.

Les 5 canaux de récupération de ChatGPT et leurs taux de citation

L’étude Ahrefs révèle que ChatGPT catégorise ses sources en 5 canaux internes (appelés « ref_type ») avec des taux de citation radicalement différents :

Canal (ref_type)Taux de citationVolume de données
Search (résultats web)88,46%25,5M URLs
News (actualités)12,01%3,9M URLs
Reddit (API dédiée)1,93%16,2M URLs
YouTube (API dédiée)0,51%953K URLs
Academia (articles scientifiques)0,40%185K URLs

Le canal « search » domine massivement : 88% des pages citées par ChatGPT proviennent des résultats de recherche web. Autrement dit, si votre page ne ranke pas sur Google, elle a très peu de chances d’être citée par ChatGPT. Le SEO classique reste le fondement de la visibilité IA.

Reddit : lu massivement, cité presque jamais

C’est la découverte la plus frappante de l’étude. Reddit représente 67,8% de toutes les URLs non citées dans le jeu de données. ChatGPT récupère plus de 16 millions d’URLs Reddit, mais n’en cite que 1,93%.

Que fait ChatGPT avec tout ce contenu Reddit ? Il l’utilise pour comprendre le contexte, évaluer le consensus communautaire et enrichir sa compréhension du sujet. Mais au moment de formuler sa réponse, il cite une source institutionnelle ou éditoriale à la place. Reddit informe l’IA, mais ce sont d’autres sites qui récoltent la citation.

Pour une PME, la leçon est claire : être actif sur Reddit peut influencer ce que ChatGPT comprend de votre secteur, mais c’est votre site web (bien référencé) qui sera cité dans la réponse. Vous devez ainsi comprendre comment utiliser Reddit pour votre recherche de mots-clés. C’est cohérent avec ce que montre l’étude Semrush sur les citations LinkedIn dans les moteurs IA.

Votre site est-il citable par ChatGPT ?

La majorité des sites de PME ne sont jamais cités par ChatGPT. Pas parce que leur contenu est mauvais, mais parce que leurs titres, leurs URLs et leur structure ne correspondent pas à ce que l’IA recherche. Mon audit GEO analyse votre citabilité sur ChatGPT, Perplexity et Google AI Mode. Envoyez-moi votre URL.

Le titre de la page : le facteur n°1 de citation

L’étude confirme que la pertinence sémantique du titre est le facteur le plus déterminant pour être cité. Ahrefs a mesuré la similarité cosinus entre les titres et les requêtes, avec des résultats sans ambiguïté :

ComparaisonScore de similarité
Prompt vs titre des pages citées0,602
Prompt vs titre des pages non citées0,484
Fan-out query vs titre des pages citées (meilleur match)0,656

L’écart entre les pages citées (0,602) et non citées (0,484) est significatif. Et quand on mesure la similarité avec les fan-out queries (les sous-questions internes de ChatGPT), le score monte à 0,656 pour les pages citées.

Autrement dit : votre titre ne doit pas seulement correspondre à la question de l’utilisateur, il doit correspondre aux sous-questions que ChatGPT génère en interne. C’est un changement de paradigme par rapport au SEO classique où le titre était optimisé pour un seul mot-clé.

L'URL aussi joue un rôle dans la citation

L’étude montre que les pages avec des URLs en langage naturel (slugs lisibles) ont un taux de citation de 89,78% dans le canal search, contre 81,11% pour les URLs opaques (paramètres, identifiants numériques).

Exemple concret :

  • Citable : /blog/seo/comment-choisir-consultant-seo/
  • Moins citable : /blog/?p=12847

L’URL fait partie des données de récupération que ChatGPT analyse avant d’ouvrir la page. Un slug descriptif donne un signal sémantique supplémentaire qui renforce la pertinence perçue de la page.

Ce que cette étude change pour votre stratégie GEO

Les résultats d’Ahrefs confirment et précisent ce que les études précédentes suggéraient. Voici les implications pratiques :

  • Le SEO reste le socle de la visibilité IA. 88% des citations ChatGPT viennent du canal search. Si vous ne rankez pas sur Google, vous ne serez pas cité par ChatGPT. L’optimisation pour les moteurs IA commence par le référencement classique.
  • Le titre est votre premier levier GEO. Optimisez vos balises title pour répondre aux sous-questions que l’IA pourrait générer, pas seulement au mot-clé principal.
  • Les URLs doivent être lisibles et descriptives. Passez en revue vos slugs. Remplacez les URLs opaques par des slugs en langage naturel.
  • Reddit est un canal d’influence, pas de citation. Participer aux discussions Reddit aide ChatGPT à comprendre votre secteur, mais c’est votre site qui sera cité. Les deux sont complémentaires.

Comment optimiser pour les fan-out queries

Les fan-out queries sont les sous-questions que ChatGPT génère automatiquement à partir du prompt de l’utilisateur. Si un utilisateur demande « Comment choisir un consultant SEO ?« , ChatGPT peut générer en interne des sous-questions comme « quels critères pour évaluer un consultant SEO », « tarifs consultant SEO freelance », « différence agence vs freelance SEO ».

Pour maximiser vos chances de citation, votre contenu doit répondre à ces sous-questions, pas seulement à la question principale. Concrètement :

  • Structurez vos articles avec des H2/H3 qui couvrent les sous-sujets. Chaque sous-titre est un signal sémantique pour le modèle.
  • Écrivez des titres qui répondent à une question précise, pas des titres vagues ou clickbait. « Comment choisir un consultant SEO : 8 critères à vérifier » est plus citable que « Tout savoir sur le SEO ».
  • Utilisez la structure d’article optimisée pour l’IA : réponse directe dans les premières lignes, puis développement détaillé.

Les limites de cette étude

Quelques points de vigilance :

  • Données de février 2025. L’étude porte sur ChatGPT 5.2. Le modèle a évolué depuis (les résultats pourraient différer avec les versions ultérieures).
  • Desktop uniquement. Les comportements de ChatGPT sur mobile ou via API ne sont pas couverts.
  • Corrélation vs causalité. L’étude montre des corrélations (similarité titre/fan-out) mais ne prouve pas la causalité directe. Le modèle est une boîte noire.
  • Le biais Reddit. Ahrefs souligne eux-mêmes que comparer « cité vs non cité » sans isoler les canaux (ref_type) fausse les résultats. Beaucoup d’études concurrentes tombent dans ce piège.

La cohérence avec les autres études GEO

Cette étude d’Ahrefs s’inscrit dans un corpus de recherches convergentes :

  • L’étude Ahrefs de mars 2026 sur les AI Overviews montrait déjà un chevauchement de 38% entre les sources citées et le top 10 organique. Cette nouvelle étude confirme que le ranking organique est aussi le principal prédicteur de citation par ChatGPT.
  • L’étude Semrush sur LinkedIn montre un score de similarité sémantique de 0,57-0,60 pour les contenus LinkedIn cités. Les scores Ahrefs (0,602-0,656 pour les titres cités) sont cohérents.
  • L’étude BrightEdge sur les AI Overviews soulignait déjà l’importance du contenu structuré et factuel pour être cité comme source. Le rôle du titre que démontre Ahrefs va dans le même sens.

Checklist : rendre votre contenu citable par ChatGPT

  • Titre de la page : répond-il directement à une question précise ? Contient-il le sujet principal en langage naturel ?
  • URL : le slug est-il lisible et descriptif ? (/blog/seo/comment-choisir-consultant-seo/ et non /blog/?p=12847)
  • Ranking Google : êtes-vous dans le top 10 organique sur vos requêtes cibles ? Sans ranking, pas de citation.
  • Structure du contenu : vos H2/H3 couvrent-ils les sous-questions liées au sujet principal ?
  • Réponse directe : les premières lignes de chaque section répondent-elles frontalement à la question posée ?
  • E-E-A-T : l’auteur est-il identifié, l’expertise démontrée, les sources citées ?

Pour approfondir la visibilité IA et le GEO

Cette étude d’Ahrefs renforce un message clé : la visibilité dans les moteurs IA n’est pas déconnectée du SEO. Elle en est l’extension directe. Pour aller plus loin :

FAQ

Faut-il ranker sur Google pour être cité par ChatGPT ?

Oui, dans l’écrasante majorité des cas. L’étude Ahrefs montre que 88% des citations ChatGPT proviennent du canal « search » (résultats de recherche web). Les autres canaux (Reddit, YouTube, News, Academia) représentent moins de 12% des citations combinées. Le SEO classique reste le prérequis de base pour la visibilité IA.

ChatGPT dispose d’une intégration API dédiée avec Reddit qui lui fournit un flux de contenus supplémentaires. Il utilise ces discussions pour comprendre le contexte, évaluer le consensus communautaire et identifier les questions fréquentes. Mais au moment de formuler sa réponse, il privilégie les sources éditoriales ou institutionnelles pour ses citations visibles. Reddit enrichit la compréhension de l’IA, mais les sites web récoltent la citation.

Les fan-out queries sont les sous-questions que ChatGPT génère en interne. Pour anticiper ces sous-questions, posez-vous la question : « Si quelqu’un cherche [mon sujet], quelles questions complémentaires va-t-il se poser ? » Chaque sous-question devrait se retrouver dans un H2 ou H3 de votre article. Le titre de la page, lui, doit répondre à la question principale de manière claire et factuelle.

L’étude porte spécifiquement sur ChatGPT. Cependant, les principes fondamentaux (importance du ranking organique, pertinence sémantique du titre, rôle des sous-questions internes) s’appliquent probablement aussi aux autres moteurs IA. Perplexity et Google AI Mode utilisent des mécanismes similaires de récupération et de citation de sources, même si les détails techniques diffèrent.