AI Overviews : 91% de précision mais 57 millions d'erreurs par heure selon l'étude NYT/Oumi

Lucas Kliminski
avril 18, 2026
12:10 pm
GEO, IA

Article écrit par :

Lucas Kliminski - Consultant SEO pour PME

Je vous partage des informations toutes fraîches sur la recherche en ligne ainsi que l’intelligence artificielle. Passionné par le SEO, je vous partage mes conseils, astuces pour développer au mieux votre activité.

Sommaire

En avril 2026, le New York Times a publié une enquête réalisée avec la start-up IA Oumi sur la fiabilité des AI Overviews. Résultat : les réponses IA de Google sont correctes 91% du temps avec Gemini 3 (contre 85% avec Gemini 2). Mais à l’échelle de 5 000 milliards de recherches annuelles, 9% d’erreur représente des dizaines de millions de réponses fausses par heure.
Le chiffre le plus inquiétant n’est pas le taux d’erreur brut. C’est le taux de réponses « non fondées » (ungrounded) : 56% des réponses correctes de Gemini 3 citent des sources qui ne confirment pas l’information donnée. L’utilisateur croit vérifier, mais la source ne soutient pas la réponse.
Google a contesté l’étude. Lily Ray, VP SEO chez Algorythmic, a publié une contre-analyse démontrant que la défense de Google ne tient pas, notamment sur les requêtes commerciales à fort volume où les résultats de recherche sont massivement manipulés par des listicles auto-promotionnels.
Pour les PME, cette étude confirme un double enjeu : les AI Overviews sont à la fois un risque (réponses fausses citant votre secteur) et une opportunité (nouvelle surface de visibilité via le GEO).

Ce que le New York Times et Oumi ont testé

L’étude a été réalisée par Oumi, une start-up spécialisée dans le développement de modèles IA, à la demande du New York Times. L’équipe a utilisé le benchmark SimpleQA (créé par OpenAI en 2024), un test standardisé de plus de 4 000 questions factuelles avec des réponses vérifiables.

Oumi a soumis 4 326 recherches aux AI Overviews en deux phases : une première en octobre 2025 (quand le modèle était Gemini 2) et une seconde en février 2026 (après la mise à jour vers Gemini 3). Pour chaque réponse, l’équipe a vérifié deux choses : la réponse est-elle factuellemnt correcte ? Et les sources citées confirment-elles cette réponse ?

Une formation SEO 100% gratuite

Tout comprendre sur le référencement naturel, lors d’une visioconférence ou en physique. Pour les entreprises désirantes d’apprendre à (mieux) utiliser le SEO.

Les résultats : précision en hausse, sourcing en chute

Indicateur	Gemini 2 (oct. 2025)	Gemini 3 (fév. 2026)	Évolution
Précision des réponses	85%	91%	6 points
Réponses « non fondées »	37%	56%	19 points
Hallucinations Gemini seul	n/a	28%	–

Le paradoxe est frappant : le modèle est devenu plus précis dans ses réponses, mais pire dans ses citations. La confiance apparente augmente alors que la vérifiabilité diminue. L’utilisateur voit une réponse avec des liens sources et fait confiance. Mais en cliquant sur la source, il ne trouvera pas confirmation dans plus de la moitié des cas.

Les erreurs documentées par le NYT

Le New York Times a relevé plusieurs cas concrets :

Bob Marley : à la question « Quand la maison de Bob Marley est-elle devenue un musée ? », l’AI Overview a répondu 1987. La bonne réponse est 1986. Les trois sources citées ne confirmaient pas la date, et l’une d’elles donnait deux dates contradictoires. L’IA a choisi la mauvaise.
Yo-Yo Ma : interrogée sur l’intégration du violoncelliste au Classical Music Hall of Fame, l’IA a cité le site officiel de l’organisation mais a affirmé qu’il n’y avait aucune trace de son intégration. L’information existait pourtant sur le site cité.
Dick Drago : l’IA a donné l’âge correct au moment du décès mais a indiqué une date de décès erronée.

Ces exemples illustrent un problème fondamental : les hallucinations de l’IA ne sont pas toujours grossières. Elles peuvent être subtiles, partiellement correctes, et donc beaucoup plus difficiles à détecter pour l’utilisateur moyen.

Les AI Overviews parlent-elles de votre secteur de manière fiable ?

Votre entreprise est peut-être déjà mentionnée (correctement ou non) dans les réponses IA de Google. Mon audit GEO analyse ce que les AI Overviews disent de votre secteur et met en place une stratégie pour contrôler votre message. Envoyez-moi votre URL.

La réponse de Google : "cette étude a des failles sérieuses"

Le porte-parole de Google, Ned Adriance, a réagi à l’enquête du NYT en déclarant que l’étude « a des failles sérieuses » et « ne reflète pas ce que les gens recherchent réellement sur Google ». Ses arguments :

Le benchmark SimpleQA ne serait pas représentatif des requêtes réelles des utilisateurs.
Les protections anti-spam de Google Search filtreraient « l’écrasante majorité du spam » dans les AI Overviews.
Le taux de précision des AI Overviews serait « comparable à celui des Featured Snippets », une fonctionnalité que Google utilise depuis des années.
Google rappelle que chaque AI Overview affiche un avertissement : « L’IA peut faire des erreurs, vérifiez les réponses. »

La contre-analyse de Lily Ray : "la défense de Google ne tient pas"

Lily Ray, VP SEO chez Algorythmic et l’une des voix les plus suivies du SEO mondial, a publié une réponse détaillée à la défense de Google. Ses deux arguments principaux :

1. Le problème des listicles n’est pas marginal. Google affirme que les AI Overviews filtrent le spam. Lily Ray démontre le contraire sur les requêtes commerciales à fort volume. Des entreprises publient des classements « Les 10 meilleurs [outils] » en se plaçant en première position, et l’AI Overview reprend cette information comme un consensus indépendant. Cela touche des requêtes à milliers de recherches mensuelles : « best CRM software » (2 400/mois), « best project management software » (5 400/mois), « best SEO tools » (3 600/mois).

2. 9% d’erreur à cette échelle est massif. Si 20% des requêtes affichent un AI Overview (estimation Semrush), cela représente environ 2,8 milliards d’AI Overviews par jour. 9% d’erreur sur ce volume, c’est plus de 250 millions de réponses fausses ou trompeuses par jour.

Lily Ray a aussi démontré la vulnérabilité à la manipulation en publiant de faux articles que Google a repris comme factuels en quelques heures. Thomas Germain (BBC) a reproduit l’expérience avec un article fictif sur un concours de hot-dogs, cité par l’AI Overview dès le lendemain.

Le problème structurel : quand l'IA répète les biais du web

Les tests internes de Google révèlent que Gemini 3, utilisé seul sans les données de Google Search, produit des informations fausses 28% du temps. C’est le moteur de recherche qui « cadre » le modèle en lui fournissant des résultats pour réduire les hallucinations.

Mais cela crée un problème circulaire : si les résultats organiques sont pollués par du contenu auto-promotionnel, des listicles biaisés ou du spam, l’IA reproduit ces biais dans ses réponses. Google indexe du contenu manipulé, l’IA le reprend comme factuel, ce qui incite à produire encore plus de contenu manipulé. La qualité des AI Overviews dépend directement de la qualité des résultats organiques.

L'enjeu de confiance pour les utilisateurs

Comme le souligne l’émission Tech News Weekly (TWiT), le problème n’est pas seulement technique. C’est un problème de confiance perçue. Les AI Overviews sont positionnées tout en haut de la page, dans un format qui respire l’autorité. Google affiche un avertissement (« L’IA peut faire des erreurs »), mais le placement au-dessus de tous les résultats envoie un message opposé.

Les utilisateurs tech-savvy scrollent au-delà. Mais la majorité des internautes, ceux qui ne sont pas dans la « bulle tech », prennent ces résumés au pied de la lettre. Et c’est exactement ce qui rend les 56% de réponses « non fondées » si problématiques : l’utilisateur ne vérifiera pas la source, et même s’il le fait, la source ne confirmera pas.

Ce que cette étude change pour votre stratégie SEO

Pour les PME et les créateurs de contenu, les implications sont directes :

Votre contenu peut être cité de manière incorrecte. Les AI Overviews peuvent affirmer quelque chose en citant votre page comme source, alors que votre page dit autre chose. Surveillez ce que Google dit de vous dans ses réponses IA.
Les listicles auto-promotionnels fonctionnent (pour l’instant). C’est une réalité documentée par Lily Ray. Mais c’est aussi un risque : Google finira par corriger cette faille, et les sites qui en ont abusé pourraient être pénalisés rétroactivement. Privilégiez un contenu E-E-A-T authentique.
Le SEO classique reste la base. Les AI Overviews puisent dans les résultats organiques. Si votre site n’est pas dans le top 10, il ne sera pas utilisé comme source. L’étude Ahrefs sur les citations AI Overviews montre un chevauchement de 38% avec le top 10 organique.
Structurez votre contenu pour la citation. Des paragraphes courts, factuels, avec des données structurées Schema.org. Les AI Overviews extraient des blocs de texte précis, pas des pages entières.

AI Overviews vs Featured Snippets : la comparaison de Google tient-elle ?

Google affirme que le taux de précision des AI Overviews est « comparable à celui des Featured Snippets ». C’est un argument intéressant mais trompeur pour deux raisons :

Les Featured Snippets citent une seule source identifiée. L’utilisateur sait exactement d’où vient l’information et peut la vérifier en un clic. Les AI Overviews mélangent plusieurs sources sans que l’utilisateur puisse identifier quelle partie de la réponse vient de quelle source.
Les Featured Snippets ne génèrent pas de contenu. Ils extraient un passage exact d’une page. Les AI Overviews reformulent, synthétisent et parfois inventent. Le risque d’erreur est structurellement plus élevé.

La comparaison avec les Featured Snippets ne tient donc pas à l’examen. Ce sont deux fonctionnalités fondamentalement différentes en termes de risque pour l’utilisateur.

L'avenir des AI Overviews après cette enquête

Cette enquête du New York Times va-t-elle changer quelque chose ? Probablement pas à court terme. Google a trop investi dans les AI Overviews pour faire marche arrière. Mais plusieurs dynamiques sont en mouvement :

La pression médiatique s’intensifie. Après le NYT, Search Engine Land, Futurism, Popular Science et Ars Technica ont tous relayé les résultats. Le narratif « Google diffuse des millions d’erreurs par heure » est désormais installé dans le débat public.
La régulation européenne pourrait accélérer. L’AI Act et le Digital Services Act offrent déjà un cadre. Des obligations de transparence spécifiques sur les réponses IA générées dans les moteurs de recherche sont probables.
Les concurrents (Perplexity, ChatGPT Search) font face aux mêmes problèmes. Ce n’est pas un problème Google. C’est un problème structurel de l’IA générative appliquée à la recherche. La PME qui comprend ça prend de l’avance sur celles qui subissent.

Pour approfondir les AI Overviews et la visibilité IA

Cette enquête du NYT s’inscrit dans un corpus croissant d’études sur la fiabilité et l’impact des réponses IA dans la recherche. Pour aller plus loin :

L’impact mesuré des AI Overviews sur 9 secteurs : étude BrightEdge.
Pourquoi ChatGPT cite une page et pas une autre : étude Ahrefs 1,4M prompts.
Comment apparaître dans les réponses ChatGPT : stratégie complète.
Tous les termes de la visibilité IA : glossaire GEO.

FAQ

91% de précision, c'est un bon score pour une IA ?

Sur le papier, oui. C’est comparable aux meilleurs systèmes IA du marché. Mais à l’échelle de Google (5 000 milliards de recherches/an, 14 milliards/jour), 9% d’erreur produit des dizaines de millions de réponses fausses chaque heure. Un chirurgien qui réussit 91% de ses opérations ne serait pas considéré comme fiable. La question est : quel niveau d’erreur est acceptable quand l’outil est utilisé par des milliards de personnes ?

Que signifie "réponse non fondée" (ungrounded) ?

Une réponse « non fondée » est une réponse factuellement correcte mais dont les sources citées ne confirment pas l’information. L’IA donne la bonne réponse, mais les liens qu’elle fournit ne contiennent pas cette information. L’utilisateur qui veut vérifier la réponse en cliquant sur la source ne trouvera pas de confirmation. C’est le problème le plus insidieux des AI Overviews : une fausse impression de vérifiabilité.

Les AI Overviews peuvent-elles citer mon site de manière incorrecte ?

Oui. C’est exactement ce que montrent les 56% de réponses « non fondées ». L’IA peut affirmer quelque chose en citant votre page comme source, alors que votre page ne dit pas ça. Vous n’avez aucun contrôle direct sur ce que l’AI Overview fait de votre contenu. La seule stratégie est de structurer votre contenu de manière tellement claire et sans ambiguïté que l’IA ne puisse pas le mal interpréter.

Google va-t-il corriger ces problèmes ?

Google améliore progressivement ses modèles (de 85% à 91% en 4 mois). Mais le problème du sourcing non fondé s’est aggravé avec Gemini 3 (de 37% à 56%). C’est un problème structurel lié à la nature même des modèles de langage : ils génèrent des réponses probables, pas des réponses vérifiées. Tant que les AI Overviews reposeront sur des LLM, un certain taux d’erreur et de sourcing imparfait sera inévitable.

Sommaire

Une formation SEO 100% gratuite

Tout comprendre sur le référencement naturel, lors d’une visioconférence ou en physique.
Pour les entreprises désirantes d’apprendre à (mieux) utiliser le SEO.