Comment soumettre votre site à Google en 2026

Manuel Casalta Petitjean
Manuel cumule 15+ ans d'expertise en stratégie/production digitale et SEO. Formé chez McCann Erickson France, il a conseillé 3 entreprises du CAC 40, dont 8 ans Unibail-Rodamco-Westfield. AFK, Il pratique la boxe anglaise et organise des galas caritatifs à Londres. Vivant entre le Royaume-Uni et la Corse, il s'intéresse au paysagisme et à la protection de l'environnement local.
Soumettre son site à Google, en 2026, n’est plus l’opération technique d’autrefois, faite une fois et oubliée. La méthode a changé, et le périmètre aussi : aux côtés de Google, il faut désormais composer avec Bing (qui alimente ChatGPT), avec les bots des IA génératives, et avec un Google lui-même devenu plus sélectif depuis l’intégration du Helpful Content System dans le core ranking en mars 2024.
Schéma illustrant la cartographie des canaux d'indexation en 2026 : un site web central exposant son sitemap.xml et son robots.txt à une dizaine de bots simultanés (Googlebot, Bingbot, GPTBot, OAI-SearchBot, ClaudeBot, Claude-SearchBot, PerplexityBot, Applebot-Extended), chacun ouvrant l'accès à un écosystème de recherche ou d'IA distinct
Un sitemap, plusieurs destinataires : Le sitemap.xml et le robots.txt n’ont pas changé. Ce qui a changé, c’est le nombre d’interlocuteurs qu’ils servent. Là où Googlebot suffisait il y a cinq ans, il faut aujourd’hui composer avec près d’une dizaine de bots, chacun ouvrant l’accès à un écosystème de recherche ou d’IA distinct.

Tout cela reste gratuit. La majorité du travail tient en moins d’une heure pour qui sait s’y prendre. Le reste relève de la discipline.

Deux méthodes officielles, et seulement deux. Les deux sont gratuites, les deux fonctionnent, et la plupart des sites devraient utiliser les deux.

À savoir avant de commencer
Si vous tombez encore sur des tutoriels qui parlent de “pinger Google” via une URL du type http://www.google.com/ping?sitemap=..., ignorez. Google a déprécié ce service en juin 2023. L’endpoint renvoie une erreur 404 depuis fin 2023. Cette page n’en parlera plus.

Étape préalable : trouver l’URL de votre sitemap

Avant toute soumission, il vous faut votre sitemap. C’est un fichier XML qui liste les pages importantes du site. Selon votre CMS, le sitemap peut être pré-configuré.

  • Sur WordPress. Installez un plugin SEO (Yoast, Rank Math ou The SEO Framework, tous gratuits). Le sitemap se trouvera typiquement à votresite.com/sitemap_index.xml.
  • Sur Wix, Squarespace ou Shopify. Le sitemap est généré automatiquement à votresite.com/sitemap.xml.
  • Sur un autre CMS. Testez les trois URLs les plus courantes : sitemap.xml, sitemap_index.xml, sitemap1.xml.

Si rien ne ressort, ouvrez votresite.com/robots.txt. L’emplacement du sitemap y est presque toujours déclaré.

Limites techniques à connaître

Un sitemap unique ne peut pas dépasser 50 000 URLs ni 50 Mo non compressés. Au-delà, Google le tronque. Pour les sites volumineux, la solution est le sitemap index : un fichier XML qui pointe vers plusieurs sitemaps. Il peut référencer jusqu’à 50 000 sous-sitemaps, soit 2,5 milliards d’URLs en théorie.

Petit point sur la balise <lastmod>. Elle indique la date de dernière modification d’une page. Depuis 2023, Google s’en sert pour prioriser le re-crawl. Deux conditions pour qu’elle marche :

  • Le format doit être conforme ISO 8601 (2026-04-15 ou 2026-04-15T10:30:00+00:00). Search Console rejette les autres formats.
  • La date doit refléter une vraie modification significative. Changer le footer ne compte pas. Si vous mentez sur les dates, Google finit par ignorer la balise.

Quant aux balises <priority> et <changefreq> ? Google les ignore. Gary Illyes les qualifie publiquement de “bag of noise”. N’y passez pas de temps.

Méthode 1 : Soumettre votre sitemap dans la Google Search Console

C’est la méthode recommandée par Google et la plus complète. La GSC vous remontera les erreurs éventuelles et suivra l’état d’indexation dans le temps.

Si vous n’utilisez pas encore la Google Search Console, il faut commencer par y inscrire votre site. Six méthodes de vérification de propriété existent : enregistrement DNS, fichier HTML à la racine, balise meta dans le <head>, association à Google Analytics, association à Google Tag Manager, ou via votre registrar de domaine. Le DNS est recommandé : il vérifie l’ensemble du domaine, sous-domaines compris.

Une fois la propriété vérifiée :

  1. Connectez-vous à la Google Search Console.
  2. Sélectionnez la bonne propriété.
  3. Cliquez sur Sitemaps dans le menu de gauche.
  4. Collez l’URL du sitemap.
  5. Cliquez sur Envoyer.

C’est terminé. La GSC vous alertera désormais en cas d’erreur de parsing, et vous pourrez comparer le nombre d’URLs soumises au nombre d’URLs réellement indexées.

Le détail qui compte
Préférez la Domain property plutôt que la URL prefix property quand vous configurez votre site. La première couvre toutes les variantes (HTTP, HTTPS, www, sous-domaines) en une seule fois. La seconde est plus restrictive et oblige à créer plusieurs propriétés en parallèle.

Méthode 2 : Déclarer le sitemap dans votre robots.txt

Depuis la dépréciation du ping, c’est la deuxième méthode officielle. Elle a un avantage décisif : elle marche pour tous les moteurs qui crawlent votre site, pas juste Google.

Ajoutez simplement cette ligne à la fin de votre robots.txt :

Sitemap: https://votresite.com/sitemap.xml

Vous pouvez en déclarer plusieurs si nécessaire. Cette méthode ne nécessite aucune renotification quand vous mettez à jour le sitemap : les moteurs viennent le consulter d’eux-mêmes, à intervalles réguliers.

Faut-il choisir entre les deux méthodes ? Non. Faites les deux. La GSC vous donne du diagnostic, le robots.txt couvre les autres moteurs. Aucun conflit.

Vous avez publié une nouvelle page et vous voulez accélérer son indexation. Une seule méthode officielle marche encore en 2026.

L’outil d’inspection d’URL de Google

  1. Connectez-vous à la Google Search Console.
  2. Sélectionnez la bonne propriété.
  3. Cliquez sur Inspection d’URL dans le menu de gauche (ou utilisez la barre de recherche en haut).
  4. Collez l’URL.
  5. Tapez Entrée.
  6. Cliquez sur Demander l’indexation.

C’est utile pour une ou deux pages prioritaires. Pas plus. Une limite quotidienne s’applique : autour de 10 à 15 URLs par jour par propriété. Au-delà, vous obtenez un message “Quota exceeded”.

Pour des volumes plus importants, la bonne réponse est ailleurs : assurez-vous que vos pages figurent dans votre sitemap déjà soumis, et laissez Google faire son travail.

Interface de Google Search Console montrant l'outil Inspection de l'URL en français, avec une URL du site playcall-basket.com soumise pour analyse et le diagnostic "Cette URL n'a pas été indexée par Google" affichant une erreur liée à des redirections.
L’outil Inspection de l’URL de Google Search Console : on y colle l’URL à diagnostiquer, et l’interface remonte immédiatement le statut d’indexation. Ici, un cas d’école où la page est bloquée par une erreur de redirection. Le bouton “Demander une indexation” n’aurait servi à rien tant que le problème technique sous-jacent n’est pas réglé.

Et la Google Indexing API ?

Vous en entendrez parler tôt ou tard. C’est une API officielle, gratuite, et bien plus rapide que tout le reste. Le hic : Google la limite explicitement à deux types de pages seulement : les offres d’emploi (JobPosting) et les retransmissions en direct (BroadcastEvent dans un VideoObject).

L’utiliser pour un blog, un produit e-commerce ou un article a peu de sens. Google ignore les requêtes hors-périmètre, et certains témoignages laissent penser que l’usage abusif peut même nuire à l’indexation. John Mueller a comparé l’opération à « mettre des photos d’engins de chantier sur un site médical ». Pour tout ce qui n’est pas un job board ou un livestream, le sitemap reste la voie.

Soumettre, c’est bien. Vérifier que ça a marché, c’est mieux. Deux méthodes complémentaires.

L’opérateur site:

Tapez dans Google :

site:votresite.com

Vous obtenez une estimation des pages indexées. C’est rapide, c’est gratuit, c’est utile pour un coup d’œil.

Mais attention. Gary Illyes (Google) a confirmé publiquement que l’opérateur site: n’affiche pas une liste exhaustive : “it shows me some of the pages that are indexed”. Le compte affiché est une estimation, parfois très éloignée de la réalité. Utilisez-le pour des vérifications ponctuelles (“cette page précise est-elle indexée ?”), pas pour des audits sérieux.

Le rapport « Indexation des pages » dans la GSC

C’est la vraie source de vérité. Direction : Indexation > Pages dans la Google Search Console (ce rapport s’appelait “Couverture” avant 2022, certains anciens articles parlent encore de ce nom).

Vous y verrez deux courbes. En vert, les pages indexées. En gris, les pages non indexées. En dessous, la liste des motifs de non-indexation, par ordre de fréquence. Cliquer sur chaque motif donne la liste des URLs concernées.

C’est ici que se règlent 90 % des problèmes d’indexation.

Capture d'écran du rapport Indexation des pages dans Google Search Console, affichant le graphique des pages indexées en vert et non indexées en gris sur trois mois, ainsi que la liste détaillée des motifs de non-indexation triés par nombre d'URLs concernées
Le rapport Indexation des pages, anciennement « Couverture » avant 2022, distingue les URLs indexées (en vert) des URLs connues mais non indexées (en gris). La liste des motifs détaillés en dessous du graphique est ce qui permet, dans la quasi-totalité des cas, de comprendre exactement pourquoi une page reste invisible.

En 2026, soumettre uniquement à Google revient à se priver de gros canaux de visibilité. Voici la stratégie complète.

Bing Webmaster Tools : le réflexe oublié

Souvent négligé, c’est pourtant devenu critique. Pourquoi ?

  • ChatGPT Search s’appuie sur l’index de Bing pour son grounding (la récupération d’information en temps réel)
  • DuckDuckGo s’appuie principalement sur l’index de Bing
  • Bing accepte 10 000 URLs par jour en soumission manuelle, contre 10 à 15 pour Google. C’est massif

Le processus est rapide. Direction bing.com/webmasters, importez votre site depuis Google Search Console (la fonctionnalité existe et évite de refaire la vérification), et soumettez votre sitemap. Cinq minutes.

IndexNow : la notification temps réel

IndexNow est un protocole ouvert. Il permet de notifier instantanément les moteurs participants à chaque création, modification ou suppression d’URL. Pas d’attente du prochain crawl.

Les moteurs qui supportent IndexNow officiellement : Bing, Yandex, Naver (Corée), Seznam (République tchèque) et Yep. Pas Google, qui “teste le protocole” depuis 2021 sans jamais l’adopter. Et pas DuckDuckGo non plus de manière directe, contrairement à ce qu’on lit souvent : DuckDuckGo bénéficie indirectement d’IndexNow parce qu’il s’appuie sur l’index de Bing.

L’implémentation est triviale sur les CMS modernes. Sur WordPress, Yoast et Rank Math l’intègrent en natif depuis 2024. Sur Wix et Shopify, c’est activé par défaut. Sur Cloudflare, il suffit de cocher une case. La page dédiée d’Ahrefs à IndexNow couvre l’implémentation manuelle pour ceux qui veulent aller plus loin.

Les bots IA : la nouvelle réalité

Si on pousse la logique au bout : en 2026, “soumettre son site” n’est plus une opération à sens unique vers Google. Plusieurs catégories de bots se partagent désormais le web, et chacune ouvre un canal de visibilité différent.

BotRôleBloquer = invisible où
GooglebotIndex GoogleGoogle + AI Overviews + Gemini grounding
BingbotIndex BingBing + ChatGPT search + DuckDuckGo
GPTBotEntraînement OpenAIModèles GPT futurs
OAI-SearchBotCitations ChatGPTRéponses ChatGPT en mode search
ClaudeBot / Claude-SearchBotAnthropicCitations dans Claude
PerplexityBotPerplexityCitations Perplexity
Google-ExtendedEntraînement GeminiEntraînement uniquement
Applebot-ExtendedApple IntelligenceCitations Apple AI

OpenAI le dit explicitement dans sa documentation : un site qui bloque OAI-SearchBot n’apparaît pas dans les réponses ChatGPT. C’est l’équivalent moderne du “pas indexé par Google” d’il y a cinq ans.

La stratégie robots.txt en 2026

L’arbitrage à faire : voulez-vous être cité par les IA (search bots) ? Voulez-vous entraîner les modèles avec votre contenu (training bots) ?

Une approche fréquente chez les éditeurs en 2026 : autoriser les bots de recherche, bloquer les bots d’entraînement. Exemple :

# Autoriser la recherche IA (envoie du trafic)
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

# Bloquer l'entraînement (pas de trafic en retour)
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

C’est un choix éditorial, pas une obligation. Mais en faire un, c’est mieux que laisser les bots se servir sans cadre.

À vérifier avec Ahrefs
Site Audit d’Ahrefs crawle votre site et vous remonte si une règle robots.txt bloque par erreur des ressources ou des bots dont vous voulez l’attention. C’est le moyen le plus rapide de détecter un blocage involontaire.

Plus ou moins.

Google finira par trouver les pages utiles tout seul, même sans soumission. Mais l’aider présente plusieurs avantages tangibles. Pour comprendre pourquoi, un détour par les coulisses.

Comment Google trouve et indexe une page

Quatre étapes, toujours dans le même ordre.

  • 1. Découverte. Google apprend que la page existe. Soit via un sitemap, soit via un lien (interne ou externe).
  • 2. Crawl. Googlebot visite la page et télécharge son contenu. C’est le moment où le robots.txt peut bloquer.
  • 3. Traitement. Google parse le HTML, exécute le JavaScript (rendu), extrait les informations clés.
  • 4. Indexation. La page entre dans l’index : la base de données géante qui sert ensuite les réponses sur les SERPs et les IA génératives. C’est la bibliothèque numérique dans laquelle Google pioche.

Soumettre un sitemap, c’est accélérer l’étape 1. Comme tout processus en chaîne, plus on commence tôt, plus on finit tôt.

Trois bonnes raisons de soumettre votre sitemap

1. Vous indiquez à Google quelles pages sont importantes. Un sitemap bien construit ne contient que les pages canoniques, indexables, à valeur. Pas les filtres e-commerce, pas les pages de tag, pas les versions imprimables. Vous orientez Google vers les bonnes URLs et limitez les confusions sur le contenu dupliqué.

2. Vous accélérez la découverte des nouvelles pages. La plupart des CMS ajoutent automatiquement les nouvelles URLs au sitemap, on en parlait dans notre guide sur le SEO avec WordPress. Plus besoin de soumettre une à une. Et grâce à la balise <lastmod>, Google sait quelles pages ont été modifiées depuis son dernier passage.

3. Vous résolvez le problème des pages orphelines. Une page orpheline est une page sans lien interne. Sans sitemap, Google ne peut pas la trouver, sauf via un backlink externe. Avec sitemap, vous lui ouvrez la porte. La plupart des CMS incluent automatiquement les pages orphelines dans le sitemap, donc le problème se règle souvent tout seul.

Officiellement, Google parle de “quelques jours à quelques semaines”. Sur un site existant qui ajoute une page, c’est rarement plus d’une à deux semaines. Sur un site neuf, ça peut prendre un mois ou plus.

Pas de panique si c’est lent. Depuis 2022, Google est devenu nettement plus sélectif. Il n’indexe pas toutes les URLs qu’il découvre, en particulier sur les nouveaux sites ou les pages qu’il juge à faible valeur. Une URL peut parfaitement être crawlée par Googlebot sans jamais être indexée. C’est une décision algorithmique, pas une erreur.

Si une page met trop de temps, ou ne s’indexe jamais, voici les raisons les plus fréquentes, par ordre de probabilité.

1. Le crawl est bloqué par le robots.txt

Le fichier robots.txt indique à Google les URLs qu’il peut ou ne peut pas explorer. Une erreur classique :

User-agent: Googlebot
Disallow: /

Cette directive empêche tout crawl. Et sans crawl, pas d’indexation, à de très rares exceptions près.

Pour vérifier : dans la GSC, allez dans le rapport Indexation des pages et cherchez les motifs Bloquée par le fichier robots.txt, URL envoyée bloquée par le fichier robots.txt, ou Indexée malgré le blocage par le fichier robots.txt.

2. Vous avez mis des balises noindex là où il ne fallait pas

Une balise <meta name="robots" content="noindex"> ou un en-tête HTTP X-Robots-Tag: noindex empêche l’indexation, point. Google obéit toujours.

L’erreur typique : un site WordPress avec l’option “Demander aux moteurs de recherche de ne pas indexer ce site” cochée par erreur en production. Vérifiez Réglages > Lecture dans WordPress.

Site Audit d’Ahrefs Webmaster Tools (gratuit) vérifie automatiquement une centaine de problèmes SEO, dont les balises noindex involontaires. Utile pour balayer un site complet d’un coup.

3. Votre site n’est pas adapté au mobile

Depuis juillet 2024, Google est passé en mobile-first indexing à 100 %. Cela signifie qu’il indexe la version mobile de votre site, pas la version desktop. Si votre site est défaillant sur mobile (texte illisible, boutons trop petits, contenu masqué, JavaScript qui ne charge pas), Google peut décider de ne pas indexer.

Test rapide : visitez votre page sur smartphone. Si vous devez zoomer, scroller horizontalement, ou attendre 10 secondes le chargement, vous avez un problème.

4. La page est jugée à faible valeur

Google n’indexe pas tout. Surtout depuis l’intégration du Helpful Content System dans le core ranking en mars 2024. Conséquence : un contenu générique, dupliqué, ou produit à la chaîne (avec ou sans IA) a peu de chances d’entrer dans l’index.

Dans un tweet de 2018 resté célèbre, John Mueller résumait :

Nous n’indexons jamais toutes les URLs connues, c’est plutôt normal. Concentrez-vous sur rendre votre site génial et inspirant, les choses devraient s’améliorer ensuite.

John Mueller (Google)

Cette position s’est renforcée depuis. Si une page n’est pas indexée et que vous avez écarté les problèmes techniques, posez-vous honnêtement la question : est-ce que cette page apporte vraiment de la valeur à un humain ? Si non, vous avez votre réponse.

Capture d'écran de la page profil officielle de John Mueller sur le blog Google Search Central, présentant son rôle de coordinateur de l'équipe Google Search Relations, sa biographie professionnelle décrivant son travail d'interface entre l'ingénierie de la recherche Google et les éditeurs de sites, ainsi que son portrait
L’interface officielle entre Google et les éditeurs : John Mueller coordonne l’équipe Google Search Relations depuis plus de quinze ans. Sa parole publique, sur X comme sur le blog Google Search Central, sert de référence à la communauté SEO mondiale. Ses positions sur l’indexation, déjà claires en 2018, se sont durcies à mesure que Google devenait plus sélectif.

5. Crawled - currently not indexed

Ce statut, dans le rapport Indexation des pages, signifie : Google a vu votre page, mais a décidé de ne pas l’indexer. Ses causes typiques :

  • Qualité jugée insuffisante
  • Trop de contenu similaire ailleurs sur le site (duplication interne)
  • Site dans son ensemble jugé peu fiable
  • Page trop fine (peu de texte, peu d’éléments différenciants)

La solution n’est pas de re-soumettre. C’est d’améliorer la page. Étoffer le contenu, ajouter de la valeur originale (données propres, retour d’expérience, illustrations, données structurées), améliorer le maillage interne. Puis re-soumettre.

6. Discovered - currently not indexed

Variation du précédent : Google connaît l’existence de l’URL (via votre sitemap par exemple), mais n’a même pas pris la peine de la crawler. Causes possibles :

  • Crawl budget insuffisant pour votre site (cas des très gros sites)
  • Site neuf avec peu d’autorité
  • Pattern d’URL jugé peu prometteur (Google détecte des signaux de duplication ou de thin content)

Pour ces deux statuts, Site Audit d’Ahrefs permet de croiser les pages non indexées avec leurs métriques (mots, backlinks, clics organiques) pour repérer les patterns. Les pages avec moins de 500 mots et zéro lien interne sont presque toujours les premières à rester à la traîne.

7. Le contenu est dupliqué

Une page très similaire à une autre (la vôtre ou ailleurs) sera ignorée au profit de la version canonique. Ce contenu dupliqué est un cas fréquent sur les sites e-commerce avec beaucoup de filtres ou de variantes produit.

Le rapport Contenu dupliqué d’Ahrefs Site Audit identifie les clusters de pages quasi-similaires. Typiquement, sur un site e-commerce, vous trouverez des catégories vides (sans produit) qui sont quasi-identiques entre elles. À supprimer ou à enrichir.

Capture d'écran du rapport Duplicates dans Ahrefs Site Audit affichant la distribution du contenu dupliqué sur quatre dimensions (Title tag, Description, H1 tag, Content) sous forme de barres de progression horizontales, ainsi qu'une section dédiée aux clusters de pages au contenu quasi-dupliqué avec un toggle entre Near duplicates et Exact duplicates
Le double filet de sécurité : Au-delà de la détection des balises noindex et des blocages robots.txt, Ahrefs Site Audit identifie automatiquement les pages au contenu identique ou similaire, sur quatre dimensions distinctes. 

Le mot de la fin

Soumettre son site à Google ne garantit pas la visibilité. C’est une condition d’éligibilité, rien de plus : la promesse que le travail SEO peut commencer.

Trois ans après la dépréciation du ping, l’écosystème s’est reconfiguré autour d’autres logiques. La boîte à outils est presque identique à celle de 2020 : sitemap, robots.txt, Search Console, Webmaster Tools côté Bing. Ce qui change, c’est qu’il faut désormais la manier pour plusieurs interlocuteurs simultanés. Google et Bing, bien sûr. Mais aussi GPTBot et OAI-SearchBot. ClaudeBot et Claude-SearchBot. PerplexityBot. Google-Extended. Et la liste s’allonge à chaque trimestre, à mesure que de nouveaux modèles génératifs apparaissent et qu’ils se mettent à fixer leurs propres règles d’accès.

La discipline d’indexation, longtemps ponctuelle, est devenue continue. Et les sites qui avaient pris au sérieux ces fondamentaux techniques il y a quelques années, parfois sans en mesurer l’enjeu, se retrouvent aujourd’hui avec une forme d’avance qu’ils n’ont pas eu à construire.