
Tout cela reste gratuit. La majorité du travail tient en moins d’une heure pour qui sait s’y prendre. Le reste relève de la discipline.
Deux méthodes officielles, et seulement deux. Les deux sont gratuites, les deux fonctionnent, et la plupart des sites devraient utiliser les deux.
http://www.google.com/ping?sitemap=..., ignorez. Google a déprécié ce service en juin 2023. L’endpoint renvoie une erreur 404 depuis fin 2023. Cette page n’en parlera plus.Étape préalable : trouver l’URL de votre sitemap
Avant toute soumission, il vous faut votre sitemap. C’est un fichier XML qui liste les pages importantes du site. Selon votre CMS, le sitemap peut être pré-configuré.
- Sur WordPress. Installez un plugin SEO (Yoast, Rank Math ou The SEO Framework, tous gratuits). Le sitemap se trouvera typiquement à
votresite.com/sitemap_index.xml. - Sur Wix, Squarespace ou Shopify. Le sitemap est généré automatiquement à
votresite.com/sitemap.xml. - Sur un autre CMS. Testez les trois URLs les plus courantes :
sitemap.xml,sitemap_index.xml,sitemap1.xml.
Si rien ne ressort, ouvrez votresite.com/robots.txt. L’emplacement du sitemap y est presque toujours déclaré.
Limites techniques à connaître
Un sitemap unique ne peut pas dépasser 50 000 URLs ni 50 Mo non compressés. Au-delà, Google le tronque. Pour les sites volumineux, la solution est le sitemap index : un fichier XML qui pointe vers plusieurs sitemaps. Il peut référencer jusqu’à 50 000 sous-sitemaps, soit 2,5 milliards d’URLs en théorie.
Petit point sur la balise <lastmod>. Elle indique la date de dernière modification d’une page. Depuis 2023, Google s’en sert pour prioriser le re-crawl. Deux conditions pour qu’elle marche :
- Le format doit être conforme ISO 8601 (
2026-04-15ou2026-04-15T10:30:00+00:00). Search Console rejette les autres formats. - La date doit refléter une vraie modification significative. Changer le footer ne compte pas. Si vous mentez sur les dates, Google finit par ignorer la balise.
Quant aux balises <priority> et <changefreq> ? Google les ignore. Gary Illyes les qualifie publiquement de “bag of noise”. N’y passez pas de temps.
Méthode 1 : Soumettre votre sitemap dans la Google Search Console
C’est la méthode recommandée par Google et la plus complète. La GSC vous remontera les erreurs éventuelles et suivra l’état d’indexation dans le temps.
Si vous n’utilisez pas encore la Google Search Console, il faut commencer par y inscrire votre site. Six méthodes de vérification de propriété existent : enregistrement DNS, fichier HTML à la racine, balise meta dans le <head>, association à Google Analytics, association à Google Tag Manager, ou via votre registrar de domaine. Le DNS est recommandé : il vérifie l’ensemble du domaine, sous-domaines compris.
Une fois la propriété vérifiée :
- Connectez-vous à la Google Search Console.
- Sélectionnez la bonne propriété.
- Cliquez sur Sitemaps dans le menu de gauche.
- Collez l’URL du sitemap.
- Cliquez sur Envoyer.
C’est terminé. La GSC vous alertera désormais en cas d’erreur de parsing, et vous pourrez comparer le nombre d’URLs soumises au nombre d’URLs réellement indexées.
Méthode 2 : Déclarer le sitemap dans votre robots.txt
Depuis la dépréciation du ping, c’est la deuxième méthode officielle. Elle a un avantage décisif : elle marche pour tous les moteurs qui crawlent votre site, pas juste Google.
Ajoutez simplement cette ligne à la fin de votre robots.txt :
Sitemap: https://votresite.com/sitemap.xml
Vous pouvez en déclarer plusieurs si nécessaire. Cette méthode ne nécessite aucune renotification quand vous mettez à jour le sitemap : les moteurs viennent le consulter d’eux-mêmes, à intervalles réguliers.
Faut-il choisir entre les deux méthodes ? Non. Faites les deux. La GSC vous donne du diagnostic, le robots.txt couvre les autres moteurs. Aucun conflit.
Vous avez publié une nouvelle page et vous voulez accélérer son indexation. Une seule méthode officielle marche encore en 2026.
L’outil d’inspection d’URL de Google
- Connectez-vous à la Google Search Console.
- Sélectionnez la bonne propriété.
- Cliquez sur Inspection d’URL dans le menu de gauche (ou utilisez la barre de recherche en haut).
- Collez l’URL.
- Tapez Entrée.
- Cliquez sur Demander l’indexation.
C’est utile pour une ou deux pages prioritaires. Pas plus. Une limite quotidienne s’applique : autour de 10 à 15 URLs par jour par propriété. Au-delà, vous obtenez un message “Quota exceeded”.
Pour des volumes plus importants, la bonne réponse est ailleurs : assurez-vous que vos pages figurent dans votre sitemap déjà soumis, et laissez Google faire son travail.

Et la Google Indexing API ?
Vous en entendrez parler tôt ou tard. C’est une API officielle, gratuite, et bien plus rapide que tout le reste. Le hic : Google la limite explicitement à deux types de pages seulement : les offres d’emploi (JobPosting) et les retransmissions en direct (BroadcastEvent dans un VideoObject).
L’utiliser pour un blog, un produit e-commerce ou un article a peu de sens. Google ignore les requêtes hors-périmètre, et certains témoignages laissent penser que l’usage abusif peut même nuire à l’indexation. John Mueller a comparé l’opération à « mettre des photos d’engins de chantier sur un site médical ». Pour tout ce qui n’est pas un job board ou un livestream, le sitemap reste la voie.
Soumettre, c’est bien. Vérifier que ça a marché, c’est mieux. Deux méthodes complémentaires.
L’opérateur site:
Tapez dans Google :
site:votresite.com
Vous obtenez une estimation des pages indexées. C’est rapide, c’est gratuit, c’est utile pour un coup d’œil.
Mais attention. Gary Illyes (Google) a confirmé publiquement que l’opérateur site: n’affiche pas une liste exhaustive : “it shows me some of the pages that are indexed”. Le compte affiché est une estimation, parfois très éloignée de la réalité. Utilisez-le pour des vérifications ponctuelles (“cette page précise est-elle indexée ?”), pas pour des audits sérieux.
Le rapport « Indexation des pages » dans la GSC
C’est la vraie source de vérité. Direction : Indexation > Pages dans la Google Search Console (ce rapport s’appelait “Couverture” avant 2022, certains anciens articles parlent encore de ce nom).
Vous y verrez deux courbes. En vert, les pages indexées. En gris, les pages non indexées. En dessous, la liste des motifs de non-indexation, par ordre de fréquence. Cliquer sur chaque motif donne la liste des URLs concernées.
C’est ici que se règlent 90 % des problèmes d’indexation.

En 2026, soumettre uniquement à Google revient à se priver de gros canaux de visibilité. Voici la stratégie complète.
Bing Webmaster Tools : le réflexe oublié
Souvent négligé, c’est pourtant devenu critique. Pourquoi ?
- ChatGPT Search s’appuie sur l’index de Bing pour son grounding (la récupération d’information en temps réel)
- DuckDuckGo s’appuie principalement sur l’index de Bing
- Bing accepte 10 000 URLs par jour en soumission manuelle, contre 10 à 15 pour Google. C’est massif
Le processus est rapide. Direction bing.com/webmasters, importez votre site depuis Google Search Console (la fonctionnalité existe et évite de refaire la vérification), et soumettez votre sitemap. Cinq minutes.
IndexNow : la notification temps réel
IndexNow est un protocole ouvert. Il permet de notifier instantanément les moteurs participants à chaque création, modification ou suppression d’URL. Pas d’attente du prochain crawl.
Les moteurs qui supportent IndexNow officiellement : Bing, Yandex, Naver (Corée), Seznam (République tchèque) et Yep. Pas Google, qui “teste le protocole” depuis 2021 sans jamais l’adopter. Et pas DuckDuckGo non plus de manière directe, contrairement à ce qu’on lit souvent : DuckDuckGo bénéficie indirectement d’IndexNow parce qu’il s’appuie sur l’index de Bing.
L’implémentation est triviale sur les CMS modernes. Sur WordPress, Yoast et Rank Math l’intègrent en natif depuis 2024. Sur Wix et Shopify, c’est activé par défaut. Sur Cloudflare, il suffit de cocher une case. La page dédiée d’Ahrefs à IndexNow couvre l’implémentation manuelle pour ceux qui veulent aller plus loin.
Les bots IA : la nouvelle réalité
Si on pousse la logique au bout : en 2026, “soumettre son site” n’est plus une opération à sens unique vers Google. Plusieurs catégories de bots se partagent désormais le web, et chacune ouvre un canal de visibilité différent.
| Bot | Rôle | Bloquer = invisible où |
|---|---|---|
| Googlebot | Index Google | Google + AI Overviews + Gemini grounding |
| Bingbot | Index Bing | Bing + ChatGPT search + DuckDuckGo |
| GPTBot | Entraînement OpenAI | Modèles GPT futurs |
| OAI-SearchBot | Citations ChatGPT | Réponses ChatGPT en mode search |
| ClaudeBot / Claude-SearchBot | Anthropic | Citations dans Claude |
| PerplexityBot | Perplexity | Citations Perplexity |
| Google-Extended | Entraînement Gemini | Entraînement uniquement |
| Applebot-Extended | Apple Intelligence | Citations Apple AI |
OpenAI le dit explicitement dans sa documentation : un site qui bloque OAI-SearchBot n’apparaît pas dans les réponses ChatGPT. C’est l’équivalent moderne du “pas indexé par Google” d’il y a cinq ans.
La stratégie robots.txt en 2026
L’arbitrage à faire : voulez-vous être cité par les IA (search bots) ? Voulez-vous entraîner les modèles avec votre contenu (training bots) ?
Une approche fréquente chez les éditeurs en 2026 : autoriser les bots de recherche, bloquer les bots d’entraînement. Exemple :
# Autoriser la recherche IA (envoie du trafic)
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
# Bloquer l'entraînement (pas de trafic en retour)
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
C’est un choix éditorial, pas une obligation. Mais en faire un, c’est mieux que laisser les bots se servir sans cadre.
robots.txt bloque par erreur des ressources ou des bots dont vous voulez l’attention. C’est le moyen le plus rapide de détecter un blocage involontaire.Plus ou moins.
Google finira par trouver les pages utiles tout seul, même sans soumission. Mais l’aider présente plusieurs avantages tangibles. Pour comprendre pourquoi, un détour par les coulisses.
Comment Google trouve et indexe une page
Quatre étapes, toujours dans le même ordre.
- 1. Découverte. Google apprend que la page existe. Soit via un sitemap, soit via un lien (interne ou externe).
- 2. Crawl. Googlebot visite la page et télécharge son contenu. C’est le moment où le
robots.txtpeut bloquer. - 3. Traitement. Google parse le HTML, exécute le JavaScript (rendu), extrait les informations clés.
- 4. Indexation. La page entre dans l’index : la base de données géante qui sert ensuite les réponses sur les SERPs et les IA génératives. C’est la bibliothèque numérique dans laquelle Google pioche.
Soumettre un sitemap, c’est accélérer l’étape 1. Comme tout processus en chaîne, plus on commence tôt, plus on finit tôt.
Trois bonnes raisons de soumettre votre sitemap
1. Vous indiquez à Google quelles pages sont importantes. Un sitemap bien construit ne contient que les pages canoniques, indexables, à valeur. Pas les filtres e-commerce, pas les pages de tag, pas les versions imprimables. Vous orientez Google vers les bonnes URLs et limitez les confusions sur le contenu dupliqué.
2. Vous accélérez la découverte des nouvelles pages. La plupart des CMS ajoutent automatiquement les nouvelles URLs au sitemap, on en parlait dans notre guide sur le SEO avec WordPress. Plus besoin de soumettre une à une. Et grâce à la balise <lastmod>, Google sait quelles pages ont été modifiées depuis son dernier passage.
3. Vous résolvez le problème des pages orphelines. Une page orpheline est une page sans lien interne. Sans sitemap, Google ne peut pas la trouver, sauf via un backlink externe. Avec sitemap, vous lui ouvrez la porte. La plupart des CMS incluent automatiquement les pages orphelines dans le sitemap, donc le problème se règle souvent tout seul.
Officiellement, Google parle de “quelques jours à quelques semaines”. Sur un site existant qui ajoute une page, c’est rarement plus d’une à deux semaines. Sur un site neuf, ça peut prendre un mois ou plus.
Pas de panique si c’est lent. Depuis 2022, Google est devenu nettement plus sélectif. Il n’indexe pas toutes les URLs qu’il découvre, en particulier sur les nouveaux sites ou les pages qu’il juge à faible valeur. Une URL peut parfaitement être crawlée par Googlebot sans jamais être indexée. C’est une décision algorithmique, pas une erreur.
Si une page met trop de temps, ou ne s’indexe jamais, voici les raisons les plus fréquentes, par ordre de probabilité.
1. Le crawl est bloqué par le robots.txt
Le fichier robots.txt indique à Google les URLs qu’il peut ou ne peut pas explorer. Une erreur classique :
User-agent: Googlebot
Disallow: /
Cette directive empêche tout crawl. Et sans crawl, pas d’indexation, à de très rares exceptions près.
Pour vérifier : dans la GSC, allez dans le rapport Indexation des pages et cherchez les motifs Bloquée par le fichier robots.txt, URL envoyée bloquée par le fichier robots.txt, ou Indexée malgré le blocage par le fichier robots.txt.
2. Vous avez mis des balises noindex là où il ne fallait pas
Une balise <meta name="robots" content="noindex"> ou un en-tête HTTP X-Robots-Tag: noindex empêche l’indexation, point. Google obéit toujours.
L’erreur typique : un site WordPress avec l’option “Demander aux moteurs de recherche de ne pas indexer ce site” cochée par erreur en production. Vérifiez Réglages > Lecture dans WordPress.
Site Audit d’Ahrefs Webmaster Tools (gratuit) vérifie automatiquement une centaine de problèmes SEO, dont les balises noindex involontaires. Utile pour balayer un site complet d’un coup.
3. Votre site n’est pas adapté au mobile
Depuis juillet 2024, Google est passé en mobile-first indexing à 100 %. Cela signifie qu’il indexe la version mobile de votre site, pas la version desktop. Si votre site est défaillant sur mobile (texte illisible, boutons trop petits, contenu masqué, JavaScript qui ne charge pas), Google peut décider de ne pas indexer.
Test rapide : visitez votre page sur smartphone. Si vous devez zoomer, scroller horizontalement, ou attendre 10 secondes le chargement, vous avez un problème.
4. La page est jugée à faible valeur
Google n’indexe pas tout. Surtout depuis l’intégration du Helpful Content System dans le core ranking en mars 2024. Conséquence : un contenu générique, dupliqué, ou produit à la chaîne (avec ou sans IA) a peu de chances d’entrer dans l’index.
Dans un tweet de 2018 resté célèbre, John Mueller résumait :
Nous n’indexons jamais toutes les URLs connues, c’est plutôt normal. Concentrez-vous sur rendre votre site génial et inspirant, les choses devraient s’améliorer ensuite.
John Mueller (Google)
Cette position s’est renforcée depuis. Si une page n’est pas indexée et que vous avez écarté les problèmes techniques, posez-vous honnêtement la question : est-ce que cette page apporte vraiment de la valeur à un humain ? Si non, vous avez votre réponse.

5. Crawled - currently not indexed
Ce statut, dans le rapport Indexation des pages, signifie : Google a vu votre page, mais a décidé de ne pas l’indexer. Ses causes typiques :
- Qualité jugée insuffisante
- Trop de contenu similaire ailleurs sur le site (duplication interne)
- Site dans son ensemble jugé peu fiable
- Page trop fine (peu de texte, peu d’éléments différenciants)
La solution n’est pas de re-soumettre. C’est d’améliorer la page. Étoffer le contenu, ajouter de la valeur originale (données propres, retour d’expérience, illustrations, données structurées), améliorer le maillage interne. Puis re-soumettre.
6. Discovered - currently not indexed
Variation du précédent : Google connaît l’existence de l’URL (via votre sitemap par exemple), mais n’a même pas pris la peine de la crawler. Causes possibles :
- Crawl budget insuffisant pour votre site (cas des très gros sites)
- Site neuf avec peu d’autorité
- Pattern d’URL jugé peu prometteur (Google détecte des signaux de duplication ou de thin content)
Pour ces deux statuts, Site Audit d’Ahrefs permet de croiser les pages non indexées avec leurs métriques (mots, backlinks, clics organiques) pour repérer les patterns. Les pages avec moins de 500 mots et zéro lien interne sont presque toujours les premières à rester à la traîne.
7. Le contenu est dupliqué
Une page très similaire à une autre (la vôtre ou ailleurs) sera ignorée au profit de la version canonique. Ce contenu dupliqué est un cas fréquent sur les sites e-commerce avec beaucoup de filtres ou de variantes produit.
Le rapport Contenu dupliqué d’Ahrefs Site Audit identifie les clusters de pages quasi-similaires. Typiquement, sur un site e-commerce, vous trouverez des catégories vides (sans produit) qui sont quasi-identiques entre elles. À supprimer ou à enrichir.

Le mot de la fin
Soumettre son site à Google ne garantit pas la visibilité. C’est une condition d’éligibilité, rien de plus : la promesse que le travail SEO peut commencer.
Trois ans après la dépréciation du ping, l’écosystème s’est reconfiguré autour d’autres logiques. La boîte à outils est presque identique à celle de 2020 : sitemap, robots.txt, Search Console, Webmaster Tools côté Bing. Ce qui change, c’est qu’il faut désormais la manier pour plusieurs interlocuteurs simultanés. Google et Bing, bien sûr. Mais aussi GPTBot et OAI-SearchBot. ClaudeBot et Claude-SearchBot. PerplexityBot. Google-Extended. Et la liste s’allonge à chaque trimestre, à mesure que de nouveaux modèles génératifs apparaissent et qu’ils se mettent à fixer leurs propres règles d’accès.
La discipline d’indexation, longtemps ponctuelle, est devenue continue. Et les sites qui avaient pris au sérieux ces fondamentaux techniques il y a quelques années, parfois sans en mesurer l’enjeu, se retrouvent aujourd’hui avec une forme d’avance qu’ils n’ont pas eu à construire.