General SEO

Comment créer un sitemap XML (et le soumettre à Google)

Avatar
Responsable des contenus @ Ahrefs (ce qui veut dire en gros, que je dois m’assurer que chaque article publié est ÉPIQUE).

Pas facile de trouver une nouvelle destination sans carte. C’est pareil pour Google qui peut avoir du mal à trouver toutes les pages de votre site sans sitemap.

Heureusement, créer et soumettre un sitemap XML à Google est rapide et simple.

Je vous explique comment faire, étape par étape.

Mais d’abord, quelques bases.

(Vous connaissez déjà les bases ? Cliquez ici pour passer directement à la création d’un sitemap.)

Apprendre le SEO

Si vous débutez en SEO, commencez par jeter un oeil à ces deux notions :

Un sitemap est un fichier XML qui liste l’ensemble du contenu important de votre site. Toute page ou tout fichier que vous souhaitez voir apparaître dans les moteurs de recherche doit figurer dans votre sitemap.

On parle alors d’indexation des contenus.

A savoir
Les sitemaps ne peuvent pas lister plus de 50 000 URL et ne peuvent pas dépasser 50 Mo. Si votre sitemap dépasse l’un ou l’autre de ces seuils, vous devrez en créer plusieurs.

Les sitemaps XML sont conçus pour les moteurs de recherche, pas pour les humains. Ils peuvent sembler intimidants si vous n’en avez jamais vu.

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
	<url>
		<loc>https://ahrefs.com/</loc>
		<lastmod>2019-08-21T16:12:20+03:00</lastmod>
	</url>
	<url>
		<loc>https://ahrefs.com.com/blog/</loc>
		<lastmod>2019-07-31T07:56:12+03:00</lastmod>
	</url>
</urlset>

Décortiquons tout ça.

Déclaration XML

<?xml version="1.0" encoding="UTF-8"?>

Cela indique aux moteurs de recherche qu’ils lisent un fichier XML. La version doit être 1.0, et l’encodage doit être UTF-8.

Ensemble d’URL (URL set)

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

C’est le conteneur de toutes les URL du sitemap. Il indique également aux crawlers quel standard de protocole est utilisé. La plupart des sitemaps spécifient le standard Sitemap 0.90, supporté par Google, Yahoo! et Microsoft, entre autres.

URL

<url>
<loc>https://ahrefs.com/</loc>
<lastmod>2019-08-21T16:12:20+03:00</lastmod>
</url>

C’est la balise parente pour chaque URL. Vous devez spécifier l’emplacement de l’URL dans une balise <loc> imbriquée. Ces URL doivent être absolues, pas relatives, et correspondre aux URL canoniques.

C’est la seule balise obligatoire, mais il existe quelques propriétés optionnelles :

  • <lastmod> : indique la date de dernière modification du fichier, au format W3C Datetime. Par exemple, si vous avez mis à jour un article le 25 septembre 2019, l’attribut sera 2019-09-25. L’heure est facultative.
  • <priority> : indique la priorité de l’URL par rapport aux autres URL du site. Les valeurs vont de 0,0 à 1,0. Plus la valeur est élevée, plus la page est importante.
  • <changefreq> : indique la fréquence probable de modification de la page. Cela donne aux moteurs de recherche une idée de la fréquence à laquelle ils pourraient vouloir recrawler l’URL. Les valeurs valides sont always, hourly, daily, weekly, monthly, yearly et never.

Ces balises optionnelles ne sont pas très importantes pour le SEO.

Pour <lastmod>, Gary Ilyes de Google explique qu’ils l’ignorent dans la plupart des cas car « les webmasters font un travail horrible pour la maintenir à jour. » Comme la plupart des générateurs de sitemaps définissent cette date à la date actuelle pour toutes les pages, et non à la date de dernière modification du fichier, on comprend facilement pourquoi.

Pour <priority>, Google indique qu’ils ignorent cette balise car c’est juste un « bruit de fond ».

Pour <changefreq>, John Mueller déclare : « La priorité et la fréquence de modification ne jouent plus vraiment un grand rôle dans les sitemaps. »

Google découvre de nouveaux contenus en crawlant le web. Lorsqu’il crawle une page, il prête attention aux liens internes et externes qui s’y trouvent. Si une URL découverte n’est pas dans son index, il peut analyser son contenu et l’indexer si nécessaire.

Indexer, c’est littéralement quand Google ajoute votre contenu à sa base de connaissance pour que chaque utilisateur de Google puisse trouver votre contenu via son moteur de recherche.

Mais Google ne peut pas trouver tout le contenu de cette façon. S’il n’y a pas de lien vers une page web depuis d’autres pages connues, Google ne la trouvera pas.

C’est là qu’interviennent les sitemaps.

Les sitemaps indiquent à Google (et aux autres moteurs de recherche) où trouver les pages les plus importantes de votre site afin qu’ils puissent les crawler et les indexer.

C’est important car les moteurs de recherche ne peuvent pas classer votre contenu sans l’avoir d’abord indexé.

Certains CMS génèrent un sitemap automatiquement. Celui-ci est mis à jour automatiquement lorsque vous ajoutez ou supprimez des pages et des articles. Si votre CMS ne le fait pas, il existe généralement un plugin qui s’en charge.

Créer un sitemap sur WordPress

Même si WordPress propulse 34,5 % des sites web, il ne génère pas de sitemap par défaut. Pour en créer un, vous devez utiliser un plugin comme Yoast SEO.

Pour installer Yoast SEO, connectez-vous à votre tableau de bord WordPress.

Allez dans Extensions > Ajouter.

Ajouter un nouveau plugin WordPress
Ajouter un nouveau plugin WordPress

Recherchez « Yoast SEO ».

Cliquez sur « Installer maintenant » sur le premier résultat, puis sur « Activer ».

Plugin SEO WordPress : Yoast SEO
Recherche de Yoast SEO dans WordPress

Allez dans SEO > Général > Fonctionnalités. Assurez-vous que le bouton « Sitemaps XML » est activé.

Activation du sitemap XML dans Yoast SEO
Activation du sitemap XML dans Yoast SEO

Vous devriez maintenant voir votre sitemap (ou index de sitemap) à l’adresse votredomaine.com/sitemap.xml ou votredomaine.com/sitemap_index.xml.

Sitemap Ahrefs
Note.
Si votre installation WordPress se trouve dans un sous-dossier ou un sous-domaine, votre sitemap se trouve sous ce chemin. Par exemple, le sitemap de notre blog est accessible à l’adresse ahrefs.com/blog/sitemap_index.xml.
Recommandation
Si vous souhaitez inclure ou exclure certains types de contenu (pages de tags, pages de catégories, etc.) de votre sitemap, rendez-vous dans les paramètres « Apparence dans les résultats de recherche ».
Exclure des pages de catégories dans Yoast SEO
Exclure des pages de catégories dans Yoast SEO

Vous pouvez également exclure des articles ou des pages individuels depuis la boîte méta « Avancé » dans l’éditeur.

Noindex d'un article dans Yoast SEO
Noindex d’un article dans Yoast SEO

IMPORTANT. N’excluez de votre sitemap que les pages que vous ne souhaitez pas voir apparaître dans les résultats de recherche.

Pour en savoir plus, consultez notre guide sur le SEO WordPress.

Créer un sitemap sur Wix

Wix crée un sitemap automatiquement. Vous pouvez le trouver à l’adresse votresitewix.com/sitemap.xml.

Malheureusement, vous n’avez pas beaucoup de contrôle sur les pages incluses ou exclues de votre sitemap. Si vous souhaitez exclure une page, rendez-vous dans l’onglet « SEO (Google) » de la page concernée et désactivez le bouton « Afficher cette page dans les résultats de recherche ».

Noindex d'une page dans Wix
Noindex d’une page dans Wix

À noter que cela ajoute également une balise meta noindex à la page, ce qui l’empêche d’apparaître dans les résultats de recherche.

Note.
Si vous canonicalisez une URL dans Wix, elle ne sera pas retirée de votre sitemap. Cela n’affectera probablement pas la plupart des utilisateurs, mais sachez qu’inclure des pages canonicalisées dans votre sitemap n’est pas une bonne pratique et peut envoyer des signaux contradictoires à Google.

Créer un sitemap sur Squarespace

Squarespace crée également un sitemap automatiquement. Vous pouvez généralement le trouver à l’adresse votresitesquarespace.com/sitemap.xml.

Il n’est pas possible de modifier manuellement votre sitemap dans Squarespace, mais vous pouvez exclure des pages (noindex) des moteurs de recherche dans l’onglet « SEO ».

Paramètres SEO dans Squarespace

Cela exclura également la page de votre sitemap.

Créer un sitemap sur Shopify

Shopify génère automatiquement un sitemap. Retrouvez-le à l’adresse votreboutique.com/sitemap.xml.

Malheureusement, il n’existe pas de moyen simple d’ajouter un noindex à une page dans Shopify. Vous devez modifier directement le code dans les fichiers .liquid.

Créer un sitemap sans CMS

Si vous pensez que votre site comporte moins de ~300 pages, installez la version gratuite de Screaming Frog.

Une fois installé, allez dans Mode > Spider.

Collez l’URL de votre page d’accueil dans la zone « Enter URL to spider ».

Cliquez sur « Start ».

Création d'un sitemap avec Screaming Frog
Création d’un sitemap avec Screaming Frog
Note.
Assurez-vous d’utiliser la version canonique (principale) de votre page d’accueil. Sinon, Screaming Frog ne crawlera qu’une seule URL.

Une fois le crawl terminé, regardez dans le coin inférieur droit.

Vous verrez quelque chose comme ceci :

Nombre total de pages crawlées dans Screaming Frog
Nombre total de pages crawlées dans Screaming Frog

Si le nombre est inférieur ou égal à 499, allez dans Sitemaps > XML sitemap.

Comme Google ne prête pas beaucoup d’attention aux balises <lastmod>, <changefreq> et <priority>, nous recommandons de les exclure du fichier sitemap.

Paramètres du sitemap dans Screaming Frog

Cliquez sur « Next » et enregistrez le sitemap sur votre ordinateur. C’est tout.

Si le nombre affiche « 500 of 500 », inutile d’exporter un sitemap. Pourquoi ? Parce que cela signifie que vous avez atteint la limite de crawl avant que toutes les pages du site aient été crawlées. En conséquence, des centaines de pages pourraient manquer dans le sitemap exporté, ce qui le rendrait inutile.

Une solution consiste à chercher un générateur de sitemap gratuit. Il en existe beaucoup.

Malheureusement, la plupart ne sont pas fiables.

On a testé quelques-uns des générateurs les plus populaires et on a constaté que beaucoup incluent des URL non canoniques, des pages noindexées et des redirections. C’est une mauvaise pratique SEO.

GénérateurInclut les URL canonisées ?Inclut les URL en noindex ?Inclut les redirections ?
xml-sitemaps.comOui ❌Non ✅Non ✅
web-site-map.comOui ❌Non ✅Non ✅
xmlsitemapgenerator.orgOui ❌Non ✅Non ✅
smallseotools.com/xml-sitemap-generatorOui ❌Oui ❌Oui ❌
freesitemapgenerator.comOui ❌Oui ❌Oui ❌
duplichecker.com/xml-sitemap-generator.phpOui ❌Oui ❌Oui ❌
xsitemap.comOui ❌Oui ❌Oui ❌

Alors, quelle est la solution ?

Si Screaming Frog n’a pas pu crawler l’intégralité de votre site, crawlez votre site avec Ahrefs Site Audit.

Note.
Vérifiez votre site pour accélérer le crawl. Voici comment faire.

Une fois le crawl terminé, allez dans le rapport Page Explorer et ajoutez ces filtres.

Filtres dans le rapport Page Explorer de Site Audit

Cliquez sur Exporter > Vue actuelle du tableau.

Ouvrez le fichier CSV, puis copiez-collez toutes les URL de la colonne URL dans cet outil.

Cliquez sur « Add to queue », puis sur « Export queue as sitemap.xml ».

Ce fichier est votre sitemap finalisé.

Pour commencer, vous devez connaître l’emplacement de votre sitemap.

Si vous utilisez un plugin, l’URL est probablement domaine.com/sitemap.xml.

Si vous le faites manuellement, nommez votre sitemap quelque chose comme sitemap.xml puis uploadez-le dans le dossier racine de votre site. Vous devriez ensuite pouvoir y accéder à l’adresse domaine.com/sitemap.xml.

Note.
Vous pouvez choisir n’importe quel nom pour votre sitemap, mais il est conseillé de rester sur sitemap.xml. Si vous avez plusieurs sitemaps, vous pouvez utiliser un schéma de nommage simple comme sitemap_1.xml, sitemap_2.xml.

Allez dans Google Search Console > Sitemaps > collez l’URL du sitemap > cliquez sur « Envoyer ».

soumettre-un-sitemap-pour-google-avec-search-console
Soumettre un sitemap dans Google Search Console

C’est tout. C’est fait.

Recommandation
Il est également conseillé d’ajouter l’URL de votre sitemap à votre fichier robots.txt.

Vous trouverez ce fichier dans le répertoire racine de votre serveur web. Pour ajouter votre sitemap, ouvrez le fichier et collez cette ligne :

Sitemap: https://www.votredomaine.com/sitemap.xml

Remplacez l’URL d’exemple par l’emplacement de votre sitemap.

Si vous avez plusieurs sitemaps, ajoutez simplement plusieurs lignes :

Sitemap: https://www.asos.com/sitemap_1.xml
Sitemap: https://www.asos.com/sitemap_2.xml

Google Search Console vous informe de la plupart des erreurs techniques liées à votre sitemap.

Par exemple, voici un avertissement indiquant que l’une de nos URL soumises est bloquée par le fichier robots.txt :

URL soumise bloquée par robots.txt dans Google Search Console
URL soumise bloquée par robots.txt dans Google Search Console

Vous pouvez en apprendre davantage sur ces problèmes et leur résolution ici.

Cela dit, certains problèmes ne sont pas signalés par Google.

Voici quelques-uns des plus courants, et comment les trouver et les corriger.

Pages inutiles ou de faible qualité dans votre sitemap

Toutes les pages de votre sitemap doivent être indexables et canoniques.

Mais cela ne signifie pas pour autant que toutes ces pages sont de haute qualité. Si vous avez beaucoup de contenu, certaines pages de faible qualité ont probablement intégré votre sitemap.

Par exemple, regardez ces deux pages sur un site e-commerce :

Exemple de page e-commerce de faible qualité
Exemple de page e-commerce de faible qualité

Aucune d’elles n’est utile pour les internautes, pourtant elles sont toujours dans le sitemap de ce site, et Google a indexé les deux pages.

Page quasi-dupliquée indexée
Page quasi-dupliquée indexée

Pour trouver ces pages, allez dans Site Audit > Contenu dupliqué.

Recherchez des groupes de pages dupliquées et quasi-dupliquées sans canonicals. Ce sont les carrés orange. Cliquez sur l’un d’eux pour voir toutes les pages du groupe.

Rapport de contenu dupliqué dans Site Audit

Examinez les pages et voyez si elles ont une quelconque valeur.

Avoir des pages de faible qualité sur votre site est problématique pour trois raisons :

  • Elles gaspillent le budget de crawl. Forcer Google à gaspiller du temps et des ressources à crawler des pages inutiles et de faible qualité n’est pas idéal. Ce temps pourrait être consacré à crawler des contenus plus importants. (Pour mémoire, Google indique que le budget de crawl « n’est pas quelque chose que la plupart des éditeurs doivent surveiller ».)
  • Elles « volent » l’autorité de liens aux pages plus importantes. Il existe une corrélation claire entre l’autorité des pages et leur classement. Les liens internes vers des pages de faible qualité ne font que diluer l’autorité qui pourrait être transmise à des pages plus importantes. (Fait intéressant, quand on a supprimé presque ⅓ des articles du blog Ahrefs, on a constaté une augmentation du trafic, pas une diminution.)
  • Elles dégradent l’expérience utilisateur. Ces pages n’apportent aucune valeur aux visiteurs qui y atterrissent. C’est frustrant pour eux, et ils risquent de partir rapidement s’ils estiment que votre site est de mauvaise qualité et négligé.

Dans l’ensemble, la meilleure approche est de supprimer les pages de faible qualité de votre site et, par conséquent, de votre sitemap. Si vous le faites, pensez également à supprimer les liens internes vers ces pages. Si vous ne le faites pas, vous échangerez un problème (pages de faible qualité) contre un autre (liens brisés).

Au-delà des doublons et quasi-doublons, vous pouvez également rechercher des pages avec un contenu trop léger.

Consultez le rapport « On page » dans Site Audit pour les pages avec un avertissement « Nombre de mots faible ».

Pages avec un faible nombre de mots dans Site Audit
Pages avec un faible nombre de mots dans Site Audit

Pages exclues de votre sitemap par accident

Si vous avez utilisé l’une des méthodes recommandées ci-dessus pour créer votre sitemap, les pages avec des balises noindex ou des balises canonical (non auto-référencées) ne seront pas incluses.

C’est une bonne chose. Vous ne devriez pas inclure d’URL canonicalisées ou de pages noindexées dans votre sitemap.

Cependant, si vous avez des balises noindex non intentionnelles sur votre site, des pages peuvent être exclues par erreur.

Pour détecter ces erreurs, rendez-vous dans le rapport « Indexabilité » de Site Audit et cliquez sur l’avertissement « Page noindex ». Cela affiche toutes les pages noindexées.

Pages noindex dans Site Audit
Pages noindex dans Site Audit

La plupart seront probablement noindexées intentionnellement, mais cela vaut la peine de parcourir la liste pour vérifier. En général, les balises noindex non intentionnelles sont faciles à repérer car elles s’appliquent à toute une sous-section de votre site.

Si vous voyez des pages qui ne devraient pas être noindexées, supprimez la balise noindex de la page et ajoutez-la à votre sitemap. Si vous utilisez un CMS ou un plugin, cela devrait se faire automatiquement.

Recommandation
Il vaut également la peine de vérifier les canonical et les redirections non intentionnels. Pour ce faire, allez dans le rapport Data Explorer et ajoutez ces filtres :
Vérification des canonicals non intentionnels.
Vérification des redirections non intentionnelles.

Supprimez les canonicals et redirections non intentionnels, puis ajoutez les pages concernées à votre sitemap.

Voici quelques réponses aux questions fréquentes sur les sitemaps. N’hésitez pas à nous indiquer si vous avez une question à laquelle cette section ne répond pas, et on l’ajoutera.

Faut-il un sitemap pour les pages AMP ?

Non.

John Mueller confirme qu’il n’est pas nécessaire de créer des sitemaps pour les pages AMP

Comment créer un sitemap pour un site e-commerce ?

Vous créez un sitemap pour un site e-commerce de la même façon que pour n’importe quel site. Cela dit, il vaut la peine de vérifier les pages dupliquées et quasi-dupliquées sur les sites e-commerce, car elles passent souvent à travers les mailles du filet à grande échelle en raison de la navigation à facettes.

Créer un sitemap, ce n’est pas sorcier, surtout si vous utilisez un plugin qui fait le gros du travail. Ce n’est pas difficile non plus d’en créer un depuis zéro : il suffit de crawler votre site et de mettre en forme la liste d’URL obtenue.

Cela dit, n’oubliez pas que Google n’est pas obligé d’indexer les pages de votre sitemap. Et les sitemaps n’ont rien à voir avec le classement en soi.

Si vous souhaitez améliorer votre positionnement dans Google, lisez cet article.

Des questions ? Dites-le nous en commentaires ou sur Twitter.