Dans le sitemap mais non disponible pour l'indexation
Un fichier Sitemap.xml est essentiellement une carte de votre site Web conçue spécifiquement pour faciliter la navigation et l'indexation de votre site par les moteurs de recherche. Il se trouve dans votre dossier public_html (ou racine du site) et inclut des instructions importantes pour les robots d'exploration des moteurs de recherche qui précisent quelles pages doivent être visitées, dans quel ordre et à quelle fréquence.
Cela accélère considérablement le processus d'indexation des pages importantes et permet aux robots d'exploration d'allouer leur temps d'exploration aux pages de haute importance pour vous et vos utilisateurs.
Créer un sitemap.xml n'est pas toujours nécessaire, mais toujours recommandé, surtout pour les grands sites comportant des milliers de pages. Avec des sites plus grands, il est essentiel de s'assurer que les robots d'exploration des moteurs de recherche passent leur temps sur les pages à forte valeur ajoutée, avec un contenu approfondi et une intention commerciale, plutôt que sur des pages secondaires qui offrent peu de valeur.
En règle générale, lorsque des logiciels et des CMS génèrent automatiquement un fichier sitemap.xml, ils incluent toutes les pages disponibles pour l'indexation. Un propriétaire de site typique n'est pas susceptible d'être conscient de cela, et bien qu'il ait pu définir noindex pour certaines pages, leurs sitemaps générés automatiquement incluent probablement ces pages et gaspillent des budgets d'exploration précieux !
Il est fortement recommandé d'utiliser des plugins, des logiciels personnalisés ou des générateurs de sitemap pour configurer des URL spécifiques à afficher dans votre sitemap, certaines URL à éviter, l'ordre d'exploration des URL et la fréquence d'exploration.
Erreurs de sitemap trouvées par Labrika
Attention ! Le rapport d'erreur de sitemap ne sera accessible que si des autorisations suffisantes pour scanner l'ensemble du site Web sont configurées correctement. Sinon, Labrika ne pourra voir que les pages spécifiquement répertoriées dans le sitemap.xml plutôt que de pouvoir voir toutes les pages du site Web et les comparer avec les pages répertoriées dans le sitemap.
L'analyse du sitemap par Labrika aide à trouver les types d'erreurs suivants :
- Pages qui existent dans le sitemap mais ne sont pas accessibles pour l'indexation.
- Pages qui existent dans le sitemap mais ont une balise noindex.
- Pages qui n'existent pas dans le sitemap mais sont indexables.
Veuillez noter : différents moteurs de recherche traitent les règles de sitemap de différentes manières. Google, le plus souvent, n'indexera que les pages pouvant être atteintes par l'exploration automatique sans sitemap. C'est-à-dire, les pages accessibles via des liens internes dans le temps et la profondeur d'exploration alloués pour votre site ce jour-là. Ils ne consulteront pas votre fichier sitemap.xml pour déterminer quels liens explorer, mais utiliseront plutôt le sitemap comme guide pour la fréquence d'exploration des pages répertoriées dans le sitemap.
La page existe dans le sitemap, mais n'est pas accessible pour l'indexation
Ce rapport met principalement en évidence les pages orphelines, qui sont essentiellement des pages qui existent sur votre site mais n'ont aucun lien entrant pointant vers elles et sont « sans propriétaire ».
Dans le cas où de telles pages seraient indexées par les moteurs de recherche, elles auront probablement un PageRank nul et ne se classeront pas bien. Il est bien documenté en ligne que Google et d'autres grands moteurs de recherche utilisent les scores de PageRank (et ses diverses formes) pour évaluer la puissance SEO et la valeur des pages. Il y a quelques années, Google vous permettait d'utiliser une barre d'outils qui affichait le PageRank de vos pages, mais malheureusement, cela a été retiré de la sphère publique. Naturellement, vous souhaitez un bon PageRank pour vos différentes pages, donc si l'une de vos pages d'atterrissage se retrouve dans cette catégorie d'erreur (c'est-à-dire que votre page n'est pas simplement une page orpheline), vous voudrez immédiatement identifier la source du problème.
Raisons courantes pour lesquelles votre page existe dans le sitemap, mais n'est pas accessible pour l'indexation :
- Un lien provenant d'une page avec une balise noindex mène à cette page, ou les pages menant à cette page ne sont pas réactives. En conséquence, le robot d'exploration ne peut pas avancer ou reculer, et termine donc la session.
- Les liens vers les pages nécessaires sont bloqués. Par exemple, par l'attribut rel="nofollow". C'est-à-dire que le robot d'exploration voit le lien vers la page, mais ne peut pas y naviguer car c'est interdit.
- Il n'y a aucun lien vers cette page et elle est vraiment « orpheline ».
- La page a été supprimée dans l'éditeur de site/CMS, mais le fichier HTML reste actif sur le site.
- La page existe dans le sitemap mais n'est pas explorables, donc ne peut pas être indexée.
Ce type d'erreur est mieux corrigé en effectuant les actions suivantes :
- Vérifiez quelles pages ont des balises noindex et nofollow et corrigez-les et/ou assurez-vous que la page est correctement ajoutée au menu principal pour permettre une exploration correcte. Plus souvent qu'autrement, nous voyons ce type d'erreur avec des sites commerciaux et informatifs qui bloquent la pagination.
Comment résoudre le problème ?
Lorsqu'une page est disponible dans le sitemap mais n'a aucun lien interne d'aucune autre page du site, elle est connue comme une page orpheline.
Les pages orphelines sont mauvaises pour le SEO car elles n'ont aucun poids de lien et sont donc considérées comme non importantes par les moteurs de recherche. Elles étaient également utilisées auparavant dans le SEO black hat.
Une fois identifiées dans notre tableau de bord, vous pouvez :
- Réintégrer la page dans votre schéma de liens si la page est utile, se classe pour des mots-clés ou a des backlinks provenant de sites externes.
- Fusionner la page avec une autre si elle a une page presque dupliquée déjà liée sur le site.
- Supprimer complètement la page si elle n'a aucune utilité. Ou retourner un code 404 ou 410 (contenu expiré).
- Pour les pages de produits où l'article peut avoir expiré, vous pouvez lier à de nouveaux produits dans la même catégorie, faisant de la page une nouvelle source de leads. (C'est ce que fait eBay avec les annonces aux enchères expirées). Cela aide à générer plus de trafic.
La page existe dans le sitemap mais a une balise noindex
Ce sont des pages qui ont été interdites d'indexation à l'aide d'une balise noindex mais existent toujours quelque part dans le sitemap.
Les gens noindex des pages pour diverses raisons, mais avoir des pages noindex répertoriées dans le sitemap peut entraîner des fuites de données confidentielles, mais surtout, cela entraîne des robots d'exploration gaspillant leur temps et leur budget d'exploration.
Comment résoudre le problème ?
Cela se produit généralement lorsqu'une page a été bloquée de l'indexation par un attribut rel="nofollow".
Inclure ces pages dans le sitemap n'est pas utile car cela utilise le budget d'exploration et pourrait potentiellement entraîner la fuite d'informations confidentielles. Pour résoudre cela, vous pouvez simplement supprimer la page de votre sitemap.
Téléchargez le fichier sitemap.xml sans erreur de Labrika
Pour chacun des différents rapports d'erreurs de sitemap répertoriés ci-dessus, Labrika vous offre la possibilité de télécharger une version corrigée et sans erreur de votre fichier sitemap.xml. Cela devrait vous faire gagner du temps pour corriger manuellement votre propre fichier sitemap.xml et, surtout, mieux utiliser vos budgets d'exploration des moteurs de recherche.