Novembre 11, 2024

Comment éviter le contenu dupliqué

Comment résoudre le problème

Lorsque nous parlons de contenu dupliqué, nous faisons référence à des situations où vous avez un contenu unique sur votre site, mais avec plusieurs URLs. Chacune de ces URLs mène au même contenu.

Cela peut se produire pour une multitude de raisons que nous allons examiner. Nous discuterons également des meilleures façons de résoudre ce problème.

À noter : cela diffère du problème où d'autres sites dupliquent votre contenu sur leurs propres sites. Nous appellerions cela du contenu dupliqué externe. Cela est plus difficile à contrôler ; cependant, nous pouvons aider avec le contenu dupliqué interne.

Pourquoi le contenu dupliqué est-il important pour le SEO ?

Google priorise l'expérience utilisateur de ses utilisateurs. Lorsqu'il rencontre un contenu significativement similaire, il doit décider quelle source ou URL obtient le meilleur classement.

Si Google pense qu'un site tente de manipuler les classements pour obtenir plus de trafic, le site ou l'URL peut être déclassé. Dans des circonstances extrêmes, il peut même être retiré de l'index de Google. Pour cette raison, il est important de s'en occuper.

Comment détecter si vous avez des problèmes de contenu dupliqué significatifs

Il existe une variété d'outils en ligne qui peuvent vérifier le contenu dupliqué.

Ici chez Labrika, nous proposons un vérificateur de contenu non original, qui vérifiera et affichera toutes les URLs sur Internet montrant un contenu similaire (ou identique). Cela fonctionnera même si c'est sur votre propre site, ce qui en fait un moyen rapide et facile de trouver le contenu dupliqué sur votre site.

Comment éviter le contenu dupliqué

Pour le contenu dupliqué externe, un site comme Copyscape est excellent. Alternativement, Siteliner (un autre outil créé par Copyscape) est utile pour trouver le contenu dupliqué interne. Ils offrent un service gratuit limité, ou un service premium payant.

Note : ces services peuvent indiquer un niveau de contenu dupliqué plus élevé que Google, car ils ont tendance à inclure tous les éléments de la page, comme les barres latérales. Comme Google n'inclurait pas cela dans son analyse, ces outils peuvent donner un comptage de contenu dupliqué gonflé.

Si vous avez déjà un compte Labrika, vous pouvez utiliser notre vérificateur de contenu non original, sinon vous pouvez vous inscrire ici.

Une autre méthode, si vous avez plus de temps, est d'utiliser Google lui-même. Il existe de nombreux opérateurs de recherche Google, mais vous devriez commencer par les opérateurs site: et intitle:.

Par exemple, disons que vous avez un article ou une page intitulée : "Comment faire voler un cerf-volant très haut".

Pour trouver toutes les URLs qui pointent vers cela, entrez dans la recherche Google :

site:mysite.com intitle:"Comment faire voler un cerf-volant très haut"

Google recherchera alors toutes les instances de ce nom de page sur votre site. Idéalement, cela ne devrait retourner qu'une seule URL ; si cela en retourne plusieurs, vous savez que vous avez du contenu dupliqué.

Bien sûr, c'est un processus plus long, mais cela peut être utile si vous n'avez qu'un très petit site.

Les 6 causes les plus courantes des problèmes de contenu dupliqué

1. HTTP/HTTPS et WWW/non-WWW

Le contenu a-t-il des liens contenant : http://mysite.com/article1 et aussi https://mysite.com/article1 ?

Votre système fait-il référence à votre site comme : www.mysite.com ou mysite.com ?

Et y a-t-il des liens vers le même contenu utilisant les deux versions ? Si oui, vous créez du contenu dupliqué.

2. Commentaires paginés

Des systèmes comme WordPress offrent l'option de paginer les commentaires. Cela évite d'afficher des pages très volumineuses avec potentiellement des centaines de commentaires en bas de chaque article. Chaque page a sa propre URL telle que :

mysite.com/myarticle/comments-page-1

mysite.com/myarticle/comments-page-2

Ce sont des exemples de plusieurs URLs pointant vers le même contenu, créant ainsi une situation de contenu dupliqué.

3. IDs de session

Les IDs de session sont très utiles pour permettre à un site de se souvenir d'un visiteur et des actions dynamiques qu'il a effectuées sur votre site. Par exemple, cela peut faire référence à un panier d'achat contenant tous les produits que l'utilisateur souhaite acheter. À mesure que l'utilisateur navigue sur le site, cet ID de session unique est ajouté à l'URL de chaque page visitée, créant ainsi une toute nouvelle URL pour chaque page, encore une fois créant du contenu dupliqué.

Dans ce cas, les cookies offrent une meilleure approche, car les moteurs de recherche ne les voient jamais. Mais nous aborderons les solutions plus tard.

4. Pages imprimables

Certains systèmes offrent des pages imprimables en option. Tout lien sur le site vers une version imprimable est détecté par les moteurs de recherche, ce qui entraîne la détection de contenu dupliqué.

Si vous souhaitez cette fonctionnalité, il est préférable d'utiliser CSS ou Javascript pour générer la page imprimable. Ou de les exclure des recherches en utilisant une balise nofollow ou noindex. Ou de les exclure dans robots.txt.

5. Développeurs web qui ne comprennent pas

Un développeur considérera un contenu comme un enregistrement dans une base de données, avec un numéro de référence unique. Mais ce n'est pas ainsi qu'un moteur de recherche voit ce contenu. Le logiciel du site peut générer plusieurs URLs qui pointent vers le même contenu de différentes manières. Les moteurs de recherche détectent qu'il existe plusieurs URLs uniques qui récupèrent le même contenu, indiquant ainsi qu'il pourrait s'agir de contenu dupliqué.

Dans ce cas, vous devrez informer vos développeurs de s'assurer que pour chaque URL unique, il n'y a pas de contenu dupliqué, sans exception.

6. Paramètres d'URL

Lorsqu'un système utilise des paramètres dans l'URL pour identifier un contenu dans la base de données, ces paramètres peuvent souvent être construits de différentes manières pour le même contenu.

Par exemple :

/?id=1&cat=2

peut faire référence à un article unique, mais il en va de même pour :

/?cat=2&id=1

(cat = Catégorie, ID = référence unique dans la base de données).

Un moteur de recherche voit deux liens différents vers le même contenu. Pour ce problème, Google dispose d'un outil spécial de gestion des paramètres où vous pouvez indiquer comment gérer ces paramètres.

Les meilleures solutions pour résoudre les problèmes de contenu dupliqué

1. Redirection 301 ("Redirection Permanente")

Une redirection 301 peut être servie par votre serveur web, à un navigateur d'utilisateur ou à un crawler de moteur de recherche, lorsqu'une URL spécifique est demandée. Cela indique à l'utilisateur ou au moteur de recherche que l'adresse du lien est obsolète et indique la nouvelle adresse. C'est l'équivalent de la redirection du courrier lorsque nous déménageons !

Une redirection 301 est le plus souvent utilisée lorsque vous passez d'un site à un autre (par exemple, un changement de nom). Mais elle peut également être utilisée pour rediriger plusieurs URLs vers une 'URL maîtresse'. Cela aide les moteurs de recherche à maintenir leurs index à jour et vous aide à éviter des problèmes de contenu dupliqué.

Certaines systèmes web vous permettent de configurer des redirections dans les paramètres d'administration. Les anciens systèmes Linux nécessitent que vous les insériez manuellement dans le fichier .htaccess. C'est une approche technique plus pratique, mais ce n'est pas trop difficile à faire.

Une entrée typique de redirection pourrait ressembler à ceci :

Redirect 301 /old-page.html /new-page.html

2. Références canoniques

Le mot canonique signifie 'l'URL autoritaire' dans ce contexte. Vous nommez une URL comme étant la version 'canonique' pour les moteurs de recherche.

C'est une solution technique simple en théorie, mais sa mise en œuvre peut être un peu complexe. Cependant, cela résout le problème de plusieurs URLs pointant vers le même contenu. Cela améliore également le SEO de votre site et a le même effet que les redirections 301 sans rediriger quoi que ce soit. Pensez-y comme à une 'redirection 301 douce'.

Exemple d'une balise canonique :

<link rel="canonical" href="https://mysite.com/my-article/" />

L'attribut rel en HTML spécifie la relation au document lié et doit être accompagné de l'attribut href.

3. Utilisez le texte standard avec parcimonie

La plupart des sites ont un pied de page qui est répété au bas de chaque page. Ce n'est pas une bonne idée de placer beaucoup de contenu ici. Au lieu de cela, liez à une page qui résume toutes les informations que vous souhaitez que les utilisateurs sachent. Cela évite que du texte soit répété sur plusieurs pages, inutilement.

4. Réduisez l'occurrence du contenu dupliqué réel

Parfois, vous pouvez avoir un contenu très similaire sur plusieurs pages. Par exemple, plusieurs produits similaires dans une gamme. Dans la mesure du possible, il est toujours préférable de consolider autant que possible en une seule page. Ou concentrez-vous sur le changement du texte de chaque produit, afin qu'il soit suffisamment différent des autres, tout en transmettant le sens.

Cela peut demander beaucoup d'efforts, mais cela en vaut la peine à long terme pour éviter des problèmes de contenu dupliqué.

ESSAI GRATUIT

Comment éviter le contenu dupliqué

Comment résoudre le problème

Pourquoi le contenu dupliqué est-il important pour le SEO ?

Comment détecter si vous avez des problèmes de contenu dupliqué significatifs

Les 6 causes les plus courantes des problèmes de contenu dupliqué

1. HTTP/HTTPS et WWW/non-WWW

2. Commentaires paginés

3. IDs de session

4. Pages imprimables

5. Développeurs web qui ne comprennent pas

6. Paramètres d'URL

Les meilleures solutions pour résoudre les problèmes de contenu dupliqué

1. Redirection 301 ("Redirection Permanente")

2. Références canoniques

3. Utilisez le texte standard avec parcimonie

4. Réduisez l'occurrence du contenu dupliqué réel

Commencez votre essai gratuit maintenant.