blog-icon
Juin 17, 2025

Fichier robots txt : optimiser le SEO sur WordPress

Les robots d'exploration indexent un site internet pour la recherche google et les autres moteurs, indépendamment de la présence de robots.txt et sitemap.xml. Grâce au fichier robots.txt, il est possible d'indiquer aux moteurs de recherche ce qu'il convient d'exclure de l'indexation et de configurer d'autres paramètres importants pour le référencement naturel et le seo de votre site web.

Comment le fichier robots.txt fonctionne pour le référencement SEO

Le fichier texte robots.txt est un petit fichier txt placé à la racine site de votre domaine qui permet de contrôler le comportement des robots moteurs recherche. Ce fichier robots txt indique robots quelles parties du site web doivent être explorées, quelles URL doivent être ignorées, comment limiter le crawl et comment optimiser l'exploration pour améliorer le référencement et la visibilité dans les résultats recherche.

En comprenant le fonctionnement du fichier robots txt et la manière dont google, bing et les autres moteurs interprètent les directives, vous pouvez optimiser l'accès aux contenus importants, éviter l'indexation de pages dupliqué, protéger des sections sensibles et mieux gérer le budget de crawl alloué par les robots d'exploration à votre site wordpress, à un autre cms ou à un site html sur n'importe quel hébergement.

Ce guide complet explique comment créer un fichier robots txt, comment le mettre à jour manuellement, comment tester votre configuration dans google search console, comment optimiser le txt fichier pour le seo technique et quelles bonnes pratiques appliquer sur un site wordpress, un blog ou une boutique woocommerce.

Directives

Les directives sont des règles pour les robots. Il existe une spécification W3C datant du 30 janvier 1994 et un standard élargi de 1996, qui définissent la base du fonctionnement du protocole d'exclusion des robots pour le référencement naturel.

Directives principales

User-agent : directive qui commence le fichier robots.txt et qui permet d'indiquer robots à quel user agent s'appliquent les règles.

Exemple :

User -agent: * # instructions pour tous les robots de recherche. User -agent: GoogleBot # instructions pour Google. Disallow: / # directive interdisant l'indexation de ce qui est spécifié après /. Allow: / # directive autorisant l'indexation de l'URL. Disallow: # ne fonctionne pas sans le caractère spécial /. Allow: / # ignoré si aucune URL n'est spécifiée après /.

Caractères spéciaux utilisés dans robots.txt: /, *, $.

Attention au caractère /, une erreur fréquente serait de rédiger par exemple :

User -agent:* Disallow: /

# cela peut fermer l'ensemble du site à l'indexation et empêcher complètement les robots d'accéder à votre contenu principal.

Le caractère spécial * signifie n'importe quelle séquence de caractères, y compris vide, par exemple :

Disallow: /panier/* # interdit l'indexation de toutes les pages après l'URL : site.fr/panier/

Le caractère spécial $ limite l'action du caractère *, fournissant une restriction stricte :

User -agent:* Disallow: /catalog{{input}} # avec ce caractère, catalog ne sera pas indexé, mais catalog.html le sera.

La directive sitemap indique le chemin vers la carte du site et se présente ainsi :

User -agent: * Allow: / Sitemap: http://www.site.fr/sitemap.xml # doit être indiqué avec http:// ou https://, https:// est utilisé si un certificat SSL est connecté.

La directive Host indique le miroir principal du site avec ou sans www et aide les robots à comprendre quelle version du domaine doit être utilisée dans l'indexation.

User -agent: * Allow: / Sitemap: http://www.site.fr/sitemap.xml Host: www.site.fr # le chemin vers le domaine doit être écrit sans http et sans slashs, assurez-vous que le domaine est collé. Sans une bonne concaténation du domaine, la même page peut apparaître dans l'index des moteurs de recherche plus d'une fois, ce qui peut entraîner une pénalisation.

La directive Crawl-Delay limite la charge sur le serveur, définissant un délai pour les moteurs de recherche :

User -agent: * Crawl-delay: 2 # définit un délai de 2 secondes. User -agent: * Disallow: /recherche Crawl-delay: 4.5 # définit un délai de 4.5 secondes.

La directive Clean-Param est nécessaire si les adresses des pages du site contiennent des paramètres dynamiques qui n'affectent pas le contenu, par exemple : identifiants de session, utilisateurs, référents, etc.

Les robots d'exploration, en utilisant les valeurs de la directive Clean-Param, ne rechargeront pas plusieurs fois des informations en double. Ainsi, l'efficacité du crawl de votre site augmentera, et la charge sur le serveur diminuera, ce qui est important pour le seo technique et la gestion du trafic.

Par exemple, des pages avec les adresses suivantes :

www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.site.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.site.com/some_dir/get_book.pl?ref=site_3&book_id=123

Le paramètre ref est utilisé uniquement pour suivre la source de la requête et ne change pas le contenu, les trois adresses afficheront la même page avec le livre book_id=123. Ainsi, si la directive est spécifiée comme suit :

User -agent: GoogleBot Disallow: Clean-param: ref /some_dir/get_book.pl

le robot réduira toutes les adresses de la page à une seule :

www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123,

Il convient également de noter qu'il existe plusieurs options de configuration pour cette directive.

La robotique de l'exploration repose sur ce type de règles : on parle parfois de robotique de crawl pour décrire le comportement robotique automatisé des robots moteurs recherche contrôlé par le fichier robots.txt.

Caractères cyrilliques dans robots.txt

L'utilisation de caractères de l'alphabet russe est interdite dans robots.txt, il est nécessaire d'utiliser Punycode (méthode normalisée pour convertir des séquences de caractères Unicode en séquences ACE).

# Incorrect : User -agent: * Disallow: /panier Host: magasin-en-ligne.fr # Correct : User -agent: * Disallow: /%D0%BF%D0%B0%D0%BD%D0%B8%D0%B5%D1%80 Host: xn----8sbalhasbh9ahbi6a2ae.xn--p1ai

Recommandations sur ce qu'il faut fermer dans le fichier robots.txt

  • Panneau d'administration - mais gardez à l'esprit que le chemin vers votre panneau d'administration sera connu, assurez-vous de la solidité du mot de passe dans le panneau de gestion du site et de la confidentialité des données.
  • Panier, formulaire de commande, et données de livraison et de commandes, surtout pour un site wordpress woocommerce ou tout autre site de commerce sur internet, afin d'éviter l'indexation de contenus sensibles.
  • Pages avec des paramètres de filtres, de tri, de comparaison.

Erreurs possibles dans robots.txt

  • Une ligne vide - il est inacceptable de laisser une ligne vide dans la directive user-agent, qui, selon les règles de robots.txt, est considérée comme "séparatrice" (en ce qui concerne les blocs de descriptions). Cela signifie qu'il n'est pas possible de prédire l'applicabilité des directives suivantes après une ligne vide.
  • En cas de conflit entre deux directives avec des préfixes de même longueur, la priorité est donnée à la directive Allow.
  • Pour chaque fichier robots.txt, seule une directive Host est traitée. Si plusieurs directives sont spécifiées dans le fichier, le robot utilise la première.
  • La directive Clean-Param est inter-sectionnelle, elle peut donc être indiquée à n'importe quel endroit dans le fichier robots.txt. Si plusieurs directives sont spécifiées, toutes seront prises en compte par les robots d'exploration.
  • Certains robots ne suivent pas les règles de Robots.txt. Pour interdire leur indexation sur le site, il faut créer des paramètres user-agent distincts pour chacun d'eux.
  • La directive User-agent doit toujours être écrite au-dessus de la directive d'interdiction.
  • Une ligne pour un répertoire. Il n'est pas permis d'écrire plusieurs répertoires sur une seule ligne.
  • Le nom du fichier doit être uniquement : robots.txt. Pas de Robots.txt, ROBOTS.txt, etc. Seulement des lettres minuscules dans le nom.
  • Dans la directive host, il convient d'écrire le chemin vers le domaine sans http et sans slashs. Incorrect : Host: http://www.site.fr/, Correct : Host: www.site.fr (ou site.fr).
  • Lors de l'utilisation d'un protocole sécurisé https pour le site, dans la directive host (pour Google), il est nécessaire de l'indiquer avec le protocole, comme Host: https://www.site.fr.

Vérification des erreurs dans robots.txt

Pour vérifier les erreurs, utilisez les outils disponibles dans votre tableau de bord web, dans google search console ou dans tout autre outil d'analyse seo qui permet de tester l'accès des robots aux différentes URL.

Il est important de noter qu'un fichier de plus de 32 Ko est lu comme entièrement autorisé, indépendamment de son contenu.

Remplissage excessif de robots.txt. Les webmasters débutants sont impressionnés par les articles qui affirment que tout ce qui est inutile doit être fermé dans robots.txt et commencent à interdire tout, sauf le texte sur des pages strictement définies. Cela, pour le dire doucement, est incorrect. Premièrement, Google recommande de ne pas interdire les scripts, CSS et autres éléments qui pourraient empêcher le robot de voir le site comme un utilisateur le voit. Deuxièmement, un grand nombre d'erreurs sont liées au fait qu'en fermant une chose, l'utilisateur ferme aussi une autre. Il est donc préférable de fermer dans robots.txt uniquement les choses manifestement inutiles pour le robot, comme les formulaires d'inscription, les pages de redirection de liens, etc., et de se débarrasser des doublons à l'aide de balises canoniques. Notez que le fait d'avoir modifié robots.txt ne signifie pas que le GoogleBot de recherche le relira immédiatement. Pour accélérer ce processus, il suffit de consulter robots.txt dans la section correspondante de votre tableau de bord.

Comment créer et configurer un fichier robots txt optimisé

Pour créer un fichier robots txt, ouvrez un éditeur de texte simple, créez un nouveau fichier texte, ajoutez vos directives user agent disallow et allow, puis enregistrez ce fichier txt sous le nom exact robots.txt. Placez ce fichier robots txt à la racine site de votre domaine, sur le serveur d'hébergement, en respectant la structure des répertoires et la configuration de votre cms.

Vous pouvez également créer le fichier robots txt local sur votre ordinateur, le tester dans un navigateur, puis le mettre en ligne via votre interface d'administration, votre gestionnaire de fichiers ou un outil ftp. Cette méthode simple permet de vérifier le comportement des robots d'exploration et de contrôler l'accès aux répertoires sensibles avant la mise en production.

Un bon exemple de mise en place consiste à autoriser les contenus importants (pages d'accueil, catégories, article de blog, actualités, mentions légales, page de contact) et à bloquer les paramètres inutiles, les zones d'admin et les contenus techniques, tout en laissant les sitemaps xml accessibles afin de faciliter l'indexer pages et l'indexation globale.

Liste de contrôles pour un fichier robots txt optimiser le crawl

  • Vérifiez que le fichier txt est bien placé à la racine site (https www.votre-domaine.fr/robots.txt) et accessible sans erreur depuis un navigateur.
  • Assurez-vous que le fichier texte respecte le protocole standard, avec une ligne user-agent claire, suivie de directives Disallow et Allow sur chaque ligne.
  • Ajoutez la ligne Sitemap vers vos sitemaps XML principaux pour aider les robots à suivre la structure et les contenus importants.
  • Contrôlez que vous ne bloquez pas par erreur les fichiers nécessaires au rendu du site (CSS, JS, images) que Google recommande de laisser accessibles aux robots.
  • Évitez de bloquer la page d'accueil, les pages de catégories, les articles clés, les pages de services, les formations, les contenus marketing ou les pages de contact qui doivent générer du trafic et des clients.
  • Utilisez les directives pour empêcher l'accès aux répertoires d'administration, aux paramètres de recherche interne, aux contenus dupliqués, aux pages de test et aux ressources sensibles.
  • Testez régulièrement votre fichier robots txt avec les outils de google search console pour voir comment les robots explorent vos URL et corriger toute erreur signalée.

Gestion des fichiers et contenus à bloquer

  • Les fichiers CSS internes d'administration.
  • Les fichiers JavaScript de test non nécessaires au rendu public.
  • Les fichiers images générés pour des prévisualisations internes.
  • Les fichiers PDF privés contenant des données sensibles.
  • Les fichiers d'administration générés par votre cms.
  • Les fichiers de panier et de commande dans les espaces protégés.
  • Les fichiers temporaires créés pendant l'installation.
  • Les fichiers de logs internes du serveur.
  • Les fichiers sensibles de sauvegarde.
  • Les fichiers de statistiques locales.
  • Les fichiers générés automatiquement par des extensions.
  • Les fichiers media de test non destinés aux clients.
  • Les fichiers liés à des paramètres techniques spécifiques.
  • Les fichiers de configuration exposés par erreur.
  • Les fichiers attachés à des commentaires modérés.

Robots.txt, SEO et stratégie de référencement

Un fichier robots txt bien configuré contribue à la stratégie de référencement en guidant les robots moteurs recherche vers les contenus à forte valeur seo, tout en réduisant l'exploration de pages inutiles. Cela permet d'améliorer la visibilité, de concentrer le crawl sur les pages stratégiques, et d'éviter des problèmes d'exclusion involontaire ou d'indexation de contenus dupliqués.

Le fonctionnement du fichier robots txt complète d'autres techniques d'optimisation, comme les balises meta noindex, les balises canoniques, la structure des url, la conception des sitemaps xml et les pratiques de contenu respectant les consignes des moteurs de recherche. En combinant correctement ces outils, vous pouvez optimiser le référencement naturel de votre site wordpress, de votre blog ou de tout autre type de site.

Ce fichier est également essentiel pour les agences et les consultants marketing qui souhaitent contrôler de manière fine l'exploration, partager des conseils avec leurs clients et mettre en place des solutions efficaces pour le seo sans modifier directement toutes les pages html existantes.

Robots.txt et WordPress

Sur un site WordPress, le fichier robots.txt joue un rôle principal pour contrôler les répertoires spécifiques générés par WordPress. Une installation WordPress classique crée de nombreux chemins techniques qu'il est recommandé de gérer avec des directives adaptées.

Un site WordPress peut être une simple vitrine, un blog WordPress, un site WordPress woocommerce pour le commerce en ligne ou un multisite WordPress complexe. Dans tous les cas, le même fichier robots txt doit respecter les bonnes pratiques seo tout en tenant compte de la structure propre à WordPress et à votre thème WordPress.

Vous pouvez créer et gérer ce fichier via un plugin WordPress dédié, via un plugin comme yoast seo ou via l'éditeur de fichiers de votre hébergement WordPress. De nombreux outils seo pour WordPress proposent un générateur de fichier robots txt avec des modèles déjà optimisés pour l'installation WordPress, pour les liens de catégories et pour la gestion des paramètres.

Sur un site wordpress, il est généralement conseillé d'autoriser les contenus publics (articles, pages, catégories utiles) et de désactiver l'exploration de l'admin WordPress, de certains paramètres de recherche interne, des archives non utiles, de certaines taxonomies techniques et de répertoires système spécifiques.

WordPress

User -Agent: * Allow: /wp-content/uploads/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content Disallow: /tag Disallow: /category Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Host: site.fr Sitemap: http://site.fr/sitemap.xml

ModX

User -agent: * Disallow: /manager/ Disallow: /assets/components/ Disallow: /core/ Disallow: /connectors/ Disallow: /index.php Disallow: *? Host: exemple.fr Sitemap: http://exemple.fr/sitemap.xml

OpenCart

User -agent: * Disallow: /*route=account/ Disallow: /*route=affiliate/ Disallow: /*route=checkout/ Disallow: /*route=product/search Disallow: /index.php?route=product/product*&manufacturer_id= Disallow: /admin Disallow: /catalog Disallow: /download Disallow: /export Disallow: /system Disallow: /*?sort= Disallow: /*&sort= Disallow: /*?order= Disallow: /*&order= Disallow: /*?limit= Disallow: /*&limit= Disallow: /*?filter_name= Disallow: /*&filter_name= Disallow: /*?filter_sub_category= Disallow: /*&filter_sub_category= Disallow: /*?filter_description= Disallow: /*&filter_description= Disallow: /*?tracking= Disallow: /*&tracking= Disallow: /*?page= Disallow: /*&page= Disallow: /wishlist Disallow: /login Disallow: /index.php?route=product/manufacturer Disallow: /index.php?route=product/compare Disallow: /index.php?route=product/category

Joomla

User -agent: * Allow: /index.php?option=com_xmap&sitemap=1&view=xml Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /go.php Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /*com_mailto* Disallow: /*pop=* Disallow: /*lang=fr* Disallow: /*format=* Disallow: /*print=* Disallow: /*task=vote* Disallow: /*=watermark* Disallow: /*=download* Disallow: /*user/* Disallow: /.html Disallow: /index.php? Disallow: /index.html Disallow: /*? Disallow: /*% Disallow: /*& Disallow: /index2.php Disallow: /index.php Disallow: /*tag Disallow: /*print=1 Disallow: /trackback Host: votre-site

Bitrix

User -agent: * Disallow: /*index.php$ Disallow: /bitrix/ Disallow: /auth/ Disallow: /personal/ Disallow: /upload/ Disallow: /search/ Disallow: /*/search/ Disallow: /*/slide_show/ Disallow: /*/gallery/*order=* Disallow: /*?print= Disallow: /*&print= Disallow: /*register= Disallow: /*forgot_password= Disallow: /*change_password= Disallow: /*login= Disallow: /*logout= Disallow: /*auth= Disallow: /*?action= Disallow: /*action=ADD_TO_COMPARE_LIST Disallow: /*action=DELETE_FROM_COMPARE_LIST Disallow: /*action=ADD2BASKET Disallow: /*action=BUY Disallow: /*bitrix_*= Disallow: /*backurl=* Disallow: /*BACKURL=* Disallow: /*back_url=* Disallow: /*BACK_URL=* Disallow: /*back_url_admin=* Disallow: /*print_course=Y Disallow: /*COURSE_ID= Disallow: /*?COURSE_ID= Disallow: /*?PAGEN Disallow: /*PAGEN_1= Disallow: /*PAGEN_2= Disallow: /*PAGEN_3= Disallow: /*PAGEN_4= Disallow: /*PAGEN_5= Disallow: /*PAGEN_6= Disallow: /*PAGEN_7= Disallow: /*PAGE_NAME=user_post Disallow: /*PAGE_NAME=detail_slide_show Disallow: /*PAGE_NAME=search Disallow: /*PAGE_NAME=user_post Disallow: /*PAGE_NAME=detail_slide_show Disallow: /*SHOWALL Disallow: /*show_all= Host: sitename.fr Sitemap: http://www.sitename.fr/sitemap.xml

Dans ces exemples, le paramètre User-Agent indique le caractère * qui autorise l'accès à tous les robots de recherche. Pour configurer robots.txt pour des moteurs de recherche spécifiques, au lieu du caractère spécial, il suffit de mentionner le nom du user-agent comme GoogleBot.

Bonnes pratiques d'optimisation du fichier robots.txt

Pour optimiser le fichier robots txt, commencez par analyser quelles sections de votre site génèrent le plus de valeur en termes de référencement, quelles sections doivent rester accessibles aux robots et quelles sections doivent être exclues. Cette optimisation doit rester cohérente avec la gestion des noindex, des balises meta, de la structure des liens internes et de la stratégie de contenus.

Un exemple de bonne pratique consiste à utiliser le fichier robots txt uniquement pour contrôler l'exploration (crawl) et non comme seule méthode de gestion de l'indexation. Les pages vraiment inutiles pour le trafic peuvent être exclues par des directives noindex, tandis que le fichier robots.txt sert surtout à guider les robots vers les ressources pertinentes et à réduire la charge inutile sur le serveur.

L'optimisation avancée du fonctionnement du fichier s'appuie sur l'analyse des journaux de serveur, sur les rapports de google search console, sur des outils seo spécialisés et sur une bonne compréhension des directives spécifiques à chaque moteur, y compris google, bing et les autres.

Créez un fichier robots txt clair, évitez les directives contradictoires, gardez une structure simple, documentez les choix effectués et mettez à jour le fichier lors de chaque modification importante de la structure du site, de l'installation d'un nouveau cms, d'un plugin ou de changements de paramètres qui affectent les url.

En suivant ces pratiques, vous obtenez un fichier robots txt optimisé qui aide les robots d'exploration à mieux comprendre vos contenus, à respecter les zones d'exclusion, à éviter les erreurs d'accès et à améliorer globalement le référencement naturel de votre domaine.

Mis à jour le 8 mars 2026.

ESSAI GRATUIT

Commencez votre essai gratuit maintenant.