Les robots d'exploration indexent un site internet pour la recherche google et les autres moteurs, indépendamment de la présence de robots.txt et sitemap.xml. Grâce au fichier robots.txt, il est possible d'indiquer aux moteurs de recherche ce qu'il convient d'exclure de l'indexation et de configurer d'autres paramètres importants pour le référencement naturel et le seo de votre site web.
Le fichier texte robots.txt est un petit fichier txt placé à la racine site de votre domaine qui permet de contrôler le comportement des robots moteurs recherche. Ce fichier robots txt indique robots quelles parties du site web doivent être explorées, quelles URL doivent être ignorées, comment limiter le crawl et comment optimiser l'exploration pour améliorer le référencement et la visibilité dans les résultats recherche.
En comprenant le fonctionnement du fichier robots txt et la manière dont google, bing et les autres moteurs interprètent les directives, vous pouvez optimiser l'accès aux contenus importants, éviter l'indexation de pages dupliqué, protéger des sections sensibles et mieux gérer le budget de crawl alloué par les robots d'exploration à votre site wordpress, à un autre cms ou à un site html sur n'importe quel hébergement.
Ce guide complet explique comment créer un fichier robots txt, comment le mettre à jour manuellement, comment tester votre configuration dans google search console, comment optimiser le txt fichier pour le seo technique et quelles bonnes pratiques appliquer sur un site wordpress, un blog ou une boutique woocommerce.
Les directives sont des règles pour les robots. Il existe une spécification W3C datant du 30 janvier 1994 et un standard élargi de 1996, qui définissent la base du fonctionnement du protocole d'exclusion des robots pour le référencement naturel.
User-agent : directive qui commence le fichier robots.txt et qui permet d'indiquer robots à quel user agent s'appliquent les règles.
Exemple :
User -agent: * # instructions pour tous les robots de recherche. User -agent: GoogleBot # instructions pour Google. Disallow: / # directive interdisant l'indexation de ce qui est spécifié après /. Allow: / # directive autorisant l'indexation de l'URL. Disallow: # ne fonctionne pas sans le caractère spécial /. Allow: / # ignoré si aucune URL n'est spécifiée après /.
Attention au caractère /, une erreur fréquente serait de rédiger par exemple :
User -agent:* Disallow: /
# cela peut fermer l'ensemble du site à l'indexation et empêcher complètement les robots d'accéder à votre contenu principal.
Le caractère spécial * signifie n'importe quelle séquence de caractères, y compris vide, par exemple :
Disallow: /panier/* # interdit l'indexation de toutes les pages après l'URL : site.fr/panier/
Le caractère spécial $ limite l'action du caractère *, fournissant une restriction stricte :
User -agent:* Disallow: /catalog{{input}} # avec ce caractère, catalog ne sera pas indexé, mais catalog.html le sera.
La directive sitemap indique le chemin vers la carte du site et se présente ainsi :
User -agent: * Allow: / Sitemap: http://www.site.fr/sitemap.xml # doit être indiqué avec http:// ou https://, https:// est utilisé si un certificat SSL est connecté.
La directive Host indique le miroir principal du site avec ou sans www et aide les robots à comprendre quelle version du domaine doit être utilisée dans l'indexation.
User -agent: * Allow: / Sitemap: http://www.site.fr/sitemap.xml Host: www.site.fr # le chemin vers le domaine doit être écrit sans http et sans slashs, assurez-vous que le domaine est collé. Sans une bonne concaténation du domaine, la même page peut apparaître dans l'index des moteurs de recherche plus d'une fois, ce qui peut entraîner une pénalisation.
La directive Crawl-Delay limite la charge sur le serveur, définissant un délai pour les moteurs de recherche :
User -agent: * Crawl-delay: 2 # définit un délai de 2 secondes. User -agent: * Disallow: /recherche Crawl-delay: 4.5 # définit un délai de 4.5 secondes.
La directive Clean-Param est nécessaire si les adresses des pages du site contiennent des paramètres dynamiques qui n'affectent pas le contenu, par exemple : identifiants de session, utilisateurs, référents, etc.
Les robots d'exploration, en utilisant les valeurs de la directive Clean-Param, ne rechargeront pas plusieurs fois des informations en double. Ainsi, l'efficacité du crawl de votre site augmentera, et la charge sur le serveur diminuera, ce qui est important pour le seo technique et la gestion du trafic.
Par exemple, des pages avec les adresses suivantes :
www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.site.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.site.com/some_dir/get_book.pl?ref=site_3&book_id=123
Le paramètre ref est utilisé uniquement pour suivre la source de la requête et ne change pas le contenu, les trois adresses afficheront la même page avec le livre book_id=123. Ainsi, si la directive est spécifiée comme suit :
User -agent: GoogleBot Disallow: Clean-param: ref /some_dir/get_book.pl
le robot réduira toutes les adresses de la page à une seule :
www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123,
Il convient également de noter qu'il existe plusieurs options de configuration pour cette directive.
La robotique de l'exploration repose sur ce type de règles : on parle parfois de robotique de crawl pour décrire le comportement robotique automatisé des robots moteurs recherche contrôlé par le fichier robots.txt.
L'utilisation de caractères de l'alphabet russe est interdite dans robots.txt, il est nécessaire d'utiliser Punycode (méthode normalisée pour convertir des séquences de caractères Unicode en séquences ACE).
# Incorrect : User -agent: * Disallow: /panier Host: magasin-en-ligne.fr # Correct : User -agent: * Disallow: /%D0%BF%D0%B0%D0%BD%D0%B8%D0%B5%D1%80 Host: xn----8sbalhasbh9ahbi6a2ae.xn--p1ai
Pour vérifier les erreurs, utilisez les outils disponibles dans votre tableau de bord web, dans google search console ou dans tout autre outil d'analyse seo qui permet de tester l'accès des robots aux différentes URL.
Il est important de noter qu'un fichier de plus de 32 Ko est lu comme entièrement autorisé, indépendamment de son contenu.
Remplissage excessif de robots.txt. Les webmasters débutants sont impressionnés par les articles qui affirment que tout ce qui est inutile doit être fermé dans robots.txt et commencent à interdire tout, sauf le texte sur des pages strictement définies. Cela, pour le dire doucement, est incorrect. Premièrement, Google recommande de ne pas interdire les scripts, CSS et autres éléments qui pourraient empêcher le robot de voir le site comme un utilisateur le voit. Deuxièmement, un grand nombre d'erreurs sont liées au fait qu'en fermant une chose, l'utilisateur ferme aussi une autre. Il est donc préférable de fermer dans robots.txt uniquement les choses manifestement inutiles pour le robot, comme les formulaires d'inscription, les pages de redirection de liens, etc., et de se débarrasser des doublons à l'aide de balises canoniques. Notez que le fait d'avoir modifié robots.txt ne signifie pas que le GoogleBot de recherche le relira immédiatement. Pour accélérer ce processus, il suffit de consulter robots.txt dans la section correspondante de votre tableau de bord.
Pour créer un fichier robots txt, ouvrez un éditeur de texte simple, créez un nouveau fichier texte, ajoutez vos directives user agent disallow et allow, puis enregistrez ce fichier txt sous le nom exact robots.txt. Placez ce fichier robots txt à la racine site de votre domaine, sur le serveur d'hébergement, en respectant la structure des répertoires et la configuration de votre cms.
Vous pouvez également créer le fichier robots txt local sur votre ordinateur, le tester dans un navigateur, puis le mettre en ligne via votre interface d'administration, votre gestionnaire de fichiers ou un outil ftp. Cette méthode simple permet de vérifier le comportement des robots d'exploration et de contrôler l'accès aux répertoires sensibles avant la mise en production.
Un bon exemple de mise en place consiste à autoriser les contenus importants (pages d'accueil, catégories, article de blog, actualités, mentions légales, page de contact) et à bloquer les paramètres inutiles, les zones d'admin et les contenus techniques, tout en laissant les sitemaps xml accessibles afin de faciliter l'indexer pages et l'indexation globale.
Un fichier robots txt bien configuré contribue à la stratégie de référencement en guidant les robots moteurs recherche vers les contenus à forte valeur seo, tout en réduisant l'exploration de pages inutiles. Cela permet d'améliorer la visibilité, de concentrer le crawl sur les pages stratégiques, et d'éviter des problèmes d'exclusion involontaire ou d'indexation de contenus dupliqués.
Le fonctionnement du fichier robots txt complète d'autres techniques d'optimisation, comme les balises meta noindex, les balises canoniques, la structure des url, la conception des sitemaps xml et les pratiques de contenu respectant les consignes des moteurs de recherche. En combinant correctement ces outils, vous pouvez optimiser le référencement naturel de votre site wordpress, de votre blog ou de tout autre type de site.
Ce fichier est également essentiel pour les agences et les consultants marketing qui souhaitent contrôler de manière fine l'exploration, partager des conseils avec leurs clients et mettre en place des solutions efficaces pour le seo sans modifier directement toutes les pages html existantes.
Sur un site WordPress, le fichier robots.txt joue un rôle principal pour contrôler les répertoires spécifiques générés par WordPress. Une installation WordPress classique crée de nombreux chemins techniques qu'il est recommandé de gérer avec des directives adaptées.
Un site WordPress peut être une simple vitrine, un blog WordPress, un site WordPress woocommerce pour le commerce en ligne ou un multisite WordPress complexe. Dans tous les cas, le même fichier robots txt doit respecter les bonnes pratiques seo tout en tenant compte de la structure propre à WordPress et à votre thème WordPress.
Vous pouvez créer et gérer ce fichier via un plugin WordPress dédié, via un plugin comme yoast seo ou via l'éditeur de fichiers de votre hébergement WordPress. De nombreux outils seo pour WordPress proposent un générateur de fichier robots txt avec des modèles déjà optimisés pour l'installation WordPress, pour les liens de catégories et pour la gestion des paramètres.
Sur un site wordpress, il est généralement conseillé d'autoriser les contenus publics (articles, pages, catégories utiles) et de désactiver l'exploration de l'admin WordPress, de certains paramètres de recherche interne, des archives non utiles, de certaines taxonomies techniques et de répertoires système spécifiques.
User -Agent: * Allow: /wp-content/uploads/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content Disallow: /tag Disallow: /category Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Host: site.fr Sitemap: http://site.fr/sitemap.xml
User -agent: * Disallow: /manager/ Disallow: /assets/components/ Disallow: /core/ Disallow: /connectors/ Disallow: /index.php Disallow: *? Host: exemple.fr Sitemap: http://exemple.fr/sitemap.xml
User -agent: * Disallow: /*route=account/ Disallow: /*route=affiliate/ Disallow: /*route=checkout/ Disallow: /*route=product/search Disallow: /index.php?route=product/product*&manufacturer_id= Disallow: /admin Disallow: /catalog Disallow: /download Disallow: /export Disallow: /system Disallow: /*?sort= Disallow: /*&sort= Disallow: /*?order= Disallow: /*&order= Disallow: /*?limit= Disallow: /*&limit= Disallow: /*?filter_name= Disallow: /*&filter_name= Disallow: /*?filter_sub_category= Disallow: /*&filter_sub_category= Disallow: /*?filter_description= Disallow: /*&filter_description= Disallow: /*?tracking= Disallow: /*&tracking= Disallow: /*?page= Disallow: /*&page= Disallow: /wishlist Disallow: /login Disallow: /index.php?route=product/manufacturer Disallow: /index.php?route=product/compare Disallow: /index.php?route=product/category
User -agent: * Allow: /index.php?option=com_xmap&sitemap=1&view=xml Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /go.php Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /*com_mailto* Disallow: /*pop=* Disallow: /*lang=fr* Disallow: /*format=* Disallow: /*print=* Disallow: /*task=vote* Disallow: /*=watermark* Disallow: /*=download* Disallow: /*user/* Disallow: /.html Disallow: /index.php? Disallow: /index.html Disallow: /*? Disallow: /*% Disallow: /*& Disallow: /index2.php Disallow: /index.php Disallow: /*tag Disallow: /*print=1 Disallow: /trackback Host: votre-site
User -agent: * Disallow: /*index.php$ Disallow: /bitrix/ Disallow: /auth/ Disallow: /personal/ Disallow: /upload/ Disallow: /search/ Disallow: /*/search/ Disallow: /*/slide_show/ Disallow: /*/gallery/*order=* Disallow: /*?print= Disallow: /*&print= Disallow: /*register= Disallow: /*forgot_password= Disallow: /*change_password= Disallow: /*login= Disallow: /*logout= Disallow: /*auth= Disallow: /*?action= Disallow: /*action=ADD_TO_COMPARE_LIST Disallow: /*action=DELETE_FROM_COMPARE_LIST Disallow: /*action=ADD2BASKET Disallow: /*action=BUY Disallow: /*bitrix_*= Disallow: /*backurl=* Disallow: /*BACKURL=* Disallow: /*back_url=* Disallow: /*BACK_URL=* Disallow: /*back_url_admin=* Disallow: /*print_course=Y Disallow: /*COURSE_ID= Disallow: /*?COURSE_ID= Disallow: /*?PAGEN Disallow: /*PAGEN_1= Disallow: /*PAGEN_2= Disallow: /*PAGEN_3= Disallow: /*PAGEN_4= Disallow: /*PAGEN_5= Disallow: /*PAGEN_6= Disallow: /*PAGEN_7= Disallow: /*PAGE_NAME=user_post Disallow: /*PAGE_NAME=detail_slide_show Disallow: /*PAGE_NAME=search Disallow: /*PAGE_NAME=user_post Disallow: /*PAGE_NAME=detail_slide_show Disallow: /*SHOWALL Disallow: /*show_all= Host: sitename.fr Sitemap: http://www.sitename.fr/sitemap.xml
Dans ces exemples, le paramètre User-Agent indique le caractère * qui autorise l'accès à tous les robots de recherche. Pour configurer robots.txt pour des moteurs de recherche spécifiques, au lieu du caractère spécial, il suffit de mentionner le nom du user-agent comme GoogleBot.
Pour optimiser le fichier robots txt, commencez par analyser quelles sections de votre site génèrent le plus de valeur en termes de référencement, quelles sections doivent rester accessibles aux robots et quelles sections doivent être exclues. Cette optimisation doit rester cohérente avec la gestion des noindex, des balises meta, de la structure des liens internes et de la stratégie de contenus.
Un exemple de bonne pratique consiste à utiliser le fichier robots txt uniquement pour contrôler l'exploration (crawl) et non comme seule méthode de gestion de l'indexation. Les pages vraiment inutiles pour le trafic peuvent être exclues par des directives noindex, tandis que le fichier robots.txt sert surtout à guider les robots vers les ressources pertinentes et à réduire la charge inutile sur le serveur.
L'optimisation avancée du fonctionnement du fichier s'appuie sur l'analyse des journaux de serveur, sur les rapports de google search console, sur des outils seo spécialisés et sur une bonne compréhension des directives spécifiques à chaque moteur, y compris google, bing et les autres.
Créez un fichier robots txt clair, évitez les directives contradictoires, gardez une structure simple, documentez les choix effectués et mettez à jour le fichier lors de chaque modification importante de la structure du site, de l'installation d'un nouveau cms, d'un plugin ou de changements de paramètres qui affectent les url.
En suivant ces pratiques, vous obtenez un fichier robots txt optimisé qui aide les robots d'exploration à mieux comprendre vos contenus, à respecter les zones d'exclusion, à éviter les erreurs d'accès et à améliorer globalement le référencement naturel de votre domaine.
Mis à jour le 8 mars 2026.