Fichier robots.txt
PRINCIPE
Par défaut, les robots s’autorisent à crawler toutes les URL d’un site
SAUF celles que vous avez explicitement interdites dans le fichier robot.txt
POURQUOI ?
- Pour économiser du budget de crawl
- Bloquer l’accès à certains contenus nuisibles ou inutiles (exemple contenu dupliqué) et éviter qu’ils soient indexés
à retenir :
- Si vous souhaitez bloquer une URL, il est prudent de l’ajouter aux blocages dans le fichier robots.txt au moins 24h avant de mettre l’URL en ligne.
- Si l’URL a déjà été indexé par Google, la bloquer dans le fichier robots.txt ne changera rien, l’URL reste indexé (cf désindexation).
Que faut-il mettre dans son fichier robots.txt ?
Indiquez ce qui n’a pas besoin d’être crawlé (et donc indexé)
- Des types d’URL qui n’ont aucun intérêt pour le référencement (exemple : page en double, tri, mode affichage, /wp-login.php…). Ne plus mettre les fichiers wp-admin et wp-includes.
- Des rubriques du site (répertoires qui ne doivent jamais être indexées (exemple : /dolibarr)
- Des types de fichiers qui ne doivent pas être indexés (exemple PDF)
- Des URLs indésirables (ping, trackback, feed, comments)
- https ou http ? Pas d’importance si redirection automatique de http à hhtps
CONSEILS :
- Ne bloquez pas le crawl des URLs qui se font rediriger
- Un fichier robots.txt pour chaque sous-domaine
- Si en préprod vous avez bloqué tout le site (Disallow:/), pensez à retirer cette directive avant de mettre le site en ligne
- Le fichier robots.txt peut se retrouver indexer (cf Search Console pour le désindexer)
- Le fichier robots.txt ne sert pas à protéger des URLs « sensibles »
- Google doit impérativement pouvoir accéder au CSS et JS pour tester la compatibilité mobile.
- Le fichier robots.txt sert à gérer le crawl (exploration) et non pas l’indexation. La directive noindex n’est plus supportée depuis le 1er septembre 2019.
- Crawl delay est impossible depuis 2017 avec Google
- On peut déclarer un fichier sitemap (exemple : sitemap: http://monsite.fr/sitemap.xml)
Comment créer un fichier robots.txt ?
- Utilisez un éditeur de texte (pas Word) comme Notepad ou BBedit (mac)
- Uploadez le fichier via FTP à la racine du site
Est-ce grave de ne pas avoir de fichier robots.txt ?
Non, seulement vous autorisez à tous les crawlers d’aller partout sur votre site et à chaque fois qu’un moteur de recherche tente d’accéder à votre fichier robots.txt, ça génère une erreur 404
Peut-on avoir un fichier robots.txt vide ?
Oui
CONSEILS :
- Le fichier doit être encodé en UTF-8
- L’URL commence toujours par /
- Taille maxi du fichier 500 ko
- Les commentaires dans le fichier sont autorisés « # »
Générateur de robots.txt :
robots.txt vs balises meta
Le robot.txt sert à gérer le crawl c’est à dire en amont avant que le crawler vienne consulter vos pages.
Les balises meta servent à gérer l’indexation c’est à dire en aval une fois que le crawler est venu consulter vos pages.
Désindexation
Avant de désindexer se poser les bonnes questions
Quels types de contenus puis-je indexer (sans risque) ?
Mon contenu répond-t-il à la requête d’un internaute qui recherche mes contenus , produits ou services ?
Mon contenu a-t-il du poids d’un point de vue SEO (fait-il objet de liens) ?
- Je souhaite n’indexer que mes pages de qualité
- Je veux limiter le contenu dupliqué
- Je veux limiter mes taux de rebond
Exemples
- Les données confidentielles et tout ce qui constitue de la pré-prod (avant mise en ligne)
- Pages obsolètes (contenus saisonniers ou événementiels ou produit(s) ou service(s) que vous ne proposez plus)
- Moteur de recherche interne / navigation à facettes : si les pages de résultats ne sont utiles qu’à l’internaute et/ou que vous ne savez pas les gérer
- Contenus dupliqués
- Pages peu intéressantes ou peu pertinentes
- Les pdf : s’ils proposent un contenu identique à une page html
Contenu dupliqué
Selon Google, « Par contenu en double, on entend généralement des blocs de contenu importants, appartenant à un même domaine ou répartis sur plusieurs domaines, qui sont identiques ou sensiblement similaires »
OUTILS
- Contenu copié collé d’un site à l’autre. Ex : des citations
- Plusieurs Urls pointant vers une même page, Google les traitant comme deux pages distinctes.
- Balises title ou meta description se répétant sur le site.
- Si le site existe en plusieurs versions identique sous http et https, ou avec et/ou sans préfixe www.
COMMENT ÉVITER LE CONTENU DUPLIQUÉ ?
- Mettre en place une balise canonical sur cette page qui indique que cette page est une copie d’une autre page et que l’autre page est la page principale à privilégier
<link rel= « canonical » href= « http://site.fr/url-de-references.html »/>
- Vous ne voulez pas indexer cette page <meta name= »robots » content= »noindex, follow »>
Sitemap
C’EST QUOI ?
« Un sitemap est un fichier dans lequel vous donnez des informations sur les pages, les vidéos et les autres fichiers présents sur votre site, et dans lequel vous indiquez les relations entre ces fichiers. Les moteurs de recherche tels que Google lisent ce fichier pour explorer plus intelligemment votre site. »
POURQUOI FAIRE ?
Envoyer un sitemap à Google est un bon moyen de s’assurer que les Googlebots connaissent l’existence de votre site et les pages à scanner, afin qu’ils puissent les afficher dans les résultats de Google.
CONSEILS :
- Faire un sitemap pour lister les images, ou des vidéos situées dans la page HTML et les contenus pour les mobiles, pour fournir des informations destinées aux mobiles (l’URL pour mobile équivalente à l’URL desktop, détails ici)
- Les index de sitemaps nécessitent d’être en XML
Réécriture d’URL
Les URLs sont les adresses de vos pages et elles doivent inciter au clic.

Votre adresse doit donner envie de cliquer lorsqu’elle apparaît sur les moteurs de recherche. Elle doit être représentative et assez courte.
Si vous avez déjà des centaines d’URL qui ne vous conviennent pas, si vous les modifiez, il y aura un risque d’erreur 404.
