Détour technique SEO

SEO Détour technique SEO

SEO Détour technique pour une optimisation efficace du SEO de votre site

Mettons la main dans le cambouis et faisons un détour un peu plus technique pour optimiser le SEO de votre site.

Sitemap

Redirection 301

AMP

Fichier robots.txt

Crawl budget

Pour indexer un site, les moteurs de recherche envoient des robots ou spiders qui parcourent celui-ci en suivant les liens avec des dizaines de milliers de page et les dizaines de millions de site sur internet. C’est impossible de parcourir toutes les pages.

Donc, les robots ne parcourent pas en permanence les pages d’un site. Il y a une notion de crawl budget.

On dit que vous avez un budget limité d’indexation. Une bonne pratique consiste à garder en tête que cette notion existe.

C’est la raison pour laquelle on va éviter le contenu dupliqué, le contenu inutile ou sensible à crawler.

On entend par contenu dupliqué, la même page accessible des centaines de fois via 100 URL différentes. Les robots vont crawler seulement certaines de ces pages.

exemple : Si vous avez un « quota » de 100 pages par jour et si Google passe 80% à explorer la même page qui contient plusieurs versions. Vous ne pourrez pas référencer toutes les pages de votre site.

PRINCIPE

Par défaut, les robots s’autorisent à crawler toutes les URL d’un site

SAUF celles que vous avez explicitement interdites dans le fichier robot.txt

POURQUOI ?

Pour économiser du budget de crawl
Bloquer l’accès à certains contenus nuisibles ou inutiles (exemple contenu dupliqué) et éviter qu’ils soient indexés

à retenir :

Si vous souhaitez bloquer une URL, il est prudent de l’ajouter aux blocages dans le fichier robots.txt au moins 24h avant de mettre l’URL en ligne.
Si l’URL a déjà été indexé par Google, la bloquer dans le fichier robots.txt ne changera rien, l’URL reste indexé (cf désindexation).

Que faut-il mettre dans son fichier robots.txt ?

Indiquez ce qui n’a pas besoin d’être crawlé (et donc indexé)

Des types d’URL qui n’ont aucun intérêt pour le référencement (exemple : page en double, tri, mode affichage, /wp-login.php…). Ne plus mettre les fichiers wp-admin et wp-includes.
Des rubriques du site (répertoires qui ne doivent jamais être indexées (exemple : /dolibarr)
Des types de fichiers qui ne doivent pas être indexés (exemple PDF)
Des URLs indésirables (ping, trackback, feed, comments)
https ou http ? Pas d’importance si redirection automatique de http à hhtps

CONSEILS :

Ne bloquez pas le crawl des URLs qui se font rediriger
Un fichier robots.txt pour chaque sous-domaine
Si en préprod vous avez bloqué tout le site (Disallow:/), pensez à retirer cette directive avant de mettre le site en ligne
Le fichier robots.txt peut se retrouver indexer (cf Search Console pour le désindexer)
Le fichier robots.txt ne sert pas à protéger des URLs « sensibles »
Google doit impérativement pouvoir accéder au CSS et JS pour tester la compatibilité mobile.
Le fichier robots.txt sert à gérer le crawl (exploration) et non pas l’indexation. La directive noindex n’est plus supportée depuis le 1er septembre 2019.
Crawl delay est impossible depuis 2017 avec Google
On peut déclarer un fichier sitemap (exemple : sitemap: http://monsite.fr/sitemap.xml)

Exemple fichier robots.txt

Comment créer un fichier robots.txt ?

Utilisez un éditeur de texte (pas Word) comme Notepad ou BBedit (mac)
Uploadez le fichier via FTP à la racine du site

Est-ce grave de ne pas avoir de fichier robots.txt ?

Non, seulement vous autorisez à tous les crawlers d’aller partout sur votre site et à chaque fois qu’un moteur de recherche tente d’accéder à votre fichier robots.txt, ça génère une erreur 404

Peut-on avoir un fichier robots.txt vide ?

Oui

Marche à suivre pour modifier ou supprimer un fichier robot.txt
Vous avez besoin de modifier un fichier robots.txt et que vous êtes pressés
1. Allez dans la rubrique Exploration
2. Cliquez sur Outil de test du fichier robots.txt
3. Cliquez sur « Envoyer »
4. Dans le popup, repérez « Demander la mise à jour à Google » et cliquez sur « Envoyer »
De la même manière que vous l’avez créé, vous devriez pouvoir le supprimer.

Généralement, pour supprimer un fichier robots.txt il faut passer par FTP et aller dans le même répertoire que celui de la page d’accueil du site.

CONSEILS :

Le fichier doit être encodé en UTF-8
L’URL commence toujours par /
Taille maxi du fichier 500 ko
Les commentaires dans le fichier sont autorisés « # »

Générateur de robots.txt :

ryte.com / seobook.com

Outil de test search console

robots.txt vs balises meta

Le robot.txt sert à gérer le crawl c’est à dire en amont avant que le crawler vienne consulter vos pages.

Les balises meta servent à gérer l’indexation c’est à dire en aval une fois que le crawler est venu consulter vos pages.

Désindexation

Avant de désindexer se poser les bonnes questions

Quels types de contenus puis-je indexer (sans risque) ?

Mon contenu répond-t-il à la requête d’un internaute qui recherche mes contenus , produits ou services ?

Mon contenu a-t-il du poids d’un point de vue SEO (fait-il objet de liens) ?

Je souhaite n’indexer que mes pages de qualité
Je veux limiter le contenu dupliqué
Je veux limiter mes taux de rebond

Exemples

Les données confidentielles et tout ce qui constitue de la pré-prod (avant mise en ligne)
Pages obsolètes (contenus saisonniers ou événementiels ou produit(s) ou service(s) que vous ne proposez plus)
Moteur de recherche interne / navigation à facettes : si les pages de résultats ne sont utiles qu’à l’internaute et/ou que vous ne savez pas les gérer
Contenus dupliqués
Pages peu intéressantes ou peu pertinentes
Les pdf : s’ils proposent un contenu identique à une page html

COMMENT ?
La balise meta robots.

Placée entre les balises <head></head>, la balise meta robots permet de donner les directives d’indexation d’un contenu du site.

Elle peut indiquer qu’on est OK pour que le robot indexe le contenu et suive les liens proposés dans le contenu :
```
<meta name="robots" content="index, follow">
```
Pour rendre le contenu non indexable mais on est OK pour que les liens sur la page soient suivis (recommandé quand on veut juste qu’un contenu précis soit désindexé et que la page ne présente pas de liens problématiques) :
```
<meta name="robots" content="noindex, follow">
```
Pour rendre le contenu non indexable ET empêcher que les liens soient suivis (cette mesure limite complètement le robot qui ne continue pas le crawl à partir de cette page) :
```
<meta name="robots" content="noindex, follow">
```
ATTENTION : la balise meta ne gère pas tous les formats.

Directive x robot tag dans le .htaccess

La méthode la plus efficace car elle permet de gérer les formats que l’on souhaite désindexer. Cette directive s’affiche dans l’en-tête http du contenu grâce au fichier .htaccess. Vous pouvez gérer les formats comme vous le souhaitez.

Exemple, pour désindexer les pdf :
```
<Files ~ ".pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>
```
Pour désindexer les fichiers images :
```
<Files ~ ".(png|jpe?g|gif)$">
  Header set X-Robots-Tag "noindex"
</Files>
```
Comment je peux accélérer les choses ?
- Ajouter un sitemap dédié pour vos contenus à désindexer : il est possible de générer un sitemap pour vos contenus à désindexer. En le plaçant à la racine du site et en le soumettant sur Search Console, vous garantissez la bonne prise en compte de vos directives et cela peut vous permettre de gagner un peu de temps.
- Dans Search Console, vous avez aussi la possibilité de demander à supprimer temporairement une url de l’index. Si un contenu vous pose vraiment problème, cela peut vous permettre d’agir plus rapidement sur l’index en vous laissant le temps de faire les modifications sur votre site et que celles-ci soient prises en compte.

Contenu dupliqué

Selon Google, « Par contenu en double, on entend généralement des blocs de contenu importants, appartenant à un même domaine ou répartis sur plusieurs domaines, qui sont identiques ou sensiblement similaires »

OUTILS

Siteliner

DUPLICATE CONTENT

DUPLICATE CONTENT
COMME DUPLICATE CONTENT

Contenu copié collé d’un site à l’autre. Ex : des citations
Plusieurs Urls pointant vers une même page, Google les traitant comme deux pages distinctes.
Balises title ou meta description se répétant sur le site.
Si le site existe en plusieurs versions identique sous http et https, ou avec et/ou sans préfixe www.

COMMENT ÉVITER LE CONTENU DUPLIQUÉ ?

Mettre en place une balise canonical sur cette page qui indique que cette page est une copie d’une autre page et que l’autre page est la page principale à privilégier

Vous ne voulez pas indexer cette page <meta name= »robots » content= »noindex, follow »>

Sitemap

COMMENT ?
Extensions WordPress :
Méthode déconseillée, il existe des générateurs de sitemap

XML Sitemap Generator

C’EST QUOI ?

« Un sitemap est un fichier dans lequel vous donnez des informations sur les pages, les vidéos et les autres fichiers présents sur votre site, et dans lequel vous indiquez les relations entre ces fichiers. Les moteurs de recherche tels que Google lisent ce fichier pour explorer plus intelligemment votre site. »

POURQUOI FAIRE ?

Envoyer un sitemap à Google est un bon moyen de s’assurer que les Googlebots connaissent l’existence de votre site et les pages à scanner, afin qu’ils puissent les afficher dans les résultats de Google.

CONSEILS :

Faire un sitemap pour lister les images, ou des vidéos situées dans la page HTML et les contenus pour les mobiles, pour fournir des informations destinées aux mobiles (l’URL pour mobile équivalente à l’URL desktop, détails ici)
Les index de sitemaps nécessitent d’être en XML

Réécriture d’URL

Les URLs sont les adresses de vos pages et elles doivent inciter au clic.

Votre adresse doit donner envie de cliquer lorsqu’elle apparaît sur les moteurs de recherche. Elle doit être représentative et assez courte.

Si vous avez déjà des centaines d’URL qui ne vous conviennent pas, si vous les modifiez, il y aura un risque d’erreur 404.

Statuts de page

Un code de statut contient des réponses transmises par le serveur quand on se rend sur une page

Leçon Précédent

Retour à la/au Cours

Leçon Suivante