PrestaShop robots.txt

Comment mettre en place le robots.txt sur PrestaShop ? (ép. 94)

Le fichier « robots.txt » est important pour que Google puisse bien crawler votre site rapidement et de manière intelligente. Nous allons vérifier ensemble s’il contient les bonnes informations pour votre shop pour qu’il soit performant.

Le robots.txt à quoi ça sert ?

Tous les jours il y a des robots (ou bots) qui viennent visiter votre shop afin d’en absorber le contenu et potentiellement l’indexer dans les résultats de recherche. C’est ce que fait principalement Google Bot en visitant chaque jour votre boutique PrestaShop.

Ce fichier permet de donner les instructions au bot en lui disant principalement « ne visite pas ces pages », sans robots.txt l’accès est permis sur l’ensemble du site, ce qui n’est pas forcement une bonne chose, car le bot va devoir investiguer de lui-même.

Il existe une infinité de bots qui peuvent visiter votre shop, mais le plus important concrètement reste celui de Google qui va représenter un enjeu stratégique pour une bonne indexation et visibilité. Un fichier robots.txt avec de mauvaises instructions peut être pénalisant.

Bloquer les robots indésirables

Il y a une infinité de robots différents, mais soyons clair… la plupart du temps ce que je vois ce sont des robots qui scannent inutilement des boutiques PrestaShop, concrètement cela ne vous apporte rien… si ce n’est de perdre en performances.

Perdre en performances, comment est-ce possible ? En fait cela va ralentir votre hébergement, car un robot qui visite votre shop c’est équivalent à un visiteur. Si vous avez trop de robots qui viennent voir votre shop régulièrement, la vitesse de votre serveur va se dégrader.

On parlait de l’autre jour de l’importance d’avoir un hébergement PrestaShop performant, c’est très bien… mais il est conseillé de bloquer les robots indésirables (avec une mention « Disallow » pour chaque « User-agent) afin d’éviter de solliciter les ressources du serveur pour rien.

Le robots.txt un fichier public inspirant

Pour une fois il est très facile de s’inspirer de la concurrence, sans aucune barrière à l’entrée vu que le fichier « robots.txt » est public. Ne vous attendez pas à forcement à trouver une information rare, mais cela pourrait vous inspirer.

Dans notre exemple en vidéo, on va visualiser le fichier robots.txt de plusieurs gros sites, pour voir si le fichier contient beaucoup d’instructions et vous verrez même que parfois on peut tomber aussi sur des commentaires qui expliquent le « pourquoi » l’instruction est en place.

En se servant d’autres entreprises, on a pu donc facilement établir une liste de bots indésirables à bloquer sans devoir effectuer une analyse manuellement. Comme d’habitude, il est bien utile de se servir et s’inspirer de l’effort des autres.

Lier le sitemap au robots.txt

Sur PrestaShop c’est une fonctionnalité à l’heure actuelle qui se fait automatiquement, normalement un lien est automatiquement ajouté vers le sitemap pour autant que le sitemap soit déjà généré à la racine du shop.

Dans PrestaShop 1.7, il y a actuellement un module sitemap intégré nativement qui va générer les fichiers « xml » pour faciliter l’accès à vos pages pour Google, sans devoir effectuer un crawl approfondi. N’oubliez donc pas de configurer le module sitemap PrestaShop si ce n’est pas encore fait.

Ce qui est intéressant dans cette pratique, c’est que le robots.txt est la 1ère chose consultée par le bot, du coup en incluant le lien du sitemap dans ce fichier, vous donnez un « raccourci » d’accès à l’ensemble des liens de votre boutique.

Conserver les modifications du robots.txt

C’est certainement le point le plus traitre, quand j’ai préparé le tutoriel j’ai fait le test… Si vous ajoutez des instructions manuellement et que vous régénérez le fichier robots.txt, vous allez perdre vos personnalisations… Aie le drame !

Mon conseil, c’est que si vous ajoutez des règles personnalisées, il faudrait idéalement bloquer la modification de ce fichier. Avez FileZilla, vous pouvez le faire assez facilement, il suffit de modifier la propriété du fichier en mettant par exemple les droits « 555 ». L’écrasement depuis le back-office ne pourra plus se faire.

Le seul point qu’il faut quand même rester attentif, c’est en cas d’ajout de nouvelle langue. Il faudra dans ce cas réajuster le fichier robots.txt pour bloquer le crawl de certains types d’urls de cette nouvelle langue. C’est certainement le seul cas qui justifie une réactualisation du fichier robots.txt.

Résumé de la vidéo : Sur PrestaShop créez un fichier robots.txt efficace

  • On commence par vérifier si le fichier robots.txt existe.
  • Ensuite, on le génère si inexistant et on va regarder les règles qui sont ajoutées à l’intérieur et leur utilité.
  • Par la même occasion on ajoute une liste de règle pour bloquer les robots indésirables, afin de conserver de bonnes performances serveur.
  • Puis, on ajoute aussi un lien vers l’index du sitemap pour faciliter à Google l’accès sur l’ensemble des fiches produits et des catégories.
  • Pensez à tester la validité de votre robots.txt avec l’outil de Google Search Console (testez les urls produits / catégories / accueil).
  • Enfin, bloquez la modification du fichier robots.txt en mettant un CHMOD 555 pour éviter une modification automatisée.

2 commentaires sur “Comment mettre en place le robots.txt sur PrestaShop ? (ép. 94)”

  1. Bonjour,
    Je suis tout à fait d’accord avec le principe de bloquer les bots indésirables mais je voudrais juste faire une remarque concernant le fichier « robots » de WebRank.
    Dans la liste des bots bloqués sont présent ceux de certains moteurs de recherche étrangers type Yandex ou Baidu et d’autres.
    Bloquer ce type de robots peut s’avérer néfaste au référencement de certaines boutiques en ligne qui vendent dans plusieurs pays.(même si Google est majoritaire dans la plupart des pays, c’est dommage de se priver de certains prospects !!)
    Donc, pour certains, attention avant de copier-coller cette liste !!
    Bonne journée

  2. Bonjour Webbax,

    Dans ma Search Console j’ai un problème sur cette URL :
    https://www.e-liquidesfrance.fr/76-e-liquide-pas-cher

    L’erreur étant dans la couverture mon url est bloqué par le robot TXT et je ne comprend absolument pas l’erreur, pourrais-tu me guidez à des fin de résoudre ce problème pour que je puisse retrouver cette url dans google qui est très importantes pour cette boutique.

    Petite info :

    L’url est envoyée dans le site map et indexé par google mais le problème étant que lorsque j’effectue ma recherche en tapant L’id par exemple 76 plus le nom de la catégorie, là l’url apparait dans google mais si je ne tape pas l’id c’est ma page d’accueil et non la catégorie en question qui devrait apparaître.

    Merci de ta compréhension, en espérant avoir un retour de ta part.
    Webmaster

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *