Comment utiliser le fichier robots.txt pour maximiser l’efficacité du crawl de Google ?
Sommaire
1. Qu’est-ce que le fichier robots.txt ?
Le fichier robots.txt est un fichier texte placé à la racine d’un site web. Il permet de donner des directives aux robots d’exploration (ou crawlers) des moteurs de recherche sur les parties du site qu’ils peuvent ou ne peuvent pas explorer. Cela aide à contrôler le crawl des robots et à restreindre l’accès à certaines pages non pertinentes pour l’indexation.
Exemple de fichier robots.txt simple :
User-agent: * Disallow: /admin/ Disallow: /private/
2. Pourquoi utiliser un fichier robots.txt ?
L’importance du fichier robots.txt réside dans sa capacité à :
- Optimiser le crawl budget : Chaque site dispose d’un « crawl budget » limité, c’est-à-dire une quantité maximale de pages que Googlebot va explorer pendant un certain laps de temps. Utiliser robots.txt permet de concentrer ce budget sur les pages importantes à indexer.
- Protéger des informations sensibles : Certaines pages, comme celles de l’administration ou les pages internes non destinées aux visiteurs (e.g., pages de test), ne doivent pas être explorées ni indexées.
- Améliorer les performances SEO : En guidant les crawlers vers les sections pertinentes du site, vous pouvez éviter que Google perde du temps sur des pages inutiles, et ainsi améliorer l’indexation de vos pages prioritaires.
3. Optimiser le crawl de Google avec robots.txt
L’objectif principal du fichier robots.txt est de maximiser l’efficacité du crawl. Voici comment l’optimiser pour votre site :
a. Utilisez les directives « Allow » et « Disallow »
- Disallow : Cette directive indique aux robots les parties du site à ne pas explorer. Par exemple, si vous avez une section d’archives inutiles à indexer, vous pouvez les exclure du crawl.
Disallow: /archives/
- Allow : Cette directive permet d’autoriser l’exploration d’une page spécifique dans un dossier interdit.
Disallow: /blog/ Allow: /blog/important-article.html
b. Contrôlez les pages inutiles
Si certaines pages ne sont pas pertinentes pour l’indexation, par exemple les pages de recherche interne ou les filtres, il est essentiel de les bloquer dans robots.txt.
Disallow: /search/
c. Évitez de bloquer les ressources importantes
Assurez-vous que des ressources critiques pour le rendu de vos pages (comme les fichiers CSS et JavaScript) ne sont pas bloquées. Si Google ne peut pas charger correctement ces fichiers, il peut mal interpréter la structure de la page, ce qui peut nuire à l’indexation.
Disallow: /assets/js/
Il est préférable de laisser ces ressources accessibles aux crawlers.
4. Les erreurs courantes à éviter
L’utilisation incorrecte du fichier robots.txt peut entraîner des problèmes d’indexation. Voici quelques erreurs fréquentes à éviter :
- Bloquer par erreur des pages importantes : Si vous bloquez des pages clés dans robots.txt, elles ne seront jamais indexées par Google.
- Bloquer le crawl mais pas l’indexation : Si vous souhaitez empêcher une page d’être indexée, il est préférable d’utiliser la balise noindex sur la page elle-même plutôt que de la bloquer dans robots.txt.
- Ne pas mettre à jour régulièrement le fichier : Les sites évoluent, et votre fichier robots.txt doit être ajusté en conséquence.
5. Bonnes pratiques pour maximiser l’efficacité du crawl
Voici quelques pratiques recommandées pour optimiser votre fichier robots.txt :
- Limitez l’accès aux pages de test ou de pré-production :
Disallow: /staging/ Disallow: /test/
- Assurez-vous que les pages cannibalisantes ne sont pas explorées (pages de faible valeur, redondantes) afin de maximiser l’impact de l’indexation des pages principales.
- Utilisez des directives spécifiques pour différents types de robots :
User-agent: Googlebot Disallow: /private-google/ User-agent: Bingbot Disallow: /private-bing/
- Examinez régulièrement vos logs de crawl : Les logs de serveur vous montrent quelles pages Googlebot explore fréquemment.
6. Outils pour vérifier votre fichier robots.txt
Plusieurs outils peuvent vous aider à valider et tester votre fichier robots.txt :
- Google Search Console : Vous pouvez y tester votre fichier robots.txt et vérifier si les directives sont correctement interprétées par Google.
- Screaming Frog SEO Spider : Cet outil permet de vérifier l’accès des robots aux différentes pages de votre site et d’identifier les erreurs ou problèmes potentiels.
- Robots.txt Validator : Des outils en ligne comme celui-ci vous permettent de vérifier rapidement les erreurs de syntaxe dans votre fichier.