Le fichier robots.txt vous permet d’indiquer aux robots d’indexation « honnêtes » quelles parties du site ils sont autorisés à télécharger pour en analyser le contenu. Placé à la racine du site, le fichier robots.txt est le premier lieu visité par le crawler quand il vient vérifier l’indexation de votre site. Il y prend les indications et équipé aussi du sitemap, il parcourt votre site à la recherche de nouveaux liens internes en partant de la racine ).
Voilà pour un crawler sans mauvaise attention.
En revanche, un robot cherchant la faille ne respectera pas ce fichier robots.txt. Ainsi, il ne faut surtout pas penser que ce fichier servira à protéger votre site. Que nenni ! C’est uniquement une information à l’attention des robots honnêtes.
Est-ce alors nécessaire d’avoir un robots.txt ?
Il n’est pas obligatoire, mais il vous évitera d’avoir l’intégralité de votre site indexé, dont la partie Admin… Est-ce que vous partez en vacances, en distribuant le plan détaillé de votre maison à la volée ? Eh bien là, c’est un peu la même chose.
D’autre part, avec le fichier robot.txt, vous pouvez aussi bloquer l’indexation d’une page ou un bloc de votre site en construction. Et ça, c’est utile, surtout si après le test d’un plugin par exemple, vous vous rendez compte que celui-ci ne vous convient pas. Ainsi, en bloquant les pages qu’il génère dès sa mise en application, vous n’avez pas ensuite à rediriger les pages détruites et à pratiquer maintes manipulations pour que les robots oublient ces pages. Si vous doutez encore, après quelques tests de plugins infructueux, vous serez convaincu.
Comment faire un fichier robots.txt ?
Un fichier robots.txt ressemble à celui ci-dessous :
User-agent: * # On empêche l'indexation des dossiers sensibles Disallow: /admin/ Disallow: /admin Disallow: */comments Disallow: /*? # On empêche l'indexation des fichiers sensibles User-agent: Googlebot Disallow: /*.php$ Disallow: /*.css$ # Autoriser Google Image User-agent: Googlebot-Image Disallow: Allow: /* # Autoriser Google AdSense User-agent: Mediapartners-Google* Disallow: Allow: /*
- 1ère ligne : user-agent sert à indiquer qui est concerné par le fichier. L’étoile * indique que tous les moteurs sont concernés. On aurait pu indiquer que Googlebot par exemple.
- Dans les lignes suivantes, vous indiquez ce qui est autorisé (Allow) ou pas (Disallow) à être explorer : cela peut être une Url, un dossier et l’ensemble de son contenu, un type de fichiers…
- /admin/ = interdiction d’explorer et indexer le contenu du répertoire admin
- /admin = interdiction d’explorer et indexer tout fichier nommé admin : admin.jpg, admin.php…
- /admin/index.html = interdiction d’explorer et indexer la page index du dossier admin
- /*.css = interdiction d’explorer et indexer tous les fichiers de type .css
- / = interdiction d’explorer et indexer l’ensemble du site
- Pour écrire un commentaire, la ligne doit commencer par un #, sinon les robots ne comprendront pas la lecture de votre fichier et continueront sans tenir compte de ses indications.
- Il ne faut pas laisser de ligne vierge dans le code.
Vous pouvez créer votre fichier robots.txt avec le bloc-notes de votre ordinateur ou notepad++. Faites le plus simple possible pour éviter les erreurs. Sinon, il est préférable pour les amateurs de confier cette tâche à un plugin.
Ajout du 21/08/2014 – Conseils à l’usage
- Après avoir modifier le fichier robots.txt, contrôlez régulièrement les statistiques de votre site. Si vous avez bloqué une catégorie de pages ou des pages, vous pouvez voir voir taux de rebond chuté. Dans ce cas, supprimez le blocage s’il n’est pas essentiel à la sécurité de votre site.
Ajout du 13/03/2015 : un exemple concret pour wordpress…
User-agent: * # On empêche l'indexation des dossiers sensibles Disallow: /cgi-bin Disallow: /wp-login.php Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /category/*/* Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /*? # On empêche l'indexation des fichiers sensibles User-agent: Googlebot Disallow: /*.php$ Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: /*.gz$ Disallow: /*.swf$ Disallow: /*.wmv$ Disallow: /*.cgi$ Disallow: /*.xhtml$ # Autoriser Google Image User-agent: Googlebot-Image Disallow: Allow: /* # Autoriser Google AdSense User-agent: Mediapartners-Google* Disallow: Allow: /* # On indique au spider le lien vers notre sitemap Sitemap: http://***Ajouter l'adresse de votre sitemap****
Commentaires récents