Google met à jour son outil de test du fichier Robots.txt
Vous aussi, évitez de vous faire liquider par Terminator
Le 16 juillet 2014 à 14h30
2 min
Internet
Internet
Quelques jours après les 20 ans du fichier Robots.txt, Google a décidé de revoir son outil dédié à sa validation. Il faut dire que l'on a pu constater que certains se font plaisir avec cet élément, et que le maintenir en état peut parfois s'avérer compliqué.
Il y a quelques jours, nous fêtions les 20 ans du fichier Robots.txt, qui permet d'indiquer aux moteurs de recherche les éléments à référencer ou non. Et si celui-ci peut le plus souvent rester assez simple, certains en font une véritable usine à gaz, pour de bonnes ou de mauvaises raisons.
Quoi qu'il en soit, pour faciliter le travail des développeurs, Google a décidé de revoir et de simplifier son outil de validation, disponible au sein de ses Webmaster Tools. Disponible au sein de la section « Exploration », celui-ci vous indique directement les avertissements et erreurs de votre fichier, mais vous permet aussi de vérifier si une adresse spécifique est accessible ou bloquée, que ce soit aux bots principaux, ou à ceux relatifs aux actualités, aux vidéos, aux images, etc.
Google précise que son site dédié aux développeurs référence les différentes directives reconnues par ses bots. Et pour éviter Terminator, il vous suffira de recopier ceci.
Commentaires (21)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 17/07/2014 à 07h44
Le 17/07/2014 à 07h47
Le 17/07/2014 à 07h50
Le 16/07/2014 à 14h34
Je me demande toujours si par défaut l’absence de Robots.txt signifie : «indexez tout ce que vous voulez» ou «vous n’indexez pas ce domaine».
Quelqu’un sait ?
Le 16/07/2014 à 14h35
Le 16/07/2014 à 14h39
Le 16/07/2014 à 14h48
Le 16/07/2014 à 15h11
Le 16/07/2014 à 15h12
Le 16/07/2014 à 15h19
Le 16/07/2014 à 15h26
Le 16/07/2014 à 15h34
Le 16/07/2014 à 15h38
Le 16/07/2014 à 15h44
Le 16/07/2014 à 16h06
Le 16/07/2014 à 16h13
La BNF donne quand même un moyen de bloquer leur crawler en donnant le user-agent utilisé :
La BnF utilise le robot Heritrix http://crawler.archive.org) pour réaliser la collecte des sites Web. Le robot s’identifie avec le champ “User-Agent : Mozilla/5.0 (compatible; bnf.fr_bot; …)”.
Sinon il y a plus bourrin en bloquant le subnet de Renater alloué à la BNF.
Le 16/07/2014 à 16h19
Le 16/07/2014 à 17h19
Le 16/07/2014 à 19h16
Le 16/07/2014 à 20h51
Le 17/07/2014 à 06h59