Connexion
Abonnez-vous

Google met à jour son outil de test du fichier Robots.txt

Vous aussi, évitez de vous faire liquider par Terminator

Google met à jour son outil de test du fichier Robots.txt

Le 16 juillet 2014 à 14h30

Quelques jours après les 20 ans du fichier Robots.txt, Google a décidé de revoir son outil dédié à sa validation. Il faut dire que l'on a pu constater que certains se font plaisir avec cet élément, et que le maintenir en état peut parfois s'avérer compliqué.

Google Bot Robots.txt Webmaster Tools

 

Il y a quelques jours, nous fêtions les 20 ans du fichier Robots.txt, qui permet d'indiquer aux moteurs de recherche les éléments à référencer ou non. Et si celui-ci peut le plus souvent rester assez simple, certains en font une véritable usine à gaz, pour de bonnes ou de mauvaises raisons.

 

Quoi qu'il en soit, pour faciliter le travail des développeurs, Google a décidé de revoir et de simplifier son outil de validation, disponible au sein de ses Webmaster Tools. Disponible au sein de la section « Exploration », celui-ci vous indique directement les avertissements et erreurs de votre fichier, mais vous permet aussi de vérifier si une adresse spécifique est accessible ou bloquée, que ce soit aux bots principaux, ou à ceux relatifs aux actualités, aux vidéos, aux images, etc. 

 

Google précise que son site dédié aux développeurs référence les différentes directives reconnues par ses bots. Et pour éviter Terminator, il vous suffira de recopier ceci.

Commentaires (21)

Vous devez être abonné pour pouvoir commenter.

Abonnez-vous
votre avatar







bilbonsacquet a écrit :



Attention, comme indiqué, si tu leur bloques l’accès, ils peuvent t’attaquer… La joie des lois à la c <img data-src=" />





<img data-src=" /> encore pire dans ce cas !


votre avatar







bilbonsacquet a écrit :



Attention, comme indiqué, si tu leur bloques l’accès, ils peuvent t’attaquer… La joie des lois à la c <img data-src=" />









athlon64 a écrit :



<img data-src=" /> encore pire dans ce cas !







Note que la référence à l’article de loi concerné était dans le premier com. qui parlait de la BnF.



Cette situation est la continuation à l’heure d’internet de l’obligation de dépot légal des publications imprimées.


votre avatar







levhieu a écrit :



Note que la référence à l’article de loi concerné était dans le premier com. qui parlait de la BnF.



Cette situation est la continuation à l’heure d’internet de l’obligation de dépot légal des publications imprimées.





J’avais pas tout lu, je mettais arrêter sur le fait qu’ils indexent tout robot.txt ou non <img data-src=" />



Internet c’est pas de l’imprimé il me semble, parce que sinon ca va en bouffer du papier <img data-src=" />


votre avatar

Je me demande toujours si par défaut l’absence de Robots.txt signifie : «indexez tout ce que vous voulez» ou «vous n’indexez pas ce domaine».

Quelqu’un sait ?

votre avatar







Aloyse57 a écrit :



Je me demande toujours si par défaut l’absence de Robots.txt signifie : «indexez tout ce que vous voulez» ou «vous n’indexez pas ce domaine».

Quelqu’un sait ?







Index tout


votre avatar







Aloyse57 a écrit :



Je me demande toujours si par défaut l’absence de Robots.txt signifie : «indexez tout ce que vous voulez» ou «vous n’indexez pas ce domaine».

Quelqu’un sait ?





L’absence de fichier «robots.txt» c’est comme si le Webmaster disait : «indexez ce que vous voulez je m’en fous».



La présence d’un fichier«robots.txt» c’est comme si le Webmaster disait : «veuillez ne pas indexer ça, ça et ça»… Mais ça n’a pas valeur d’ordre impératif, le moteur de recherche peut tout à fait décider d’ignorer le fichier et de tout indexer quand même.


votre avatar







Konrad a écrit :



L’absence de fichier «robots.txt» c’est comme si le Webmaster disait : «indexez ce que vous voulez je m’en fous».



La présence d’un fichier«robots.txt» c’est comme si le Webmaster disait : «veuillez ne pas indexer ça, ça et ça»… Mais ça n’a pas valeur d’ordre impératif, le moteur de recherche peut tout à fait décider d’ignorer le fichier et de tout indexer quand même





Et aussi dire : indexer ceci, celà (un peu comme un sitemap)


votre avatar







Aloyse57 a écrit :



Je me demande toujours si par défaut l’absence de Robots.txt signifie : «indexez tout ce que vous voulez» ou «vous n’indexez pas ce domaine».

Quelqu’un sait ?







C’est vrai que là ça fait un peu comme une porte d’entrer ou il faudrait un panneau n’entrez pas pour interdire au gens d’entrer…


votre avatar







Konrad a écrit :



Mais ça n’a pas valeur d’ordre impératif, le moteur de recherche peut tout à fait décider d’ignorer le fichier et de tout indexer quand même.





Tout à fait, et la BNF s’en contrefout :

http://www.bnf.fr/fr/outils/a.dl_web_capture_robot.html





En vertu du Code du patrimoine (art L132-2-1), la BnF est autorisée à ne pas respecter le protocole d’exclusion de robot, également appelé protocole robots.txt.


votre avatar







bilbonsacquet a écrit :



Tout à fait, et la BNF s’en contrefout :

http://www.bnf.fr/fr/outils/a.dl_web_capture_robot.html





<img data-src=" /><img data-src=" /><img data-src=" /> en quoi la BnF peut se permettre d’indexer tout ? Si on met sur notre site un contenu protégé, ca prend quand même ? <img data-src=" /> (HADOPI m’entends-tu ?)


votre avatar







Aloyse57 a écrit :



Je me demande toujours si par défaut l’absence de Robots.txt signifie : «indexez tout ce que vous voulez» ou «vous n’indexez pas ce domaine».

Quelqu’un sait ?





Tout indexer.

C’est assez logique quand on se place à l’époque des premiers moteurs de recherche. C’est un comportement par défaut qui est en rapport avec la logique du web de l’époque (le partage).


votre avatar







athlon64 a écrit :



<img data-src=" /><img data-src=" /><img data-src=" /> en quoi la BnF peut se permettre d’indexer tout ? Si on met sur notre site un contenu protégé, ca prend quand même ? <img data-src=" /> (HADOPI m’entends-tu ?)





Si tu veux protéger un contenu sur un site Web il y a des solutions prévues pour ça (login/mdp, fichier .htaccess…). Le fichier robots.txt n’est clairement pas fait pour ça…


votre avatar







Konrad a écrit :



Si tu veux protéger un contenu sur un site Web il y a des solutions prévues pour ça (login/mdp, fichier .htaccess…). Le fichier robots.txt n’est clairement pas fait pour ça…





Je sais bien que ce n’est pas le but du robot, mais le fait d’outre passer ce protocole, qui plus est, par une administration je trouve ca quand même fort. Je parle pas de protection forte. Si tu ne veux pas qu’un contenu soit indexé ce n’est pas a eux de venir avec leurs grands sabots et dire FUCK !. Certains moteurs ne jouent pas le jeu, mais ce ne sont pas des moteurs fiables (ou des moteurs russes <img data-src=" />)


votre avatar







Konrad a écrit :



Si tu veux protéger un contenu sur un site Web il y a des solutions prévues pour ça (login/mdp, fichier .htaccess…). Le fichier robots.txt n’est clairement pas fait pour ça…







Toutafé, surtout que le robots.txr n’est qu’informatif, les moteurs peuvent passer outre et référencer ce qu’on a interdit <img data-src=" />



J’ai plusieurs fois entendu que ce fichier faisait office d’interdiction d’accès, alors qu’il ne concerne que le référencement.


votre avatar







Jarodd a écrit :



J’ai plusieurs fois entendu que ce fichier faisait office d’interdiction d’accès, alors qu’il ne concerne que le référencement.







C’est d’ailleurs très drôle de tomber sur des chemins non référencé dans les interdictions du robots <img data-src=" />


votre avatar

La BNF donne quand même un moyen de bloquer leur crawler en donnant le user-agent utilisé :





La BnF utilise le robot Heritrix http://crawler.archive.org) pour réaliser la collecte des sites Web. Le robot s’identifie avec le champ “User-Agent : Mozilla/5.0 (compatible; bnf.fr_bot; …)”.





Sinon il y a plus bourrin en bloquant le subnet de Renater alloué à la BNF.

votre avatar







athlon64 a écrit :



Je sais bien que ce n’est pas le but du robot, mais le fait d’outre passer ce protocole, qui plus est, par une administration je trouve ca quand même fort. Je parle pas de protection forte. Si tu ne veux pas qu’un contenu soit indexé ce n’est pas a eux de venir avec leurs grands sabots et dire FUCK !. Certains moteurs ne jouent pas le jeu, mais ce ne sont pas des moteurs fiables (ou des moteurs russes <img data-src=" />)





Non mais le robots.txt c’est comme un serveur dans un restaurant qui te conseille le plat du jour. Si tu choisis autre chose le serveur ne va pas mal le prendre et te dire «ah ben voilà vous ne m’écoutez pas, vous me dites FUCK et vous prenez autre chose !!».



Comme dit plus haut ça n’a qu’une valeur informative, et pas du tout valeur de protection de quoi que ce soit. Il n’y a rien de mal à ce que la BNF passe outre les recommandation du robots.txt…


votre avatar







Konrad a écrit :



Non mais le robots.txt c’est comme un serveur dans un restaurant qui te conseille le plat du jour. Si tu choisis autre chose le serveur ne va pas mal le prendre et te dire «ah ben voilà vous ne m’écoutez pas, vous me dites FUCK et vous prenez autre chose !!».



Comme dit plus haut ça n’a qu’une valeur informative, et pas du tout valeur de protection de quoi que ce soit. Il n’y a rien de mal à ce que la BNF passe outre les recommandation du robots.txt…





Le lien donné mentionne le robot.txt comme un protocole etc. et vu que c’est pas un système obscur derrière (tout comme Google qui respecte le robot), je trouve ca lamentable de leur part. D’un coté on explique ce qu’est le robot et après on te dit qu’on s’en fou. C’est le principe même qui me dérange, la BnF n’a pas a indexé tout et outre passer ce protocole. C’est pas la protection des contenus en soi qui me gène, y a des méthodes faites pour je le sais bien, c’est juste le principe



piwi82 a écrit :



La BNF donne quand même un moyen de bloquer leur crawler en donnant le user-agent utilisé :







Sinon il y a plus bourrin en bloquant le subnet de Renater alloué à la BNF.





<img data-src=" />

On ne te le dit pas, tu ne le sais pas et surtout venant d’une administration. C’est a eux de respecter, pas a toi de te faire chier a dégager le truc


votre avatar







athlon64 a écrit :



On ne te le dit pas, tu ne le sais pas et surtout venant d’une administration. C’est a eux de respecter, pas a toi de te faire chier a dégager le truc







Le fichier robots.txt n’a aucune valeur juridique, à partir de là libre à chacun d’en respecter le fonctionnement ou non. La BNF n’est pas prête de changer de comportement.

Pour ma part j’ai bloqué leur subnet depuis longtemps déjà (on s’était rendu compte du phénomène sur des NAS Synology).


votre avatar







athlon64 a écrit :



Le lien donné mentionne le robot.txt comme un protocole etc. et vu que c’est pas un système obscur derrière (tout comme Google qui respecte le robot), je trouve ca lamentable de leur part. D’un coté on explique ce qu’est le robot et après on te dit qu’on s’en fou. C’est le principe même qui me dérange, la BnF n’a pas a indexé tout et outre passer ce protocole. C’est pas la protection des contenus en soi qui me gène, y a des méthodes faites pour je le sais bien, c’est juste le principe

<img data-src=" />

On ne te le dit pas, tu ne le sais pas et surtout venant d’une administration. C’est a eux de respecter, pas a toi de te faire chier a dégager le truc







À propos de principe, j’aime bien qu’on se présente quand on passe chez moi, donc dans mon htaccess j’ai un truc comme ça pour dégager les bots «anonymes» :





SetEnvIfNoCase User-Agent ^$ bot_mal_eleve

(…)

deny from env=bot_mal_eleve



votre avatar







piwi82 a écrit :



Sinon il y a plus bourrin en bloquant le subnet de Renater alloué à la BNF.





Attention, comme indiqué, si tu leur bloques l’accès, ils peuvent t’attaquer… La joie des lois à la c <img data-src=" />


Google met à jour son outil de test du fichier Robots.txt

Fermer