Google met à jour son outil de test du fichier Robots.txt

Vous aussi, évitez de vous faire liquider par Terminator

Quelques jours après les 20 ans du fichier Robots.txt, Google a décidé de revoir son outil dédié à sa validation. Il faut dire que l'on a pu constater que certains se font plaisir avec cet élément, et que le maintenir en état peut parfois s'avérer compliqué.

Il y a quelques jours, nous fêtions les 20 ans du fichier Robots.txt, qui permet d'indiquer aux moteurs de recherche les éléments à référencer ou non. Et si celui-ci peut le plus souvent rester assez simple, certains en font une véritable usine à gaz, pour de bonnes ou de mauvaises raisons.

Quoi qu'il en soit, pour faciliter le travail des développeurs, Google a décidé de revoir et de simplifier son outil de validation, disponible au sein de ses Webmaster Tools. Disponible au sein de la section « Exploration », celui-ci vous indique directement les avertissements et erreurs de votre fichier, mais vous permet aussi de vérifier si une adresse spécifique est accessible ou bloquée, que ce soit aux bots principaux, ou à ceux relatifs aux actualités, aux vidéos, aux images, etc.

Google précise que son site dédié aux développeurs référence les différentes directives reconnues par ses bots. Et pour éviter Terminator, il vous suffira de recopier ceci.

Chiffrement : WhatsApp menace de quitter l’Inde

11:04 1

Microsoft ouvre les sources de… MS-DOS 4.0

10:02 6

La Paris Games Week reviendra du 23 au 27 octobre 2024

08:04 2

Apple bloque une mise à jour de Spotify sur iOS, nouvelles bisbilles

06:59 7

Commentaires (21)

Aloyse57

Le 16/07/2014 à 14h 34

Je me demande toujours si par défaut l’absence de Robots.txt signifie : «indexez tout ce que vous voulez» ou «vous n’indexez pas ce domaine».

Quelqu’un sait ?

Fuinril

Le 16/07/2014 à 14h 35

Aloyse57 a écrit :

Je me demande toujours si par défaut l’absence de Robots.txt signifie : «indexez tout ce que vous voulez» ou «vous n’indexez pas ce domaine».

Quelqu’un sait ?

Index tout

Konrad

Le 16/07/2014 à 14h 39

Aloyse57 a écrit :

Je me demande toujours si par défaut l’absence de Robots.txt signifie : «indexez tout ce que vous voulez» ou «vous n’indexez pas ce domaine».

Quelqu’un sait ?

L’absence de fichier «robots.txt» c’est comme si le Webmaster disait : «indexez ce que vous voulez je m’en fous».

La présence d’un fichier«robots.txt» c’est comme si le Webmaster disait : «veuillez ne pas indexer ça, ça et ça»… Mais ça n’a pas valeur d’ordre impératif, le moteur de recherche peut tout à fait décider d’ignorer le fichier et de tout indexer quand même.

maxxyme

Le 16/07/2014 à 14h 48

Konrad a écrit :

L’absence de fichier «robots.txt» c’est comme si le Webmaster disait : «indexez ce que vous voulez je m’en fous».

La présence d’un fichier«robots.txt» c’est comme si le Webmaster disait : «veuillez ne pas indexer ça, ça et ça»… Mais ça n’a pas valeur d’ordre impératif, le moteur de recherche peut tout à fait décider d’ignorer le fichier et de tout indexer quand même

Et aussi dire : indexer ceci, celà (un peu comme un sitemap)

knos

Le 16/07/2014 à 15h 11

Aloyse57 a écrit :

Je me demande toujours si par défaut l’absence de Robots.txt signifie : «indexez tout ce que vous voulez» ou «vous n’indexez pas ce domaine».

Quelqu’un sait ?

C’est vrai que là ça fait un peu comme une porte d’entrer ou il faudrait un panneau n’entrez pas pour interdire au gens d’entrer…

bilbonsacquet Abonné

Le 16/07/2014 à 15h 12

Konrad a écrit :

Mais ça n’a pas valeur d’ordre impératif, le moteur de recherche peut tout à fait décider d’ignorer le fichier et de tout indexer quand même.

Tout à fait, et la BNF s’en contrefout :

http://www.bnf.fr/fr/outils/a.dl_web_capture_robot.html

En vertu du Code du patrimoine (art L132-2-1), la BnF est autorisée à ne pas respecter le protocole d’exclusion de robot, également appelé protocole robots.txt.

athlon64

Le 16/07/2014 à 15h 19

bilbonsacquet a écrit :

Tout à fait, et la BNF s’en contrefout :

http://www.bnf.fr/fr/outils/a.dl_web_capture_robot.html

" />" />" /> en quoi la BnF peut se permettre d’indexer tout ? Si on met sur notre site un contenu protégé, ca prend quand même ? " /> (HADOPI m’entends-tu ?)

tazvld Abonné

Le 16/07/2014 à 15h 26

Aloyse57 a écrit :

Je me demande toujours si par défaut l’absence de Robots.txt signifie : «indexez tout ce que vous voulez» ou «vous n’indexez pas ce domaine».

Quelqu’un sait ?

Tout indexer.

C’est assez logique quand on se place à l’époque des premiers moteurs de recherche. C’est un comportement par défaut qui est en rapport avec la logique du web de l’époque (le partage).

Le 16/07/2014 à 15h 34

athlon64 a écrit :

" />" />" /> en quoi la BnF peut se permettre d’indexer tout ? Si on met sur notre site un contenu protégé, ca prend quand même ? " /> (HADOPI m’entends-tu ?)

Si tu veux protéger un contenu sur un site Web il y a des solutions prévues pour ça (login/mdp, fichier .htaccess…). Le fichier robots.txt n’est clairement pas fait pour ça…

Le 16/07/2014 à 15h 38

#10

Konrad a écrit :

Si tu veux protéger un contenu sur un site Web il y a des solutions prévues pour ça (login/mdp, fichier .htaccess…). Le fichier robots.txt n’est clairement pas fait pour ça…

Je sais bien que ce n’est pas le but du robot, mais le fait d’outre passer ce protocole, qui plus est, par une administration je trouve ca quand même fort. Je parle pas de protection forte. Si tu ne veux pas qu’un contenu soit indexé ce n’est pas a eux de venir avec leurs grands sabots et dire FUCK !. Certains moteurs ne jouent pas le jeu, mais ce ne sont pas des moteurs fiables (ou des moteurs russes " />)

Jarodd Abonné

Le 16/07/2014 à 15h 44

#11

Konrad a écrit :

Si tu veux protéger un contenu sur un site Web il y a des solutions prévues pour ça (login/mdp, fichier .htaccess…). Le fichier robots.txt n’est clairement pas fait pour ça…

Toutafé, surtout que le robots.txr n’est qu’informatif, les moteurs peuvent passer outre et référencer ce qu’on a interdit " />

J’ai plusieurs fois entendu que ce fichier faisait office d’interdiction d’accès, alors qu’il ne concerne que le référencement.

Le 16/07/2014 à 16h 06

#12

Jarodd a écrit :

J’ai plusieurs fois entendu que ce fichier faisait office d’interdiction d’accès, alors qu’il ne concerne que le référencement.

C’est d’ailleurs très drôle de tomber sur des chemins non référencé dans les interdictions du robots " />

piwi82

Le 16/07/2014 à 16h 13

#13

La BNF donne quand même un moyen de bloquer leur crawler en donnant le user-agent utilisé :

La BnF utilise le robot Heritrix http://crawler.archive.org) pour réaliser la collecte des sites Web. Le robot s’identifie avec le champ “User-Agent : Mozilla/5.0 (compatible; bnf.fr_bot; …)”.

Sinon il y a plus bourrin en bloquant le subnet de Renater alloué à la BNF.

Le 16/07/2014 à 16h 19

#14

athlon64 a écrit :

Je sais bien que ce n’est pas le but du robot, mais le fait d’outre passer ce protocole, qui plus est, par une administration je trouve ca quand même fort. Je parle pas de protection forte. Si tu ne veux pas qu’un contenu soit indexé ce n’est pas a eux de venir avec leurs grands sabots et dire FUCK !. Certains moteurs ne jouent pas le jeu, mais ce ne sont pas des moteurs fiables (ou des moteurs russes " />)

Non mais le robots.txt c’est comme un serveur dans un restaurant qui te conseille le plat du jour. Si tu choisis autre chose le serveur ne va pas mal le prendre et te dire «ah ben voilà vous ne m’écoutez pas, vous me dites FUCK et vous prenez autre chose !!».

Comme dit plus haut ça n’a qu’une valeur informative, et pas du tout valeur de protection de quoi que ce soit. Il n’y a rien de mal à ce que la BNF passe outre les recommandation du robots.txt…

Le 16/07/2014 à 17h 19

#15

Konrad a écrit :

Non mais le robots.txt c’est comme un serveur dans un restaurant qui te conseille le plat du jour. Si tu choisis autre chose le serveur ne va pas mal le prendre et te dire «ah ben voilà vous ne m’écoutez pas, vous me dites FUCK et vous prenez autre chose !!».

Comme dit plus haut ça n’a qu’une valeur informative, et pas du tout valeur de protection de quoi que ce soit. Il n’y a rien de mal à ce que la BNF passe outre les recommandation du robots.txt…

Le lien donné mentionne le robot.txt comme un protocole etc. et vu que c’est pas un système obscur derrière (tout comme Google qui respecte le robot), je trouve ca lamentable de leur part. D’un coté on explique ce qu’est le robot et après on te dit qu’on s’en fou. C’est le principe même qui me dérange, la BnF n’a pas a indexé tout et outre passer ce protocole. C’est pas la protection des contenus en soi qui me gène, y a des méthodes faites pour je le sais bien, c’est juste le principe

piwi82 a écrit :

La BNF donne quand même un moyen de bloquer leur crawler en donnant le user-agent utilisé :

Sinon il y a plus bourrin en bloquant le subnet de Renater alloué à la BNF.

" />

On ne te le dit pas, tu ne le sais pas et surtout venant d’une administration. C’est a eux de respecter, pas a toi de te faire chier a dégager le truc

Le 16/07/2014 à 19h 16

#16

athlon64 a écrit :

On ne te le dit pas, tu ne le sais pas et surtout venant d’une administration. C’est a eux de respecter, pas a toi de te faire chier a dégager le truc

Le fichier robots.txt n’a aucune valeur juridique, à partir de là libre à chacun d’en respecter le fonctionnement ou non. La BNF n’est pas prête de changer de comportement.

Pour ma part j’ai bloqué leur subnet depuis longtemps déjà (on s’était rendu compte du phénomène sur des NAS Synology).

lateo

Le 16/07/2014 à 20h 51

#17

athlon64 a écrit :

Le lien donné mentionne le robot.txt comme un protocole etc. et vu que c’est pas un système obscur derrière (tout comme Google qui respecte le robot), je trouve ca lamentable de leur part. D’un coté on explique ce qu’est le robot et après on te dit qu’on s’en fou. C’est le principe même qui me dérange, la BnF n’a pas a indexé tout et outre passer ce protocole. C’est pas la protection des contenus en soi qui me gène, y a des méthodes faites pour je le sais bien, c’est juste le principe

" />

On ne te le dit pas, tu ne le sais pas et surtout venant d’une administration. C’est a eux de respecter, pas a toi de te faire chier a dégager le truc

À propos de principe, j’aime bien qu’on se présente quand on passe chez moi, donc dans mon htaccess j’ai un truc comme ça pour dégager les bots «anonymes» :

SetEnvIfNoCase User-Agent ^$ bot_mal_eleve

(…)

deny from env=bot_mal_eleve

Le 17/07/2014 à 06h 59

#18

piwi82 a écrit :

Sinon il y a plus bourrin en bloquant le subnet de Renater alloué à la BNF.

Attention, comme indiqué, si tu leur bloques l’accès, ils peuvent t’attaquer… La joie des lois à la c " />

Le 17/07/2014 à 07h 44

#19

bilbonsacquet a écrit :

Attention, comme indiqué, si tu leur bloques l’accès, ils peuvent t’attaquer… La joie des lois à la c " />

" /> encore pire dans ce cas !

levhieu

Le 17/07/2014 à 07h 47

#20

bilbonsacquet a écrit :

Attention, comme indiqué, si tu leur bloques l’accès, ils peuvent t’attaquer… La joie des lois à la c " />

athlon64 a écrit :

" /> encore pire dans ce cas !

Note que la référence à l’article de loi concerné était dans le premier com. qui parlait de la BnF.

Cette situation est la continuation à l’heure d’internet de l’obligation de dépot légal des publications imprimées.

Le 17/07/2014 à 07h 50

#21

levhieu a écrit :

Note que la référence à l’article de loi concerné était dans le premier com. qui parlait de la BnF.

Cette situation est la continuation à l’heure d’internet de l’obligation de dépot légal des publications imprimées.

J’avais pas tout lu, je mettais arrêter sur le fait qu’ils indexent tout robot.txt ou non " />

Internet c’est pas de l’imprimé il me semble, parce que sinon ca va en bouffer du papier " />

Catégories

Nous suivre

À propos

Google met à jour son outil de test du fichier Robots.txt

Vous aussi, évitez de vous faire liquider par Terminator

Tiens, en parlant de ça :

#Flock fait son cinéma

Huahu ahu ouin ouin ouiiin... Vous l'avez ?

Le fichier des empreintes digitales sera interconnecté avec huit autres fichiers

FAED y verse

Le ciblage publicitaire ne peut pas utiliser des données personnelles récupérées ailleurs

Schrems vs Meta, encore et encore

Sommaire de l'article

Introduction

#Flock fait son cinéma

Le fichier des empreintes digitales sera interconnecté avec huit autres fichiers

Le ciblage publicitaire ne peut pas utiliser des données personnelles récupérées ailleurs

Windows 11 ajoute des publicités dans le menu Démarrer, comment les supprimer

Reddit : cas d’école de la pollution par les contenus générés par IA ?

Transhumanisme, long-termisme… comment les courants « TESCREAL » influent sur le développement de l’IA

Qualcomm dévoile son Snapdragon X Plus et trois variantes du modèle Elite

Transhumanisme, long-termisme… des idéologies aux racines eugénistes ?

Corrigée depuis deux ans, une faille Windows activement exploitée par des pirates russes

La CNIL fait le bilan de son année 2023, cinquième année après RGPD

#LeBrief : TikTok suspend sa version Lite, Ariane 6 debout, enquête sur Pegasus, l’Europe et la violence numérique aux femmes

Terrorgram, la fabrique de terroristes d’extrême-droite, à coups de mèmes et de shitposts

Fiabilité des disques durs HAMR de 30 To et plus : Seagate donne des chiffres

[Màj] Le Congrès des États-Unis vote la loi obligeant ByteDance à vendre TikTok

#LeBrief : Fedora 40, anniversaire Hubble, vidéosurveillance algorithmique à Cannes, Voyager 1, Android 15 bêta 1.1

Sur GitHub et GitLab, des commentaires détournés pour stocker des malwares

[FAQ] Notre antisèche sur l’informatique quantique

L’Université d’Oxford ferme le Future of Humanity Institute dirigé par Nick Bostrom

#LeBrief : Apple rachète le français Datakalab (IA), propagande de la Russie, fin de partie pour Roccat, Proton Mail vs dark web

Chiffrement : WhatsApp menace de quitter l’Inde

Microsoft ouvre les sources de… MS-DOS 4.0

La Paris Games Week reviendra du 23 au 27 octobre 2024

Apple bloque une mise à jour de Spotify sur iOS, nouvelles bisbilles

Commentaires (21)