Les développeurs de sites rêvent d'un référencement parfait de leurs pages sur les moteurs de recherche. Mais il y en a certaines qu'ils ne veulent pas y voir apparaître, pour des raisons diverses.
Pour cela, il existe un petit fichier à placer à la racine d'un domaine, indiquant aux « robots » crawlers les règles à respecter : robots.txt. Aucune obligation légale de le prendre en compte, mais les moteurs de recherche le font en général.
Ce fichier, utilisé par plus de 500 millions de sites, répond au Robots Exclusion Protocol (REP), initié en 1994 par Martijn Koster et maintenu depuis. C'est un standard de fait, dont l'interprétation peut varier.
Google s'est donc associé à d'autres moteurs, Koster et des responsables de sites pour documenter le REP et soumettre le résultat à l'IETF afin qu'il soit reconnu comme un standard, géré et implémenté comme tel.
De plus, la bibliothèque C++ utilisée pour interpréter les fichiers robots.txt a été diffusée en open source par Google, sous licence Apache 2.0. Elle est disponible sur GitHub.
Commentaires (10)
#1
En plus du Github, il y a pas mal de détails sur le blog “Webmasters” de Google :
https://webmasters.googleblog.com/
Avec aujourd’hui, une précision sur les règles “non supportées” :
https://webmasters.googleblog.com/2019/07/a-note-on-unsupported-rules-in-robotstxt.html
#2
#3
A l’heure du tout payant et des Ayant-droits à gogo pour telle ou telle raison, le référencement devrait fonctionner de manière inversée : interdiction de référencer les pages qui ne contiennent pas robots.txt.
Ainsi, finie la collecte de données/travaux gratuitement sous prétexte d’“indexation”.
Google/Bing/etc.. n’auront que ce que l’on voudra bien leur laisser (donnant-donnant) ou devront payer leur matière première.
#4
A l’heure du tout payant, google Bing & co pourraient même demander d’être rémunéré pour t’indexer. Ils t’apportent de la visibilité, des visiteursclients, tu dois payer pour leur service.
#5
Boum ! L’invention des Pages Jaunes, oh wait ! " />
#6
bon il reste plus qu’a faire un bot qui indexe tout ce qui ne doit pas être indexé … " />
#7
C’est le cas : ma compagnie paye des milliers de dollars par an à Google pour être plus+ visible…dans les 2 langues (oui ici il faut tout faire 2 fois, une fois en anglais, une fois en français).
Sans ça (testé), on se retrouve loin dans le classement alors qu’on est premiers dans notre domaine dans la province, c’est dire que laisser aller l’algo “gratuit” coûte cher aussi au bout du compte.
#8
#9
À la différence que son site n’apparaît pas réellement en tête de classement, mais dans les encadrés publicitaires (qui sont visuellement en haut, d’accord, je chouine). Quelqu’un avec un bloqueur publicitaire ne le verra pas, par exemple.
#10