25 ans de Robots.txt : le parser C++ de Google open source, un draft soumis à l’IETF
Le 02 juillet 2019 à 09h42
1 min
Internet
Internet
Les développeurs de sites rêvent d'un référencement parfait de leurs pages sur les moteurs de recherche. Mais il y en a certaines qu'ils ne veulent pas y voir apparaître, pour des raisons diverses.
Pour cela, il existe un petit fichier à placer à la racine d'un domaine, indiquant aux « robots » crawlers les règles à respecter : robots.txt. Aucune obligation légale de le prendre en compte, mais les moteurs de recherche le font en général.
Ce fichier, utilisé par plus de 500 millions de sites, répond au Robots Exclusion Protocol (REP), initié en 1994 par Martijn Koster et maintenu depuis. C'est un standard de fait, dont l'interprétation peut varier.
Google s'est donc associé à d'autres moteurs, Koster et des responsables de sites pour documenter le REP et soumettre le résultat à l'IETF afin qu'il soit reconnu comme un standard, géré et implémenté comme tel.
De plus, la bibliothèque C++ utilisée pour interpréter les fichiers robots.txt a été diffusée en open source par Google, sous licence Apache 2.0. Elle est disponible sur GitHub.
Le 02 juillet 2019 à 09h42
Commentaires (10)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 02/07/2019 à 09h44
En plus du Github, il y a pas mal de détails sur le blog “Webmasters” de Google :
https://webmasters.googleblog.com/
Avec aujourd’hui, une précision sur les règles “non supportées” :
https://webmasters.googleblog.com/2019/07/a-note-on-unsupported-rules-in-robotstxt.html
Le 02/07/2019 à 10h52
Le 02/07/2019 à 11h39
A l’heure du tout payant et des Ayant-droits à gogo pour telle ou telle raison, le référencement devrait fonctionner de manière inversée : interdiction de référencer les pages qui ne contiennent pas robots.txt.
Ainsi, finie la collecte de données/travaux gratuitement sous prétexte d’“indexation”.
Google/Bing/etc.. n’auront que ce que l’on voudra bien leur laisser (donnant-donnant) ou devront payer leur matière première.
Le 02/07/2019 à 12h29
A l’heure du tout payant, google Bing & co pourraient même demander d’être rémunéré pour t’indexer. Ils t’apportent de la visibilité, des visiteursclients, tu dois payer pour leur service.
Le 02/07/2019 à 12h38
Boum ! L’invention des Pages Jaunes, oh wait ! " />
Le 02/07/2019 à 13h37
bon il reste plus qu’a faire un bot qui indexe tout ce qui ne doit pas être indexé … " />
Le 02/07/2019 à 18h12
C’est le cas : ma compagnie paye des milliers de dollars par an à Google pour être plus+ visible…dans les 2 langues (oui ici il faut tout faire 2 fois, une fois en anglais, une fois en français).
Sans ça (testé), on se retrouve loin dans le classement alors qu’on est premiers dans notre domaine dans la province, c’est dire que laisser aller l’algo “gratuit” coûte cher aussi au bout du compte.
Le 02/07/2019 à 18h18
Le 03/07/2019 à 08h28
À la différence que son site n’apparaît pas réellement en tête de classement, mais dans les encadrés publicitaires (qui sont visuellement en haut, d’accord, je chouine). Quelqu’un avec un bloqueur publicitaire ne le verra pas, par exemple.
Le 03/07/2019 à 08h50