Connexion
Abonnez-vous

25 ans de Robots.txt : le parser C++ de Google open source, un draft soumis à l’IETF

25 ans de Robots.txt : le parser C++ de Google open source, un draft soumis à l'IETF

Le 02 juillet 2019 à 09h42

Les développeurs de sites rêvent d'un référencement parfait de leurs pages sur les moteurs de recherche. Mais il y en a certaines qu'ils ne veulent pas y voir apparaître, pour des raisons diverses.

Pour cela, il existe un petit fichier à placer à la racine d'un domaine, indiquant aux « robots » crawlers les règles à respecter : robots.txt. Aucune obligation légale de le prendre en compte, mais les moteurs de recherche le font en général.

Ce fichier, utilisé par plus de 500 millions de sites, répond au Robots Exclusion Protocol (REP), initié en 1994 par Martijn Koster et maintenu depuis. C'est un standard de fait, dont l'interprétation peut varier.

Google s'est donc associé à d'autres moteurs, Koster et des responsables de sites pour documenter le REP et soumettre le résultat à l'IETF afin qu'il soit reconnu comme un standard, géré et implémenté comme tel.

De plus, la bibliothèque C++ utilisée pour interpréter les fichiers robots.txt a été diffusée en open source par Google, sous licence Apache 2.0. Elle est disponible sur GitHub.

Le 02 juillet 2019 à 09h42

Commentaires (10)

Vous devez être abonné pour pouvoir commenter.

Abonnez-vous
votre avatar

En plus du Github, il y a pas mal de détails sur le blog “Webmasters” de Google :

https://webmasters.googleblog.com/



Avec aujourd’hui, une précision sur les règles “non supportées” :

https://webmasters.googleblog.com/2019/07/a-note-on-unsupported-rules-in-robotstxt.html

votre avatar







bilbonsacquet a écrit :



En plus du Github, il y a pas mal de détails sur le blog “Webmasters” de Google :

https://webmasters.googleblog.com/



Avec aujourd’hui, une précision sur les règles “non supportées” :

https://webmasters.googleblog.com/2019/07/a-note-on-unsupported-rules-in-robotstxt.html





<img data-src=" /> Pour les fainéants comme moi qui préfèrent les liens en un clic. <img data-src=" />


votre avatar

A l’heure du tout payant et des Ayant-droits à gogo pour telle ou telle raison, le référencement devrait fonctionner de manière inversée : interdiction de référencer les pages qui ne contiennent pas robots.txt.

Ainsi, finie la collecte de données/travaux gratuitement sous prétexte d’“indexation”.

Google/Bing/etc.. n’auront que ce que l’on voudra bien leur laisser (donnant-donnant) ou devront payer leur matière première.

votre avatar

A l’heure du tout payant, google Bing & co pourraient même demander d’être rémunéré pour t’indexer. Ils t’apportent de la visibilité, des visiteursclients, tu dois payer pour leur service.

votre avatar

Boum ! L’invention des Pages Jaunes, oh wait ! <img data-src=" />

votre avatar

bon il reste plus qu’a faire un bot qui indexe tout ce qui ne doit pas être indexé … <img data-src=" />

votre avatar

C’est le cas : ma compagnie paye des milliers de dollars par an à Google pour être plus+ visible…dans les 2 langues (oui ici il faut tout faire 2 fois, une fois en anglais, une fois en français).

Sans ça (testé), on se retrouve loin dans le classement alors qu’on est premiers dans notre domaine dans la province, c’est dire que laisser aller l’algo “gratuit” coûte cher aussi au bout du compte.

votre avatar







monpci a écrit :



bon il reste plus qu’a faire un bot qui indexe tout ce qui ne doit pas être indexé … <img data-src=" />







Ça existe et c’est français : la BnF passe outre le robots.txt… :

https://www.bnf.fr/fr/capture-de-votre-site-web-par-le-robot-de-la-bnf



Un robots.txt avec un “Disallow: /” est bien respecté par Google, donc faut arrêter de chouiner, ça prend 2 sec à mettre en place.


votre avatar

À la différence que son site n’apparaît pas réellement en tête de classement, mais dans les encadrés publicitaires (qui sont visuellement en haut, d’accord, je chouine). Quelqu’un avec un bloqueur publicitaire ne le verra pas, par exemple.

votre avatar







Aloyse57 a écrit :



C’est le cas : ma compagnie paye des milliers de dollars par an à Google pour être plus+ visible…dans les 2 langues (oui ici il faut tout faire 2 fois, une fois en anglais, une fois en français).

Sans ça (testé), on se retrouve loin dans le classement alors qu’on est premiers dans notre domaine dans la province, c’est dire que laisser aller l’algo “gratuit” coûte cher aussi au bout du compte.





À une époque je pratiquais une activité sportive. Le responsable de notre club a eu l’occasion de discuter avec une personne qui lui a expliqué en détails comment fonctionne le référencement Google. Il a réussi à se placer en première page, sans aucune connaissance technique et sans sortir un rond.

Si ta boîte est la première dans son domaine, tu devrais peut-être suggérer de recruter un consultant compétent pour améliorer son référencement, ça vous reviendra moins cher en coûts récurrents - il n’est pas impossible que vos concurrents l’aient fait.


25 ans de Robots.txt : le parser C++ de Google open source, un draft soumis à l’IETF

Fermer