25 ans de Robots.txt : le parser C++ de Google open source, un draft soumis à l’IETF

Le 02 juillet 2019 à 09h42

1 min

Internet

Les développeurs de sites rêvent d'un référencement parfait de leurs pages sur les moteurs de recherche. Mais il y en a certaines qu'ils ne veulent pas y voir apparaître, pour des raisons diverses.

Pour cela, il existe un petit fichier à placer à la racine d'un domaine, indiquant aux « robots » crawlers les règles à respecter : robots.txt. Aucune obligation légale de le prendre en compte, mais les moteurs de recherche le font en général.

Ce fichier, utilisé par plus de 500 millions de sites, répond au Robots Exclusion Protocol (REP), initié en 1994 par Martijn Koster et maintenu depuis. C'est un standard de fait, dont l'interprétation peut varier.

Google s'est donc associé à d'autres moteurs, Koster et des responsables de sites pour documenter le REP et soumettre le résultat à l'IETF afin qu'il soit reconnu comme un standard, géré et implémenté comme tel.

De plus, la bibliothèque C++ utilisée pour interpréter les fichiers robots.txt a été diffusée en open source par Google, sous licence Apache 2.0. Elle est disponible sur GitHub.

Sébastien Gavois

Le 02 juillet 2019 à 09h42

Commentaires (10)

bilbonsacquet Abonné

Le 02/07/2019 à 09h44

En plus du Github, il y a pas mal de détails sur le blog “Webmasters” de Google :

https://webmasters.googleblog.com/

Avec aujourd’hui, une précision sur les règles “non supportées” :

https://webmasters.googleblog.com/2019/07/a-note-on-unsupported-rules-in-robotstxt.html

choukky

Le 02/07/2019 à 10h52

bilbonsacquet a écrit :

En plus du Github, il y a pas mal de détails sur le blog “Webmasters” de Google :

https://webmasters.googleblog.com/

Avec aujourd’hui, une précision sur les règles “non supportées” :

https://webmasters.googleblog.com/2019/07/a-note-on-unsupported-rules-in-robotstxt.html

" /> Pour les fainéants comme moi qui préfèrent les liens en un clic. " />

Aloyse57

Le 02/07/2019 à 11h39

A l’heure du tout payant et des Ayant-droits à gogo pour telle ou telle raison, le référencement devrait fonctionner de manière inversée : interdiction de référencer les pages qui ne contiennent pas robots.txt.

Ainsi, finie la collecte de données/travaux gratuitement sous prétexte d’“indexation”.

Google/Bing/etc.. n’auront que ce que l’on voudra bien leur laisser (donnant-donnant) ou devront payer leur matière première.

tazvld Abonné

Le 02/07/2019 à 12h29

A l’heure du tout payant, google Bing & co pourraient même demander d’être rémunéré pour t’indexer. Ils t’apportent de la visibilité, des visiteursclients, tu dois payer pour leur service.

HerrFrance Abonné

Le 02/07/2019 à 12h38

Boum ! L’invention des Pages Jaunes, oh wait ! " />

monpci

Le 02/07/2019 à 13h37

bon il reste plus qu’a faire un bot qui indexe tout ce qui ne doit pas être indexé … " />

Aloyse57

Le 02/07/2019 à 18h12

C’est le cas : ma compagnie paye des milliers de dollars par an à Google pour être plus+ visible…dans les 2 langues (oui ici il faut tout faire 2 fois, une fois en anglais, une fois en français).

Sans ça (testé), on se retrouve loin dans le classement alors qu’on est premiers dans notre domaine dans la province, c’est dire que laisser aller l’algo “gratuit” coûte cher aussi au bout du compte.

bilbonsacquet Abonné

Le 02/07/2019 à 18h18

monpci a écrit :

bon il reste plus qu’a faire un bot qui indexe tout ce qui ne doit pas être indexé … " />

Ça existe et c’est français : la BnF passe outre le robots.txt… :

https://www.bnf.fr/fr/capture-de-votre-site-web-par-le-robot-de-la-bnf

Un robots.txt avec un “Disallow: /” est bien respecté par Google, donc faut arrêter de chouiner, ça prend 2 sec à mettre en place.

Vekin

Le 03/07/2019 à 08h28

À la différence que son site n’apparaît pas réellement en tête de classement, mais dans les encadrés publicitaires (qui sont visuellement en haut, d’accord, je chouine). Quelqu’un avec un bloqueur publicitaire ne le verra pas, par exemple.

anagrys Abonné

Le 03/07/2019 à 08h50

Aloyse57 a écrit :

C’est le cas : ma compagnie paye des milliers de dollars par an à Google pour être plus+ visible…dans les 2 langues (oui ici il faut tout faire 2 fois, une fois en anglais, une fois en français).

Sans ça (testé), on se retrouve loin dans le classement alors qu’on est premiers dans notre domaine dans la province, c’est dire que laisser aller l’algo “gratuit” coûte cher aussi au bout du compte.

À une époque je pratiquais une activité sportive. Le responsable de notre club a eu l’occasion de discuter avec une personne qui lui a expliqué en détails comment fonctionne le référencement Google. Il a réussi à se placer en première page, sans aucune connaissance technique et sans sortir un rond.

Si ta boîte est la première dans son domaine, tu devrais peut-être suggérer de recruter un consultant compétent pour améliorer son référencement, ça vous reviendra moins cher en coûts récurrents - il n’est pas impossible que vos concurrents l’aient fait.

Catégories

Nous Suivre

À propos

25 ans de Robots.txt : le parser C++ de Google open source, un draft soumis à l’IETF

Commentaires (10)