20 ans de robots.txt : Google se protège des Terminator, d’autres s’amusent
Quels blagueurs ces développeurs
Le 05 juillet 2014 à 09h00
3 min
Internet
Internet
Le fichier robots.txt fêtait cette semaine ses vingt ans. À l'occasion de cet anniversaire, plusieurs sociétés ont laissé de petits messages, certains pleins d'humour. C'est par exemple le cas de Google qui en profite pour mettre ses dirigeants à l'abri d'une attaque de Terminator.
Robots.txt : un consensus vieux de 20 ans, mais en aucun cas une obligation
Le 30 juin 1994, un consensus était trouvé afin de mettre en place un système permettant de donner des indications aux robots des moteurs de recherche. Le but étant de leur indiquer des pages qu'il est inutile d'indexer, et ce, quelle qu’en soit la raison. Cela passe donc par un fichier nommé robots.txt.
Il est important de rappeler qu'il ne s'agit que d'une indication et pas d'une obligation. Les moteurs de recherche peuvent en effet décider de passer outre. De plus, il n'existe aucune norme officielle mise en place par une organisation ou une société, mais de plus amples informations sont disponibles par ici.
Quoi qu'il en soit, ce fichier fêtait donc ses 20 ans cette semaine. Un événement qui aurait pu passer inaperçu pour la très grande majorité des gens, mais c'était sans compter sur l'espièglerie de certains. En effet, plusieurs entreprises ont modifié leur fichier à cette occasion, souvent de manière assez drôle. Notez que dans certains cas les messages étaient déjà présents avant cet anniversaire. En voici quelques-uns triés sur le volet.
Google protège ses fondateurs des Terminators
Chez Google, on indique aux robots T-800 et T-1000 (alias Terminator) qu'ils ne doivent pas s'occuper de Larry Page et de Sergey Brin, les deux fondateurs du moteur de recherche. Un point qui pourrait par contre être à double tranchant étant donné l'intérêt que porte actuellement Google à la robotique, ainsi que les récentes manifestations lors de la conférence Google I/O où certains critiquaient les investissements de Google et les « robots qui tuent des gens ».
De son côté, Nike affiche des messages publicitaires : « levez-vous. Sortez. Allez de l'avant. Pas d'excuse », qui sont donc avant tout destinés aux geeks (qui d'autres s'intéresse à ces fichiers ?). Forecheck, une société spécialisée dans le SEO, fait d'une pierre deux coups avec le long départ en vacances de Matt Cutts.
On pourrait également citer Yelp ou encore Etsy (à condition de bien penser à lire la fin du fichier). Bien évidemment, n'hésitez pas à nous faire part de vos trouvailles via les commentaires.
20 ans de robots.txt : Google se protège des Terminator, d’autres s’amusent
-
Robots.txt : un consensus vieux de 20 ans, mais en aucun cas une obligation
-
Google protège ses fondateurs des Terminators
Commentaires (40)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 05/07/2014 à 11h09
Et celui du point montre que le site propose déjà le droit au déréférencement " />
Le 05/07/2014 à 11h14
Google à lui aussi un fichier :
Google
Le 05/07/2014 à 11h15
Le 05/07/2014 à 11h27
Pour le fun, celui de last.fm " />
Le 05/07/2014 à 11h41
Le 05/07/2014 à 12h23
Le 05/07/2014 à 12h55
Le 05/07/2014 à 13h03
Ca serait intéressant de faire au contraire un moteur qui ne référence que les contenus des robots.txt je pense que l’on pouvait trouver pas mal de contenus intéressant que les webmasters veulent nous cacher.
Le 05/07/2014 à 14h24
Le 05/07/2014 à 14h41
Il y avait déjà des robots indexeurs en 1994 ? C’est assez surprenant parce que les gros moteurs de recherche de l’époque (Hotbot, Altavista, GG etc) ont vu le jour plus tard, en tous les cas, les créateurs de ce consensus ont été bien avisés quand on voit l’importance de l’indexation du contenu du web 20 ans après.
Le 05/07/2014 à 14h59
Le 05/07/2014 à 15h02
En exclusivité le robots.txt de youtube:
User-Agent: Windows-phone*
Dissalow: /
…" />
Le 05/07/2014 à 15h52
Le 05/07/2014 à 17h35
Le 05/07/2014 à 18h10
Celui de kat est bien aussi, ça fait un bout de temps qu’il est là :
https://kickass.to/robots.txt
Source : YouTube GitHubqui fait rebondir vers
GitHub Googlehttp://developer.appcelerator.com/robots.txt
http://mirrors.webfusion.com/robots.txt
Le 05/07/2014 à 18h17
http://www.last.fm/robots.txt
http://yelp.com/robots.txt
Le 05/07/2014 à 09h13
Et Next INpact y’a quoi dans son robots.txt ? :P
Le 05/07/2014 à 09h14
Just crawl it
" />
Le 05/07/2014 à 09h15
Le 05/07/2014 à 09h24
Chez Nike, le message a disparu. " />
Le 05/07/2014 à 09h27
Marrant.
Juste pour le fun, j’ai changé le mien.
Le 05/07/2014 à 09h30
“levez-vous. Sortez. Allez de l’avant. Pas d’excuse” c’est juste le “bonjour” de Nike a ses employés au Bangladesh " />
Le 05/07/2014 à 09h31
killer-robots.txt ? Cela fait partie des noms de fichiers robots ?
Le MondeC’est bon ? " />
Le 05/07/2014 à 09h47
Un an après ? 94 +1 = 85 ? Je comprends pas tout là…
Le 05/07/2014 à 09h52
Le 05/07/2014 à 09h58
Le 05/07/2014 à 10h21
y’en pas un qui a déjà gueulé “Danger ! Danger ! Will Robinson !” ???? " />
" />
Le 05/07/2014 à 10h43
Je viens de regarder quelques fichiers robots.txt, sur reddit par exemple on a :
User-Agent: bender
Disallow: /my_shiny_metal_ass
User-Agent: Gort
Disallow: /earth
je sens que je vais m’amuser " />
Le 05/07/2014 à 10h53
Moi j’aime beaucoup celui de reflets.info " />
Sinon le mien est d’une grand originalité :
User-agent: *
Disallow: /
" />
Le 05/07/2014 à 10h59
Le 05/07/2014 à 10h59
Le 05/07/2014 à 11h01
Mon robots.txt :
User-agent: googlebot
Allow: /firstpage
User-agent: 007
Disallow: /allow
Mais mon site n’apparaît toujours pas en première page de résultat sur Google " />
Le 05/07/2014 à 11h06
Le 05/07/2014 à 18h32
robots.txt : une invention méconnue de Isaac Asimov.
Le 06/07/2014 à 01h30
celui de youtube " />
YouTube
Le 06/07/2014 à 10h04
http://kickass.to/robots.txt " />
Le 06/07/2014 à 14h48
Le 07/07/2014 à 07h48
Le 08/07/2014 à 15h03
Le 08/07/2014 à 15h50