Connexion
Abonnez-vous

20 ans de robots.txt : Google se protège des Terminator, d’autres s’amusent

Quels blagueurs ces développeurs

20 ans de robots.txt : Google se protège des Terminator, d'autres s'amusent

Le 05 juillet 2014 à 09h00

Le fichier robots.txt fêtait cette semaine ses vingt ans. À l'occasion de cet anniversaire, plusieurs sociétés ont laissé de petits messages, certains pleins d'humour. C'est par exemple le cas de Google qui en profite pour mettre ses dirigeants à l'abri d'une attaque de Terminator.

Affiche Terminator
Chez Google, aurait-on peur des Terminator ? 

Robots.txt : un consensus vieux de 20 ans, mais en aucun cas une obligation

Le 30 juin 1994, un consensus était trouvé afin de mettre en place un système permettant de donner des indications aux robots des moteurs de recherche. Le but étant de leur indiquer des pages qu'il est inutile d'indexer, et ce, quelle qu’en soit la raison. Cela passe donc par un fichier nommé robots.txt.

 

Il est important de rappeler qu'il ne s'agit que d'une indication et pas d'une obligation. Les moteurs de recherche peuvent en effet décider de passer outre. De plus, il n'existe aucune norme officielle mise en place par une organisation ou une société, mais de plus amples informations sont disponibles par ici.

 

Quoi qu'il en soit, ce fichier fêtait donc ses 20 ans cette semaine. Un événement qui aurait pu passer inaperçu pour la très grande majorité des gens, mais c'était sans compter sur l'espièglerie de certains. En effet, plusieurs entreprises ont modifié leur fichier à cette occasion, souvent de manière assez drôle. Notez que dans certains cas les messages étaient déjà présents avant cet anniversaire. En voici quelques-uns triés sur le volet.

Google protège ses fondateurs des Terminators

Chez Google, on indique aux robots T-800 et T-1000 (alias Terminator) qu'ils ne doivent pas s'occuper de Larry Page et de Sergey Brin, les deux fondateurs du moteur de recherche. Un point qui pourrait par contre être à double tranchant étant donné l'intérêt que porte actuellement Google à la robotique, ainsi que les récentes manifestations lors de la conférence Google I/O où certains critiquaient les investissements de Google et les « robots qui tuent des gens ».

 

De son côté, Nike affiche des messages publicitaires : « levez-vous. Sortez. Allez de l'avant. Pas d'excuse », qui sont donc avant tout destinés aux geeks (qui d'autres s'intéresse à ces fichiers ?). Forecheck, une société spécialisée dans le SEO, fait d'une pierre deux coups avec le long départ en vacances de Matt Cutts.

 

On pourrait également citer Yelp ou encore Etsy (à condition de bien penser à lire la fin du fichier). Bien évidemment, n'hésitez pas à nous faire part de vos trouvailles via les commentaires.

Commentaires (40)

Vous devez être abonné pour pouvoir commenter.

Abonnez-vous
votre avatar

Et celui du point montre que le site propose déjà le droit au déréférencement <img data-src=" />









John Shaft a écrit :



Tiens fait rigolo : La Quadrature et Hadopi ont le même robots.txt à 2 lignes près <img data-src=" />





Tu sous-entends que ce sont les mêmes qui sont derrière les deux institutions ? <img data-src=" />







–&gt; [] (cela sent l’install par défaut)


votre avatar

Google à lui aussi un fichier :

google.com Google

votre avatar







Z-os a écrit :



Et celui du point montre que le site propose déjà le droit au déréférencement





Très efficace pour faire oublier un article : tu le laisses en ligne et tu mets son URL complète dans le robots.txt <img data-src=" />


votre avatar

Pour le fun, celui de last.fm <img data-src=" />

votre avatar







Z-os a écrit :



Et celui du point montre que le site propose déjà le droit au déréférencement <img data-src=" />







Le Nouvel Obs aussi le fait pour une et une seule URL, là y sont fort chez FOG. (on notera la mention Bygmalion et celle au “sondage” posté il y a peu ) <img data-src=" />



votre avatar







Z-os a écrit :



Et celui du point montre que le site propose déjà le droit au déréférencement <img data-src=" />





Tu sous-entends que ce sont les mêmes qui sont derrière les deux institutions ? <img data-src=" />







–&gt; [] (cela sent l’install par défaut)





Drupal. What else ? <img data-src=" />


votre avatar







psn00ps a écrit :



Drupal. What else ? <img data-src=" />





Ça existe encore ? Depuis le temps que j’entends que c’est voué à disparaitre.

(Comme mon cher cobol remarque <img data-src=" />)


votre avatar

Ca serait intéressant de faire au contraire un moteur qui ne référence que les contenus des robots.txt je pense que l’on pouvait trouver pas mal de contenus intéressant que les webmasters veulent nous cacher.

votre avatar







linconnu a écrit :



Ca serait intéressant de faire au contraire un moteur qui ne référence que les contenus des robots.txt je pense que l’on pouvait trouver pas mal de contenus intéressant que les webmasters veulent nous cacher.





Un petit inurl:robots.txt dans google pour commencer. <img data-src=" />



voire inurl:.fr/robots.txt pour les sites français.



Et j’adore celui de décathlon. ;-)


votre avatar

Il y avait déjà des robots indexeurs en 1994 ? C’est assez surprenant parce que les gros moteurs de recherche de l’époque (Hotbot, Altavista, GG etc) ont vu le jour plus tard, en tous les cas, les créateurs de ce consensus ont été bien avisés quand on voit l’importance de l’indexation du contenu du web 20 ans après.

votre avatar







Crysalide a écrit :



Il y avait déjà des robots indexeurs en 1994 ? C’est assez surprenant parce que les gros moteurs de recherche de l’époque (Hotbot, Altavista, GG etc) ont vu le jour plus tard, en tous les cas, les créateurs de ce consensus ont été bien avisés quand on voit l’importance de l’indexation du contenu du web 20 ans après.







1993

W3Catalog

Aliweb

JumpStation

1994

WebCrawler

Aggregator

Go.com

Yahoo Search

Lycos

Infoseek



en.wikipedia.org Wikipedia


votre avatar

En exclusivité le robots.txt de youtube:



User-Agent: Windows-phone*

Dissalow: /



<img data-src=" />

votre avatar







Z-os a écrit :



Un petit inurl:robots.txt dans google pour commencer. <img data-src=" />



voire inurl:.fr/robots.txt pour les sites français.



Et j’adore celui de décathlon. ;-)





Marrant, je viens de voir que la maison blanche est sous Drupal aussi <img data-src=" />


votre avatar







Z-os a écrit :



Et celui du point montre que le site propose déjà le droit au déréférencement <img data-src=" />





Tu sous-entends que ce sont les mêmes qui sont derrière les deux institutions ? <img data-src=" />







–&gt; [] (cela sent l’install par défaut)







D’ailleurs dans Lepoint il y a cette ligne :



Disallow: /sondages-oui-non/faut-il-retirer-aux-francais-d-origine-algerienne-leur-double-nationalite-29-06-2014-1841661_1923.php



Car le sondage avait fait polémique :)





EDIT Grillé :) :







John Shaft a écrit :



Le Nouvel Obs aussi le fait pour une et une seule URL, là y sont fort chez FOG. (on notera la mention Bygmalion et celle au “sondage” posté il y a peu ) <img data-src=" />







votre avatar

Celui de kat est bien aussi, ça fait un bout de temps qu’il est là :

https://kickass.to/robots.txt



Source :youtube.com YouTubegithub.com GitHubqui fait rebondir vers

github.com GitHubgoogle.com Googlehttp://developer.appcelerator.com/robots.txt

http://mirrors.webfusion.com/robots.txt

votre avatar
votre avatar

Et Next INpact y’a quoi dans son robots.txt ? :P

votre avatar



Just crawl it





<img data-src=" />

votre avatar







Flandre5carlet a écrit :



Et Next INpact y’a quoi dans son robots.txt ? :P







C’est plus facile de vérifier que de demander non ?


votre avatar

Chez Nike, le message a disparu. <img data-src=" />

votre avatar

Marrant.



Juste pour le fun, j’ai changé le mien.

votre avatar

“levez-vous. Sortez. Allez de l’avant. Pas d’excuse” c’est juste le “bonjour” de Nike a ses employés au Bangladesh <img data-src=" />

votre avatar

killer-robots.txt ? Cela fait partie des noms de fichiers robots ?



lemonde.fr Le MondeC’est bon ? <img data-src=" />

votre avatar

Un an après ? 94 +1 = 85 ? Je comprends pas tout là…

votre avatar







Minarey a écrit :



Un an après ? 94 +1 = 85 ? Je comprends pas tout là…







/me va revoir son boulier <img data-src=" />


votre avatar







gathor a écrit :



/me va revoir son boulier <img data-src=" />





Toi tu t’es trompé de colonne <img data-src=" />


votre avatar

y’en pas un qui a déjà gueulé “Danger ! Danger ! Will Robinson !” ???? <img data-src=" />

<img data-src=" />

votre avatar

Je viens de regarder quelques fichiers robots.txt, sur reddit par exemple on a :





User-Agent: bender

Disallow: /my_shiny_metal_ass



User-Agent: Gort

Disallow: /earth





je sens que je vais m’amuser <img data-src=" />

votre avatar

Moi j’aime beaucoup celui de reflets.info <img data-src=" />



Sinon le mien est d’une grand originalité :





User-agent: *

Disallow: /





<img data-src=" />

votre avatar







John Shaft a écrit :



Moi j’aime beaucoup celui de reflets.info <img data-src=" />



Sinon le mien est d’une grand originalité :







<img data-src=" />





Le premier robot que j’ai été voir aussi <img data-src=" /> <img data-src=" />


votre avatar







Z-os a écrit :



lemonde.fr Le MondeC’est bon ? <img data-src=" />







Celui du nouvel obs est pas mal non plus : on interdit tout ou presque sauf Google, Bing et les 2-3 autres gros, et on viens réclamer des thunes de la part de Google pour le manque à gagner parce qu’on apparait dans Google News


votre avatar

Mon robots.txt :





User-agent: googlebot

Allow: /firstpage



User-agent: 007

Disallow: /allow





Mais mon site n’apparaît toujours pas en première page de résultat sur Google <img data-src=" />

votre avatar







tAran a écrit :



Le premier robot que j’ai été voir aussi <img data-src=" /> <img data-src=" />







Tiens fait rigolo : La Quadrature et Hadopi ont le même robots.txt à 2 lignes près <img data-src=" />


votre avatar

robots.txt : une invention méconnue de Isaac Asimov.


votre avatar

celui de youtube <img data-src=" />

youtube.com YouTube

votre avatar
votre avatar







gerard_le a écrit :



celui de youtube <img data-src=" />

youtube.com YouTube<img data-src=" />


votre avatar







Vanilys a écrit :



D’ailleurs dans Lepoint il y a cette ligne :

Disallow: /sondages-oui-non/faut-il-retirer-aux-francais-d-origine-algerienne-leur-double-nationalite-29-06-2014-1841661_1923.php

Car le sondage avait fait polémique :)





Je peu comprendre le sondage, mais ça :



Disallow: /insolite/femme-de-menage-en-tenue-sexy-un-concept-qui-ne-fait-pas-l-unanimite-11-02-2011-1294557_48.php



Je comprend moins. Ça m’a l’air d’une nouvelle tout à fait digne d’intérêt <img data-src=" />


votre avatar







maxxyme a écrit :



Chez Nike, le message a disparu. <img data-src=" />







Il est toujours visible, mais sur leur store, pas Nike.com <img data-src=" />


votre avatar







Jarodd a écrit :



Il est toujours visible, mais sur leur store, pas Nike.com <img data-src=" />





OKI <img data-src=" />


20 ans de robots.txt : Google se protège des Terminator, d’autres s’amusent

  • Robots.txt : un consensus vieux de 20 ans, mais en aucun cas une obligation

  • Google protège ses fondateurs des Terminators

Fermer