Pour explorer le web, l’Internet Archive songe à ignorer les fichiers Robots.txt
La Wayback Machine grippée
Le 24 avril 2017 à 12h38
3 min
Internet
Internet
Pour l'Internet Archive, les fichiers Robots.txt sont devenus un frein à la bonne indexation du web. Une partie des sites deviendraient inaccessibles dans sa base de données suite à un changement de leurs directives pour les moteurs de recherche. Pour continuer son travail, elle explore l'idée de ne plus en tenir compte.
L'Internet Archive, l'organisation qui ambitionne d'archiver l'ensemble du web, réfléchit à ne plus tenir compte des fichiers Robots.txt. Pour mémoire, ces derniers permettent aux sites d'indiquer aux moteurs de recherche quoi indexer et quoi laisser de côté, par exemple pour éviter des doublons ou protéger des sous-dossiers sensibles, même si leur respect est facultatif. Dernièrement, la SNCF a utilisé le sien pour masquer des e-billets, sinon affichés sur les moteurs.
S'ils ont leur utilité, ces fichiers posent bien problème à l'Internet Archive, qui affirme qu'ils mèneraient à la désindexation complète de certains sites par son outil. La raison : « une recrudescence » de l'exclusion de noms de domaine entiers lorsqu'ils ne sont plus utilisés, voire mis en domain parking. La conséquence est que l'ensemble des contenus liés dans Internet Archive devient inaccessible, l'outil appliquant rétroactivement la mesure.
Une mesure radicale déjà (parfois) appliquée
« Nous remarquons que les fichiers Robots.txt prévus pour les moteurs de recherche ne sont pas forcément utiles dans notre optique d'archivage » écrit l'équipe. Elle rappelle que son but est de créer des images instantanées du web, doublons et fichiers larges (parfois exclus des recherches) compris. En parallèle, elle affirme recevoir des plaintes quotidiennes à propos de sites disparus de la Wayback Machine, parce qu'abandonnés, donc exclus des moteurs de recherche.
En décembre, l'organisation a déjà commencé à ignorer les Robots.txt de sites gouvernementaux et militaires américains (finissant en .gov et .mil), en supprimant tout de même des contenus signalés. Cette démarche avait déjà été appliquée lors des captures de fin de mandat présidentiel (en 2008, 2012 et 2016), sans complainte de la part des autorités américaines, affirme Internet Archive.
La discussion en soi n'est donc pas nouvelle, des internautes débattant du sujet depuis au moins cinq ans.
Les services qui ignorent ces fameux fichiers semblent encore rares. L'un d'eux est Archive Team, un collectif s'attelant à archiver des pans du web a priori oubliés par d'autres. Sur son wiki, l'équipe affirme explicitement ne pas tenir compte des directives des sites en matière d'indexation, avec pour seule exception les occurrences où l'accès à un lien par un robot déclenche des effets néfastes (suppression du contenu, surcharge du site, etc.).
Vers un respect granulaire du Robots.txt ?
Internet Archive veut voir le web comme un internaute, pas comme un moteur de recherche. Pour l'organisation, les deux champs de vision se sont éloignés via l'évolution des fichiers Robots.txt, excluant de plus en plus d'éléments au fil des ans.
Il reste qu'ignorer complètement les indications des responsables de sites est une décision importante, surtout quand certains excluent explicitement l'archivage par le service. Une piste alternative remontée par plusieurs internautes, notamment en commentaire du billet ou sur Hacker News, est de respecter les choix d'indexation au moment du crawl.
En clair, si un site indexé depuis dix ans interdit l'archivage en 2017, Internet Archive conserverait les anciennes versions, en arrêtant d'en archiver de nouvelles. L'équipe d'Internet Archive n'a pas encore répondu à cette proposition.
Pour explorer le web, l’Internet Archive songe à ignorer les fichiers Robots.txt
-
Une mesure radicale déjà (parfois) appliquée
-
Vers un respect granulaire du Robots.txt ?
Commentaires (60)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 24/04/2017 à 12h52
Si on a créé ces fichiers, c’est JUSTEMENT pour rendre inaccessibles certaines portions de sites aux robots … c’te blague
Le 24/04/2017 à 23h00
Je comprends pas l’opposition à IA, ils font un boulot formidable qui permet de récupérer le contenu de sites qui disparaissent, ou quand les sites changent leurs URLs, et préserver des infos intéressantes pour l’avenir.
Ça me paraît normal d’ignorer le robots.txt (perso mon crawler de RSS n’en a rien à foutre du robots.txt, utilise des IP aléatoires et un user agent type Chrome/Firefox dernière version, et si l’accès au site ne marche pas sans JS il récupère la page avec webkit directement, donc aucun moyen de l’empêcher de faire son boulot), ne serait-ce que parce qu’il contient souvent n’importe quoi, et qu’il empêcherait sinon d’archiver des infos utiles qu’on a besoin de récupérer ensuite.
Merci à IA en tout cas :)
Le 25/04/2017 à 02h10
Je visitais de vieux site mais a cause d’un robots.txt créé par le nouveau propriétaire j’ai perdu accés au info des archive
Deplus archive.org est un archiveur il ne permet pas la recherche des site archivé se qui est différent des moteur de recherche qui permet de fouiller la vie privé , ce qui a été trop souvent le cas
Archive.org permet de fouillé des version antérieur d’un site web tel un musée archive des vieux livre
A noté que archive.org est reconnu en temps que musée donc certaine loi ne s’applique.
Le 25/04/2017 à 07h33
En soi, ce serait une violation de la vie privée.
Qu’ils le fassent et ils se prendront un gros procès sur le dos.
Le 25/04/2017 à 11h03
Le 25/04/2017 à 11h23
Le 25/04/2017 à 13h00
" />
Le robots.txt ne se préoccupe pas d’archivage hein!
Il ne demande pas de supprimer des archives, ca c’est le comportement adopté par IA qui est contraire au fait de “créer des images instantanées du web”.
Si ton image instantanée est modifiée à postériori, cest pas une instantanée..
Le robots.txt demande aux robots de ne pas indexer certaines parties d’un site.
C’est à la base du gagnant-gagnant vu que :
Le 25/04/2017 à 14h15
Il y a une raison que le fichier robots.txt existe
quand google a commencé a recherché les fichier en plus des page web , celui-ci a répertorié un nombre de fichier contenant des données sensible en 2004
Le robots.txt est parfois utilisé par abus par les webmasters mais il est vitale pour protégé aussi des données
Le 25/04/2017 à 15h10
Relis le pavé que j’ai écris avant.
Et celui qui se sert du robot.txt pour la sécu n’aura que ce qu’il mérite.
Le 26/04/2017 à 14h39
J’ai lu, et c’est bien tu exposes les faits clairement.
Oui, le robots.txt sert au webmaster afin le robots indexe les contenus pertinents sans parcourir toutes les pages et surcharger le serveur.
Non le robots.txt ne sert pas à faire de la sécurité ni à dire ‘ha ca c’était une erreur, supprime de ton cache’
Si tu veux supprimer des données d’un cache suite à une connerie, tu prends ton clavier à deux mains et tu contactes les gérant du-dit cache
Le 26/04/2017 à 14h44
Protéger des données avec un robots.txt cest comme protéger son jardin avec un écriteau “propriété privé”.
Ca marche avec ceux qui respecte les règles, Cest pas de la sécurité pour autant.
La raison pour laquelle le robots.txt existe c’est d’avoir les contenus pertinents indéxés sans perdre de temps à parcourir le serveur entier.
Un robot qui ne respecte pas le robots.txt tombera dans un honeypot et n’indexera jamais le contenu pertinent.
Il passera sa vie à indexer des données random.. quel intérêt à cela?
Le 26/04/2017 à 14h50
Je ne m’opose pas à eux, je m’oppose au choix qu’ils envisagent qui est mauvais.
Ignorer le robots.txt c’est prendre le risque de tomber dans un honeypots.. c’est pas comme ca que tu vas archiver des infos utiles.
Le 24/04/2017 à 12h54
“Nous remarquons que les fichiers Robots.txt prévus pour les moteurs de recherche ne sont pas forcément utiles dans notre optique d’archivage”
Et, bien sur, leur optique personnelle l’emporte sur la volonté de l’auteur du “Robots.txt”.
Il reste qu’ignorer complètement les indications des responsables de sites est une décision importante, surtout quand certains excluent explicitement l’archivage par le service.
Tu m’étonnes. Va falloir créer un nouveau standard “NoArchives.txt” ? Ah, ca existe déjà (balise “meta”).
Le 24/04/2017 à 12h57
Le 24/04/2017 à 12h57
Même si je comprends le soucis, je ne pense pas que ce soit une bonne idée.
Les archiveurs ne parcourent pas les sites web comme
le ferait des utilisateurs mais comme les moteurs d’indéxations donc vouloir archiver le web tel que le voit un utilisateur est mal parti (enfin depuis quelques temps c’est plus la bonne manière de faire)
Il y a un User-Agent special archiveur?
Le 24/04/2017 à 13h06
Je trouve que sans pour autant ignorer le robots.txt, arrêter de l’appliquer rétroactivement permettrait déjà de limiter la casse…
Le 24/04/2017 à 13h20
Pourquoi cette volonté d’archiver le net ? Si un mec décide de ne plus afficher son site, de quel droit un site comme IA s’arroge le droit de l’archiver et de le rendre ainsi toujours visible? Et encore plus en se donnant cette tache comme “mission”…
On dirait des putains de mormons, les mecs, qui archivent les données d’État civil de toute la population mondiale…
Le 24/04/2017 à 13h28
Mais si j’ai, sur mes sites, des portions que je ne veux pas voir dans les moteurs de recherche, ni archivés, ni quoique ce soit, il me semble que je suis parfaitement dans mon droit.
Ce genre de procédé est inquiétant.
Le 24/04/2017 à 13h30
Et, accessoirement, si je puis dire. Qui est Internet Archive, qui est derrière tout ça ? De quel droit archivent-ils nos sites ?
Le 24/04/2017 à 13h32
Il n’y a pas d’autres moyens de bloquer l’accès à des portions de sites ? Parce que compter sur la bonne fois des bots pour respecter robots.txt, c’est un peu léger comme sécurité non ?
Le 24/04/2017 à 13h35
C’est-à-dire que je me demande où ils vont leurs saletés de robots et ce qu’ils fonts justement.
Le 24/04/2017 à 13h39
Tout simplement parce que la publication d’un site est une communication publique (équivalent à la publication d’un journal ) et par là même son archivage n’est plus sous le contrôle de son auteur.
Le 24/04/2017 à 13h41
Le 24/04/2017 à 13h44
Et comme certains (dont moi) utilisent un honeypot pour bannir les IP de ceux qui se rendent sur une entrée spécifique du robots.txt, là, au moins vraiment tout le site sera non accessible.
Le 24/04/2017 à 13h44
Si tu veux pas qu’il soit disponible/consultable/archivée ne les met pas sur un site en accès libre…
Le 24/04/2017 à 13h44
Exactement. Si tu ne veux pas qu’une information soit archivée, copiée partout, ben tu ne la publies pas. Ou tu restreints l’accès aux seuls utilisateurs identifiés (ce qui n’empêche pas la copie par l’un d’eux par contre).
Quand je tombe sur une page que j’avais gardée en favori qui n’existe plus, je suis bien content d’avoir IA pour m’aider à y accéder à nouveau " />
Le 24/04/2017 à 13h50
Ben s’ils ignorent robots.txt, partout où l’accès est libre ^^
Après, comme déjà dit par d’autres, si tu publies sur internet en accès libre et gratuit, il ne faut pas s’étonner que ton contenu puisse être réutilisé… C’est à toi de sécuriser ton site et tes contenus si tu veux éviter ça.
Le 24/04/2017 à 13h52
Je me pose notamment des questions sur mon extranet. Il est sécurisé, mais bon.
Si ce machin veut récupérer ce qui est marqué comme non indexé, il va s’arrêter où ensuite ? C’est la question.
Le 24/04/2017 à 13h57
Pour moi une communication au public est différent d’un archivage.
Là en gros, un mec te suit dans la rue avec un micro (c’est public, il a le droit)
Et il se plaint “non mais parle plus fort là on entend pas bien”
Pour moi il y a bien un soucis..
Le 24/04/2017 à 13h58
Il n’y a pas de question, il ne s’arrête pas :)
Le 24/04/2017 à 13h59
J’exclu explicitement d’Archive, ce n’est pas pour que ce soit ignoré Oo
Le 24/04/2017 à 13h59
Prendre en compte le robots.txt au moment du crawl, comme indiqué en bas de l’article, me parait tellement évident que je ne comprends pas le choix actuel d’Internet Archive (supprimer le contenu passé a cause d’une directive récente)
Le 24/04/2017 à 14h00
Ben voilà :-) d’où problème.
Le 24/04/2017 à 14h02
Comme le fichier robots.txt n’a aucune valeur légale, de plus en plus d’organismes passent outre pour aspirer toutes les données disponibles.
D’ailleurs, certains le font depuis quelques années déjà, comme la BNF.
La meilleure parade que j’ai trouvée est d’utiliser une liste blanche sur un pare-feu. Dans le cas de la BNF, j’ai dû blacklister un partie du range Renater concerné.
Le 24/04/2017 à 14h04
Pour moi il y a une différence entre la ré-utilisation d’une publication et le fait que l’archiveur se plaigne alors qu’il n’utilise pas le bon outil.
Il veut archiver le web tel qu’un utilisateur le voit? Il n’a qu’à utiliser un crawler qui n’utilise que les liens visible sur une page web.
Sinon il fleurira des honey-pots partout, et il (re)viendra se plaindre parce qu’il n’arrive pas à remplir sa “mission”.
Le 24/04/2017 à 14h06
C’est des militants de l’UPR " />
nan, je déconne, c’est une fondation californienne à but non lucratif qui vise à “préserver la connaissance humaine” (au sens large, je crois bien).  Wikipedia
Le 24/04/2017 à 14h08
Je suis comme toi, je ne comprends pas le problème.
Ils ont utilisé une règle qui est inadaptée : prendre le robots.txt et l’appliquer sur les anciennes indexations, alors qu’ils devraient juste ne pas faire une nouvelle image quand ils trouvent une nouvelle directive dans le fichier.
L’historique est conservé, et du coup, leur objectif atteint…
Le 24/04/2017 à 14h09
Le 24/04/2017 à 14h12
www = World Wide Web != mWW My Wide Web
WAN != LAN
…
Tu publies tu prends le risque de cela.
Faut savoir que ce qui est diffusé à la télé/radio/… publique est entièrement archivé et plusieurs fois…
Le 24/04/2017 à 14h12
Oui c’est une convention, et c’est utile.
Si tout le monde passe outre; il fleurira des solutions qui nuiront aux indésirables en premier lieu mais aussi au fur-et-à-mesure aux internautes.
Ban du User-agent “bot” puis honeypot puis firewall => au final les moteurs de recherches ne seront plus utiles, les internautes seront bien contents " />
Le 24/04/2017 à 14h14
Le 24/04/2017 à 14h17
L’interet d’archiver des données, publications en ligne, presse est d’offrir un reflet du sujet et de la faon dont il était traité pour les chercheurs d’une période donnée.
L’interet est le même que celui que l’on porte sur les archives papiers.
Et c’est parce que on a des gens qui ont décider d’archiver et stocker ces données que l’on arrive à comprendre certaines civilization ou période de civilization aujourd’hui.
Le 24/04/2017 à 14h17
Le problème, cest pas le risque pris, c’est qu’un organisme qui veut “préserver la connaissance humaine” se permette de dire “non mais les gens qui ne veulent pas que l’on préserve leur connaissance sont relous”
Ils font une connerie en ne faisant pas une vraie image à un instant t vu qu’ils appliquent le nouveau robots.txt sur les anciennes versions.
Ils se trompent de problème, voila tout
Le 24/04/2017 à 14h20
Oui, les archives sont généralement ouverte au publique. En fonction, des archives, certaines peuvent demandé une demande de dérogation. Certaines archives sont restreinte durant une certaines durée allant de quelque année à 100an.
Mais dans l’ensemble et en principe, les archives publiques sont accessible à tous.
Le 24/04/2017 à 14h22
Oui à l’INA pour la partie Radiop/Télé.
A la BNF pour les publications écrites et web.
Le 24/04/2017 à 14h24
Wah, trop bien, ils vont archiver des pages de login et autre connerie du genre. Que c’est utile.
Le 24/04/2017 à 14h25
Le 24/04/2017 à 14h28
Dans un sens, oui.
Avec une simple page de login, tu obtiens également des informations sur les méthodes d’authentification d’une époque. Tu va commencer à t’apercevoir de l’émergence de l’OAuth par exemple.
Tu va également avoir des informations autour du design d’une époque. Et sur des éléments qui représente globalement la même chose donc un bon comparatif.
On peut déduire pas mal de chose à partir de quelque informations.
Il ne faut pas oublié que si on a réussi à déchiffrer certain langue en archéologie, c’est à partir de “livre de
comptabilité”.
Le 24/04/2017 à 14h41
Je n’ai pas dit qu’IA avait raison d’ignorer robots.txt. Je dis juste que compter sur le robots.txt (qu’aucun contrat n’oblige qui que ce soit à utiliser) pour éviter qu’un bot puisse accéder à des données qu’on a mises en accès libre c’est naïf.
Edit : ortho
Le 24/04/2017 à 15h07
A ce moment la, un acces protégé par mdp/certificat/etc. est ce qu’il te faut.
Faut pas s’étonner que des contenus accessibles facilement se trouvent ailleurs que la ou ils ont été publiés.
Le 24/04/2017 à 15h13
Ouais, c’est un peu etrange. L’application bete et mechante serait, pour moi, de ne pas indexer de nouveau contenu…
Le 24/04/2017 à 15h38
Leur mission est louable, mais plutôt que réfléchir au contenu derrière un robots.txt ils feraient mieux de convenablement archiver ce qui est déjà archivable.
A chaque fois que je me suis servi de leur service, je n’ai pas trouvé
ce que je cherchais. Par exemple ils faisaient des snapshots d’un site
tous les 6 mois, alors qu’il y avait des publications tous les jours. Je
tombais sur la page d’accueil mais la navigation était impossible pour retrouver un article précis (IA
met son propre lien qui n’amène nulle part).
Le 24/04/2017 à 16h01
ils peuvent faire ce qu’ils veulent avec leur “robots” mais il ne faut surtout pas qu’ils ignorent le site de Jvachez " />
Le 24/04/2017 à 16h41
Tu vois de la naïveté là où je vois un besoin de respect mutuel.
Pour moi, on peut faire un parallèle avec la publicité.
Trop d’espace dédié à de la pub => l’utilisateur la bloque.
les crawleurs veulent trop de données => le webmaster va les bloquer
C’est dommage :(
Le 24/04/2017 à 17h24
Ben justement, en reprenant ton parallèle, espérer que le milieu de la publicité réagisse avant que les gens n’installent des bloqueurs, c’était naïf et on l’a bien vu : ça n’a pas beaucoup évolué, et le peu d’évolutions vient d’abord et surtout de sites comme NxI qui adopte une politique publicitaire propre et non des régies.
Ici, c’est pareil : si tu veux vraiment empêcher l’archivage (ou le parcours de ton site par des bots pour d’autres raisons), mieux vaut agir toi-même plutôt qu’espérer qu’on respecte le choix que tu as mis dans robots.txt.
Le 24/04/2017 à 17h34
Le 24/04/2017 à 17h50
Le 24/04/2017 à 17h51
Bref, “Internet Archive” a le droit de faire ce qu’il veut parce qu’il est gentil et que ses intentions sont nobles.
Et puis un jour on découvrira que…
Le 24/04/2017 à 19h39
Je fais des sites depuis 18 ans, et je comprends un peu leur problème. Et dans un sens, le problème du robot.txt vient surtout qu’on publie en public des données privées, avec des jetons directement dans l’URL, ce qui n’a rien de sécurisé.
Perso, le robot.txt, je m’en tape un peu, je l’utilise surtout pour limiter robot dans le but de soulager mon serveur. C’est plus dire : « Ne viens pas ici, tu ne va trouver que des 403 (droits d’accès insuffisants) ». Ce qui ne doit pas être vu ne le sera pas, même si le robot.txt est nié.
Normalement, si tu utilises le robot.txt pour te protéger, c’est que t’as la pire protection existante : aucune. Tu prends le risque que des données publiques soient exposées par n’importe quoi ou n’importe qui. Et après, on se retrouve avec article d’entreprises dans des situations risibles et dramatiques. J’ai déjà vécu ça : le SVN d’une boîte qui se retrouve sur Google.
Maintenant pour en revenir au problème de Indexeur (ex Google) vs Archiveur (ex IA) :
Bref, le robot.txt ne donne pas de plage temporelle. Donc, c’est : on supprime tout ou rien. Impossible de dire si c’est depuis le nouveau robot.txt puisque le nouveau a peut-être était là pour supprimer quelque chose qui est soit légitime ou illégitime. Le respecter c’est prendre le risque de perdre des données, ne pas le respecter c’est prendre le risque d’avoir des données illégitimes et même le respecter à partir des changements de règles.
Pour moi, le choix ne peut pas être le même qu’un Indexeur qui se fout de ce qui n’existe plus, et je ne saurais dire quel est le meilleur choix.
Le 24/04/2017 à 21h05
Si tu veux de la sécurité, cela n’a rien à voir avec robots.txt.
Il est optionnel depuis sa création.