Connexion
Abonnez-vous

Internet Archive hors ligne deux fois à cause d’un usage trop intense

Internet Archive hors ligne deux fois à cause d’un usage trop intense

Le 31 mai 2023 à 05h10

Le 29 mai dans l’après-midi (la soirée pour la France), Internet Archive s’est retrouvé indisponible à cause de sollicitations trop nombreuses. Fondée en 1996, Internet Archive est une organisation à but non lucratif consacrée à l’archivage du Web : elle recueille des clichés instantanés de toutes sortes de pages web, logiciels, films, livres, contenus audio, etc.

Or, selon l’article de blog publié par son fondateur Brewster Kahle, des dizaines de milliers de requêtes par secondes ont été envoyées vers les documents OCR que publie l’organisation. Les requêtes étaient issues de 64 hôtes hébergés par Amazon Web Services. Or, « même selon les normes du web, des dizaines de milliers de requêtes par seconde, c'est beaucoup », écrit Brewster Kahle : le service s’est retrouvé indisponible pendant une heure pour la totalité des utilisateurs.

Si les ingénieurs de l’ONG ont bientôt réussi à remettre Internet Archive en ligne, en bloquant les adresses IP concernées, un autre jeu de 64 adresses s’est mis à adresser le même nombre faramineux de requêtes quelques heures plus tard. Internet Archive a de nouveau bloqué les adresses concernées, au bout d’une heure d’indisponibilité.

Sur Twitter, le compte de l’ONG a suspecté un moment que les requêtes soient le fait d’une entreprise d’intelligence artificielle en train de récolter les fichiers textes d’Internet Archive à un rythme « extrême », avant de mettre en doute sa propre théorie.

À la fin de sa publication, Brewster Kahle demande à quiconque souhaite profiter des services d’Internet Archive, y compris à grande échelle, de le faire sans problème – en les contactant si besoin –, mais pas aux dépens de l’usage de tous les autres utilisateurs et utilisatrices.

Le 31 mai 2023 à 05h10

Commentaires (24)

Vous devez être abonné pour pouvoir commenter.

Abonnez-vous
votre avatar

Je préfèrerais une brève/actu sur la panne de Orange hier.

votre avatar

La panne d’Orange, d’en connaître les raisons ne va pas m’apporter grand chose.
Internet Archive est un super outil. Moins consulté mais aussi incontournable que wikipedia.

votre avatar

Winderly a dit:


Je préfèrerais une brève/actu sur la panne de Orange hier.


Ça fera probablement l’objet d’un article complet plutôt que d’une brève.



Concernant le pompage de contenu, même sans s’appeler archive.org, régulièrement des bots font tomber des sites pour, j’imagine, essentiellement alimenter de l’“IA” sans respecter quelconque droit d’auteur, ni le boulot des gens qui font tourner techniquement les infrastructures qu’ils font tomber.

votre avatar

Respecter le boulot et les droits d’autres personnes ? Pourquoi faire :troll:

votre avatar

Amusant de parler de droit d’auteur (qui n’est pas en cause dans l’alimentation d’une IA) dans une brève consacrée à archive.org. :fumer:

votre avatar

Pardon ? C’est totalement sujet à débat en ce moment, qu’est-ce qui te permet d’affirmer que le droit d’auteur n’entre pas en cause ?

votre avatar

En quoi le droit d’auteur est-il violé en cas d’apprentissage d’une IA ?



Si une IA recopie une œuvre sans en avoir le droit, ce sera différent, mais ce n’est pas le cas des IA génératives dont on parle en ce moment.

votre avatar

Bah vu que l’IA recrache des bouts de textes si, le droit d’auteur des sources s’applique.
Tout comme dans le cas d’usage qui nuirait à l’auteur le droit s’applique (diffamation par exemple).



Celui-là il va faire faire des cauchemars et des cheveux blancs à certains juristes :transpi:

votre avatar

Internet Archive a suspecté un moment que les requêtes soient le fait d’une entreprise d’intelligence artificielle en train de récolter les fichiers textes d’Internet Archive à un rythme « extrême », avant de mettre en doute sa propre théorie.


IA attaqué par une IA… ca serait cocasse.

votre avatar

fred42 a dit:


En quoi le droit d’auteur est-il violé en cas d’apprentissage d’une IA ?


C’est justement tout le sujet actuellement : de nombreux auteurs n’approuvent pas l’utilisation de leurs œuvres pour nourrir l’apprentissage des IA génératives (le cas de DeviantArt a pas mal fait parler de lui). Et puisque cet usage est nouveau, il n’est pas encadré. Certains parlent justement de faire évoluer le droit d’auteur pour prendre en compte ce genre d’usage. En attendant, c’est le far-ouest, les créateurs desdites IA font ce qu’ils veulent sans ce soucier de l’avis des auteurs.

votre avatar

Tu ne réponds pas à ma question qui est pourtant simple.



Et quand tu dis que certains veulent faire évoluer le droit d’auteur, ça va dans mon sens. Il n’est aujourd’hui pas violé par l’apprentissage des IA.
Une IA générative ne stocke pas les œuvres. Elle ne peut donc pas faire de contrefaçon.

votre avatar

Non, ça va dans ton sens si tu parles uniquement de la loi. Mais on parle de la loi d’une part et de la situatiom morale qui est bousculée par les IA, ce qui va complétement dans le sens de mon message initial : le droit d’auteur est un sujet en cours vis-à-vis de l’IA.



Et toute les lois qui sont en place par rapport aux traitements humains ne peuvent plus s’appliquer telles quelles.

votre avatar

Revenons au début du fil. Il est dit : “sans respecter quelconque droit d’auteur”. On parlait donc bien de loi. Le droit d’auteur, c’est du juridique.



J’ai fait remarquer que le droit d’auteur n’était pas en cause pour l’alimentation d’une IA et tu es intervenu en dénaturant la discussion puisque tu parles maintenant de morale ce qui n’avait rien d’évident dans ta première intervention.



La morale, chacun a la sienne. La loi a au moins l’avantage d’être la même pour tous au moins dans un pays donné et concernant le droit d’auteur, il y a un socle commun international largement adopté. Cependant, les USA ne reconnaissent pas le droit moral comme le fait la France par exemple.



On n’est pas près d’avoir un consensus international sur le sujet des IA concernant le droit d’auteur. Aux auteurs de se prendre en main et de restreindre l’usage de leurs œuvres par une licence s’il ne veulent pas que leur œuvre soit utilisée pour l’apprentissage des IA, rien de plus simple. C’est du contractuel, inutile de passer par la loi.

votre avatar

the_Grim_Reaper a dit:


Bah vu que l’IA recrache des bouts de textes si, le droit d’auteur des sources s’applique.


Non, elles ne recrachent pas des bouts de textes. Elles génèrent des phrase suivant un contexte de façon probabiliste. C’est d’ailleurs pour cela qu’elles disent des conneries (personne n’a écrit que les œufs de vache existaient avant ChatGPT). Elles stockent des probabilités.



Le fait que certains les appellent perroquets a dû t’induire en erreur.




Tout comme dans le cas d’usage qui nuirait à l’auteur le droit s’applique (diffamation par exemple).


Je n’ai pas compris ce que vient faire la diffamation ici, ni le début de ta phrase d’ailleurs.




Celui-là il va faire faire des cauchemars et des cheveux blancs à certains juristes :transpi:


Au contraire, les avocats vont gagner beaucoup d’argent grâce à des procès sans fondements juridiques.

votre avatar

fred42 a dit:


Non, elles ne recrachent pas des bouts de textes.


Des images, des vidéo aussi…



https://gizmodo.com/ai-art-generators-ai-copyright-stable-diffusion-1850060656
arstechnica.com Ars Technica



Et j’en ai encore d’autres. Si, il y a bien un problème de droit d’auteur sur ce qui est pompé par les bots alimentant les bases pour de l’AI (qui ne sont pas que les LLM).



Concernant archive.org, c’est une fondation qui respecte les “robots.txt” donc si tu ne veux pas être indexé, tu ne le seras pas. Contrairement à la Bibliothèque Nationale de France qui ne le respecte pas, car le cadre légal français le lui autorise, il reste toujours la possibilité de bloquer la bnf via un parefeu…

votre avatar

fred42 a dit:


Non, elles ne recrachent pas des bouts de textes. Elles génèrent des phrase suivant un contexte de façon probabiliste.


Du coup, il existe la probabilité de recopier des segments de phrases (ou d’images/vidéos), surtout dans des cas très spécifiques qui n’ont été rencontrés que peu de fois durant l’apprentissage.



Donne-lui en input le début d’une poésie, il y a peu de chances qu’il génère autre chose que la suite qu’il a apprise.




fred42 a dit:


Et quand tu dis que certains veulent faire évoluer le droit d’auteur, ça va dans mon sens. Il n’est aujourd’hui pas violé par l’apprentissage des IA. Une IA générative ne stocke pas les œuvres. Elle ne peut donc pas faire de contrefaçon.


Quel rapport avec le stockage ? 🤔



Ensuite, beaucoup d’auteurs sont en désaccord, notamment le fameux Greg Rutkowski. Dans son cas, quand des IA reproduisent correctement son style - style qu’elles ont apprises à partir de ses travaux (et sans son consentement) - les questions de paternité de l’œuvre qui en résulte et « l’expression de la personnalité de l’auteur » se pose de manière bien suffisamment complexe pour qu’on ne puisse par trancher la question par un simple oui ou non.



Pour en revenir sur la paternité de l’œuvre : peut-on raisonnablement penser qu’un modèle génératif puisse générer des images ressemblant à celles de Greg Rutkowski (ou n’importe quel autre artiste) quand on le lui demande, si la phase d’apprentissage n’avait pas comporté d’œuvres de cet artiste ?
Et si la réponse est non, alors comment le modèle pourrait respecter le droit d’attribution et la filiation de l’artiste original ? Si il ne peut pas (et en l’état actuel ces IA ne le peuvent pas), alors ils violent le droit d’auteur.



Bref, beaucoup de marges d’interprétation sur ces questions nouvelles.



Edit : d’ailleurs, devant l’incertitude juridique, certains acteurs jouent la prudence, en attendant des réponses claires concernant ces questions.

votre avatar

Arkeen a dit:


Du coup, il existe la probabilité de recopier des segments de phrases (ou d’images/vidéos), surtout dans des cas très spécifiques qui n’ont été rencontrés que peu de fois durant l’apprentissage.


Non. Pas recopier, recréer à partir de règles assimilées dans sa phase d’apprentissage.




Quel rapport avec le stockage ? 🤔


Si tu ne stockes pas l’œuvre (copie), il ne peut pas y avoir contrefaçon.




Ensuite, beaucoup d’auteurs sont en désaccord, notamment le fameux Greg Rutkowski. Dans son cas, quand des IA reproduisent correctement son style - style qu’elles ont apprises à partir de ses travaux (et sans son consentement) - les questions de paternité de l’œuvre qui en résulte et « l’expression de la personnalité de l’auteur » se pose de manière bien suffisamment complexe pour qu’on ne puisse par trancher la question par un simple oui ou non.


Que les auteurs qui sont partie prenante soient en désaccord, ça ne me surprend pas. Ils craignent entre autre pour leur propre business. C’est écrit dans l’article que tu as mis en lien.



C’est faux de dire que c’est sans son consentement puisqu’il a mis ses œuvres en ligne sur le site ArtStation. Il n’a juste pas eu conscience de ce que l’on pouvait en faire.
MAis des humains peuvent aussi s’inspirer de son style et produire des œuvres à la façon de Greg Rutkowski. Et cela est légal tant que les œuvres ne sont pas signées de son nom.




Pour en revenir sur la paternité de l’œuvre : peut-on raisonnablement penser qu’un modèle génératif puisse générer des images ressemblant à celles de Greg Rutkowski (ou n’importe quel autre artiste) quand on le lui demande, si la phase d’apprentissage n’avait pas comporté d’œuvres de cet artiste ? Et si la réponse est non, alors comment le modèle pourrait respecter le droit d’attribution et la filiation de l’artiste original ? Si il ne peut pas (et en l’état actuel ces IA ne le peuvent pas), alors ils violent le droit d’auteur.


Il est évident qu’il y a eu apprentissage de son style, mais tes autres questions sont hors sujet en ce qui concerne le droit d’auteur. Ce n’est pas lui qui a fait les œuvre inspirées de lui mais une IA. Il n’a donc pas la paternité de l’œuvre. Je ne comprends pas de quoi tu parles en disant “le droit d’attribution”. Et la filiation n’est pas un droit lié au droit d’auteur.



Ton affirmation de violation du droit d’auteur n’est pas démontré.



Wikipedia dit d’ailleurs que le style est exclu du champ d’application du droit d’auteur et de façon sourcée.




Bref, beaucoup de marges d’interprétation sur ces questions nouvelles.


Non, beaucoup de phantasmes. En fait, les IA font plus rapidement ce qu’un humain peut faire sans violer le droit d’auteur : créer à la façon de quelqu’un. Et c’est cela que craignent les auteurs.




Edit : d’ailleurs, devant l’incertitude juridique, certains acteurs jouent la prudence, en attendant des réponses claires concernant ces questions.


Les juristes sont souvent des gens prudents et préfèrent bloquer un truc s’il y a un risque, même faible.

votre avatar

fred42 a dit:


MAis des humains peuvent aussi s’inspirer de son style et produire des œuvres à la façon de Greg Rutkowski. Et cela est légal tant que les œuvres ne sont pas signées de son nom.


C’est bien pour ça que la loi ne peut pas être la même pour la IA, un humain va prendre à peu près autant de temps que l’artiste original pour le faire, l’IA t’en génère 8 en 30 secondes.

votre avatar

Oui, le progrès a aussi fortement diminué le nombre de maréchaux-ferrants !



#cetaitmieuxavant

votre avatar

Comparer la diminution d’exploitation d’animaux à ça, miam. :phiphi:

votre avatar

Pomper comme des bourrins sur un service associatif, vraiment :cartonrouge:




bilbonsacquet a dit:


Concernant archive.org, c’est une fondation qui respecte les “robots.txt” donc si tu ne veux pas être indexé, tu ne le seras pas. Contrairement à la Bibliothèque Nationale de France qui ne le respecte pas, car le cadre légal français le lui autorise, il reste toujours la possibilité de bloquer la bnf via un parefeu…


Ça m’intéresse, de la lecture à ce sujet ?

votre avatar

Xanatos a dit:


Ça m’intéresse, de la lecture à ce sujet ?


C’est là :
https://www.bnf.fr/fr/capture-de-votre-site-web-par-le-robot-de-la-bnf

votre avatar

Merci :inpactitude:

votre avatar

fred42 a dit:


Revenons au début du fil. Il est dit : “sans respecter quelconque droit d’auteur”. On parlait donc bien de loi. Le droit d’auteur, c’est du juridique.



J’ai fait remarquer que le droit d’auteur n’était pas en cause pour l’alimentation d’une IA et tu es intervenu en dénaturant la discussion puisque tu parles maintenant de morale ce qui n’avait rien d’évident dans ta première intervention.


Premièrement j’ai bien mentionné que c’est un “sujet à débat” en ce qui concerne le droit d’auteur dans l’alimentation d’une IA. Je parle de morale par la suite car c’est bien la morale de chacun qui est titillé, ce qui en fait un point d’éthique en cours de développement, donc tout le monde est concerné.



La loi est susceptible d’être adaptée et c’est bien le sujet des débats que j’ai mentionné, par rapport aux IA.




On n’est pas près d’avoir un consensus international sur le sujet des IA concernant le droit d’auteur. Aux auteurs de se prendre en main et de restreindre l’usage de leurs œuvres par une licence s’il ne veulent pas que leur œuvre soit utilisée pour l’apprentissage des IA, rien de plus simple. C’est du contractuel, inutile de passer par la loi.


Ou rien de moins contre-intuitif par rapport à ce que tu dis toi-même : La loi a au moins l’avantage d’être la même pour tous. Je me permet de rogner la fin car les efforts à fournir pour les artistes (dont ce n’est pas vraiment le travail de gérer des cas spécifiques juridiques en liens avec leurs oeuvres), devraient être fournis par ceux qui adaptent les lois pour mieux encadrés ces nouvelles technologies.

Internet Archive hors ligne deux fois à cause d’un usage trop intense

Fermer