Internet Archive hors ligne deux fois à cause d’un usage trop intense
Le 31 mai 2023 à 05h10
2 min
Internet
Internet
Le 29 mai dans l’après-midi (la soirée pour la France), Internet Archive s’est retrouvé indisponible à cause de sollicitations trop nombreuses. Fondée en 1996, Internet Archive est une organisation à but non lucratif consacrée à l’archivage du Web : elle recueille des clichés instantanés de toutes sortes de pages web, logiciels, films, livres, contenus audio, etc.
Or, selon l’article de blog publié par son fondateur Brewster Kahle, des dizaines de milliers de requêtes par secondes ont été envoyées vers les documents OCR que publie l’organisation. Les requêtes étaient issues de 64 hôtes hébergés par Amazon Web Services. Or, « même selon les normes du web, des dizaines de milliers de requêtes par seconde, c'est beaucoup », écrit Brewster Kahle : le service s’est retrouvé indisponible pendant une heure pour la totalité des utilisateurs.
Si les ingénieurs de l’ONG ont bientôt réussi à remettre Internet Archive en ligne, en bloquant les adresses IP concernées, un autre jeu de 64 adresses s’est mis à adresser le même nombre faramineux de requêtes quelques heures plus tard. Internet Archive a de nouveau bloqué les adresses concernées, au bout d’une heure d’indisponibilité.
Sur Twitter, le compte de l’ONG a suspecté un moment que les requêtes soient le fait d’une entreprise d’intelligence artificielle en train de récolter les fichiers textes d’Internet Archive à un rythme « extrême », avant de mettre en doute sa propre théorie.
À la fin de sa publication, Brewster Kahle demande à quiconque souhaite profiter des services d’Internet Archive, y compris à grande échelle, de le faire sans problème – en les contactant si besoin –, mais pas aux dépens de l’usage de tous les autres utilisateurs et utilisatrices.
Le 31 mai 2023 à 05h10
Commentaires (24)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 31/05/2023 à 06h16
Je préfèrerais une brève/actu sur la panne de Orange hier.
Le 31/05/2023 à 18h44
La panne d’Orange, d’en connaître les raisons ne va pas m’apporter grand chose.
Internet Archive est un super outil. Moins consulté mais aussi incontournable que wikipedia.
Le 31/05/2023 à 07h33
Ça fera probablement l’objet d’un article complet plutôt que d’une brève.
Concernant le pompage de contenu, même sans s’appeler archive.org, régulièrement des bots font tomber des sites pour, j’imagine, essentiellement alimenter de l’“IA” sans respecter quelconque droit d’auteur, ni le boulot des gens qui font tourner techniquement les infrastructures qu’ils font tomber.
Le 31/05/2023 à 08h27
Respecter le boulot et les droits d’autres personnes ? Pourquoi faire
Le 31/05/2023 à 09h46
Amusant de parler de droit d’auteur (qui n’est pas en cause dans l’alimentation d’une IA) dans une brève consacrée à archive.org.
Le 31/05/2023 à 10h58
Pardon ? C’est totalement sujet à débat en ce moment, qu’est-ce qui te permet d’affirmer que le droit d’auteur n’entre pas en cause ?
Le 31/05/2023 à 11h10
En quoi le droit d’auteur est-il violé en cas d’apprentissage d’une IA ?
Si une IA recopie une œuvre sans en avoir le droit, ce sera différent, mais ce n’est pas le cas des IA génératives dont on parle en ce moment.
Le 31/05/2023 à 13h06
Bah vu que l’IA recrache des bouts de textes si, le droit d’auteur des sources s’applique.
Tout comme dans le cas d’usage qui nuirait à l’auteur le droit s’applique (diffamation par exemple).
Celui-là il va faire faire des cauchemars et des cheveux blancs à certains juristes
Le 31/05/2023 à 09h53
IA attaqué par une IA… ca serait cocasse.
Le 31/05/2023 à 12h42
C’est justement tout le sujet actuellement : de nombreux auteurs n’approuvent pas l’utilisation de leurs œuvres pour nourrir l’apprentissage des IA génératives (le cas de DeviantArt a pas mal fait parler de lui). Et puisque cet usage est nouveau, il n’est pas encadré. Certains parlent justement de faire évoluer le droit d’auteur pour prendre en compte ce genre d’usage. En attendant, c’est le far-ouest, les créateurs desdites IA font ce qu’ils veulent sans ce soucier de l’avis des auteurs.
Le 31/05/2023 à 12h51
Tu ne réponds pas à ma question qui est pourtant simple.
Et quand tu dis que certains veulent faire évoluer le droit d’auteur, ça va dans mon sens. Il n’est aujourd’hui pas violé par l’apprentissage des IA.
Une IA générative ne stocke pas les œuvres. Elle ne peut donc pas faire de contrefaçon.
Le 01/06/2023 à 08h05
Non, ça va dans ton sens si tu parles uniquement de la loi. Mais on parle de la loi d’une part et de la situatiom morale qui est bousculée par les IA, ce qui va complétement dans le sens de mon message initial : le droit d’auteur est un sujet en cours vis-à-vis de l’IA.
Et toute les lois qui sont en place par rapport aux traitements humains ne peuvent plus s’appliquer telles quelles.
Le 01/06/2023 à 08h20
Revenons au début du fil. Il est dit : “sans respecter quelconque droit d’auteur”. On parlait donc bien de loi. Le droit d’auteur, c’est du juridique.
J’ai fait remarquer que le droit d’auteur n’était pas en cause pour l’alimentation d’une IA et tu es intervenu en dénaturant la discussion puisque tu parles maintenant de morale ce qui n’avait rien d’évident dans ta première intervention.
La morale, chacun a la sienne. La loi a au moins l’avantage d’être la même pour tous au moins dans un pays donné et concernant le droit d’auteur, il y a un socle commun international largement adopté. Cependant, les USA ne reconnaissent pas le droit moral comme le fait la France par exemple.
On n’est pas près d’avoir un consensus international sur le sujet des IA concernant le droit d’auteur. Aux auteurs de se prendre en main et de restreindre l’usage de leurs œuvres par une licence s’il ne veulent pas que leur œuvre soit utilisée pour l’apprentissage des IA, rien de plus simple. C’est du contractuel, inutile de passer par la loi.
Le 31/05/2023 à 13h28
Non, elles ne recrachent pas des bouts de textes. Elles génèrent des phrase suivant un contexte de façon probabiliste. C’est d’ailleurs pour cela qu’elles disent des conneries (personne n’a écrit que les œufs de vache existaient avant ChatGPT). Elles stockent des probabilités.
Le fait que certains les appellent perroquets a dû t’induire en erreur.
Je n’ai pas compris ce que vient faire la diffamation ici, ni le début de ta phrase d’ailleurs.
Au contraire, les avocats vont gagner beaucoup d’argent grâce à des procès sans fondements juridiques.
Le 31/05/2023 à 15h07
Des images, des vidéo aussi…
https://gizmodo.com/ai-art-generators-ai-copyright-stable-diffusion-1850060656
Ars Technica
Et j’en ai encore d’autres. Si, il y a bien un problème de droit d’auteur sur ce qui est pompé par les bots alimentant les bases pour de l’AI (qui ne sont pas que les LLM).
Concernant archive.org, c’est une fondation qui respecte les “robots.txt” donc si tu ne veux pas être indexé, tu ne le seras pas. Contrairement à la Bibliothèque Nationale de France qui ne le respecte pas, car le cadre légal français le lui autorise, il reste toujours la possibilité de bloquer la bnf via un parefeu…
Le 31/05/2023 à 17h18
Du coup, il existe la probabilité de recopier des segments de phrases (ou d’images/vidéos), surtout dans des cas très spécifiques qui n’ont été rencontrés que peu de fois durant l’apprentissage.
Donne-lui en input le début d’une poésie, il y a peu de chances qu’il génère autre chose que la suite qu’il a apprise.
Quel rapport avec le stockage ? 🤔
Ensuite, beaucoup d’auteurs sont en désaccord, notamment le fameux Greg Rutkowski. Dans son cas, quand des IA reproduisent correctement son style - style qu’elles ont apprises à partir de ses travaux (et sans son consentement) - les questions de paternité de l’œuvre qui en résulte et « l’expression de la personnalité de l’auteur » se pose de manière bien suffisamment complexe pour qu’on ne puisse par trancher la question par un simple oui ou non.
Pour en revenir sur la paternité de l’œuvre : peut-on raisonnablement penser qu’un modèle génératif puisse générer des images ressemblant à celles de Greg Rutkowski (ou n’importe quel autre artiste) quand on le lui demande, si la phase d’apprentissage n’avait pas comporté d’œuvres de cet artiste ?
Et si la réponse est non, alors comment le modèle pourrait respecter le droit d’attribution et la filiation de l’artiste original ? Si il ne peut pas (et en l’état actuel ces IA ne le peuvent pas), alors ils violent le droit d’auteur.
Bref, beaucoup de marges d’interprétation sur ces questions nouvelles.
Edit : d’ailleurs, devant l’incertitude juridique, certains acteurs jouent la prudence, en attendant des réponses claires concernant ces questions.
Le 31/05/2023 à 23h00
Non. Pas recopier, recréer à partir de règles assimilées dans sa phase d’apprentissage.
Si tu ne stockes pas l’œuvre (copie), il ne peut pas y avoir contrefaçon.
Que les auteurs qui sont partie prenante soient en désaccord, ça ne me surprend pas. Ils craignent entre autre pour leur propre business. C’est écrit dans l’article que tu as mis en lien.
C’est faux de dire que c’est sans son consentement puisqu’il a mis ses œuvres en ligne sur le site ArtStation. Il n’a juste pas eu conscience de ce que l’on pouvait en faire.
MAis des humains peuvent aussi s’inspirer de son style et produire des œuvres à la façon de Greg Rutkowski. Et cela est légal tant que les œuvres ne sont pas signées de son nom.
Il est évident qu’il y a eu apprentissage de son style, mais tes autres questions sont hors sujet en ce qui concerne le droit d’auteur. Ce n’est pas lui qui a fait les œuvre inspirées de lui mais une IA. Il n’a donc pas la paternité de l’œuvre. Je ne comprends pas de quoi tu parles en disant “le droit d’attribution”. Et la filiation n’est pas un droit lié au droit d’auteur.
Ton affirmation de violation du droit d’auteur n’est pas démontré.
Wikipedia dit d’ailleurs que le style est exclu du champ d’application du droit d’auteur et de façon sourcée.
Non, beaucoup de phantasmes. En fait, les IA font plus rapidement ce qu’un humain peut faire sans violer le droit d’auteur : créer à la façon de quelqu’un. Et c’est cela que craignent les auteurs.
Les juristes sont souvent des gens prudents et préfèrent bloquer un truc s’il y a un risque, même faible.
Le 01/06/2023 à 08h14
C’est bien pour ça que la loi ne peut pas être la même pour la IA, un humain va prendre à peu près autant de temps que l’artiste original pour le faire, l’IA t’en génère 8 en 30 secondes.
Le 01/06/2023 à 08h22
Oui, le progrès a aussi fortement diminué le nombre de maréchaux-ferrants !
#cetaitmieuxavant
Le 04/06/2023 à 09h33
Comparer la diminution d’exploitation d’animaux à ça, miam.
Le 01/06/2023 à 15h06
Pomper comme des bourrins sur un service associatif, vraiment
Ça m’intéresse, de la lecture à ce sujet ?
Le 01/06/2023 à 15h25
C’est là :
https://www.bnf.fr/fr/capture-de-votre-site-web-par-le-robot-de-la-bnf
Le 01/06/2023 à 20h19
Merci
Le 04/06/2023 à 09h29
Premièrement j’ai bien mentionné que c’est un “sujet à débat” en ce qui concerne le droit d’auteur dans l’alimentation d’une IA. Je parle de morale par la suite car c’est bien la morale de chacun qui est titillé, ce qui en fait un point d’éthique en cours de développement, donc tout le monde est concerné.
La loi est susceptible d’être adaptée et c’est bien le sujet des débats que j’ai mentionné, par rapport aux IA.
Ou rien de moins contre-intuitif par rapport à ce que tu dis toi-même : La loi a au moins l’avantage d’être la même pour tous. Je me permet de rogner la fin car les efforts à fournir pour les artistes (dont ce n’est pas vraiment le travail de gérer des cas spécifiques juridiques en liens avec leurs oeuvres), devraient être fournis par ceux qui adaptent les lois pour mieux encadrés ces nouvelles technologies.