Connexion Premium

Reddit a décidé de bloquer l’archivage par Internet Archive pour éviter le scraping des IA

Le réseau social a décidé de bloquer l’archivage de ses pages de discussion par Internet Archive pour éviter le scraping effectué par des entreprises d’IA, explique The Verge.

Reddit et l’IA générative est une histoire compliquée. L’entreprise, dont le CEO d’OpenAI Sam Altman possède 9 % des parts, a rapidement rendu son API payante en réaction à la vague de l’IA générative. L’entreprise a maintenu ce projet malgré une fronde importante de ses utilisateurs.

une icône de l'application reddit affiche 2 notifications en attente

Plus récemment, l’entreprise expliquait qu’elle envisageait de vérifier ses utilisateurs avec l’outil de scan d’iris de Sam Altman pour contrer les messages générés par IA.

Maintenant, Reddit explique vouloir bloquer l’indexation de ses pages détaillées des publications, les commentaires et les pages de profils de ses utilisateurs par l’outil d’archivage Wayback Machine. À The Verge, l’entreprise explique : « Internet Archive fournit un service pour tout le web, mais nous avons été informés de cas où des entreprises spécialisées dans l’intelligence artificielle enfreignent les politiques des plateformes, y compris la nôtre, et extraient des données de Wayback Machine ». Reddit va permettre à Internet Archive d’archiver seulement sa page d’accueil.

« Nous entretenons une relation de longue date avec Reddit et continuons à discuter de ce sujet avec eux », a expliqué à nos confrères le directeur de la Wayback Machine, Mark Graham.

Commentaires (10)

votre avatar
Alors ne croyez surtout pas que c'est pour se protéger des "vilaines" sociétés d'IA : C'est surtout pour réserver son contenu à la société d'IA avec laquelle Reddit a passé un accord (Google).

Reddit n'est plus là pour servir les internautes. Il est désormais là pour servir les boîtes d'IA avec du vrai contenu créé par des humains. Vous êtes la marchandise. Fuyez Reddit.

(cf. https://sebsauvage.net/links/?eXzeCw et https://sebsauvage.net/links/?jw2UHw)

Ah oui, et pour s'assurer que vous êtes une bonne marchandise humaine productrice de vrai contenu, Reddit envisage de vous "certifier d'origine humaine" : https://sebsauvage.net/links/?pkosYw
votre avatar
Bientôt la machine du net va s'inverser, on va être payé pour chaque contribution authentique, et internet sera devenu un océan de contenu AI generated. Et entre temps on aura perdu l'anonymat, car il faudra justifier de son identité pour donner toute sa valeur aux contributions humaines. Ou bien j'ai rien compris? :D
votre avatar
J'ai du mal à comprendre la motivation.
- Copyright ? Les textes postés sur les forums n'appartiennent pas à Reddit
- Charge CPU ? C'est Wayback qui la supporte
- Idéologie ? Généralement, c'est malsain...
votre avatar
Tu oublies le contrat d'exclusivité entre Reddit et Google (Gemini).
votre avatar
- Copyright ? Les textes postés sur les forums n'appartiennent pas à Reddit
J'ai pas lu les TOS mais ça ne me surprendrai pas que reddit s'accapare le contenu partagé sur sa plateforme.

Dans tous les cas, la poule aux œufs d'or de reddit, c'est le contenu poste par des membres.
Dès que je cherche une info un peu technique ou un avis un minimum sérieux, j'applique un tag "site:reddit.com" depuis que Google ne remonte que des sites de merde boosté au SEO.

Donc si des boîtes veulent entraîner leur modèles sur du contenu de qualité, reddit fait partie des incontournables et ce dernier veut être rémunéré pour ça.
votre avatar
Et voila ! Le vent tourne les girouettes aussi.

Tous ces sites se rendent compte qu'il n'auront rien pour fournir des contenus. Les IAs ça ne regardent pas les pubs ou ne produit pas de contenu digne de confiance. Il y a du y avoir des rencontres avec ces boites d'IA et elles ont simplement dit que de payer pour ce contenu est sur la pile des idées à penser un jour peut être.


  • Droit d'accès pour les jeux de données : Ranafout !

  • Droit d'auteur: Ranafout !

  • Casse sociale planétaire : Ranafout !

  • Datacenters qui vont assécher lacs et rivières (au Mexique notamment) : Ranafout !

  • Potentiel sujet de conflit entre super puissance : Ranafout !


(La liste est-elle complète... hmm pas sur)

M'est avis que l'IA est le plus gros scandale de l'histoire de l'informatique.
votre avatar
Reddit a un contrat d'exclusivité avec Google (Gemini) qui les rémunère. C'est pour ça qu'ils bloquent les autres scrappers.
votre avatar
J'entends bien. Mais les autres ne paient pas et doivent probablement accéder à du "scraping" en mode "conquête de l'ouest" (gratos à l'arrache).

Et bien évidement vendre à l'un et se faire piller par les autres ne les intéresse que moyennement.

Après il faut voir les termes de l'exclusivité du contrat. M'est avis que Reddit préfèrerait vendre à tous. Ou alors le chèque est bien lourd. Mais je n'y crois que peu : 60m$ avec un CA frôlant le demi milliard...
votre avatar
Bien sûr, mais c'est loin d'être un blocage pour l'éthique.
votre avatar
Ca s'appelle de l'égoïsme ! Reddit fait du business grâce à l'IA via /r/StableDiffusion /r/comfyui /r/fluxai par exemple mais ne veut pas aider l'IA en retour.