[Màj] Vente des contenus d’Automattic à MidJourney et OpenAI : JetPack non concerné
C'était automatique
404 Media a eu accès à des documents internes d'Automattic, entreprise qui possède Tumblr et Wordpress.com, montrant qu'elle prépare la vente de contenus publiés par ses utilisateurs à MidJourney et OpenAI.
Le 29 février à 08h40
6 min
Économie
Économie
Mise à jour du 29 février 2024 à 8h40 : Ajout de la réaction de Brandon Kraft, directeur de l'ingénierie des produits JetPack chez Automattic, expliquant que les sites utilisant ce plugin ne sont pas concernés.
Article publié initialement le 28 février à 16h12 :
Le site d'information spécialisé 404 Media, créé par des anciens de Vice, a révélé qu'Automattic, maison mère de Tumblr et Wordpress.com, envisage sérieusement de vendre l'accès à certaines données de ses utilisateurs aux entreprises d'intelligence artificielle générative Midjourney et OpenAI.
En phase de préparation
Alors que les accords ne sont pas encore signés entre Automattic et les deux entreprises d'IA générative, l'entreprise qui possède deux des plus grosses plateformes de publication de contenus en ligne s'y prépare, notamment en créant des jeux de données.
Mais, selon 404 Media, « les documents internes font état d'un processus bordélique et controversé au sein même de Tumblr ».
Dans un message interne que 404 Media a pu consulter, Cyle Gage, responsable produit de la plateforme, explique qu'une erreur s'est produite lors de la compilation de données qui devaient être envoyées à OpenAI et Midjourney. La requête brassait un ensemble plus large que ce qui était prévu. Le média en ligne souligne que le message de Cyle Gage n'est pas clair sur le fait que les données aient été envoyées ou non aux futurs partenaires.
Des messages privés dans le dump
Dans son message, le responsable produit de Tumblr explique que l'entreprise a compilé une liste de tous les posts publics mis en ligne entre 2014 et 2023, mais « malheureusement, elle incluait aussi, et n'aurait pas dû inclure, les éléments suivants :
-
- les messages privés sur des blogs publics
-
- les messages sur des blogs supprimés ou suspendus
-
- les questions sans réponse (normalement, elles ne sont pas publiques tant qu'elles n'ont pas reçu de réponse)
-
- les réponses privées (elles n'apparaissent qu'au destinataire et ne sont pas publiques)
-
- les messages marqués comme "explicites" / NSFW / "matures" selon nos normes plus modernes (ce n'est peut-être pas grave, je n'en sais rien)
-
- le contenu de blogs de partenaires premium (blogs de marques spéciales comme l'ancien blog musical d'Apple, par exemple, qui a dépensé de l'argent avec nous pour une campagne publicitaire) qui peuvent contenir des éléments créatifs qui ne nous appartiennent pas et que nous n'avons pas le droit de partager avec ces partenaires ; je ne sais pas vraiment quels accords sont en place historiquement et ce qu'ils devraient nous empêcher de faire ».
Automattic serait en train de faire une liste de tous les identifiants de ces contenus qui devraient en être exclus.
Quid des plugins Wordpress distribués par Automattic ?
Un doute est soulevé par 404 Media sur le fait que des contenus hébergés non pas sur Wordpress.com, mais sur des sites utilisant le logiciel Wordpress pourraient aussi être concernés.
Si l'utilisation du CMS libre ne devrait pas entraîner ce genre d'effets indésirables, Automattic développe aussi des plugins comme JetPack, WooCommerce ou Mailpoet pour créer du contenu. JetPack intègre même un assistant IA. Ceux-ci, comme le souligne le média américain, sont soumis aux mêmes conditions d'utilisation que Wordpress.com, notamment en ce qui concerne l'IA. Mais l'entreprise n'a pas répondu aux demandes d'éclaircissement de 404 Media.
En réaction à ces interrogations, Brandon Kraft, Directeur de l'ingénierie des produits JetPack chez Automattic, affirme sur Mastodon que « les sites Jetpack ne sont pas inclus, quelles que soient les fonctionnalités Jetpack que vous avez activées (distribution améliorée, blaze, publicize, etc) ». Selon lui, « seuls les sites/contenus publics hébergés sur WordPress.com (ou Tumblr) » seraient concernés. Il ajoute qu'il « [comprend] tout à fait l'inquiétude suscitée par la nouvelle WordPress d'hier concernant le traitement des données par l'IA d'Automattic ».
Communication parallèle
En parallèle de cette enquête de 404 Media, Automattic a publié sur son site une page titrée « Protéger le choix de l'utilisateur ». L'entreprise y note en fin de texte qu'elle « travaille directement avec des entreprises d'IA sélectionnées tant que leurs plans sont conformes à ce qui importe à notre communauté : l'attribution, l'opt-out et le contrôle », mais sans nommer Midjourney et OpenAI.
Elle affirme prévoir « d'informer régulièrement nos partenaires des personnes qui se sont retirées et qui demandent que leur contenu soit supprimé des sources passées et des formations futures » sans toutefois assurer à ses utilisateurs que les accords qu'elle passera avec ces entreprises contiendront une clause les obligeant à prendre en compte ces signalements.
Elle explique plus haut à ses utilisateurs qu'elle bloque « actuellement », par défaut, leurs robots d'indexation.
Elle précise aussi qu'elle a ajouté sur Wordpress.com et Tumblr un paramètre utilisateur qui permet de donner son accord ou non pour cette indexation. Cette option est décochée automatiquement, mais seulement si l'option d'indexation pour les moteurs de recherche a déjà été décochée par l'utilisateur. En clair, la plupart des utilisateurs de ces plateformes devront décocher cette case (opt-out) pour que leurs contenus ne soient pas utilisés par les entreprises d'IA générative.
« Nous ne partagerons que le contenu public hébergé sur WordPress.com et Tumblr des sites qui n'ont pas choisi l'opt-out », ajoute Automattic. Cette phrase semble être une réponse à l'article de 404 Media. Contactée par les journalistes, l'entreprise n'a d'ailleurs pas répondu précisément à leurs questions et leur a seulement envoyé le texte publié sur cette page.
[Màj] Vente des contenus d’Automattic à MidJourney et OpenAI : JetPack non concerné
-
En phase de préparation
-
Des messages privés dans le dump
-
Quid des plugins WordPress distribués par Automattic ?
-
Communication parallèle
Commentaires (24)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 28/02/2024 à 16h32
Le 28/02/2024 à 16h39
Le 28/02/2024 à 16h47
Modifié le 28/02/2024 à 17h23
Déjà que ça me choque pour les Wordpress hébergés sur wordpress.com :(
Le 28/02/2024 à 17h44
Cela laisse clairement perplexe pour la suite.
Modifié le 28/02/2024 à 16h49
Le 29/02/2024 à 10h32
En tout cas, ce move est absolument dégueulasse. J'ai déjà vu des offres pour aider à déménager son blog sur un autre hébergement.
Le 28/02/2024 à 16h34
Le 28/02/2024 à 17h20
Le 29/02/2024 à 10h33
Tu pourrais poster un screen du truc par ici ?
Le 14/03/2024 à 17h11
Lien périssable, valable un mois: https://redcross.freeboxos.fr:46657/share/Lu-L24jcaqfNbVai/image.png
Le 28/02/2024 à 18h41
Oskour
Le 28/02/2024 à 18h50
J'ai glissé chef !
Modifié le 28/02/2024 à 18h56
J'ai hâte de voir la news disant que OnlyFans vend ses contenus pour entraîner les modèles de génération d'image tiens.
Mais bon, ces plateformes se couvrent aussi avec leurs CGU en disant qu'elles sont libre d'exploiter les contenus produits par les utilisateurs comme bon leur semble. A partir de là, à moins d'une grosse procédure visant à les invalider, elles sont couvertes.
Comme quoi, je suis bien content de mon blog hébergé chez un provider auquel j'ai confiance et maintenu par moi-même avec Hugo. Certes il est ramassé par les collecteurs puisque je n'ai spécifié aucun robots.txt cherchant à le bloquer, mais au moins je maîtrise ce que je choisis de publier et diffuser.
Le 29/02/2024 à 08h41
Le 29/02/2024 à 10h54
https://support.docusign.com/s/document-item?language=en_US&bundleId=fzd1707173174972&topicId=uss1707173279973.html
Le 29/02/2024 à 11h22
Il faut ton accord.
Cela n'entraîne que leur modèle.
Les données sont anonymisées avant l'entraînement.
et Les produits de Microsoft et d'OpenAI (cité juste après) ne sont pas entraînés par ces documents.
C'est différent du commentaire de SebGF qui lui parle de plateformes qui font payer pour l'entraînement des AI sur le contenu disponible chez eux.
Le 28/02/2024 à 19h04
Le 28/02/2024 à 19h07
Le 28/02/2024 à 22h27
Désolé de ton souci, on va regarder de près dès demain.
On te remboursera sans difficulté, no worries :)
Modifié le 29/02/2024 à 10h55
Sinon, de manière générale, les développeurs d'IA crawlent tout ce qu'ils trouvent pour alimenter leurs modèles non ? Du coup ils achètent donc des pseudo droits à divers partenaires uniquement pour diminuer leur exposition à des plaintes non ?
Le 28/02/2024 à 23h15
s/session/cession/
Là on parle du droit US donc je ne me prononcerai pas.
En droit français, on distingue deux éléments dans le droit d'auteur :
- Les droits moraux
- Les droits patrimoniaux
Les droits moraux sont perpétuels, inaliénables et imprescriptibles. Ils protègent les intérêts non-économiques de l'auteur. Les droits moraux sont acquis de facto à la création de l'oeuvre sans autre démarche. Les droits moraux concernent le droit de divulgation (comment l'oeuvre est révélée au public), paternité (apposer son nom à l'oeuvre, ou un pseudo), respect de l'intégrité de l'oeuvre (s'oppose à toute modification sans accord), et le droit de retrait ou repentir (supprimer l'exploitation d'une oeuvre à son entière discrétion).
Les droits patrimoniaux sont cessibles et ne couvrent que deux éléments : droit de représentation (autoriser la diffusion de l'oeuvre au public), droit de reproduction (copie de l'oeuvre, ex : tirage de bouquin, CD, etc).
Dans le cas du crawling de contenu pubic, pour moi c'est là que c'est intéressant car il n'est, de mon point de vue, pas spécialement interdit d'entraîner un modèle IA sur des données publiques. Par définition, une diffusion publique signifie qu'elle n'est pas contrôlée ni restreinte. Si l'oeuvre est diffusée de cette manière, l'auteur accepte qu'elle soit lue par n'importe qui et n'importe quoi. Auquel cas il réduira la portée de lecture. A noter que l'entraînement d'un modèle IA n'est pas une reproduction du texte, mais un apprentissage du poids des relations entre les mots (version hyper méga simplifiée). Le modèle n'apprend pas un texte par coeur, il apprend à lire, c'est une subtile nuance.
Dans le cas des plateformes comme Wordpress, Tumblr, ou Reddit dernièrement, elles se protègent par leurs CGU qui doivent très certainement indiquer que les usagers cèdent un droit d'exploitation des contenus au détenteur du service.
Est-ce légal vis à vis du droit d'auteur US ? Aucune idée, et là bas la notion de contrats et d'accords a une valeur symbolique un peu plus importante que chez nous. Les procès dans le domaine nous donneront surement des réponses.
En France, à ma connaissance il n'y a pas de procédure intentée en contrefaçon concernant l'entraînement de modèles d'IA sur des contenus publics sous droit d'auteur ou bien sur ce type de service en ligne.
Le 29/02/2024 à 00h30
Donc, il est logique qu'il n'y ait pas de procédure de ce type en France. Il pourrait cependant y en avoir si les IA régurgitent mot pour mot (ou presque) des textes sous droit d'auteur ou des images. On a vu des choses de ce type se produire et ça pourrait donner lieu à poursuite à mon avis parce que le résultat de l'entraînement irait trop loin et serait assimilable à de la mise en mémoire ou de la compression (suivie de décompression). Open AI pour ce qui le concerne parlait plutôt de bug et semblait savoir corriger (pour l'affaire avec le NYT, il s'agissait d'articles repris par trop de sites ce qui faisait qu'ils avaient tous servi à l'entraînement : il suffit de dé-dupliquer à l'entrée pour éviter que ça se reproduise).
D'accord avec toi sur le reste.
Le 29/02/2024 à 08h10
Ils ne connaissent que le copyright.
La différence étant en gros qu'aux Etats-Unis les droits moraux sont moindres.