Deux requins étiquetés par portions avec les marques des entreprises d'IA génératives nagent dans l'océan

[Màj] Vente des contenus d’Automattic à MidJourney et OpenAI : JetPack non concerné

C'était automatique

Avatar de l'auteur
Martin Clavey

Publié dans

ÉconomieIA et algorithmes

29/02/2024 6 minutes
24

Deux requins étiquetés par portions avec les marques des entreprises d'IA génératives nagent dans l'océan

404 Media a eu accès à des documents internes d'Automattic, entreprise qui possède Tumblr et Wordpress.com, montrant qu'elle prépare la vente de contenus publiés par ses utilisateurs à MidJourney et OpenAI.

Mise à jour du 29 février 2024 à 8h40 : Ajout de la réaction de Brandon Kraft, directeur de l'ingénierie des produits JetPack chez Automattic, expliquant que les sites utilisant ce plugin ne sont pas concernés.

Article publié initialement le 28 février à 16h12 :

Le site d'information spécialisé 404 Media, créé par des anciens de Vice, a révélé qu'Automattic, maison mère de Tumblr et Wordpress.com, envisage sérieusement de vendre l'accès à certaines données de ses utilisateurs aux entreprises d'intelligence artificielle générative Midjourney et OpenAI.

En phase de préparation

Alors que les accords ne sont pas encore signés entre Automattic et les deux entreprises d'IA générative, l'entreprise qui possède deux des plus grosses plateformes de publication de contenus en ligne s'y prépare, notamment en créant des jeux de données.

Mais, selon 404 Media, « les documents internes font état d'un processus bordélique et controversé au sein même de Tumblr ».

Dans un message interne que 404 Media a pu consulter, Cyle Gage, responsable produit de la plateforme, explique qu'une erreur s'est produite lors de la compilation de données qui devaient être envoyées à OpenAI et Midjourney. La requête brassait un ensemble plus large que ce qui était prévu. Le média en ligne souligne que le message de Cyle Gage n'est pas clair sur le fait que les données aient été envoyées ou non aux futurs partenaires.

Des messages privés dans le dump

Dans son message, le responsable produit de Tumblr explique que l'entreprise a compilé une liste de tous les posts publics mis en ligne entre 2014 et 2023, mais « malheureusement, elle incluait aussi, et n'aurait pas dû inclure, les éléments suivants :

    • les messages privés sur des blogs publics

    • les messages sur des blogs supprimés ou suspendus

    • les questions sans réponse (normalement, elles ne sont pas publiques tant qu'elles n'ont pas reçu de réponse)

    • les réponses privées (elles n'apparaissent qu'au destinataire et ne sont pas publiques)

    • les messages marqués comme "explicites" / NSFW / "matures" selon nos normes plus modernes (ce n'est peut-être pas grave, je n'en sais rien)

    • le contenu de blogs de partenaires premium (blogs de marques spéciales comme l'ancien blog musical d'Apple, par exemple, qui a dépensé de l'argent avec nous pour une campagne publicitaire) qui peuvent contenir des éléments créatifs qui ne nous appartiennent pas et que nous n'avons pas le droit de partager avec ces partenaires ; je ne sais pas vraiment quels accords sont en place historiquement et ce qu'ils devraient nous empêcher de faire ».

Automattic serait en train de faire une liste de tous les identifiants de ces contenus qui devraient en être exclus.

Quid des plugins Wordpress distribués par Automattic ?

Un doute est soulevé par 404 Media sur le fait que des contenus hébergés non pas sur Wordpress.com, mais sur des sites utilisant le logiciel Wordpress pourraient aussi être concernés.

Si l'utilisation du CMS libre ne devrait pas entraîner ce genre d'effets indésirables, Automattic développe aussi des plugins comme JetPack, WooCommerce ou Mailpoet pour créer du contenu. JetPack intègre même un assistant IA. Ceux-ci, comme le souligne le média américain, sont soumis aux mêmes conditions d'utilisation que Wordpress.com, notamment en ce qui concerne l'IA. Mais l'entreprise n'a pas répondu aux demandes d'éclaircissement de 404 Media.

En réaction à ces interrogations, Brandon Kraft, Directeur de l'ingénierie des produits JetPack chez Automattic, affirme sur Mastodon que « les sites Jetpack ne sont pas inclus, quelles que soient les fonctionnalités Jetpack que vous avez activées (distribution améliorée, blaze, publicize, etc) ». Selon lui, « seuls les sites/contenus publics hébergés sur WordPress.com (ou Tumblr) » seraient concernés. Il ajoute qu'il « [comprend] tout à fait l'inquiétude suscitée par la nouvelle WordPress d'hier concernant le traitement des données par l'IA d'Automattic ».

Communication parallèle

En parallèle de cette enquête de 404 Media, Automattic a publié sur son site une page titrée « Protéger le choix de l'utilisateur ». L'entreprise y note en fin de texte qu'elle « travaille directement avec des entreprises d'IA sélectionnées tant que leurs plans sont conformes à ce qui importe à notre communauté : l'attribution, l'opt-out et le contrôle », mais sans nommer Midjourney et OpenAI.

Elle affirme prévoir « d'informer régulièrement nos partenaires des personnes qui se sont retirées et qui demandent que leur contenu soit supprimé des sources passées et des formations futures » sans toutefois assurer à ses utilisateurs que les accords qu'elle passera avec ces entreprises contiendront une clause les obligeant à prendre en compte ces signalements.

Elle explique plus haut à ses utilisateurs qu'elle bloque « actuellement », par défaut, leurs robots d'indexation.

Elle précise aussi qu'elle a ajouté sur Wordpress.com et Tumblr un paramètre utilisateur qui permet de donner son accord ou non pour cette indexation. Cette option est décochée automatiquement, mais seulement si l'option d'indexation pour les moteurs de recherche a déjà été décochée par l'utilisateur. En clair, la plupart des utilisateurs de ces plateformes devront décocher cette case (opt-out) pour que leurs contenus ne soient pas utilisés par les entreprises d'IA générative.

« Nous ne partagerons que le contenu public hébergé sur WordPress.com et Tumblr des sites qui n'ont pas choisi l'opt-out », ajoute Automattic. Cette phrase semble être une réponse à l'article de 404 Media. Contactée par les journalistes, l'entreprise n'a d'ailleurs pas répondu précisément à leurs questions et leur a seulement envoyé le texte publié sur cette page.

Écrit par Martin Clavey

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

En phase de préparation

Des messages privés dans le dump

Quid des plugins WordPress distribués par Automattic ?

Communication parallèle

Fermer

Commentaires (24)


Est-ce que Next pourrait être concernée ?
Ça ne concerne pas les Worpress autohébergés.

DHMO

Ça ne concerne pas les Worpress autohébergés.
Sauf si le Wordpress auto-hébergé a installé les plugins Wordpress Jetpack, WooCommerce ou Mailpoet d'après 404 media.

FrancoisA

Sauf si le Wordpress auto-hébergé a installé les plugins Wordpress Jetpack, WooCommerce ou Mailpoet d'après 404 media.
C'est sur ça ? Ça me parait tellement gros. Automattic irai donc taper dans les Wordpress via son API par exemple pour siphonner les contenus ?
Déjà que ça me choque pour les Wordpress hébergés sur wordpress.com :(
Modifié le 28/02/2024 à 17h23

Historique des modifications :

Posté le 28/02/2024 à 17h23


Sauf si le Wordpress auto-hébergé a installé les plugins Wordpress Jetpack, WooCommerce ou Mailpoet d'après 404 media.


C'est sur ça ? Ça me parait tellement gros. Automattic irai donc taper dans les Wordpress via son API par exemple pour siphonner les contenus ?
Déjà que ça me choque pour les Wordpress hébergés sur wordpress.com :(

gg40

C'est sur ça ? Ça me parait tellement gros. Automattic irai donc taper dans les Wordpress via son API par exemple pour siphonner les contenus ?
Déjà que ça me choque pour les Wordpress hébergés sur wordpress.com :(
Jetpack, sur un site autohébergé, envoie depuis très longtemps pas mal de données à Automattic, donc clairement, ça ne m'étonnerait pas qu'ils en profitent pour récupérer des infos pour de l'IA.

Cela laisse clairement perplexe pour la suite.

DHMO

Ça ne concerne pas les Worpress autohébergés.
Effectivement, et nous n'utilisons pas de plugins d'édition de contenus d'Automattic, donc ça ne nous concerne pas.
Modifié le 28/02/2024 à 16h49

Historique des modifications :

Posté le 28/02/2024 à 16h49


Effectivement, et nous n'utilisons pas de plugins d'édition de contenus d'Automattic, donc ça ne nous concerne pas.

Martin Clavey

Effectivement, et nous n'utilisons pas de plugins d'édition de contenus d'Automattic, donc ça ne nous concerne pas.
Bon à savoir.

En tout cas, ce move est absolument dégueulasse. J'ai déjà vu des offres pour aider à déménager son blog sur un autre hébergement.
Encore une bonne nouvelle pour le droit d'auteur...
Message reposté à l'envie sur Tumblr depuis par ici.
Impossible d'y accé&der car le "cookie wall" est buggué et je ne peux pas le bypass.

Tu pourrais poster un screen du truc par ici ?

Gilbert_Gosseyn

Impossible d'y accé&der car le "cookie wall" est buggué et je ne peux pas le bypass.

Tu pourrais poster un screen du truc par ici ?
Yes

Lien périssable, valable un mois: https://redcross.freeboxos.fr:46657/share/Lu-L24jcaqfNbVai/image.png
Donc le type parle de "opt out", alors qu'il vient de balancer les messages privés de ses utilisateurs, sans le faire exprès?

Oskour
"Sans le faire exprès" :D
J'ai glissé chef !
La donnée pour l'entraînement d'IA est clairement le nouvel el-dorado pour les plateformes en manque de sources de financement supplémentaires.

J'ai hâte de voir la news disant que OnlyFans vend ses contenus pour entraîner les modèles de génération d'image tiens.

Mais bon, ces plateformes se couvrent aussi avec leurs CGU en disant qu'elles sont libre d'exploiter les contenus produits par les utilisateurs comme bon leur semble. A partir de là, à moins d'une grosse procédure visant à les invalider, elles sont couvertes.

Comme quoi, je suis bien content de mon blog hébergé chez un provider auquel j'ai confiance et maintenu par moi-même avec Hugo. Certes il est ramassé par les collecteurs puisque je n'ai spécifié aucun robots.txt cherchant à le bloquer, mais au moins je maîtrise ce que je choisis de publier et diffuser.
Modifié le 28/02/2024 à 18h56

Historique des modifications :

Posté le 28/02/2024 à 18h54


La donnée pour l'entraînement d'IA est clairement le nouvel el-dorado pour les plateformes en manque de sources de financement supplémentaires.

J'ai hâte de voir la news disant que OnlyFans vend ses contenus pour entraîner les modèles de génération d'image tiens.

Mais bon, ces plateformes se couvrent aussi avec leurs CGU en disant qu'elles sont libre d'exploiter les contenus produits par les utilisateurs comme bon leur semble. A partir de là, à moins d'une grosse procédure visant à les invalider, elles sont couvertes.

Excellent pour OF :mdr2:
Effectivement, DocuSign fait désormais aussi de l’entraînement IA sur les documents (très confidentiels) qui leurs sont fournis :

https://support.docusign.com/s/document-item?language=en_US&bundleId=fzd1707173174972&topicId=uss1707173279973.html

bilbonsacquet

Effectivement, DocuSign fait désormais aussi de l’entraînement IA sur les documents (très confidentiels) qui leurs sont fournis :

https://support.docusign.com/s/document-item?language=en_US&bundleId=fzd1707173174972&topicId=uss1707173279973.html
Soyons précis :
If you have given contractual consent, we may use your data to train DocuSign's in-house, proprietary AI models. Your data will be anonymized and de-identified before model training.


Il faut ton accord.
Cela n'entraîne que leur modèle.
Les données sont anonymisées avant l'entraînement.

et
No enhancement of Microsoft or Azure products


Les produits de Microsoft et d'OpenAI (cité juste après) ne sont pas entraînés par ces documents.

C'est différent du commentaire de SebGF qui lui parle de plateformes qui font payer pour l'entraînement des AI sur le contenu disponible chez eux.
Je vous ai envoyé une résiliation le 12 janvier, mais je constate que mon abonnement est toujours actif et j'ai été prélevé pour février. Merci de traiter ma demande de résiliation et de procéder au remboursement immédiat.
Je suggère d'envoyer un mail à l'adresse du support technique disponible dans la page de gestion de compte : [email protected]
Hello !
Désolé de ton souci, on va regarder de près dès demain.
On te remboursera sans difficulté, no worries :)
Un plugin WordPress peut valoir cession de la propriété intellectuelle du contenu d'un site ? C'est compatible avec le droit français ce genre de clause ? Si oui, j'en suis très étonné.

Sinon, de manière générale, les développeurs d'IA crawlent tout ce qu'ils trouvent pour alimenter leurs modèles non ? Du coup ils achètent donc des pseudo droits à divers partenaires uniquement pour diminuer leur exposition à des plaintes non ?
Modifié le 29/02/2024 à 10h55

Historique des modifications :

Posté le 28/02/2024 à 22h11


Un plugin WordPress peut valoir session de la propriété intellectuelle du contenu d'un site ? C'est compatible avec le droit français ce genre de clause ? Si oui, j'en suis très étonné.

Sinon, de manière générale, les développeurs d'IA crawlent tout ce qu'ils trouvent pour alimenter leurs modèles non ? Du coup ils achètente donc des pseudo droits à divers partenaires uniquement pour diminuer leur exposition à des plaintes non ?

Un plugin WordPress peut valoir session de la propriété intellectuelle du contenu d'un site ? C'est compatible avec le droit français ce genre de clause ? Si oui, j'en suis très étonné.


s/session/cession/ :cap:

Là on parle du droit US donc je ne me prononcerai pas.

En droit français, on distingue deux éléments dans le droit d'auteur :

- Les droits moraux
- Les droits patrimoniaux

Les droits moraux sont perpétuels, inaliénables et imprescriptibles. Ils protègent les intérêts non-économiques de l'auteur. Les droits moraux sont acquis de facto à la création de l'oeuvre sans autre démarche. Les droits moraux concernent le droit de divulgation (comment l'oeuvre est révélée au public), paternité (apposer son nom à l'oeuvre, ou un pseudo), respect de l'intégrité de l'oeuvre (s'oppose à toute modification sans accord), et le droit de retrait ou repentir (supprimer l'exploitation d'une oeuvre à son entière discrétion).

Les droits patrimoniaux sont cessibles et ne couvrent que deux éléments : droit de représentation (autoriser la diffusion de l'oeuvre au public), droit de reproduction (copie de l'oeuvre, ex : tirage de bouquin, CD, etc).

Dans le cas du crawling de contenu pubic, pour moi c'est là que c'est intéressant car il n'est, de mon point de vue, pas spécialement interdit d'entraîner un modèle IA sur des données publiques. Par définition, une diffusion publique signifie qu'elle n'est pas contrôlée ni restreinte. Si l'oeuvre est diffusée de cette manière, l'auteur accepte qu'elle soit lue par n'importe qui et n'importe quoi. Auquel cas il réduira la portée de lecture. A noter que l'entraînement d'un modèle IA n'est pas une reproduction du texte, mais un apprentissage du poids des relations entre les mots (version hyper méga simplifiée). Le modèle n'apprend pas un texte par coeur, il apprend à lire, c'est une subtile nuance.

Dans le cas des plateformes comme Wordpress, Tumblr, ou Reddit dernièrement, elles se protègent par leurs CGU qui doivent très certainement indiquer que les usagers cèdent un droit d'exploitation des contenus au détenteur du service.

Est-ce légal vis à vis du droit d'auteur US ? Aucune idée, et là bas la notion de contrats et d'accords a une valeur symbolique un peu plus importante que chez nous. Les procès dans le domaine nous donneront surement des réponses.

En France, à ma connaissance il n'y a pas de procédure intentée en contrefaçon concernant l'entraînement de modèles d'IA sur des contenus publics sous droit d'auteur ou bien sur ce type de service en ligne.

SebGF

Un plugin WordPress peut valoir session de la propriété intellectuelle du contenu d'un site ? C'est compatible avec le droit français ce genre de clause ? Si oui, j'en suis très étonné.


s/session/cession/ :cap:

Là on parle du droit US donc je ne me prononcerai pas.

En droit français, on distingue deux éléments dans le droit d'auteur :

- Les droits moraux
- Les droits patrimoniaux

Les droits moraux sont perpétuels, inaliénables et imprescriptibles. Ils protègent les intérêts non-économiques de l'auteur. Les droits moraux sont acquis de facto à la création de l'oeuvre sans autre démarche. Les droits moraux concernent le droit de divulgation (comment l'oeuvre est révélée au public), paternité (apposer son nom à l'oeuvre, ou un pseudo), respect de l'intégrité de l'oeuvre (s'oppose à toute modification sans accord), et le droit de retrait ou repentir (supprimer l'exploitation d'une oeuvre à son entière discrétion).

Les droits patrimoniaux sont cessibles et ne couvrent que deux éléments : droit de représentation (autoriser la diffusion de l'oeuvre au public), droit de reproduction (copie de l'oeuvre, ex : tirage de bouquin, CD, etc).

Dans le cas du crawling de contenu pubic, pour moi c'est là que c'est intéressant car il n'est, de mon point de vue, pas spécialement interdit d'entraîner un modèle IA sur des données publiques. Par définition, une diffusion publique signifie qu'elle n'est pas contrôlée ni restreinte. Si l'oeuvre est diffusée de cette manière, l'auteur accepte qu'elle soit lue par n'importe qui et n'importe quoi. Auquel cas il réduira la portée de lecture. A noter que l'entraînement d'un modèle IA n'est pas une reproduction du texte, mais un apprentissage du poids des relations entre les mots (version hyper méga simplifiée). Le modèle n'apprend pas un texte par coeur, il apprend à lire, c'est une subtile nuance.

Dans le cas des plateformes comme Wordpress, Tumblr, ou Reddit dernièrement, elles se protègent par leurs CGU qui doivent très certainement indiquer que les usagers cèdent un droit d'exploitation des contenus au détenteur du service.

Est-ce légal vis à vis du droit d'auteur US ? Aucune idée, et là bas la notion de contrats et d'accords a une valeur symbolique un peu plus importante que chez nous. Les procès dans le domaine nous donneront surement des réponses.

En France, à ma connaissance il n'y a pas de procédure intentée en contrefaçon concernant l'entraînement de modèles d'IA sur des contenus publics sous droit d'auteur ou bien sur ce type de service en ligne.
En France, à ma connaissance il n'y a pas de procédure intentée en contrefaçon concernant l'entraînement de modèles d'IA sur des contenus publics sous droit d'auteur ou bien sur ce type de service en ligne.


Juste une précision sur ce point. Dans l'UE (et donc en France), il est légal de faire de l’entraînement d'IA sur des données publiques, par contre, l'auteur du contenu peut l'interdire en l'indiquant de telle sorte que ça soit compris par les crawlers. (Je ne connais pas les détails techniques). Il n'y a pas une telle protection aux USA.

Donc, il est logique qu'il n'y ait pas de procédure de ce type en France. Il pourrait cependant y en avoir si les IA régurgitent mot pour mot (ou presque) des textes sous droit d'auteur ou des images. On a vu des choses de ce type se produire et ça pourrait donner lieu à poursuite à mon avis parce que le résultat de l'entraînement irait trop loin et serait assimilable à de la mise en mémoire ou de la compression (suivie de décompression). Open AI pour ce qui le concerne parlait plutôt de bug et semblait savoir corriger (pour l'affaire avec le NYT, il s'agissait d'articles repris par trop de sites ce qui faisait qu'ils avaient tous servi à l'entraînement : il suffit de dé-dupliquer à l'entrée pour éviter que ça se reproduise).

D'accord avec toi sur le reste.

SebGF

Un plugin WordPress peut valoir session de la propriété intellectuelle du contenu d'un site ? C'est compatible avec le droit français ce genre de clause ? Si oui, j'en suis très étonné.


s/session/cession/ :cap:

Là on parle du droit US donc je ne me prononcerai pas.

En droit français, on distingue deux éléments dans le droit d'auteur :

- Les droits moraux
- Les droits patrimoniaux

Les droits moraux sont perpétuels, inaliénables et imprescriptibles. Ils protègent les intérêts non-économiques de l'auteur. Les droits moraux sont acquis de facto à la création de l'oeuvre sans autre démarche. Les droits moraux concernent le droit de divulgation (comment l'oeuvre est révélée au public), paternité (apposer son nom à l'oeuvre, ou un pseudo), respect de l'intégrité de l'oeuvre (s'oppose à toute modification sans accord), et le droit de retrait ou repentir (supprimer l'exploitation d'une oeuvre à son entière discrétion).

Les droits patrimoniaux sont cessibles et ne couvrent que deux éléments : droit de représentation (autoriser la diffusion de l'oeuvre au public), droit de reproduction (copie de l'oeuvre, ex : tirage de bouquin, CD, etc).

Dans le cas du crawling de contenu pubic, pour moi c'est là que c'est intéressant car il n'est, de mon point de vue, pas spécialement interdit d'entraîner un modèle IA sur des données publiques. Par définition, une diffusion publique signifie qu'elle n'est pas contrôlée ni restreinte. Si l'oeuvre est diffusée de cette manière, l'auteur accepte qu'elle soit lue par n'importe qui et n'importe quoi. Auquel cas il réduira la portée de lecture. A noter que l'entraînement d'un modèle IA n'est pas une reproduction du texte, mais un apprentissage du poids des relations entre les mots (version hyper méga simplifiée). Le modèle n'apprend pas un texte par coeur, il apprend à lire, c'est une subtile nuance.

Dans le cas des plateformes comme Wordpress, Tumblr, ou Reddit dernièrement, elles se protègent par leurs CGU qui doivent très certainement indiquer que les usagers cèdent un droit d'exploitation des contenus au détenteur du service.

Est-ce légal vis à vis du droit d'auteur US ? Aucune idée, et là bas la notion de contrats et d'accords a une valeur symbolique un peu plus importante que chez nous. Les procès dans le domaine nous donneront surement des réponses.

En France, à ma connaissance il n'y a pas de procédure intentée en contrefaçon concernant l'entraînement de modèles d'IA sur des contenus publics sous droit d'auteur ou bien sur ce type de service en ligne.
Les Etats-Unis ne connaissent pas le droit d'auteur.
Ils ne connaissent que le copyright.

La différence étant en gros qu'aux Etats-Unis les droits moraux sont moindres.