[Màj] Vente des contenus d’Automattic à MidJourney et OpenAI : JetPack non concerné

C'était automatique

[Màj] Vente des contenus d’Automattic à MidJourney et OpenAI : JetPack non concerné

404 Media a eu accès à des documents internes d'Automattic, entreprise qui possède Tumblr et Wordpress.com, montrant qu'elle prépare la vente de contenus publiés par ses utilisateurs à MidJourney et OpenAI.

Le 29 février 2024 à 08h40

Commentaires (24)

votre avatar
Est-ce que Next pourrait être concernée ?
votre avatar
Ça ne concerne pas les Worpress autohébergés.
votre avatar
Sauf si le Wordpress auto-hébergé a installé les plugins Wordpress Jetpack, WooCommerce ou Mailpoet d'après 404 media.
votre avatar
C'est sur ça ? Ça me parait tellement gros. Automattic irai donc taper dans les Wordpress via son API par exemple pour siphonner les contenus ?
Déjà que ça me choque pour les Wordpress hébergés sur wordpress.com :(
votre avatar
Jetpack, sur un site autohébergé, envoie depuis très longtemps pas mal de données à Automattic, donc clairement, ça ne m'étonnerait pas qu'ils en profitent pour récupérer des infos pour de l'IA.

Cela laisse clairement perplexe pour la suite.
votre avatar
Effectivement, et nous n'utilisons pas de plugins d'édition de contenus d'Automattic, donc ça ne nous concerne pas.
votre avatar
Bon à savoir.

En tout cas, ce move est absolument dégueulasse. J'ai déjà vu des offres pour aider à déménager son blog sur un autre hébergement.
votre avatar
Encore une bonne nouvelle pour le droit d'auteur...
votre avatar
Message reposté à l'envie sur Tumblr depuis par ici.
votre avatar
Impossible d'y accé&der car le "cookie wall" est buggué et je ne peux pas le bypass.

Tu pourrais poster un screen du truc par ici ?
votre avatar
Yes

Lien périssable, valable un mois: https://redcross.freeboxos.fr:46657/share/Lu-L24jcaqfNbVai/image.png
votre avatar
Donc le type parle de "opt out", alors qu'il vient de balancer les messages privés de ses utilisateurs, sans le faire exprès?

Oskour
votre avatar
"Sans le faire exprès" :D
J'ai glissé chef !
votre avatar
La donnée pour l'entraînement d'IA est clairement le nouvel el-dorado pour les plateformes en manque de sources de financement supplémentaires.

J'ai hâte de voir la news disant que OnlyFans vend ses contenus pour entraîner les modèles de génération d'image tiens.

Mais bon, ces plateformes se couvrent aussi avec leurs CGU en disant qu'elles sont libre d'exploiter les contenus produits par les utilisateurs comme bon leur semble. A partir de là, à moins d'une grosse procédure visant à les invalider, elles sont couvertes.

Comme quoi, je suis bien content de mon blog hébergé chez un provider auquel j'ai confiance et maintenu par moi-même avec Hugo. Certes il est ramassé par les collecteurs puisque je n'ai spécifié aucun robots.txt cherchant à le bloquer, mais au moins je maîtrise ce que je choisis de publier et diffuser.
votre avatar
Excellent pour OF :mdr2:
votre avatar
Effectivement, DocuSign fait désormais aussi de l’entraînement IA sur les documents (très confidentiels) qui leurs sont fournis :

https://support.docusign.com/s/document-item?language=en_US&bundleId=fzd1707173174972&topicId=uss1707173279973.html
votre avatar
Soyons précis :
If you have given contractual consent, we may use your data to train DocuSign's in-house, proprietary AI models. Your data will be anonymized and de-identified before model training.
Il faut ton accord.
Cela n'entraîne que leur modèle.
Les données sont anonymisées avant l'entraînement.

et
No enhancement of Microsoft or Azure products
Les produits de Microsoft et d'OpenAI (cité juste après) ne sont pas entraînés par ces documents.

C'est différent du commentaire de SebGF qui lui parle de plateformes qui font payer pour l'entraînement des AI sur le contenu disponible chez eux.
votre avatar
Je vous ai envoyé une résiliation le 12 janvier, mais je constate que mon abonnement est toujours actif et j'ai été prélevé pour février. Merci de traiter ma demande de résiliation et de procéder au remboursement immédiat.
votre avatar
Je suggère d'envoyer un mail à l'adresse du support technique disponible dans la page de gestion de compte : support@next.ink
votre avatar
Hello !
Désolé de ton souci, on va regarder de près dès demain.
On te remboursera sans difficulté, no worries :)
votre avatar
Un plugin WordPress peut valoir cession de la propriété intellectuelle du contenu d'un site ? C'est compatible avec le droit français ce genre de clause ? Si oui, j'en suis très étonné.

Sinon, de manière générale, les développeurs d'IA crawlent tout ce qu'ils trouvent pour alimenter leurs modèles non ? Du coup ils achètent donc des pseudo droits à divers partenaires uniquement pour diminuer leur exposition à des plaintes non ?
votre avatar
Un plugin WordPress peut valoir session de la propriété intellectuelle du contenu d'un site ? C'est compatible avec le droit français ce genre de clause ? Si oui, j'en suis très étonné.
s/session/cession/ :cap:

Là on parle du droit US donc je ne me prononcerai pas.

En droit français, on distingue deux éléments dans le droit d'auteur :

- Les droits moraux
- Les droits patrimoniaux

Les droits moraux sont perpétuels, inaliénables et imprescriptibles. Ils protègent les intérêts non-économiques de l'auteur. Les droits moraux sont acquis de facto à la création de l'oeuvre sans autre démarche. Les droits moraux concernent le droit de divulgation (comment l'oeuvre est révélée au public), paternité (apposer son nom à l'oeuvre, ou un pseudo), respect de l'intégrité de l'oeuvre (s'oppose à toute modification sans accord), et le droit de retrait ou repentir (supprimer l'exploitation d'une oeuvre à son entière discrétion).

Les droits patrimoniaux sont cessibles et ne couvrent que deux éléments : droit de représentation (autoriser la diffusion de l'oeuvre au public), droit de reproduction (copie de l'oeuvre, ex : tirage de bouquin, CD, etc).

Dans le cas du crawling de contenu pubic, pour moi c'est là que c'est intéressant car il n'est, de mon point de vue, pas spécialement interdit d'entraîner un modèle IA sur des données publiques. Par définition, une diffusion publique signifie qu'elle n'est pas contrôlée ni restreinte. Si l'oeuvre est diffusée de cette manière, l'auteur accepte qu'elle soit lue par n'importe qui et n'importe quoi. Auquel cas il réduira la portée de lecture. A noter que l'entraînement d'un modèle IA n'est pas une reproduction du texte, mais un apprentissage du poids des relations entre les mots (version hyper méga simplifiée). Le modèle n'apprend pas un texte par coeur, il apprend à lire, c'est une subtile nuance.

Dans le cas des plateformes comme Wordpress, Tumblr, ou Reddit dernièrement, elles se protègent par leurs CGU qui doivent très certainement indiquer que les usagers cèdent un droit d'exploitation des contenus au détenteur du service.

Est-ce légal vis à vis du droit d'auteur US ? Aucune idée, et là bas la notion de contrats et d'accords a une valeur symbolique un peu plus importante que chez nous. Les procès dans le domaine nous donneront surement des réponses.

En France, à ma connaissance il n'y a pas de procédure intentée en contrefaçon concernant l'entraînement de modèles d'IA sur des contenus publics sous droit d'auteur ou bien sur ce type de service en ligne.
votre avatar
En France, à ma connaissance il n'y a pas de procédure intentée en contrefaçon concernant l'entraînement de modèles d'IA sur des contenus publics sous droit d'auteur ou bien sur ce type de service en ligne.
Juste une précision sur ce point. Dans l'UE (et donc en France), il est légal de faire de l’entraînement d'IA sur des données publiques, par contre, l'auteur du contenu peut l'interdire en l'indiquant de telle sorte que ça soit compris par les crawlers. (Je ne connais pas les détails techniques). Il n'y a pas une telle protection aux USA.

Donc, il est logique qu'il n'y ait pas de procédure de ce type en France. Il pourrait cependant y en avoir si les IA régurgitent mot pour mot (ou presque) des textes sous droit d'auteur ou des images. On a vu des choses de ce type se produire et ça pourrait donner lieu à poursuite à mon avis parce que le résultat de l'entraînement irait trop loin et serait assimilable à de la mise en mémoire ou de la compression (suivie de décompression). Open AI pour ce qui le concerne parlait plutôt de bug et semblait savoir corriger (pour l'affaire avec le NYT, il s'agissait d'articles repris par trop de sites ce qui faisait qu'ils avaient tous servi à l'entraînement : il suffit de dé-dupliquer à l'entrée pour éviter que ça se reproduise).

D'accord avec toi sur le reste.
votre avatar
Les Etats-Unis ne connaissent pas le droit d'auteur.
Ils ne connaissent que le copyright.

La différence étant en gros qu'aux Etats-Unis les droits moraux sont moindres.

[Màj] Vente des contenus d’Automattic à MidJourney et OpenAI : JetPack non concerné

  • En phase de préparation

  • Des messages privés dans le dump

  • Quid des plugins WordPress distribués par Automattic ?

  • Communication parallèle

Fermer