Publié dans ÉconomieIA et algorithmes

16

Reddit : signature d’un contrat de 60 millions de dollars par an avec un « grande entreprise d’IA »

une icône de l'application reddit affiche 2 notifications en attente

Après une importante fronde de ses utilisateurs l'année dernière contre l'annonce du passage au payant pour son API, Reddit aurait signé un contrat avec « une grande entreprise d'IA dont le nom n'a pas été révélé », selon Bloomberg.

Le contrat permettrait à celle-ci d'entraîner ses modèles sur les contenus de la plateforme pour la modique somme de 60 millions de dollars par an.

Cette information aurait été transmise par Reddit à des investisseurs potentiels lors de la préparation de l'introduction en bourse de l'entreprise planifiée pour mars.

16

Tiens, en parlant de ça :

dessin satirique de Flock

#Flock : de Game of Shithrones au jeu des sept différences

Moi en retard ??? Non… (Ha si…)

13:37 Flock 11
Des chercheurs en noir et blanc regardent une fiole sur laquelle est écrit "Perlimpimpin" en jaune.

[Édito] Respectez les sciences, bordel !

Demi mole

17:07 NextScience 41
Vitrée brisée

Une faille critique dans le langage Rust, Windows trinque

De la rouille, des fenêtres, une rustine

17:02 SoftSécu 28
next n'a pas de brief le week-end

Le Brief ne travaille pas le week-end.
C'est dur, mais c'est comme ça.
Allez donc dans une forêt lointaine,
Éloignez-vous de ce clavier pour une fois !

16

Fermer

Commentaires (16)


La question que je me pose est: peut-on demander le retrait de toutes ses contributions à une plateforme en cas de changement de la politique de partage des contenus ?

Perso, je pense qu'il faudrait considérer que les contributions à une plateforme aient une licence cc-by-nc par défaut et qu'en cas de changement de politique donc de licence, seules les nouvelles contributions réaliées après la bascule soient soumises à la nouvelle licence.
Il faut voir les conditions d'utilisations de la plate-forme. Je ne sais pas s'ils avaient prévus le coup avant le changement ou pas.
J'avais eu la question au changement d'attitude du site du zéro, mais je ne crois pas me souvenir que beaucoup de créateurs de tutos s'étaient plains.

J'ai supprimé mon compte reddit avec la fermeture de la plate-forme, ne plus pouvoir utiliser le client que je voulais était trop pénible.
Si tu parles d’un truc automatisé, aucune idée. Mais pour Reddit ce ne sont pas les solutions qui manquent pour effacer tout ton contenu.
Quand tu t'es inscrit, tu as accepté les conditions d'utilisations. En jetant un œil à celle-ci, il y a ça :
Lorsque votre Contenu est créé avec les Services ou soumis aux Services, vous nous accordez une licence mondiale, gratuite, perpétuelle, irrévocable, non exclusive, transférable et pouvant faire l’objet d’une sous-licence pour utiliser, copier, modifier, adapter, préparer des œuvres dérivées, distribuer, stocker, exécuter et afficher Votre contenu et tout nom, pseudo, voix ou ressemblance fournis en relation avec Votre contenu dans tous les formats de médias et canaux connus à l’heure actuelle ou développés ultérieurement n’importe où dans le monde. Cette licence inclut le droit pour nous de rendre Votre contenu disponible pour la syndication, la diffusion, la distribution ou la publication par d’autres sociétés, organisations ou personnes physiques qui sont partenaires de Reddit. Vous acceptez également que nous puissions supprimer les métadonnées associées à Votre contenu et vous renoncez irrévocablement à toute réclamation et revendication de droits moraux ou d’attribution en ce qui concerne Votre contenu.


Tout semble être en règles.

tazvld

Quand tu t'es inscrit, tu as accepté les conditions d'utilisations. En jetant un œil à celle-ci, il y a ça :
Lorsque votre Contenu est créé avec les Services ou soumis aux Services, vous nous accordez une licence mondiale, gratuite, perpétuelle, irrévocable, non exclusive, transférable et pouvant faire l’objet d’une sous-licence pour utiliser, copier, modifier, adapter, préparer des œuvres dérivées, distribuer, stocker, exécuter et afficher Votre contenu et tout nom, pseudo, voix ou ressemblance fournis en relation avec Votre contenu dans tous les formats de médias et canaux connus à l’heure actuelle ou développés ultérieurement n’importe où dans le monde. Cette licence inclut le droit pour nous de rendre Votre contenu disponible pour la syndication, la diffusion, la distribution ou la publication par d’autres sociétés, organisations ou personnes physiques qui sont partenaires de Reddit. Vous acceptez également que nous puissions supprimer les métadonnées associées à Votre contenu et vous renoncez irrévocablement à toute réclamation et revendication de droits moraux ou d’attribution en ce qui concerne Votre contenu.


Tout semble être en règles.
vous renoncez irrévocablement à toute réclamation et revendication de droits moraux ou d’attribution en ce qui concerne Votre contenu.


Ceci est bien entendu illégal en France.

Et il ne faut pas regarder les CU d'aujourd'hui mais celles des jours où ont été créé chaque contenu. Sur archive.org, on peut voir une seule version plus ancienne (datant du 12 septembre 2021) qui a l'air d'avoir les mêmes termes pour ce passage (comparaison à l'œil), mais qu'en est-il d'avant ?

fred42

vous renoncez irrévocablement à toute réclamation et revendication de droits moraux ou d’attribution en ce qui concerne Votre contenu.


Ceci est bien entendu illégal en France.

Et il ne faut pas regarder les CU d'aujourd'hui mais celles des jours où ont été créé chaque contenu. Sur archive.org, on peut voir une seule version plus ancienne (datant du 12 septembre 2021) qui a l'air d'avoir les mêmes termes pour ce passage (comparaison à l'œil), mais qu'en est-il d'avant ?

J'avais effectivement repéré cette partie. Cependant, ce qui nous intéresse dans notre cas, c'est la partie associée à l'exploitation de "Votre contenu" qui est assez similaire à la plupart des plateformes depuis des années : "on peut l'exploiter comme on veut". C'est un peu le cœur de business de ce genre de plateforme.
Que ce soit Twitter ou Reddit, c'est du contenu utilisateur de très mauvaise qualité. Ça me tue qu'on puisse dépenser autant d'argent pour entraîner des modèles là-dessus 😕
C’est pourtant simple :

Constatant que quelqu’un d’intelligent pouvait comprendre quelqu’un d’idiot mais que ce n’était pas réciproque (et que les idiots représentaient une part de marché conséquente) ils en sont venus à la conclusion qu’il fallait créer des IA plutôt connes pour répondre aux requêtes des idiots.
Twitter je sais pas mais je rajoute presque systématiquement « Reddit » dans mes recherches Google et je tombe toujours sur ce que je voulais.

C’est sur y’a du meme, du shitpost, du circlejerk, du low-effort (pour reprendre les termes locaux) mais c’est assez simple à exclure.
Tout dépend de la finalité de l'entraînement.

Si l'idée pour Twitter est, par exemple, d'entraîner un modèle pour évaluer la propagation de fausse information ou de prédire l'aspect viral d'un propos, c'est le meilleur endroit possible.

C'est aussi une bonne source pour apprendre au modèle à lire de nombreux types d'écrits, y compris avec une grammaire pauvre ou erronée, ainsi que les niveaux de langue, niveaux d'expression, etc. Une des fonctionnalités d'un LLM est, par exemple, de pouvoir évaluer le sentiment d'un texte : agressif, triste, ironique, etc. Pour ça, les repères à shitstorm du Web ça me semble être une bonne source.
Modifié le 20/02/2024 à 18h08

Historique des modifications :

Posté le 20/02/2024 à 18h08


Tout dépend de la finalité de l'entraînement.

Si l'idée pour Twitter est, par exemple, d'entraîner un modèle pour évaluer la propagation de fausse information ou de prédire l'aspect viral d'un propos, c'est le meilleur endroit possible.

C'est aussi une bonne source pour apprendre au modèle à lire de nombreux types d'écrits, y compris avec une grammaire pauvre ou erronée, ainsi que les niveaux de langue, niveaux d'expression, etc. Une des fonctionnalités d'un LLM est, par exemple, de pouvoir évaluer la tonalité d'un texte : agressif, triste, ironique, etc. Pour ça, les repères à shitstorm du Web ça me semble être une bonne source.

A titre personnel, j'ai trouvé beaucoup de réponses à des problèmes techniques logiciels sur reddit.
Et la plupart du temps sur des sujets très pointu dont aucunes informations ne sont disponibles ailleurs.

Je ne vais jamais dessus pour me "balader" donc je ne vois pas les "shitpost" mais niveau technique je trouve que ça a rassemblé tous les gens qui contribuait sur les forums de l'époque.

Reddit c'est comme aller dans une friperie, il faut fouiller au fond du bac mais tu peux trouver des perles.
Modifié le 21/02/2024 à 09h31

Historique des modifications :

Posté le 21/02/2024 à 09h30


A titre personnel, j'ai trouvé beaucoup de réponses à des problèmes techniques logiciels sur reddit.
Et la plupart du temps sur des sujets très pointu dont aucunes informations ne sont disponibles ailleurs.

Je ne vais jamais dessus pour me "balader" donc je ne vois les "shitpost" mais niveau technique je trouve que ça a rassembler tous les gens qui contribuait sur les forums de l'époque.

Reddit c'est comme aller dans une friperie, il faut fouiller au fond du bac mais tu peux trouver des perles.

Ca alors...

Qui aurait pu se douter que les restrictions d'accès mises en place pour soit disant empêcher le pillage par les IA serviraient en fait à monnayer l'accès aux contenus à ces IA.

:roll:
En même temps, ça confirme qu'ils avaient raison. Autant toucher 60 millions pan an, que rien du tout.

Et dans la foulée, je ne peux m'empêcher de penser aux différents projets Wikimedia, qui proposent toutes leurs bases de données en accès libre (contenu qui sert à entraîner absolument toutes les IA), sans que la moindre entreprise ne leur fasse le moindre don. Contenu pourtant infiniment plus utile et de bien meilleure qualité. Triste monde 😕

Okki

En même temps, ça confirme qu'ils avaient raison. Autant toucher 60 millions pan an, que rien du tout.

Et dans la foulée, je ne peux m'empêcher de penser aux différents projets Wikimedia, qui proposent toutes leurs bases de données en accès libre (contenu qui sert à entraîner absolument toutes les IA), sans que la moindre entreprise ne leur fasse le moindre don. Contenu pourtant infiniment plus utile et de bien meilleure qualité. Triste monde 😕
En même temps, ça confirme qu'ils avaient raison. Autant toucher 60 millions par an, que rien du tout.


Combien sont payés les redditeurs pour l'utilisation de leur prose par une IA ?

La gestion des restrictions mises en place par Reddit est elle fondamentalement différente de celle mise en place par les majors de l'industrie musique/vidéo ?

Bref, il y a plein de sujets de fond sur la collecte/revente du contenu.

.
Modifié le 20/02/2024 à 13h52

Historique des modifications :

Posté le 20/02/2024 à 13h51


En même temps, ça confirme qu'ils avaient raison. Autant toucher 60 millions par an, que rien du tout.


Combien sont payés les redditeurs pour l'utilisation de leur prose par une IA ?

La gestion des restrictions mises en place par Reddit est elle fondamentalement différente de celle mise en place par les majors de l'industrie musique/vidéo ?

127.0.0.1

En même temps, ça confirme qu'ils avaient raison. Autant toucher 60 millions par an, que rien du tout.


Combien sont payés les redditeurs pour l'utilisation de leur prose par une IA ?

La gestion des restrictions mises en place par Reddit est elle fondamentalement différente de celle mise en place par les majors de l'industrie musique/vidéo ?

Bref, il y a plein de sujets de fond sur la collecte/revente du contenu.

.
Combien sont payés les redditeurs pour l'utilisation de leur prose par une IA ?


Combien paient les millions de Redditeurs pour avoir accès à une telle plateforme ? C’est toujours pareil : gratuité contre utilisation du contenu.

Clapitti

Combien sont payés les redditeurs pour l'utilisation de leur prose par une IA ?


Combien paient les millions de Redditeurs pour avoir accès à une telle plateforme ? C’est toujours pareil : gratuité contre utilisation du contenu.
Combien paient les millions de Redditeurs pour avoir accès à une telle plateforme ? C’est toujours pareil : gratuité contre utilisation du contenu.


Hmm... le contrat jusqu'à présent c'était plutot gratuité contre ciblage publicitaire.