Après une importante fronde de ses utilisateurs l'année dernière contre l'annonce du passage au payant pour son API, Reddit aurait signé un contrat avec « une grande entreprise d'IA dont le nom n'a pas été révélé », selon Bloomberg.
Le contrat permettrait à celle-ci d'entraîner ses modèles sur les contenus de la plateforme pour la modique somme de 60 millions de dollars par an.
Cette information aurait été transmise par Reddit à des investisseurs potentiels lors de la préparation de l'introduction en bourse de l'entreprise planifiée pour mars.
Commentaires (16)
#1
Perso, je pense qu'il faudrait considérer que les contributions à une plateforme aient une licence cc-by-nc par défaut et qu'en cas de changement de politique donc de licence, seules les nouvelles contributions réaliées après la bascule soient soumises à la nouvelle licence.
#1.1
J'avais eu la question au changement d'attitude du site du zéro, mais je ne crois pas me souvenir que beaucoup de créateurs de tutos s'étaient plains.
J'ai supprimé mon compte reddit avec la fermeture de la plate-forme, ne plus pouvoir utiliser le client que je voulais était trop pénible.
#1.2
#1.3
Tout semble être en règles.
#1.4
Ceci est bien entendu illégal en France.
Et il ne faut pas regarder les CU d'aujourd'hui mais celles des jours où ont été créé chaque contenu. Sur archive.org, on peut voir une seule version plus ancienne (datant du 12 septembre 2021) qui a l'air d'avoir les mêmes termes pour ce passage (comparaison à l'œil), mais qu'en est-il d'avant ?
#1.5
#2
#2.1
Constatant que quelqu’un d’intelligent pouvait comprendre quelqu’un d’idiot mais que ce n’était pas réciproque (et que les idiots représentaient une part de marché conséquente) ils en sont venus à la conclusion qu’il fallait créer des IA plutôt connes pour répondre aux requêtes des idiots.
#2.2
C’est sur y’a du meme, du shitpost, du circlejerk, du low-effort (pour reprendre les termes locaux) mais c’est assez simple à exclure.
#2.3
Si l'idée pour Twitter est, par exemple, d'entraîner un modèle pour évaluer la propagation de fausse information ou de prédire l'aspect viral d'un propos, c'est le meilleur endroit possible.
C'est aussi une bonne source pour apprendre au modèle à lire de nombreux types d'écrits, y compris avec une grammaire pauvre ou erronée, ainsi que les niveaux de langue, niveaux d'expression, etc. Une des fonctionnalités d'un LLM est, par exemple, de pouvoir évaluer le sentiment d'un texte : agressif, triste, ironique, etc. Pour ça, les repères à shitstorm du Web ça me semble être une bonne source.
Historique des modifications :
Posté le 20/02/2024 à 18h08
Tout dépend de la finalité de l'entraînement.
Si l'idée pour Twitter est, par exemple, d'entraîner un modèle pour évaluer la propagation de fausse information ou de prédire l'aspect viral d'un propos, c'est le meilleur endroit possible.
C'est aussi une bonne source pour apprendre au modèle à lire de nombreux types d'écrits, y compris avec une grammaire pauvre ou erronée, ainsi que les niveaux de langue, niveaux d'expression, etc. Une des fonctionnalités d'un LLM est, par exemple, de pouvoir évaluer la tonalité d'un texte : agressif, triste, ironique, etc. Pour ça, les repères à shitstorm du Web ça me semble être une bonne source.
#2.4
Et la plupart du temps sur des sujets très pointu dont aucunes informations ne sont disponibles ailleurs.
Je ne vais jamais dessus pour me "balader" donc je ne vois pas les "shitpost" mais niveau technique je trouve que ça a rassemblé tous les gens qui contribuait sur les forums de l'époque.
Reddit c'est comme aller dans une friperie, il faut fouiller au fond du bac mais tu peux trouver des perles.
Historique des modifications :
Posté le 21/02/2024 à 09h30
A titre personnel, j'ai trouvé beaucoup de réponses à des problèmes techniques logiciels sur reddit.
Et la plupart du temps sur des sujets très pointu dont aucunes informations ne sont disponibles ailleurs.
Je ne vais jamais dessus pour me "balader" donc je ne vois les "shitpost" mais niveau technique je trouve que ça a rassembler tous les gens qui contribuait sur les forums de l'époque.
Reddit c'est comme aller dans une friperie, il faut fouiller au fond du bac mais tu peux trouver des perles.
#3
Qui aurait pu se douter que les restrictions d'accès mises en place pour soit disant empêcher le pillage par les IA serviraient en fait à monnayer l'accès aux contenus à ces IA.
#3.1
Et dans la foulée, je ne peux m'empêcher de penser aux différents projets Wikimedia, qui proposent toutes leurs bases de données en accès libre (contenu qui sert à entraîner absolument toutes les IA), sans que la moindre entreprise ne leur fasse le moindre don. Contenu pourtant infiniment plus utile et de bien meilleure qualité. Triste monde 😕
#3.2
Combien sont payés les redditeurs pour l'utilisation de leur prose par une IA ?
La gestion des restrictions mises en place par Reddit est elle fondamentalement différente de celle mise en place par les majors de l'industrie musique/vidéo ?
Bref, il y a plein de sujets de fond sur la collecte/revente du contenu.
.
Historique des modifications :
Posté le 20/02/2024 à 13h51
Combien sont payés les redditeurs pour l'utilisation de leur prose par une IA ?
La gestion des restrictions mises en place par Reddit est elle fondamentalement différente de celle mise en place par les majors de l'industrie musique/vidéo ?
#3.3
Combien paient les millions de Redditeurs pour avoir accès à une telle plateforme ? C’est toujours pareil : gratuité contre utilisation du contenu.
#3.4
Hmm... le contrat jusqu'à présent c'était plutot gratuité contre ciblage publicitaire.