Reddit : cas d’école de la pollution par les contenus générés par IA ?
Qui donnera du grain avarié à moudre aux nouvelles IA ?
Des services peu scrupuleux proposent de poster de la publicité clandestine sur Reddit en utilisant leur IA générative pour faire passer les messages pour de vrais posts. La plateforme très populaire et mise en avant par les moteurs de recherche pour la qualité de ses contenus risque de devenir une usine à spams... au risque de contaminer les IA génératives.
Le 26 avril à 10h00
4 min
IA et algorithmes
IA
Reddit est une source de contenus importante sur internet et nombre d'internautes l'utilisent pour trouver des informations pertinentes. Selon l'entreprise, « en 2023, les internautes ont ajouté "reddit" à leurs recherches plus de 32 milliards de fois » dans leur moteur préféré pour obtenir des informations publiées à propos d'un sujet qui les intéressait.
Mais 404 Media a remarqué que des services peu scrupuleux proposent de créer automatiquement des contenus sur la plateforme pour « mentionner de façon naturelle votre produit dans les conversations ».
ReplyGuy automatise la publicité clandestine
404 Media explique que le service qu'ils ont repéré, nommé ReplyGuy, affiche sur son site des exemples de discussions d'utilisateurs de Reddit dans lesquelles son service a introduit des publicités pour un service de synthèse vocale.
Une vidéo montre aussi que le service n'est pas une vague ligne de commande, mais propose un vrai tableau de bord avec proposition de mots clés et d'aide à la sélection du subreddit dans lequel insérer la publicité clandestine en fonction du nom de l'entreprise et de l'url de son site.
Ceci, bien que le site de ReplyGuy, explique aussi qu'ils recommandent « vivement de ne mentionner que le nom de marque de votre produit, car si vous mentionnez des liens dans vos messages, ceux-ci risquent d'être signalés comme étant du spam et cachés. Nous avons constaté que les humains n'ont pas l'habitude de taper des URL complètes dans une conversation naturelle et que la plupart des utilisateurs d'Internet se contentent d'une recherche rapide sur Google ».
Comme l'explique 404 Media, la plupart des exemples mis en avant par ReplyGuy ont finalement été supprimés par Reddit mais il est difficile de savoir si ce ne sont que les exemples assumés qui sont repérés par la plateforme ou si elle arrive à les détecter automatiquement.
Un nouveau programme de publicité contextuelle et comportementale sur Reddit
Si Reddit rencontre un problème de publicité clandestine, la plateforme veut, elle aussi, intégrer des publicités qui se rapprochent des posts de ses utilisateurs. Dans un billet de blog publié hier, l'entreprise a annoncé un programme de publicité nommé « Dynamic Product Ads » entrant en phase beta publique pour tous les annonceurs (en anglais, allemand, espagnol, français, italien et portugais) via son Reddit Ads Manager.
Dans ce billet, l'entreprise explique que « les communautés de Reddit sont naturellement commerciales – en fait, chaque mois, une moyenne de 40 % des nouvelles conversations sont liées à des décisions d'achat et à des catégories de produits ».
Ce qui confirme que ReplyGuy et autres publicitaires clandestins ont choisi la bonne plateforme pour faire passer du spam. Mais ce n'est pas le propos de l'entreprise. Reddit explique que son nouveau programme de publicité « combine ces signaux d'achat riches avec l'apprentissage automatique et les catalogues de produits des annonceurs » pour ensuite proposer des publicités proches du contexte de la conversation. L'entreprise explique aussi diffuser des publicités via ce programme « en fonction des produits que les internautes ont déjà consultés sur le site de l'annonceur ».
Pollution des données d'entrainement des IA
Comme nous le disions au départ, Reddit est une source de contenus considérés « de qualité » importante sur internet. Ceci a poussé nombre d'entreprises d'IA générative à utiliser les posts Reddit pour entrainer leurs modèles.
L'entreprise, qui a vu cet engouement comme une opportunité financière, a fermé son API gratuite et fait maintenant payer l'accès. Cela lui a valu une fronde monumentale dans sa communauté, mais l'entreprise a parié sur une normalisation par dépit. Et elle a bon an mal an gagné ce pari. Elle a ensuite signé un accord de 60M$ pour entraîner les IA de Google avant d'entrer en bourse.
Mais la question de la pollution de son contenu par la publicité se pose. Et si c'est le cas, par capillarité, les IA de Google et d'autres entreprises ayant signé le même type d'accord risque d'être, elles aussi, polluées.
Reddit : cas d’école de la pollution par les contenus générés par IA ?
-
ReplyGuy automatise la publicité clandestine
-
Un nouveau programme de publicité contextuelle et comportementale sur Reddit
-
Pollution des données d’entrainement des IA
Commentaires (9)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 26/04/2024 à 10h05
Sur l'échelle de l'humanité, l'IA a officiellement réussi à atteindre le niveau "stagiaire communication et marketing" 😅
Le 26/04/2024 à 11h10
Le 26/04/2024 à 10h17
J'ai l'impression on y arrive...
Le 29/04/2024 à 00h21
Modifié le 26/04/2024 à 11h14
Pour moi ca vient du fait que reddit pousse les grosses communautés (worldnews/france/interesting as fuck/...) et l'infinite scrolling aux petites communautés dans le but de devenir le remplaçant de FB/Twitter chez les jeunes.
Et avec le système d'upvotes/downvote, le fait de minimiser au max les noms d'utilisateur, les communautés à plusieurs millions d'utilisateur modérés par des "bénévoles" ca tourne beaucoup en rond.
Le 01/05/2024 à 15h54
Le futur s'annonce morose. S'il faut créer des espaces sans IA (qui seront difficiles à maintenir vu leur niveau d'aboutissement) ça promet.
Le 26/04/2024 à 16h31
Inévitablement, les modèles risquent de devenir de plus en plus lisses et normalisés avec le temps. Je pense à titre personnel que la courbe de mesure de la "qualité" de tous ces modèles (langage, image, etc.) est une courbe en cloche.
GG pour le titre "URL" de l’article
Le 28/04/2024 à 10h45
Le 30/04/2024 à 22h22