Reddit : cas d’école de la pollution par les contenus générés par IA ?

Qui donnera du grain avarié à moudre aux nouvelles IA ?

Des services peu scrupuleux proposent de poster de la publicité clandestine sur Reddit en utilisant leur IA générative pour faire passer les messages pour de vrais posts. La plateforme très populaire et mise en avant par les moteurs de recherche pour la qualité de ses contenus risque de devenir une usine à spams... au risque de contaminer les IA génératives.

Martin Clavey

Le 26 avril à 10h00

4 min

IA et algorithmes

Reddit est une source de contenus importante sur internet et nombre d'internautes l'utilisent pour trouver des informations pertinentes. Selon l'entreprise, « en 2023, les internautes ont ajouté "reddit" à leurs recherches plus de 32 milliards de fois » dans leur moteur préféré pour obtenir des informations publiées à propos d'un sujet qui les intéressait.

Mais 404 Media a remarqué que des services peu scrupuleux proposent de créer automatiquement des contenus sur la plateforme pour « mentionner de façon naturelle votre produit dans les conversations ».

ReplyGuy automatise la publicité clandestine

404 Media explique que le service qu'ils ont repéré, nommé ReplyGuy, affiche sur son site des exemples de discussions d'utilisateurs de Reddit dans lesquelles son service a introduit des publicités pour un service de synthèse vocale.

Une vidéo montre aussi que le service n'est pas une vague ligne de commande, mais propose un vrai tableau de bord avec proposition de mots clés et d'aide à la sélection du subreddit dans lequel insérer la publicité clandestine en fonction du nom de l'entreprise et de l'url de son site.

Ceci, bien que le site de ReplyGuy, explique aussi qu'ils recommandent « vivement de ne mentionner que le nom de marque de votre produit, car si vous mentionnez des liens dans vos messages, ceux-ci risquent d'être signalés comme étant du spam et cachés. Nous avons constaté que les humains n'ont pas l'habitude de taper des URL complètes dans une conversation naturelle et que la plupart des utilisateurs d'Internet se contentent d'une recherche rapide sur Google ».

Comme l'explique 404 Media, la plupart des exemples mis en avant par ReplyGuy ont finalement été supprimés par Reddit mais il est difficile de savoir si ce ne sont que les exemples assumés qui sont repérés par la plateforme ou si elle arrive à les détecter automatiquement.

Un nouveau programme de publicité contextuelle et comportementale sur Reddit

Si Reddit rencontre un problème de publicité clandestine, la plateforme veut, elle aussi, intégrer des publicités qui se rapprochent des posts de ses utilisateurs. Dans un billet de blog publié hier, l'entreprise a annoncé un programme de publicité nommé « Dynamic Product Ads » entrant en phase beta publique pour tous les annonceurs (en anglais, allemand, espagnol, français, italien et portugais) via son Reddit Ads Manager.

Dans ce billet, l'entreprise explique que « les communautés de Reddit sont naturellement commerciales – en fait, chaque mois, une moyenne de 40 % des nouvelles conversations sont liées à des décisions d'achat et à des catégories de produits ».

Ce qui confirme que ReplyGuy et autres publicitaires clandestins ont choisi la bonne plateforme pour faire passer du spam. Mais ce n'est pas le propos de l'entreprise. Reddit explique que son nouveau programme de publicité « combine ces signaux d'achat riches avec l'apprentissage automatique et les catalogues de produits des annonceurs » pour ensuite proposer des publicités proches du contexte de la conversation. L'entreprise explique aussi diffuser des publicités via ce programme « en fonction des produits que les internautes ont déjà consultés sur le site de l'annonceur ».

Pollution des données d'entrainement des IA

Comme nous le disions au départ, Reddit est une source de contenus considérés « de qualité » importante sur internet. Ceci a poussé nombre d'entreprises d'IA générative à utiliser les posts Reddit pour entrainer leurs modèles.

L'entreprise, qui a vu cet engouement comme une opportunité financière, a fermé son API gratuite et fait maintenant payer l'accès. Cela lui a valu une fronde monumentale dans sa communauté, mais l'entreprise a parié sur une normalisation par dépit. Et elle a bon an mal an gagné ce pari. Elle a ensuite signé un accord de 60M$ pour entraîner les IA de Google avant d'entrer en bourse.

Mais la question de la pollution de son contenu par la publicité se pose. Et si c'est le cas, par capillarité, les IA de Google et d'autres entreprises ayant signé le même type d'accord risque d'être, elles aussi, polluées.

Commentaires (9)

MisterDams Abonné

Le 26/04/2024 à 10h05

Dingue, ils arrivent à être plus convaincants que ceux qui faisaient ça sur les forums dans les années 2000.
Sur l'échelle de l'humanité, l'IA a officiellement réussi à atteindre le niveau "stagiaire communication et marketing" 😅

Wosgien Abonné

Le 26/04/2024 à 11h10

Un test de Voight-Kampff avant de pouvoir poster et voilà?

RuMaRoCO Abonné

Le 26/04/2024 à 10h17

Je ne me souviens plus dans quelle film parodique (ou pas) ou qqun écoutait un message de type serveur vocal, et la révélation vient avec " Si vous souhaitez parler avec un serveur automatique appuyer sur 1".

J'ai l'impression on y arrive...

keyes1337 Abonné

Le 29/04/2024 à 00h21

Love.Death.and.Robots.S02E01.Le.robot.et.la.vieille.dame ?

aureus

Modifié le 26/04/2024 à 11h14

Le reddit actuel est blindé de bot, d'IA, de pub déguisé, de brigading et d'usine à troll.
Pour moi ca vient du fait que reddit pousse les grosses communautés (worldnews/france/interesting as fuck/...) et l'infinite scrolling aux petites communautés dans le but de devenir le remplaçant de FB/Twitter chez les jeunes.

Et avec le système d'upvotes/downvote, le fait de minimiser au max les noms d'utilisateur, les communautés à plusieurs millions d'utilisateur modérés par des "bénévoles" ca tourne beaucoup en rond.

TheKillerOfComputer Abonné

Le 01/05/2024 à 15h54

Avec ce type de news, je vois mal l'intêret de s'y rendre encore. Déjà ça grouille de circlejerks, et maintenant je ne pourrais pas trouver des conseils sur du matériel sans me dire que c'est peut-être généré par IA et donc des pubs à la con encore.

Le futur s'annonce morose. S'il faut créer des espaces sans IA (qui seront difficiles à maintenir vu leur niveau d'aboutissement) ça promet.

Nozalys Abonné

Le 26/04/2024 à 16h31

Ça fait déjà longtemps (à l'échelle du développement des IA génératives) que ce problème est pensé : comment éviter d'entraîner un modèle sur des données "impures" issues d'autres modèles ?
Inévitablement, les modèles risquent de devenir de plus en plus lisses et normalisés avec le temps. Je pense à titre personnel que la courbe de mesure de la "qualité" de tous ces modèles (langage, image, etc.) est une courbe en cloche.

GG pour le titre "URL" de l’article

fofo9012 Abonné

Le 28/04/2024 à 10h45

On tombe dans la consanguinité informatique :)

minirop Abonné

Le 30/04/2024 à 22h22

la consanguinité (pour reprendre la terminologie de fofo) est déjà là, mais visible plutôt sur les générateurs d'images. vu que personne ne dit que c'est généré par IA, les autres IA l'utilisent pour s'entrainer et on tombe dans un cercle de rétroaction négative.