Quels pourraient être les effets de ChatGPT sur l’information ?

Quels pourraient être les effets de ChatGPT sur l’information ?

Père Castor...

Avatar de l'auteur

Mathilde Saliou

Publié dansSociété numérique

26/01/2023
17
Quels pourraient être les effets de ChatGPT sur l’information ?

Mêlés aux moteurs de recherches, intégrés dans le travail des médias… qu’est-ce que les grands modèles de langage laissent présager pour le monde de l’information ? 

Quand on a écrit sur les débats que ravivait ChatGPT, l’autre jour, toutes les personnes consultées ont dit à peu près la même chose : ces grands modèles de langages (Large Language Models, LLM) posent de nouveaux risques en matière d’information. Pour l'informaticienne, mathématicienne et directrice de recherche au CNRS Claire Mathieu, en particulier, c’est « un risque d’intégrité de l’information » que posent ces machines.

Jusqu’à présent, pointe la co-autrice d’une tribune sur les problématiques soulevées par ChatGPT, il fallait beaucoup plus de temps pour produire des articles, (scientifiques, journalistiques ou autres), que pour les lire, se faire son avis, décider si le résultat final était convaincant ou non. 

Avec des modèles génératifs, « ce rapport entre temps de production et temps de vérification est inversé ». Les machines peuvent créer des textes convaincants en un minimum de temps, ce qui signifie qu’il devient simple de submerger n’importe quelle instance en charge de vérifier la qualité de la production qui lui est soumise : une conférence en charge de trier des soumissions scientifiques, des secrétaires de rédaction, des législateurs, le public lorsqu’il doit trier les vraies informations des fausses, etc. 

Directeur de recherche à l’Inria, Serge Abiteboul s’inquiète de son côté de la perspective de couplage de ce type de technologie avec des moteurs de recherche : « si on remplace les résultats par une réponse de chatbot, ça risque de faire un peu ligne du parti ». Bing ou Google, quand on y pense, fournissent toujours une série de réponses quand on lui soumet une requête. Un robot conversationnel construit comme ChatGPT, lui, ne donne qu’une réponse unique.

Si l’on reprend la formulation du youtubeur Monsieur Phi, la différence entre un moteur de recherche et un LLM avec une interface similaire à celle de ChatGPT, c’est que si vous leur posez une question, le premier ne vous donne pas de réponse claire, mais plein de sources pour vous faire votre propre avis, tandis que le second vous donne une réponse (sur un ton parfois très sûr de lui)… mais aucune source pour vérifier son affirmation. 

 

Le problème des sources et des filtres

Certes, OpenAI reste silencieux sur le détail des données qui ont servi à entraîner son modèle. Cependant, pour réussir à amasser les centaines de milliards de paramètres qui ont été nécessaires à l’entraînement de ChatGPT, il y a fort à parier que l'entreprise s’est fournie là où le contenu s’amasse sans cesse et gratuitement… c’est-à-dire en ligne.

Or « il faut être conscient que, parmi les données du web, même écrites par des humains, il peut y avoir autant de choses vraies que de fausses » indique Laure Soulier, chercheuse au sein de l’équipe Machine Learning and Information Access (MLIA) de l’Institut des systèmes intelligents et de robotique. À la valeur de l’information s’ajoutent « tous les biais classiques, le racisme, le sexisme » que l’on retrouve dans les contenus en ligne, même si « ceux-ci peuvent être modérés, au moins en partie, par les constructeurs ».

Sauf que ce genre de filtrage, quelles qu’en soient les raisons, fait aussi craindre à Serge Abiteboul une forme « d’uniformisation du discours, de pensée moralisatrice. Je ne dis pas que c’est mal, je n’en sais rien en réalité, je demande simplement si c’est ce qu’on veut. » Débat d’autant plus difficile à trancher que les spécificités exactes de l’entraînement du modèle manquent de transparence.

Surtout, rappelle Claire Mathieu, le robot n’est pas conçu pour donner une réponse, mais bien pour calculer la probabilité que la phrase ou le texte qu’il formule soit plausible. Cela peut expliquer, au moins en partie, qu’il produise « des phrases convenues, des textes qui, actuellement, ont tous une certaine similarité les uns avec les autres », voire qu’il recrache, à quelques légères modifications près, des éléments trouvés dans son jeu d’entraînement. 

Le fiasco CNET : le salut ne viendra (peut-être) pas du bâtonnage automatisé

Côté média, il se trouve qu’une rédaction a pris le parti de lancer une expérimentation. En novembre, lorsque ChatGPT a été rendu public, le magazine américain CNET a décidé de l’utiliser pour tester le fait d’écrire (et publier) des articles. Premier problème : la démarche a manqué de transparence. 

Ce n’est qu’après la publication de plus de 70 articles signés « l’équipe de CNET money » ou du nom de Justin Jaffe, le chef de la rubrique, qu’un autre média a révélé que ces articles ont été au moins partiellement écrits par un modèle algorithmique similaire à ChatGPT. CNET s’est justifié quelques jours plus tard, mais the Verge en a remis une couche, démontrant qu’une bonne partie des articles en question étaient, certes, de très bonnes machines à référencement sur Google, mais qu’ils regorgeaient d’erreurs.

Une des problématiques rapportée par des membres de la rédaction est liée à la qualité de ces outils. Que des robots soient capables de produire des articles quasiment indifférenciables de ceux écrits par des humains, dans le monde de l’information, pose le problème d’intégrité évoqué par Claire Mathieu.

Car un relecteur n’adoptera pas du tout la même démarche pour relire la production de ses collègues humains (dont il sait qu’ils ont enquêté, réfléchi, travaillé au sens et à la qualité de l’information fournie) que celle d’un robot qui, lui, ne fait que calculer la probabilité que le texte soit cohérent, sans avoir aucune notion du sens que celui-ci produit.

Finalement, CNET a mis sa production automatisée sur pause, « jusqu’à nouvel ordre ». La rédactrice en chef Connie Guglielmo a déclaré qu’en cas de nouvelle expérimentation, celle-ci serait publicisée plus ouvertement. Quelques jours plus tard, il est devenu évident qu’en plus des problèmes déjà rencontrés, une bonne partie des articles générés par apprentissages machine valaient plagiat, d’articles de CNET lui-même, de Forbes Advisor ou encore de Bankrate. 

Génération rapide et automatisée… de faible qualité ? 

Pour Claire Mathieu, peut-être qu’en fait la démocratisation d’outils comme ChatGPT va faciliter la production d’éléments textuels assez banals, un peu comme les productions de CNET, surtout destinées à booster son référencement sur Google. Le problème n’est pas neuf – pensez aux pop-up, aux bandeaux publicitaires diffusant de fausses pubs aux pieds d’articles au sujet de vraies informations, voire aux trolls automatisés qui pourrissent la conversation en ligne –, il prendrait juste une nouvelle ampleur.

Mais peut-être qu’en retour, continue la mathématicienne, « cela va forcer ceux dont le métier consiste à produire des textes à faire mieux, à augmenter le niveau ». Un peu comme en mathématiques, où « quand on a inventé la calculatrice, ça n’a pas privé les professionnels de travail : ça a modifié la nature de leurs tâches vers plus de sophistication ». 

Des outils pour aider à produire de l’information ? 

Chercheuse en éthique de l’intelligence artificielle au CNRS, Giada Pistilli ne dit rien de très différent quand elle suggère que les LLMs pourraient avoir une véritable utilité pour des usages simples : « ça peut aider à transformer un texte en présentation à bullet points ou, à l’inverse, à formater des idées en un texte complet, voire à les poétiser, pourquoi pas… » Il ne s’agit pas, dans ce cas-là, de donner de l’information, de répondre à une question, mais bien d’aider à présenter la réponse ou l’idée que le producteur humain souhaite formuler. 

Côté médias, les modèles algorithmiques peuvent aussi servir – et servent déjà – à la recherche, à l’enquête, voire à la production de l’information, tant qu’ils accompagnent les journalistes et que leur présence est clairement signalée au lectorat. Aux États-Unis, par exemple, The Associated Press utilise Wordsmith depuis 2014, pour des textes répétitifs et plein de formules convenues –  rapports financiers, résultats sportifs, etc. 

Des LLMs peuvent aussi servir à trier les centaines de questions relatives à la Covid-19 que posent les lecteurs, comme ç’a été fait par la radio publique de Los Angeles KPCC. Chez Reuters, des outils de classification similaires à ceux utilisés dans les banques pour détecter de la fraude à la carte de crédit servent à détecter des événements dignes d’être traités dans le flux des publications déversées sur les réseaux sociaux. Et ainsi de suite.

Entre l’éducation aux médias et l’éducation au numérique

Les effets des modèles d’intelligence artificielles sur l’information sont « un problème d’éducation », pointe l’éthicienne. Encore plus qu’avant, il faut « souligner le besoin d’aller toujours vérifier ses sources ». Il faut voir aussi que « l’assurance avec laquelle un modèle peut formuler une réponse nous pousse à lui faire confiance », alors qu’en réalité, un modèle à la ChatGPT n’a aucune idée du sens des réponses qu’il formule.

Si ces éléments sont expliqués, compris, appris, rien n’empêche, en revanche, d’utiliser des outils algorithmiques pour produire des éléments d’information. Sur LinkedIn et ailleurs en ligne, on s’échange déjà des listes d’outils permettant, au choix, de nettoyer ou de créer des images ou du son, de mettre en place facilement un chatbot, d’améliorer son SEO, de corriger sa grammaire… Toutes sortes d’usages, pas forcément intéressants à faire à la main, mais très pratiques à déléguer à un robot.

17
Avatar de l'auteur

Écrit par Mathilde Saliou

Tiens, en parlant de ça :

#Flock a sa propre vision de l’inclusion

Retour à l’envoyeur

13:39 Flock 15
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #10 : nous contacter et résumé de la semaine

On est déjà à la V2 de Next ?

11:55 27
Autoportrait Sébastien

[Autoportrait] Sébastien Gavois : tribulations d’un pigiste devenu rédac’ chef

Me voilà à poil sur Internet

17:18 Next 16

Sommaire de l'article

Introduction

Le problème des sources et des filtres

Le fiasco CNET : le salut ne viendra (peut-être) pas du bâtonnage automatisé

Génération rapide et automatisée… de faible qualité ? 

Des outils pour aider à produire de l’information ? 

Entre l’éducation aux médias et l’éducation au numérique

#Flock a sa propre vision de l’inclusion

Flock 15
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #10 : nous contacter et résumé de la semaine

27
Autoportrait Sébastien

[Autoportrait] Sébastien Gavois : tribulations d’un pigiste devenu rédac’ chef

Next 16
Logo de StreetPress

Pourquoi le site du média StreetPress a été momentanément inaccessible

Droit 17
Amazon re:Invent

re:Invent 2023 : Amazon lance son assistant Q et plusieurs services IA, dont la génération d’images

IA 10
Un œil symbolisant l'Union européenne, et les dissensions et problèmes afférents

Le Conseil de l’UE tire un bilan du RGPD, les États membres réclament des « outils pratiques »

Droit 4

19 associations européennes de consommateurs portent plainte contre Meta

DroitSocials 15

#LeBrief : Ariane 6 l’été prochain, Nextcloud rachète Roundcube, désinformation via la pub

Chiffre et formules mathématiques sur un tableau

CVSS 4.0 : dur, dur, d’être un expert !

Sécu 13
Une tête de fusée siglée Starlink.

Starlink accessible à Gaza sous contrôle de l’administration israélienne

Web 34
Fibre optique

G-PON, XGS-PON et 50G-PON : jusqu’à 50 Gb/s en fibre optique

HardWeb 52
Photo d'un immeuble troué de part en part

Règlement sur la cyber-résilience : les instances européennes en passe de conclure un accord

DroitSécu 10
lexique IA parodie

AGI, GPAI, modèles de fondation… de quoi on parle ?

IA 10

#LeBrief : logiciels libres scientifiques, fermeture de compte Google, « fabriquer » des femmes pour l’inclusion

livre dématérialisé

Des chercheurs ont élaboré une technique d’extraction des données d’entrainement de ChatGPT

IAScience 3
Un chien avec des lunettes apprend sur une tablette

Devenir expert en sécurité informatique en 3 clics

Sécu 11
Logo ownCloud

ownCloud : faille béante dans les déploiements conteneurisés utilisant graphapi

Sécu 16
Le SoC Graviton4 d’Amazon AWS posé sur une table

Amazon re:invent : SoC Graviton4 (Arm), instance R8g et Trainium2 pour l’IA

Hard 12
Logo Comcybergend

Guéguerre des polices dans le cyber (OFAC et ComCyberMi)

Sécu 10

#LeBrief : faille 0-day dans Chrome, smartphones à Hong Kong, 25 ans de la Dreamcast

Mur d’OVHcloud à Roubaix, avec le logo OVHcloud

OVHcloud Summit 2023 : SecNumCloud, IA et Local Zones

HardWeb 2
algorithmes de la CAF

Transparence, discriminations : les questions soulevées par l’algorithme de la CAF

IASociété 62

Plainte contre l’alternative paiement ou publicité comportementale de Meta

DroitIA 38
Nuage (pour le cloud) avec de la foudre

Économie de la donnée et services de cloud : l’Arcep renforce ses troupes

DroitWeb 0
De vieux ciseaux posés sur une surface en bois

Plus de 60 % des demandes de suppression reçues par Google émanent de Russie

Société 7
Une vieille boussole posée sur un plan en bois

La Commission européenne et Google proposent deux bases de données de fact-checks

DroitWeb 3

#LeBrief : des fichiers Google Drive disparaissent, FreeBSD 14, caméras camouflées, OnePlus 12

Le poing Dev – round 6

Next 151

Produits dangereux sur le web : nouvelles obligations en vue pour les marketplaces

Droit 9
consommation de l'ia

Usages et frugalité : quelle place pour les IA dans la société de demain ?

IA 12

La NASA établit une liaison laser à 16 millions de km, les essais continuent

Science 17
Concept de CPU

Semi-conducteurs : un important accord entre l’Europe et l’Inde

Hard 7

#LeBrief : PS5 Slim en France, Valeo porte plainte contre NVIDIA, pertes publicitaires X/Twitter

next n'a pas de brief le week-end

Le Brief ne travaille pas le week-end.
C'est dur, mais c'est comme ça.
Allez donc dans une forêt lointaine,
Éloignez-vous de ce clavier pour une fois !

Commentaires (17)


pamputt Abonné
Il y a 10 mois

Cet article a-t-il été écrit par ChatGPT ? :mad2: :mad2:


ange_nico Abonné
Il y a 10 mois

Non car selon l’article et la citation



“Si l’on reprend la formulation du youtubeur Monsieur Phi, la différence entre un moteur de recherche et un LLM avec une interface similaire à celle de ChatGPT, c’est que si vous leur posez une question, le premier ne vous donne pas de réponse claire, mais plein de sources pour vous faire votre propre avis, tandis que le second vous donne une réponse (sur un ton parfois très sûr de lui)… mais aucune source pour vérifier son affirmation. “



ChatGPT ne citerait aucune source.



En fait ChatGPT c’est comme certains journalistes utilisant la formulation “selon des sources bien informées” à tout bout de champ
:humour:


Thoscellen Abonné
Il y a 10 mois

ange_nico

Non car selon l’article et la citation

“Si l’on reprend la formulation du youtubeur Monsieur Phi, la différence entre un moteur de recherche et un LLM avec une interface similaire à celle de ChatGPT, c’est que si vous leur posez une question, le premier ne vous donne pas de réponse claire, mais plein de sources pour vous faire votre propre avis, tandis que le second vous donne une réponse (sur un ton parfois très sûr de lui)… mais aucune source pour vérifier son affirmation. “

ChatGPT ne citerait aucune source.

En fait ChatGPT c’est comme certains journalistes utilisant la formulation “selon des sources bien informées” à tout bout de champ :humour:

Alors trouves moi des journalistes qui mettent leur sources dans leur articles, parce que y’a un packet d’article dont j’ai bien envie d’étrangler l’auteur pour ne pas être foutu de donner ses sources … en particulier les articles de loi et les différents codes.


Soriatane Abonné
Il y a 10 mois

Thoscellen

Alors trouves moi des journalistes qui mettent leur sources dans leur articles, parce que y’a un packet d’article dont j’ai bien envie d’étrangler l’auteur pour ne pas être foutu de donner ses sources … en particulier les articles de loi et les différents codes.

+1
Avec l’hyperlien, ce n’est pas si difficile. Mais cet outil est dévoilé dans les articles pour de la redirection trackée vers contenu commerciaux.


Soriatane Abonné
Il y a 10 mois

Thoscellen

Alors trouves moi des journalistes qui mettent leur sources dans leur articles, parce que y’a un packet d’article dont j’ai bien envie d’étrangler l’auteur pour ne pas être foutu de donner ses sources … en particulier les articles de loi et les différents codes.

+1
Avec l’hyperlien, ce n’est pas si difficile. Mais cet outil est DEVOYÉ dans les articles pour de la redirection trackée vers contenu commerciaux.


nico_Lrx
Il y a 10 mois

Thoscellen

Alors trouves moi des journalistes qui mettent leur sources dans leur articles, parce que y’a un packet d’article dont j’ai bien envie d’étrangler l’auteur pour ne pas être foutu de donner ses sources … en particulier les articles de loi et les différents codes.

Thoscellen Abonné
Il y a 10 mois

Une fois sur 2 je l’écris dans une autre langue, alors je suis pas capable de mémoriser la bonne ortho de ce mot :p


wild Abonné
Il y a 10 mois

si vous êtes abonné à Arrêt sur Images, l’émission du 20 janvier était très à propos.Mathilde était une invitée :)


xouboudou Abonné
Il y a 10 mois

La première partie de l’article m’a beaucoup fait penser aux chroniqueurs/experts des plateaux télé qu’on peut voir partir en roue libre et débiter du verbe comme ChatGPT :mad2:


pamputt Abonné
Il y a 10 mois

Je ne peux qu’être d’accord avec le dernier paragraphe. Lorsque Wikipédia est apparu au début des années 2000, il y a eu une levée de boucliers indiquant que l’encyclopédie n’était pas fiable et qu’il fallait systématiquement vérifier les sources. C’était une très bonne nouvelle. Malheureusement, je pense que Wikipédia reste l’un des rares médias pour lequel certain(e)s internautes vérifient les sources. Ça ne s’est donc pas diffusé à l’ensemble des médias ; par exemple combien de personnes remettent en cause une information donnée lors d’un journal télévisé ou par un journal papier tel que Le Monde ?



Peut-être que l’arrivée de ChatGPT permettra de faire une piqûre de rappel sur l’absolue nécessité de ne pas croire tout ce qu’on entends ou lit sans en avoir vérifié la source.


Patatt Abonné
Il y a 10 mois

Comme tout outil, ChatGPT peu être utilisé à des fins néfastes, le niveau moyen des campagnes de phishing risque d’augmenter et de rendre plus compliqué leur détection.



Quand on voie aujourd’hui l’influence sur les réseaux sociaux des ferme de trolls, couplé à la puissance de l’automatisation et de réponse bien plus plausible, ça risque de faire des étincelles.


krvm Abonné
Il y a 10 mois

Les contre-mesures aux effets pervers ne peuvent être techniques quand un robot a un discours plus évolué que beaucoup d’humains.



Un texte, un article, un blog, bientôt une vidéo, bref tout contenu non généré manuellement par un humain, ou sur l’initiative et la supervision active d’un humain, devrait être indiqué explicitement comme tel, et l’absence de mention relever du pénal.



Le risque est de voir tous les médias et réseaux sociaux submergés de machines discutant entre elles, isolant les humains totalement manipulés entre eux.


M.Rhal Abonné
Il y a 10 mois

Quels pourraient être les effets de ChatGPT sur l’information ?
Père Castor…




Ho cette référence :mdr:



* va lire l’article*


Idiogène
Il y a 10 mois

krvm a dit:


Le risque est de voir tous les médias et réseaux sociaux submergés de machines discutant entre elles, isolant les humains totalement manipulés entre eux.




Car ce n’est pas déjà le plan cyber de chaque état par CSP ? :censored:


anagrys Abonné
Il y a 10 mois

Une mise en perspective très intéressante, loin du sensationnalisme qu’on peut trouver par ailleurs. Merci !


vince120 Abonné
Il y a 10 mois

Est-ce que des chercheurs ont déjà étudié le biais de “récursivité” ?



Je m’explique :
jour 1 : publication d’articles écrits par des humains
jour 2 : publication d’articles écrits par une IA sur la base du jour 1
jour 3 : publication d’articles écrits par une IA sur la base des jours 1 et 2
jour 4 : publication d’articles écrits par une IA sur la base des jours 1, 2 et 3



Vu qu’il s’agit d’une approche statistique/probabilistique, est-ce qu’il n’y a pas un risque à terme que l’IA “tourne en rond” à force d’être entrainée majoritairement (uniquement ?) sur ce qu’elle a elle même produit plus tôt ?


Ramaloke Abonné
Il y a 10 mois

C’est déjà le cas sur la quasi-intégralité du paysage médiatiques :



-Philosophe de TV (LEVI, ONFRAY)
-Chroniqueurs
-Editorialistes
-Pigiste (ça dépend des fois mais majoritairement c’est payer à la page…)
-Horoscope
etc.



Tu prends des journées TV de cette année (violence en banlieue, pouvoir d’achat, vilain immigrés etc.) et tu compares avec des journaux des années 60 , tu verras c’est la même chose, parfois à la virgule près.



Tu as des dénonciation que les journaux se copie les uns les autres : 90% des articles viennent de dépêches AFP qui font 3 lignes et qu’ils te sortent en 5 paragraphes rempli de vide (forcément, la source fait 3 lignes), le reste est copié/collé de site en site sans vérification (un truc dit à TF1 se retrouve partout dans la Presse, et 2j après tout le monde se rend compte que c’était faux).



Tous des boulots dont la seule compétence est de faire un texte “vraisemblable”, “bien écrit”, avec du rythme mais AUCUNES compétences sur le sujet en question.



Ils répètent d’ailleurs sempiternellement la même chose de plateau en plateau et d’article en article (les mêmes citations, les mêmes tournures, les même logorrhées), même a plusieurs semaines/mois d’intervalles (alors qu’un avis ça se met à jour avec l’arrivée de nouvelles informations normalement).



On pourrait TOUS les remplacer par un algorithme comme ChatGPT qu’on n’y verrait que du feu.
La véracité n’y perdrait rien (et encore, ChatGPT est filtré/orienté vers le consensuel, donc on y gagnerait certainement), plus de diversité (les sources de ChatGPT étant plus varié, et on peut lui demander de s’exprimer “comme un X”) et ça marche avec n’importe quel sujet, du plus banal au plus pointu, là où on chroniqueur pourrait sécher si il ne comprend pas la question.