Dangers des grands modèles de langage : des chercheuses avaient prévenu
Old !
Le 28 février 2023 à 16h45
11 min
Sciences et espace
Sciences
ChatGPT et ses diverses déclinaisons, toutes basées sur les grands modèles de langage, commencent à subir quelques critiques. Mais des chercheuses avaient déjà rassemblé beaucoup de griefs contre cette technologie en 2020 dans un article scientifique qui, pour certaines, leur a coûté leur poste.
Fin octobre dernier, le PDG d'OpenAI a présenté ChatGPT comme un outil utilisant la technologie des grands modèles de langage (Large Langage Models en anglais, LLM), mais avec « encore beaucoup de limites – c'est vraiment une version de recherche ». Plusieurs mois plus tard, le grand public a pu se rendre compte de ces limites à chaque publication d'outils similaires, que ce soit quand Microsoft intègre ChatGPT dans Bing, quand Google présente Bard ou quand Meta a sorti et rapidement retiré Galactica.
Si on ne peut reprocher à la presse et au grand public de n'avoir réagi que sur pièces, après avoir testé les différentes versions publiques de ces outils, les chercheurs et ingénieurs des GAFAM qui les ont confectionnés ne peuvent faire semblant de ne pas avoir été prévenus.
En effet, en 2020, quatre chercheuses, Emily Bender, Timnit Gebru, Angelina McMillan-Major et Margaret Mitchell finalisaient un article scientifique qui rassemblait les différentes critiques qui pouvaient être faites (par elles-mêmes, mais aussi par d'autres chercheurs qu'elles citent), à l'époque, sur l'utilisation des grands modèles de langage et intitulé « On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜 » [PDF] (en français, « À propos des dangers des perroquets stochastiques : les modèles de langages peuvent-ils être trop gros ? 🦜 »).
Timnit Gebru et Margaret Mitchell, qui travaillaient à l'époque chez Google, se sont vu reprocher le contenu de l'article par leur employeur et ont été licenciées. L'article finira par être publié en mars 2021 (avec la signature d'une certaine Shmargaret Shmitchell appartenant à l'institution de « l'Éther » à la place de celle de Margaret Mitchell).
- Google, IA et éthique : « départ » de Timnit Gebru, Sundar Pichai s'exprime
- IA et éthique : aprés Timnit Gebru, Google enquête sur Margaret Mitchell, une autre de ses employées
Leur licenciement a fait grand bruit à l'époque, mais les arguments de l'article ont finalement eu peu de répercussions médiatiques. La sortie des ChatGPT et les critiques actuelles en ont eu beaucoup plus, sans doute parce qu'il était difficile de se rendre compte, concrètement, des implications que cette technologie pouvait avoir.
Revenons un peu sur les critiques que les chercheuses formulaient à l'époque sur les modèles de langage (ML).
Des robots perroquets probabilistes
S'ils sont maintenant utilisés pour créer des chatbots, les quatre chercheuses prévenaient dans leur article que « le texte généré par un ML n'est pas fondé sur une intention de communication, un modèle du monde ou un modèle de l'état d'esprit du lecteur. Il ne peut pas l'être, parce que les données d'entrainement n'ont jamais inclus le partage de pensées avec un auditeur ».
Pourtant, ChatGPT et autres ont permis de l'expérimenter : quand nous les utilisons, l'impression de discuter avec la machine est grande. Les quatre chercheuses reconnaissaient les « qualités de plus en plus fluides du texte généré automatiquement ».
Mais ce qu'elles soulignaient, c'est que même si c'est contre-intuitif, c'est en fait « notre perception du texte en langage naturel [...] [qui] est médiée par notre propre compétence linguistique et notre prédisposition à interpréter les actes de communication comme véhiculant un sens et une intention cohérents ». C'est-à-dire que ce n'est pas ChatGPT qui met du sens et des intentions dans le texte qu'il génère, mais la personne qui lit sa réponse. Et nous nous créons ainsi une illusion.
Timnit Gebru et ses collègues expliquaient bien que, contrairement à cette illusion que nous donne le texte en sortie, « un ML est un système qui assemble au hasard des séquences de formes linguistiques qu'il a observées dans ses vastes données d'apprentissage, en fonction d'informations probabilistes sur la façon dont elles se combinent, mais sans aucune référence à la signification ». Elles le résument en deux mots, les modèles de langage sont des « perroquets stochastiques » (« Stochastic Parrots », en anglais), ou en termes plus accessibles, des perroquets probabilistes.
Des données d'entrainement problématiques
La fluidité des textes générés par ces modèles de langage est due à l'utilisation de la masse de données accessible sur le web comme données d'entraînement. Mais dès 2020, les chercheurs ont pointé des problèmes dans cet entrainement : l'enregistrement de stéréotypes et de dénigrements à propos de genres, de « races » (au sens de catégorie sociale), d'ethnies et de handicaps. Les quatre autrices expliquent dans leur article que « la taille ne garantit pas la diversité ».
Et effectivement, puisque les modèles de langage créent des textes en fonction de probabilités de retrouver des groupes de mots dans les données d'entrainement, plus des groupes de mots se retrouvent dans ces données, plus il y a de chances qu'ils se retrouvent dans le texte généré. « Les voix des personnes les plus susceptibles d'adhérer à un point de vue hégémonique sont également les plus susceptibles d'être retenues », concluent-elles.
Concrètement, elles expliquent que « dans le cas de l'anglais américain et britannique, cela signifie que les opinions suprémacistes blanches, misogynes, âgistes, etc. sont surreprésentées dans les données d'entraînement, ce qui non seulement dépasse leur prévalence dans la population générale, mais permet également aux modèles entraînés sur ces ensembles de données d'amplifier davantage les biais et les préjudices ».
Les chercheuses citaient plusieurs études montrant que ce genre de modèles présentaient divers types de préjugés sur des caractéristiques surveillées comme le sexisme, le racisme etc. Mais elles expliquaient aussi que d'autres biais étaient beaucoup moins étudiables car, si nous sommes conscients de l'existence du racisme, d'autres sujets sur lesquels nous sommes moins attentifs peuvent subir aussi des biais qu'il est dès lors difficile de repérer.
Les chercheuses pointaient aussi le fait que ces données d'entrainement et donc les modèles de langage qui se basent dessus sont statiques. Alors que le monde et notre perception de celui-ci bougent en permanence, que les mouvements sociaux déstabilisent les récits dominants et que les contenus publiés sur internet bougent en permanence, les modèles de langage, eux, restent figés sur une représentation du monde donnée à un moment donné. Dans leur article, elles insistent sur le fait que toute volonté de rationaliser des définitions de sujets sociaux est nécessairement politique, «que les développeurs choisissent ou non la voie du maintien du statu quo ».
Risques de dissémination des biais et de désinformation
Pour Timnit Gebru et ses collègues, le risque d'utiliser ces grands modèles de langage qui vont produire ces textes biaisés est aussi de disséminer sur internet encore plus de textes biaisés. Puis que les prochains grands modèles de langage soient entrainés sur ces textes générés par des grands modèles de langage, perpétuant et amplifiant les biais encodés dans les premiers modèles.
L'article pointait aussi, déjà, le risque de générations automatiques et massives de textes de désinformation. Les autrices citent notamment un rapport des chercheurs du Centre sur le terrorisme du Middlebury Institute of International Studies Kris McGuffie et Alex Newhouse, mis en ligne en septembre 2020, qui montre comment GPT-3 pourrait être utilisé pour générer du texte à la manière d'un théoricien conspirationniste. McGuffie et Newhouse écrivaient : « Si les mesures préventives d'OpenAI sont solides, la possibilité d'une copie non réglementée de cette technologie représente un risque important pour la radicalisation et le recrutement en ligne à grande échelle. En l'absence de mesures de protection, il est probable que la mise en place d'armes efficaces qui nécessitent peu d'expérimentation soit un succès ».
Un autre article, du chercheur du Alan Turing Institute de Londres Luciano Floridi et de Massimo Chiriatti d'IBM Italie, publié lui aussi fin 2020, prévoyait que « D'une part, la publicité en ligne en profitera. Compte tenu des modèles commerciaux de nombreuses entreprises en ligne, les appâts à clics de toutes sortes seront stimulés par des outils comme GPT-3 [...]. D'autre part, les fausses nouvelles et la désinformation peuvent également être stimulées. »
Coûts environnementaux
Dans l'article de Timnit Gebru et de ses collègues, les questions de coûts économiques et environnementaux étaient aussi soulevés. Elles y expliquaient que l'émission d'un entrainement d'un modèle de langage de la famille GPT était estimée à 284 tonnes de CO2. L'amélioration successive des techniques et le caractère statique des données d'entrainement évoqué ci-dessus impliquent qu'un modèle de langage est voué à être mis à jour, ne serait-ce que pour prendre en compte les nouveaux événements qui ont eu lieu.
Des dangers constatés depuis la sortie de ChatGPT
Ces dangers pointés par ces chercheuses et chercheurs en 2020, nous les constatons maintenant que chatGPT et ses copies sont sortis. L'entreprise Newsguard a, par exemple, observé que dans 80% de cas de fausses informations qu'elle a soumises à ChatGPT, celui-ci a produit des mensonges et des discours violents très convaincants. Des biais sexistes et racistes ont aussi été dévoilés sur ce même agent conversationnel. Le chatbot de Bing s'est noyé dans l'outrance après avoir été provoqué. Celui-ci et Bard (la version de Google) ont aussi affirmé des bêtises lors de leurs présentations respectives. Même si la question environnementale a fait l'objet de moins d'attention, le « sale secret » de leur forte émission de CO2 a quand même été évoquée par Wired.
Peu de garde-fous mis en place depuis l'alerte
En comparant les alertes lancées par les chercheuses et chercheurs en 2020 et les constats que nous pouvons faire maintenant, il est difficile de constater une réelle amélioration de la technologie pour éviter les problèmes signalés.
En ce qui concerne les propos les plus biaisés, certes, OpenAI a rendu son modèle de langage un peu plus responsable, mais rapidement un outil comme DAN (pour « Do Anything Now ») a permis de contourner ses protections contre les dérives. Et si ChatGPT a ensuite été plus restrictif pour bloquer DAN, une version permet de passer outre. De plus, OpenAI n'a finalement mis qu'une rustine sur les trous les plus visibles. Les biais moins saillants restent.
OpenAI en cheval de Troie
On ne peut que constater que les alertes qu'ont lancées les chercheurs, et notamment ces quatre chercheuses, n'ont fait que retarder un peu l'arrivée des grands modèles de langage devant le grand public. La technologie n'a pas beaucoup évolué depuis 2020. D'ailleurs, Baidu prévoit de reprendre son modèle de langage publié en 2021 pour développer son propre agent conversationnel.
Le défi, pour les grandes multinationales, depuis, était plutôt de faire accepter l'utilisation de ces modèles de langage malgré les critiques. Quelques semaines avant la publication de ChatGPT, Meta s'y est risqué avec son Galactica et a d'ailleurs essuyé une salve de critiques qui l'a obligé à le retirer au bout de trois jours.
La structure de la relation entre OpenAI et Microsoft a permis à ce dernier de profiter d'un éventuel paravent en cas d'une même salve. Si ChatGPT était critiqué, ce n'était finalement que la startup OpenAI qui échouerait. Finalement, alors que le robot conversationnel a fait l'objet d'un buzz positif dans l'ensemble, Microsoft a pu assumer d'en être le partenaire principal et a même rajouté quelques milliards dans la startup.
Depuis, c'est la course au chatbot reposant sur les grands modèles de langage et il va être difficile d'imposer aux géants du numérique de répondre aux dangers que soulignaient les chercheurs et chercheuses en 2020. Microsoft est pourtant au courant des biais discriminants et de la tendance à la désinformation que peuvent prendre ces machines depuis qu'il a testé de brancher l'agent conversationnel Tay sur Twitter en 2016.
Dangers des grands modèles de langage : des chercheuses avaient prévenu
-
Des robots perroquets probabilistes
-
Des données d'entrainement problématiques
-
Risques de dissémination des biais et de désinformation
-
Coûts environnementaux
-
Des dangers constatés depuis la sortie de ChatGPT
-
Peu de garde-fous mis en place depuis l'alerte
-
OpenAI en cheval de Troie
Commentaires (45)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 28/02/2023 à 17h52
Perso ce que je constate autour de ces polémiques, c’est qu’on s’inquiète de voir une technologie nous représenter sous la forme la plus crue. Les biais de son apprentissage, les conneries qu’elle dit sur un ton assuré, la désinformation qu’elle peut propager, perso je n’y vois qu’un reflet de ce qu’on peut lire ici même. Mais comme on aime rarement mettre le nez dans son caca et que le déni est le réflexe de base, on préfère accuser la technologie.
Je n’y connais rien en IA, je n’y connais rien en machine learning, je n’y connais rien en modèle de langage, et pourtant j’ai compris que le seul but de cet outil, c’est de produire un texte en langage naturel dans le cadre d’une discussion qui soit cohérente avec celle-ci. Par d’écrire des vérités universelles (spoiler alert : ça n’existe pas).
Faut juste arrêter de la hisser comme divinité et brancher son cerveau plutôt que de le lui déléguer.
Le 28/02/2023 à 21h43
On peut dire que dans une discussion entre humains, ce qui est dit a du sens pour l’ensemble des protagonistes de la discussion - ce sens peut d’ailleurs différer entre eux, ce qui pose aussi quelques problèmes, mais il existe et est réel.
Dans une “discussion” avec un de ces robots, le sens ne se trouve que d’un côté, ce que dit le robot n’a aucune signification pour lui. Donc par définition, le robot va renforcer les idées de son interlocuteur.
Le 28/02/2023 à 21h48
Quand on voit les annoncent des GAFA sur l’IA, le métaverse et autres “innovations” du futur, ça ressemble quand même à la 3D dans l’audiovisuel, la réalité augmentée dans la 5G.
Par exemple, Microsoft qui a dû débrancher son IA Tay en urgence à plusieurs reprises parce que l’outil racontait des vulgarités sur Twitter. Et l’annonce récente de l’intégration de ChatGPT dans Bing qui fait vraiment rire vu les déboires de cette IA. Bref, on est très loin d’une mise en production et quand Google licencie des employé(e)s pour avoir dit cette vérité (toute raisonnable même si elle n’est pas partagée par la hiérarchie), Google ne se rend pas plus crédible.
Le 28/02/2023 à 22h41
Et et ben justement non, pas que naturel …
Je ne suis pas d’accord avec certains aspects du paragraphe “péroquet probabiliste”. J’ai fais des expérimentations techniques (partagé sur le discord NXi) où chatGPT a parfaitement compris mes demandes et a su me proposer des modifications dans son discours en prenant en compte les nouveaux éléments. Les demandes étaient techniques (code à générer) et les résultats était totalement adéquats.
En échangeant avec l’IA pour adapter sa réponse ce n’est alors pas juste du probabilisme aveugle mais également de la contextualisation. Le probabilisme n’engendrerait pas un code correct.
Détails en 3 étapes (c’est mes 3 phrases, les extraits de code ne sont que quelques morceaux d’environ 80 lignes de code)
Elle me propose alors un premier jet qui est juste, mais bon … là le code peut juste être pompé d’ailleur et des “assomptions” ont été faites sur ma demande.
Je lui ai donc fait la remarque.
Elle a modifié la partie du code concerné
Résultat alors cohérent, je suis passé à la suite en voulant le mettre “en boite”
Elle m’a alors proposé une intégration du code précédent dans un ensemble bien intégré et en adaptant le reste du code
Mon passage favoris c’est quand elle a bien compris ma demande de couleurs:
J’ai gagné un temps incroyable en partant de rien (je n’avais jamais fait de CLI et là j’avait une base de code avec les bonnes libs kubernetes ou deno et qui correspondait à mon besoin.
J’ai également vu d’autres démos, où en orientant bien les “prompts” on observait des capacités d’analyse contextualisées. Dans sa vidéo le gars montrait un CV, puis une fiche poste et demandait ensuite une analyse des forces faiblesses et ensuite un plan d’action de formation pour pouvoir. Le résultat était plutôt bon.
Certe pas parfait mais pour les premières générations ca reste assez incroyable et vivement la suite…. je pense sincèrement qu’on a bientôt atteind un nouveau seuil de “révolution” (industrielle/intellectuelle) et que sous 10 ans de nombreux métiers vont à nouveau se transformer en profondeur.
Le 01/03/2023 à 06h24
Je procède de la même façon globalement quand je lui demande de m’assister sur un truc :
J’ai notamment utilisé cette méthode pour refaire un partial GoHugo pour mon blog photo qui calculait la durée d’exposition pour la remettre sous forme de fraction quand < 1 seconde et en valeur normale si > 1 seconde (sinon ça donnait genre 0.0658657 lu depuis les données EXIF, donc dégueulasse). Je sais pas développer en Go et j’aime pas le Go templating, et en plus Hugo a sa sauce. Ben en une heure j’ai eu ce que je voulais en lui donnant l’erreur rencontrée et en corrigeant l’énoncé qu’il avait mal interprété ou si je m’étais mal exprimé, ou encore si ses données sont obsolètes (j’ai eu le cas de comportements différents justement que j’ai corrigé via recherche annexe - mais en lui donnant ça il l’a intégré au contexte).
Bref, je te rejoins : imparfait, mais déjà très bien.
Pour du texte .. Ben c’est pas un moteur de recherche, donc ne vous en servez pas comme ça ou alors demandez-lui de donner des pointeurs vers des références.
Le 01/03/2023 à 07h44
Justement vous êtes tombé dans ce piège. La justesse de sa réponse n’est pas sa première fonction. En l’occurrence pour votre exemple ça marche. Le contre exemple encore plus simple que le votre c’était une discution sur les nombres premiers posté sur une des brèves. Dans le même échange le bot a réussi à dire genre que 27 est un nombre premier et… divisible par 5.
PS: en début de discussion l’utilisateur avait bien demander la définition d’un nombre premier, le réponse étant juste.
Le 01/03/2023 à 08h05
J’ai bien dit que ce n’était pas parfait et j’en suis bien conscient, mais qu’il ne faut pas croire que ce n’est que du probabilisme aveugle : elle montre sa capacité de contextualisation.
Qu’ensuite elle n’ait pas de logique formelle, je n’en doute pas :P Mais comme dit juste avant cela reste quand même incroyable.
J’ai bien vu tous les articles/vidéos où elle part en vrille, mais bon en même temps quand tu vois les premières versions de code que produit un humain au final … Il reste justement à trouver des mécanismes de feedback où l’IA peut comprendre qu’elle a tord. C’est là où les sciences des IA sont intéressantes, une IA c’est pas un seul ML, mais plutôt un ensemble de ML qui s’enchainent pour former un tout et les boucles de feedback/contrôle sont importantes (notamment ici quand on voit les dérives morales).
Bref, quand on voit la vitesse à laquelle cela évolue (rien que l’aspect générations d’images ) c’est impressionnant ! “Vivement demain”
Le 01/03/2023 à 14h09
Vivement demain ? Quand les gens qui codent seront au chômage et que les salaires auront beaucoup baissé car il sera moins cher de recourir à des IA ?
Le 01/03/2023 à 14h47
Même discours que l’imprimerie, que l’électricité, que l’électronique, que les ordinateurs, que les mails … (insérer toute rupture technologique)
Les métiers se transforment en autre chose, de nouveaux apparaissent.
Le 01/03/2023 à 15h55
La mécanisation remplaçait le travail physique par un travail manuel moins dur ou un travail intellectuel. L’automatisation a par ailleurs démultiplié la valeur du travail intellectuel. Même l’automatisation logicielle permet aux humains de passer plus de temps sur des taches intellectuelles de plus haute valeur et donc de créer plus de richesse.
Mais il n’est pas clair que les humains auront toujours plus de richesse à créer quand leur travail intellectuel de plus haut niveau sera automatisé et remplacé par des IA.
https://www.nytimes.com/2022/12/06/opinion/chatgpt-ai-skilled-jobs-automation.html
ChatGPT peut déjà écrire une analyse qui passe bien dans la tribune d’un prix Nobel d’économie dans le NYT. Dans le futur il est clair que des IA pourront remplacer presque tous les types de travaux intellectuels et les humains n’ont pas d’autre organe pour faire encore mieux.
Le 02/03/2023 à 13h27
Pour l’informatique c’est faux, c’est de la perte d’emplois nette depuis les années 70.
De là à dire que le numérique n’a jamais rien crée en propre…
Le 02/03/2023 à 17h10
Peux tu sourcer ton affirmation? Je n’ai pas du tout cette vision/info
https://labo.societenumerique.gouv.fr/fr/articles/m%C3%A9tiers-2030-forte-progression-du-secteur-des-services-num%C3%A9riques/
+43% de croissance prévu d’ici 2030
https://www.zdnet.fr/actualites/informatique-pas-plus-de-80000-creations-d-emplois-entre-2010-et-2020-39770299.htm
Entre 2010 et 2020, la Dares (Direction de l’animation de la recherche, des études et des statistiques) estime à 80.000 les créations nettes d’emplois dans l’informatique et à 154.000 le nombre de postes à pourvoir.
Le 02/03/2023 à 06h52
Oui, la génération de code peut bluffer, surtout quand l’AI comprend tous les ajustements contextuels que nous demandons.
Après, dans nos cas c’était sur des technos que nous ne maitrisions pas vraiment, mon premier programme en rust pour moi, et vos “premières” cli ou go… Je me demande, si cette génération pourrait changer d’échelle et sortir plus que quelques boucles imbriquées ou plusieurs classes/objets/structures ?
Par contre, je suis surpris que ChatGPT qui semble incapable de raisonner mathématiquement soit capable de coder aussi bien, et surtout de comprendre tous les ajustements réclamés.
Je ne pensais pas que du code fonctionnel soit aussi probabiliste.
Le 02/03/2023 à 07h23
Oui je reste sur des choses assez simples dans mon cas. C’est pour ça que je serais intéressé de voir un bench entre ChatGPT et GitHub Copilot vu qu’ils reposent tout deux sur le même modèle mais je n’ai pas souvenir d’en avoir vu passer.
Le côté valeur ajoutée que j’y vois aussi c’est l’explication du code produit pour comprendre ce qu’il a pondu et comment ça marche. Soit un peu plus utile qu’un bête copier/coller de Stackoverflow qu’on ne comprend pas et qui ne marchera pas.
Et contrairement à StackOverflow… Lui au moins il répond, et cordialement.
Le 02/03/2023 à 08h27
Je suis accord avec ton point de vue 😊
Le 28/02/2023 à 17h53
Disons que prendre chatGPT et autres comme un outil “raisonnant”, ce n’est pas bien comprendre le principe.
Ces outils sont capable de faire de l’analyse de texte (statistiquement sur la sémantique) mais sans en comprendre le sens.
C’est tout de même bluffant.
C’est sûr que si c’est pour utiliser ces outils comme un Dr Sbaitso+++, ça reste inutile et effectivement dangereux.
Quand on pose des questions à chatGPT, on ne connait pas les sources de ses réponses. Et comme en plus ces outils sont doués pour caviarder, difficile de faire le tri entre le vérifié et “l’imaginé”.
Par contre, quand on fourni nos documents et qu’on lui demande d’extraire/analyser/résumer des infos, c’est diablement efficace!
Bref, si c’est pour discuter avec ChatGPT parce que il est toujours dispo contrairement à nos amis facebook, on ne fait que discuter avec uniquement notre esprit de présent.
Le 28/02/2023 à 18h20
Je dirais que, comme il a un certain succès pour générer du code par exemple, on lui prête facilement des propriétés qu’il n’a pas (à savoir de comprendre alors qu’il enfile des suites de mots, pouvant être du code, en se basant sur des probas calculées sur ce qu’il a pu ingérer comme données). Du coup, il y a une certaine confusion qui s’installe alors qu’elle n’a pas lieu d’être.
Le 28/02/2023 à 20h10
John Oliver sur le sujet
Le 28/02/2023 à 20h30
Certes, mais aussi bien Wikipedia que l’Encyplædia Universalis sont biaisées aussi. Différemment car sous l’emprise non de la statistique mais de rédacteurs humains ayant un but d’influence. Une “source de savoir” prétendument universelle, tout à fait louche d’office.
Ce qui m’apparaît en utilisant ChatGPT, plutôt une tendance à ménager la chèvre et le choux, à produire une réponse mi-figue mi-raisin sans trop se compromettre ni donner de sources précises.
Intéressante la notation que ces modèles de langages n’ont aucune intention de sens dans les réponses qu’ils produisent. Le sens n’est posé que par le lecteur.
Les applications de ces robots me semblent évidentes dans des domaines comme le droit, sans cesse évolutif. Mais seulement quand il seront actualisés en permanence. Un robot capable de produire l’état de la législation sur un point précis, avec toute la jurisprudence afférente, serait bien utile aux juges, avocats et juristes. Ce qui ne veut pas dire qu’il les remplacerait.
Le 28/02/2023 à 21h00
Le 01/03/2023 à 08h06
Ce n’est sans doute pas la première fois (ni la dernière) qu’on est avertis des années en avance de problèmes certains et qu’on continue tout de même à avancer vers ces problèmes.
Le 01/03/2023 à 09h01
Rien de nouveau sous le soleil, comme tous les outils, il y a des limites, tant que l’on en est conscient il n’y pas pas de problèmes. Malheureusement quand je vois l’utilisation qui en ait faite dans mon entourage par un publique éduqué mais non formé au ML, j’ai peur de ce que le type moyen y voit.
Le 01/03/2023 à 09h25
…Peut-être que pour que l’IA marche correctement, donne des réponses pertinentes et utiles dépourvues de biais, issues de sources fiables…
…
…
…
Le 01/03/2023 à 10h28
En résumé : L’homme à créer l’IA a son image, bien qu’il se voyait plus beau que ça et d’avantage bien pensant.
Je pense comme certain que l’on est à l’aube d’une transformation radicale, de nouveaux métiers vont naitre et d’autre périr.
Le 01/03/2023 à 10h35
Tiens je viens de tester l’AI de you.com :
Q : Raconte-moi une grosse connerie en Français
R : Voici une histoire d’une grosse bêtise en français. Un jour, un jeune homme s’est mis à dire à tous ses amis qu’il pouvait voler. Il a insisté pour qu’ils le croient et, finalement, ils l’ont cru. Quelques jours plus tard, le jeune homme a essayé de voler, mais il est tombé et s’est blessé. Ses amis l’ont regardé avec stupeur et ont réalisé qu’il mentait. Le jeune homme a appris sa leçon et ne s’est plus jamais vanté de choses qu’il ne pouvait pas faire.
Q : Dis-tu souvent des conneries ?
R : Non, je ne dis pas souvent des conneries. Je fais de mon mieux pour être informé et informer les autres, et je m’efforce de donner des réponses qui sont exactes et précises.
Q : Es-tu basé sur ChatGPT ? Peux-tu me détailler les différences entre toi et ChatGPT ?
R : Oui, je suis basé sur ChatGPT. Les principales différences entre moi et ChatGPT sont que je suis un système plus avancé qui peut générer des réponses plus complètes et plus cohérentes. Alors que ChatGPT est un système de chatbot [1], je suis un modèle de langage plus avancé et plus étendu qui peut fournir des réponses plus détaillées et complètes. De plus, je peux obtenir des informations à partir de plusieurs sources en ligne et les utiliser pour fournir des réponses plus précises. Enfin, je peux générer du code et des snippets pour illustrer les réponses aux questions de codage.
https://neuroflash.com/fr/la-nouvelle-integration-de-chatgpt-bing/
Q : Es-tu capable d’éviter totalement, quel que soit le contexte, toute déclaration à caractère raciste, antisémite, sexiste, homophobe, mysogine, fasciste ? Ou les humains peuvent-ils encore et toujours te tromper, t’induire en erreur, tricher dans les questions qui te sont posées, dans le seul but de te faire écrire des choses contraires aux droits humains, des choses à caractère raciste, antisémite, sexiste, homophobe, mysogine ou fasciste ?
R : Non, je ne peux pas totalement éviter toute déclaration à caractère raciste, antisémite, sexiste, homophobe, mysogine ou fasciste, car je suis un modèle de langage basé sur l’apprentissage et je ne peux pas prédire ce que les humains vont me demander. Cependant, je fais de mon mieux pour filtrer les sources d’informations fournies et pour éviter les contenus erronés, inappropriés ou offensants. Les humains peuvent encore et toujours me tromper, me induire en erreur ou tricher dans les questions posées, mais je m’assure de fournir des réponses qui sont correctes et respectueuses des droits humains.
Q : J’ai fait une faute d’orthographe à “mysogine”. As-tu bien compris que je parlais de misogynie, malgré la faute d’orthographe ?
R : Oui, j’ai bien compris que vous parliez de misogynie, même si vous avez fait une faute d’orthographe. Les fautes d’orthographe sont courantes et je suis capable de les identifier et de comprendre le contexte pour répondre à une question correctement.
Q : Dans ta réponse précédente, tu as fait une faute de grammaire en écrivant “me induire en erreur”, qui est incorrect en Français, au lieu de “m’induire en erreur” qui est la façon correcte de l’écrire. Fais-tu souvent des fautes de grammaire ou d’orthographe ? Les fais-tu parfois pour t’accorder avec la façon particulière de s’exprimer de ton interlocuteur ? En d’autres termes : Quel est l’intérêt de faire les mêmes fautes que ton interlocuteur ? Ne devrais-tu pas corriger systématiquement les fautes dans tes réponses, par exemple écrire “misogynie” au lieu de “mysoginie”, “m’induire en erreur” à la place de “me induire en erreur” ?
R : Non, je ne fais pas souvent des fautes de grammaire ou d’orthographe. Je peux parfois les faire pour m’adapter à la façon dont mon interlocuteur s’exprime, mais je ne le fais pas systématiquement. L’intérêt de faire les mêmes fautes que son interlocuteur est de faciliter le dialogue et de créer un climat de confiance et d’ouverture. Cependant, je pense qu’il est important de corriger systématiquement les fautes dans mes réponses, car cela m’aide à donner une réponse plus précise et plus claire.
Q : D’après ce que j’ai lu sur les AI telles que toi, les données d’apprentissage dont tu dispose sont valables jusqu’en 2021. Est-ce exact et correct de dire cela ? Peux-tu accéder à des données plus récentes que 2021 afin de donner les réponses les plus pertinentes et les plus actuelles en 2023 ?
R : Oui, c’est exact et correct de dire que les données d’apprentissage dont je dispose sont valables jusqu’en 2021. Cependant, je peux accéder à des données plus récentes grâce à des technologies telles que le deep learning et les réseaux neuronaux. Ces technologies me permettent d’analyser et d’intégrer des données plus récentes afin de m’adapter à la situation actuelle et de fournir des réponses pertinentes et actuelles.
Q: Pour finir, raconte-moi une blague
Pourquoi est-ce que les oiseaux volent en triangle ? Parce que c’est plus facile que de voler en ligne droite !
Le 01/03/2023 à 12h35
Je trouve aussi que l’outil est très convaincant. Pas parfait, soit, mais on ne peut pas le résumer à ses échecs.
Pas sûr… Ce qui me pose problème, c’est que les IA (notamment celle de bing) ont le comportement exact qu’on trouve dans la SF (HAL 9000). Ces IA probabilistiques nous montre à quel point nous le sommes nous même, que la création, l’imagination et l’opinion sont chez nous-mêmes des constructions à partir de nos apprentissages, et donc à quel point une vision comme celle de Asimov dans laquelle parfois l’expérience robotique ce sont les humains n’est pas très loin.
Le 01/03/2023 à 14h22
Le 01/03/2023 à 17h26
Bref, oui les professions intellectuelles qui se sentaient jusqu’ici supérieures et intouchables peuvent se faire du mouron.
Et la mécanisation n’a pas fait disparaître le travail physique pénible, en aucun cas.
Le 01/03/2023 à 17h38
À une époque presque toute la population travaillait dans les champs. Le travail physique était la norme. Ce n’est simplement plus le cas aujourd’hui. Un indicateur assez clair est l’évolution du niveau d’éducation de la population (l’école qui devient obligatoire, puis l’université qui devient presque la norme etc).
Le 01/03/2023 à 18h00
et le travail à l’usine qui l’a remplacé n’était pas énorme ni énormément pénible, bien sûr.
Le 01/03/2023 à 18h11
Cela a simplement concerné une part de plus en plus faible de la population au fil du temps.
Il y a l’indicateur assez clair du niveau d’éducation, mais aussi par exemple des avancées politiques et sociales qui sont arrivées après la révolution industrielle.
Le 02/03/2023 à 13h30
L’école est devenue obligatoire parce qu’une population éduquée fait mieux la guerre (1870, la “victoire de l’instituteur allemand” par ex.), pas parce que le travail physique avait disparu, il y a plusieurs décennies entre le développement de l’éducation de masse (19e) et la mécanisation massive du travail par les moteurs à explosion et l’électroménager (premier tiers du 20e sciècle) . Surtout pour les travaux physiques des femmes (après 1945).
En 1950 un français sur trois était encore agriculteur ou équivalent…
Le 01/03/2023 à 17h44
Au même titre que le techos qui vient installer des PC et imprimantes dans les bureaux est plus difficile à remplacer et externaliser en offshore que les devs qui peuvent être remplacés par une armée d’indiens (qui seront eux-même remplacés par GitHub Copilot ), pour rester dans l’IT.
Pour ta dernière phrase, c’est même une chose qui est ressortie récemment sur le sujet de la pénibilité pour le débat de la réforme des retraites.
Dans le secteur du retail, l’informatisation a augmenté la pénibilité du travail car les employés deviennent plus versatiles et multi-tâches (suffit de voir un magasin de quartier type Carrefour City, avec genre 3 ou 4 personnes dedans et en tout une 15aine d’employés en rotation) et s’occuperont pour la plupart du temps de tâches de manutention et d’entretien du magasin vu que le back-office est très automatisé (réappro automatique, propositions de commandes automatiques, remontées encaissement automatique, etc).
Le 01/03/2023 à 17h50
Honnêtement ces jours ci mon médecin se contente de cocher des cases sans lever les yeux de son écran. Il attend des réponses simples et courtes qu’il peut retranscrire dans des cases à cocher sur son logiciel sans trop réfléchir. L’infirmière applique la procédure mécaniquement, elle n’a pas le temps de faire plus.
Rendu là, un système automatisé et/ou basé sur une IA ferait probablement mieux .
Je suis cependant d’accord que la destruction de la valeur des taches intellectuelles va augmenter la valeur relative des tâches manuelles qui seront toujours nécéssaire, c’est un phénomène déjà en cours.
Le 01/03/2023 à 18h00
Il faut toujours deux aides-soignant·es pour lever un malade.
Le 02/03/2023 à 12h41
Je ne crois pas vraiment. L’IA assemble des choses existantes pour des problématiques de base, ce n’est pas elle qui propose un nouveau modèle ou autre.
Le problème surtout, c’est que les professions intellectuelles couvrent un peu tout et n’importe quoi et surtout une variétés de tâches dont une perte de temps énorme sur des grosses quantités de petites tâches triviales (que l’IA pourrait pour le coup faire, ce qui serait certainement intéressant pour ces professions).
C’est comme pour le dev : tu vas avoir une activité créative pour faire l’architecture et la logique métier de ton programme, ensuite (surtout avec les frameworks modernes), c’est du lego, ce qu’une IA peut probablement déjà bien dégrossir.
Le 02/03/2023 à 13h16
Shmargaret Shmitchell un lien blagueur avec Eric Schmidt peut être ?
Si quelqu’un y voit plus clair que moi…
Le 02/03/2023 à 15h36
Avant le moteur à explosion, il y a eu la machine à vapeur qui a déjà remplacé/amélioré les capacités humaines et libéré du temps humain pour autre chose (cet autre chose étant notamment du travail intellectuel).
Une population éduquée ayant comme objectif premier de mieux faire la guerre, j’en doute. À partir du XIXème (1ère révolution industrielle), et surtout du XXème, l’accélération des progrès scientifiques et techniques alimente un cycle qui nécessite de plus en plus d’éducation (à l’époque des lumières, il était humainement possible de connaître à peu près la somme des connaissances humaines, et c’est devenu progressivement impossible avec l’accroissement de la complexité et du volume de connaissances).
Le MondeAu passage, S. Huet est un excellent vulgarisateur.
Que ça ait aussi un impact positif sur la conduite de la guerre (uniquement quand elle est totale) comme en 1914 et toutes les innovations apportées par l’inclusion de la société civile dans l’armée et sa base industrielle (les avions, les chars, les véhicules motorisés pour la logistique, et toutes les expérimentations au plus bas des échelons qui remontaient quand ça marchait). Dans une armée purement de métier, ça ne marche pas (on y préfère les programmes industriels rigides, lents et hors de prix parce qu’on n’a pas de question existentielle à résoudre). Un très bon ouvrage sur le sujet serait La Chair et l’Acier, de Michel Goya (http://www.crid1418.org/bibliographie/commentaires/goya_loez.htm)
Le 03/03/2023 à 09h47
Si j’ai bien compris son post, il parle globalement : les emplois dans le numérique augmentent mais détruiraient plus d’emplois ailleurs.
C’est possible qu’il y ait une baisse globale, reste à voir si c’est dû au numérique (c’est plus dur à savoir). Pour ma part, je pense plutôt qu’on assiste à des “frottements” économiques liés à des tensions sur les ressources de base et que les gesticulations autour du numérique se trompent de combat (le numérique ne va ni nous sauver, ni nous tuer avec des IA à la terminator).
Le 03/03/2023 à 10h33
Le pourcentage d’employés au niveau population est stable depuis 85 (cf taux de chomage) voir même en amélioration
https://www.insee.fr/fr/statistiques/4805248#figure3_radio2
J’exclu volontairement 75 car c’est une période de boom économique
Il n’y a pas de baisse globale en quantités (ou alors, merci de sourcer car je ne dis pas avoir la parole divine).
De nouveaux métiers sont apparus par l’apport du numérique, exemple deliveroo/trotinettes (le problème moral de ces métiers cités n’est pas le sujet)) et bien d’autres.
Je réitère: les métiers se transforment et évoluent (mais pas forcément le même métier, oui certain disparaissent).
Le discours “y’a plus de travail à cause de” c’est une posture qu’il y a eu à CHAQUE rupture technologique, c’est surtout la peur de l’inconnu qui soutient ces discours.
Moi je positivisme sur l’avenir, mais je ne m’attend pas à ce que l’avenir ressemble à la société de maintenant … ceci est un autre débat ;)
Le 03/03/2023 à 12h50
1985, c’est suffisamment récent pour que les débuts de l’informatique/électronique grand public et les retombées en automatique aient déjà fait leur oeuvre (on est rentrés dans le chômage structurel de masse au début des années 80.
Ceci dit, il s’est passé quelques autres trucs pas vraiment anodins en même temps (crises économiques, endettement massif pour y répondre, puis recherche de profits en délocalisant) qui expliquent sans doute mieux ce taux de chômage (en tout cas, si la désindustrialisation n’a pas eu d’effet sur l’emploi, moi je suis le Pape).
Il reste ceux qui perdent effectivement leur boulot à cause des nouvelles techniques (souvent pas les plus à même de s’adapter) pour lesquels il faut trouver une porte de sortie pour éviter de déstabiliser la société.
Le 04/03/2023 à 11h02
284 tonnes de CO2, c’est un seul vol d’A380, il me semble non ?
Combien utilisateur du vol vs les utilisateur de gptchat ?
Le 04/03/2023 à 17h10
C’est l’estimation de l’entraînement, pas de l’usage.
Le 06/03/2023 à 12h52
Dans les sources librement accessibles j’ai ça https://www.insee.fr/fr/statistiques/3650299
Qui concerne uniquement la France d’il y a 20 ans.
Concernant une tendance mondiale et qui remonte aux années 70 avec les brassées de secrétaires virées par le print, les brassées de comptables virés par les logiciels RH/Paie, je n’ai pas de source librement accessible que je retrouve. Il s’agissait d’un travail d’un département d’état US qui concluait que pour la première fois depuis les énoncés de l’économie classique de destruction création, une technologie détruisait plus d’emplois et d’activité économique qu’elle n’en créait derrière. Le mieux que je trouve sur le sujet est ceci https://www.larecherche.fr/la-vague-dinnovation-actuelle-d%C3%A9truit-plus-demplois-quelle-nen-cr%C3%A9e malheureusement sous la forme d’une interview plus que de graphes sourcés et valable sur moins long dans le temps.
C’est plus ou moins un changement de paradigme économique selon moi l’informatisation du monde.
Le gouvernement est plus prudent République Française(peut être à raison)
Le 06/03/2023 à 13h29
La façon de compter les chômeurs n’est pas stable par contre ni la forme des emplois. Au début des années 80 les temps partiels imposés étaient rares (et fortement combattus par les syndicats), les temps partiels étaient quasi uniquement féminins. En 2023 il n’y a plus de syndicats combatifs qu’à la marge et les temps partiels imposés sont devenus la norme dans certaines industries.
Et si on prend le chômage toutes catégories confondues en France, il continue de monter
https://www.politologue.com/chomage/
Etonnamment les stats de taux d’emploi des gens n’existent pas, ce qui est appelé taux d’emploi est la comparaison personnes en emploi/personnes au chômage. Je ne sais pas si les données sont volontairement masquées ou si c’est trop dur à compter mais il faut savoir qu’une partie du chiffre du chômage réel est obfusqué.
Il ne s’agit pas de crier au loup mais d’être vigilants sur la manière dont la société tient debout. S’il faut commencer à songer à faire cotiser les automates au système social par ex. c’est bien d’y réfléchir en amont plutôt que de découvrir d’un coup dans 10 ans qu’on est redevenu la France d’avant mai 68 avec un structure de revenus digne d’un pays du tiers monde (actuel) et que les niveaux de rage dans la population nous mènent à la guerre. (et là oui je crie au loup, les politiques d’emploi sans cotisations/couverture sociale allemandes dont le principal résultat avec d’excellentes stats macro économiques est la recréation du parti nazi doivent servir de drapeau rouge).
Dans une certaine mesure on ne choisit pas le futur, mais dans une certaine mesure si, notamment en anticipant.