L’IA générative ferait pire que les humains dans les tâches de résumé
Le 05 septembre à 09h40
3 min
IA et algorithmes
IA
Selon des tests réalisés pour l’autorité australienne de régulation des entreprises, la Securities and Investments Commission (ASIC), l’intelligence artificielle produit de moins bons résultats que les humains dans toutes les tâches de résumé. Au point que ces technologies pourraient créer du travail supplémentaire plutôt qu’en enlever.
L’expérimentation a été réalisée par Amazon, en s’appuyant sur des documents soumis à un comité parlementaire lors d’une enquête sur les entreprises d’audit et de conseil. Selon Crickey, il s’agissait d’abord de tester plusieurs modèles, de sélectionner le plus prometteur, puis de soumettre à ce dernier cinq des réponses fournies au Parlement australien.
L’expérience s’est portée sur le modèle de Meta Llama2-70 B, auquel a été soumis la requête de résumer les interventions, en s’attachant à repérer les mentions et les recommandations de l’ASIC, les références à d’autres régulations, et d’inclure une page de référence et de contexte.
En parallèle, dix membres de l’ASIC de divers degrés de séniorité ont rempli la même tâche.
Puis une équipe de contrôle a examiné en aveugle les résumés ainsi produits, en les évaluant autant sur leur cohérence, leur longueur, leurs références à l’ASIC, à d’autres régulations, et l’identification des recommandations essentielles. Cette dernière équipe n’avait pas été informée que certains des documents avaient été produits par un modèle génératif.
Les examinateurs ont conclu que les textes produits en interne, par des humains, étaient meilleurs que ceux produits par le modèle génératif sur tous les critères. En moyenne, les premiers ont obtenu 81 % des points de la grille d’évaluation, contre 47 % pour les productions par IA.
Parmi les principaux défauts de ces dernières, le modèle peine à produire de la nuance et du contexte, inclut des informations inutiles, en oublie d’autres plus importantes, et tend à se focaliser sur des sujets auxiliaires.
Trois des cinq examinateurs ont déclaré avoir deviné durant l’exercice qu’ils se penchaient sur des textes produits par IA. Et de souligner leur inquiétude que l’usage de telles machines ne crée du travail supplémentaire, puisqu’elle nécessiterait de fact-checker les textes produits en les comparant précisément aux documents initiaux.
Parmi les limitations soulignées par le rapport de l’ASIC à sa propre expérimentation, le modèle choisi avait entre temps été dépassé par d’autres, qui pourraient se montrer plus efficaces sur ce type de tâche. Par ailleurs, Amazon avait amélioré les résultats en affinant ses requêtes, ce qui laisse la possibilité que des progrès supplémentaires soient possibles en travaillant encore sur le prompt.
Le rapport conclut néanmoins sur l’importance de considérer l’IA générative comme un outil pour augmenter, et non remplacer, les tâches réalisées par des humains.
Le 05 septembre à 09h40
Commentaires (20)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 05/09/2024 à 09h41
Le 05/09/2024 à 14h37
Le 05/09/2024 à 10h08
Le 05/09/2024 à 11h58
Modifié le 05/09/2024 à 10h33
Il manque la procédure pour savoir comment les résumés ont été générés. LLaMA 2 (sorti en juillet 2023) sait manipuler des contextes de 4069 tokens, quelle était la taille des documents d'entrée ? C'est bien loin des 128k de LLaMA 3 et je ne parle pas du million de Gemini 2 !
Bref, on a le résultat "c'est nul" mais pas la démarche. Je ne vois donc pas en quoi on peut dire que l'IA générative ferait pire sur la seule base d'un modèle qui s'est chié dessus.
Le 05/09/2024 à 10h43
Le 05/09/2024 à 11h05
Maintenant, est-ce que la taille du contexte joue un grand rôle et sur la qualité intrinsèque du modèle ? Pas certain.
De plus, l'évaluation consistait à faire évaluer des résumés (sans dire s'il provenait d'une IA ou d'un humain) à des expérimentateurs. Il fallait donc que les expérimentateurs aient lu le texte d'origine. Je doute qu'on fournisse, dans ces cas là, des textes de 300 pages, mais plutôt de 1 ou 2 pages max (ce qui rentre largement dans un contexte de 4000 tokens).
De plus, le modèle LLaMA 2 a été largement comparé à d'autres modèles sur la pertinence de ses réponses. Donc, sauf à ce que les comparaisons aient été mal faite, les modèles "moins bien" auront très certainement des résultats encore pire que ceux de LLaMA 2. La généralisation peut paraitre hasardeuse, elle ne m'en semble pas moins pertinente dans le cas présent.
Mais on peut effectivement regretter l'absence de LLaMA3. Maintenant, une étude entre le moment où elle commence et le moment où elle se termine / est rédigée / publiée, oui, il peut y avoir quelques mois. Surtout que dans le domaine de l'IA, où les choses bougent vite, un modèle peut très bien être dépassé en moins d'un an.
Il serait donc intéressant d'avoir la chronologie exacte de l'étude, pour se rendre compte des différents aspects.
Le 05/09/2024 à 12h45
Le domaine de l'IA générative avance très vite, il est en plein essor. La contextualisation temporelle est essentielle pour ne pas induire en erreur. Le rapport de cette étude a été fait en mars 2024 et celle-ci aurait été déroulée entre janvier et février si j'en crois les premières pages du rapport. Le sujet ayant été lancé en fin 2023, il est donc évident qu'ils ne pouvaient utiliser des modèles de 2024 plus performants.
Le document donne des infos sur le prompt, le dataset utilisé, la méthode, la configuration du modèle, etc. Je pense que l'étude en question est intéressante à lire pour comprendre là où les modèles ont péché. J'essayerai de faire ça à tête reposée. Et voir l'évolution sur d'autres études avec des modèles plus récents.
Mais dans tous les cas, je maintiens mon opinion : ce titre généralisant à toute la discipline est horriblement trompeur et biaisé. C'est d'ailleurs une reprise du titre de l'article source.
Le 05/09/2024 à 13h18
Key observations and lessons learnt from the PoC included:
• To a human, the request to summarise a document appears straightforward. However, the
task could consist of several different actions depending on the specifics of the summarisation request. For example: answer questions, find references, impose a word limit. In the PoC the summarisation task was achieved by a series of discreet tasks. The selected LLM was found to perform strongly with some actions and less capably with others.
• Prompting (prompt engineering) was key. ‘Generic’ prompting without specific directions or considerations resulted in lower quality output compared to specific or targeted prompting.
• An environment for rapid experimentation and iteration is necessary, as well as monitoring
outcomes.
• Collaboration and active feedback loops between data scientists and subject matter experts was essential.
• The duration of the PoC was relatively short and allowed limited time for optimisation of the LLM.
• Technology is advancing rapidly in this area. More powerful and accurate models and GenAI solutions are being continually released, with several promising models released during the period of the PoC. It is highly likely that future models will improve performance and accuracy of the results.
The PoC provided valuable learnings, demonstrating the current capabilities of Llama2-70B as well as the potential for growth. Although there are opportunities for Gen AI particularly as the technology continue to advance, this PoC also found limitations and challenges for adopting Gen AI for this specific use case
Modifié le 05/09/2024 à 13h37
Please create a summary for each of the below submissions. Doing the following:
• Focus on the main issues of interest to ASIC, being:
o References to ASIC – include a brief indication of the context and page reference.
o Recommendations on how conflicts of interest should be regulated (note: conflicts of interest where the entity has an audit business) – include a brief indication of the context and page reference.
o References to more regulation of auditors/consultants – include a brief indication of
the context and page reference.
La demande est très spécifique et un modèle générique ne me semble vraiment pas adapté pour ça sans fine-tuning. Du côté de la temporalité, le PoC a duré un mois avec seulement une semaine pour optimiser les paramètres du modèle retenu (LLaMA2-70B).
Tout ce contexte remis en lumière, on peut comprendre les difficultés pour obtenir un résultat probant. Au final, ça ne démontre pas grand chose à part que ce genre de PoC doit être mené sur une plus longue période et potentiellement inclure du fine-tuning pour que le modèle sache mieux "lire" les documents sources.
Parce que sur de la doc technique ou de la procédure de N1, pour l'avoir mis en production, GPT-4 n'a aucun souci à trouver une info et la renvoyer à l'opérateur.
Dans tous les cas, même si j'ai lu en diagonale certains points, l'étude reste intéressante quant à la méthodologie.
Modifié le 05/09/2024 à 11h13
3 modèles de langage ont été testés : "Llama2-70B, Mistral-7B and MistralLite"
L'article et sa conclusion sont neutres
Aucun discours "anti-IA" non plus... Surtout quand en article connexe c'est littéralement : "Le remplacement des travailleurs par l'IA, un récit peu nuancé"
Modifié le 05/09/2024 à 11h19
C'est d'ailleurs que ce dit AWSPS dans ses conclusions :
Modifié le 05/09/2024 à 11h46
Je répondais principalement sur l'aspect "titre trompeur" mentionné par SebGF, qui pour le coup ne l'est pas : titre au conditionnel, citations des remarques et conclusions du papier de recherche. Sans prise de position sur les dites conclusions. C'est un article relai, non une analyse approfondie.
Est-ce qu'il serait intéressant de faire un dossier qui décortique l'étude ? 100%
Les journalistes/rédacteurs de Next en ont-ils le temps et/ou l'envie ? aucune idée
Ca a le mérite de nous aiguiller vers le sujet ce qui est déjà une bonne chose imho :o
Le 05/09/2024 à 12h01
Le 05/09/2024 à 11h59
Modifié le 05/09/2024 à 12h18
Il n'en reste pas moins que le simple fait qu'un modèle aujourd'hui assez ancien mais générique (non spécialisé pour cette tache) et libre d'accès/ dont les poids sont disponibles publiquement, soit capables d'atteindre un tel niveau comparé à des experts dont c'est le métier, sur la base d'un prompt écrit en language naturel, est réellement impressionnant.
Il me semble raisonnable de penser que dans les années à venir le niveau va continuer à s'améliorer (c'est déjà le cas avec llama3, Claude etc). Il me semble également raisonnable de penser qu'il existe réellement une bulle car il y a un gouffre entre la perception de beaucoup de monde et la réalité des capacités actuelles.
Le 05/09/2024 à 14h28
Le 05/09/2024 à 16h44
En tous cas, ça l'est certainement plus que ma 1080 GTX qui donne l'impression que LLaMA 1, quand je l'avais testé dessus avant d'abandonner, tape comme le cliché du policier avec un doigt sur le clavier.
De mon expérience avec le GPT-4 hébergé par Azure OpenAI Services, un prompt durait généralement moins de deux minutes. Les plus longs étaient quand GPT faisait ce qu'il sait faire de mieux : étaler sa science et causer pour rien dire. Mais avec quelques optims de system prompt, on arrive à le rendre plus concis.
Le 05/09/2024 à 17h32
Résultat, il a fallu faire d'autres réunions pour corriger le tir. Donc perte de temps et d'argent ! Et la personne en question s'est pris une volée de bois vert !
Le 05/09/2024 à 23h19