Connexion
Abonnez-vous

L’IA générative ferait pire que les humains dans les tâches de résumé

Le 05 septembre 2024 à 09h40

Selon des tests réalisés pour l’autorité australienne de régulation des entreprises, la Securities and Investments Commission (ASIC), l’intelligence artificielle produit de moins bons résultats que les humains dans toutes les tâches de résumé. Au point que ces technologies pourraient créer du travail supplémentaire plutôt qu’en enlever.

L’expérimentation a été réalisée par Amazon, en s’appuyant sur des documents soumis à un comité parlementaire lors d’une enquête sur les entreprises d’audit et de conseil. Selon Crickey, il s’agissait d’abord de tester plusieurs modèles, de sélectionner le plus prometteur, puis de soumettre à ce dernier cinq des réponses fournies au Parlement australien.

L’expérience s’est portée sur le modèle de Meta Llama2-70 B, auquel a été soumis la requête de résumer les interventions, en s’attachant à repérer les mentions et les recommandations de l’ASIC, les références à d’autres régulations, et d’inclure une page de référence et de contexte.

En parallèle, dix membres de l’ASIC de divers degrés de séniorité ont rempli la même tâche.

Puis une équipe de contrôle a examiné en aveugle les résumés ainsi produits, en les évaluant autant sur leur cohérence, leur longueur, leurs références à l’ASIC, à d’autres régulations, et l’identification des recommandations essentielles. Cette dernière équipe n’avait pas été informée que certains des documents avaient été produits par un modèle génératif.

Les examinateurs ont conclu que les textes produits en interne, par des humains, étaient meilleurs que ceux produits par le modèle génératif sur tous les critères. En moyenne, les premiers ont obtenu 81 % des points de la grille d’évaluation, contre 47 % pour les productions par IA.

Parmi les principaux défauts de ces dernières, le modèle peine à produire de la nuance et du contexte, inclut des informations inutiles, en oublie d’autres plus importantes, et tend à se focaliser sur des sujets auxiliaires.

Trois des cinq examinateurs ont déclaré avoir deviné durant l’exercice qu’ils se penchaient sur des textes produits par IA. Et de souligner leur inquiétude que l’usage de telles machines ne crée du travail supplémentaire, puisqu’elle nécessiterait de fact-checker les textes produits en les comparant précisément aux documents initiaux.

Parmi les limitations soulignées par le rapport de l’ASIC à sa propre expérimentation, le modèle choisi avait entre temps été dépassé par d’autres, qui pourraient se montrer plus efficaces sur ce type de tâche. Par ailleurs, Amazon avait amélioré les résultats en affinant ses requêtes, ce qui laisse la possibilité que des progrès supplémentaires soient possibles en travaillant encore sur le prompt.

Le rapport conclut néanmoins sur l’importance de considérer l’IA générative comme un outil pour augmenter, et non remplacer, les tâches réalisées par des humains.

Le 05 septembre 2024 à 09h40

Commentaires (20)

votre avatar
Oh ben ça alors, qui l'eut cru ! :stress::D
votre avatar
Lustucru :fume:
votre avatar
Quel est le lien pour accéder au rapport en question SVP ?
votre avatar
Ca semble être ici : https://www.aph.gov.au/DocumentStore.ashx?id=b4fd6043-6626-4cbe-b8ee-a5c7319e94a0
votre avatar
Titre de l'article trompeur. Il généralise à toute la discipline de l'IA générative le fait qu'UN modèle a donné de mauvais résultats en matière de synthèse.

Il manque la procédure pour savoir comment les résumés ont été générés. LLaMA 2 (sorti en juillet 2023) sait manipuler des contextes de 4069 tokens, quelle était la taille des documents d'entrée ? C'est bien loin des 128k de LLaMA 3 et je ne parle pas du million de Gemini 2 !

Bref, on a le résultat "c'est nul" mais pas la démarche. Je ne vois donc pas en quoi on peut dire que l'IA générative ferait pire sur la seule base d'un modèle qui s'est chié dessus.
votre avatar
M'enfin, ça ne va pas, comment ça sur Next quelqu'un ne suit pas le dogme anti-IA et remet en question "les études" ? Tout le monde sait que l'IA n'est qu'une bulle qui ne sert à rien, m'voyons.
votre avatar
Je comprends tes interrogations.

Maintenant, est-ce que la taille du contexte joue un grand rôle et sur la qualité intrinsèque du modèle ? Pas certain.

De plus, l'évaluation consistait à faire évaluer des résumés (sans dire s'il provenait d'une IA ou d'un humain) à des expérimentateurs. Il fallait donc que les expérimentateurs aient lu le texte d'origine. Je doute qu'on fournisse, dans ces cas là, des textes de 300 pages, mais plutôt de 1 ou 2 pages max (ce qui rentre largement dans un contexte de 4000 tokens).

De plus, le modèle LLaMA 2 a été largement comparé à d'autres modèles sur la pertinence de ses réponses. Donc, sauf à ce que les comparaisons aient été mal faite, les modèles "moins bien" auront très certainement des résultats encore pire que ceux de LLaMA 2. La généralisation peut paraitre hasardeuse, elle ne m'en semble pas moins pertinente dans le cas présent.

Mais on peut effectivement regretter l'absence de LLaMA3. Maintenant, une étude entre le moment où elle commence et le moment où elle se termine / est rédigée / publiée, oui, il peut y avoir quelques mois. Surtout que dans le domaine de l'IA, où les choses bougent vite, un modèle peut très bien être dépassé en moins d'un an.

Il serait donc intéressant d'avoir la chronologie exacte de l'étude, pour se rendre compte des différents aspects.
votre avatar
Que la chronologie de l'étude n'ait pas permis d'évaluer des modèles plus récents n'est pas un choquant en soit. Mais préciser cette information aurait eu le mérite de la positionner dans le contexte de son époque.

Le domaine de l'IA générative avance très vite, il est en plein essor. La contextualisation temporelle est essentielle pour ne pas induire en erreur. Le rapport de cette étude a été fait en mars 2024 et celle-ci aurait été déroulée entre janvier et février si j'en crois les premières pages du rapport. Le sujet ayant été lancé en fin 2023, il est donc évident qu'ils ne pouvaient utiliser des modèles de 2024 plus performants.

Le document donne des infos sur le prompt, le dataset utilisé, la méthode, la configuration du modèle, etc. Je pense que l'étude en question est intéressante à lire pour comprendre là où les modèles ont péché. J'essayerai de faire ça à tête reposée. Et voir l'évolution sur d'autres études avec des modèles plus récents.

Mais dans tous les cas, je maintiens mon opinion : ce titre généralisant à toute la discipline est horriblement trompeur et biaisé. C'est d'ailleurs une reprise du titre de l'article source.
votre avatar
Petit complément à la lecture de la synthèse du rapport. Les points clés sont très intéressants et bien plus nuancés.

Key observations and lessons learnt from the PoC included:

• To a human, the request to summarise a document appears straightforward. However, the
task could consist of several different actions depending on the specifics of the summarisation request. For example: answer questions, find references, impose a word limit. In the PoC the summarisation task was achieved by a series of discreet tasks. The selected LLM was found to perform strongly with some actions and less capably with others.
• Prompting (prompt engineering) was key. ‘Generic’ prompting without specific directions or considerations resulted in lower quality output compared to specific or targeted prompting.
• An environment for rapid experimentation and iteration is necessary, as well as monitoring
outcomes.
• Collaboration and active feedback loops between data scientists and subject matter experts was essential.
• The duration of the PoC was relatively short and allowed limited time for optimisation of the LLM.
• Technology is advancing rapidly in this area. More powerful and accurate models and GenAI solutions are being continually released, with several promising models released during the period of the PoC. It is highly likely that future models will improve performance and accuracy of the results.

The PoC provided valuable learnings, demonstrating the current capabilities of Llama2-70B as well as the potential for growth. Although there are opportunities for Gen AI particularly as the technology continue to advance, this PoC also found limitations and challenges for adopting Gen AI for this specific use case
votre avatar
Et un dernier élément intéressant de l'étude, l'attendu :

Please create a summary for each of the below submissions. Doing the following:
• Focus on the main issues of interest to ASIC, being:
o References to ASIC – include a brief indication of the context and page reference.
o Recommendations on how conflicts of interest should be regulated (note: conflicts of interest where the entity has an audit business) – include a brief indication of the context and page reference.
o References to more regulation of auditors/consultants – include a brief indication of
the context and page reference.

La demande est très spécifique et un modèle générique ne me semble vraiment pas adapté pour ça sans fine-tuning. Du côté de la temporalité, le PoC a duré un mois avec seulement une semaine pour optimiser les paramètres du modèle retenu (LLaMA2-70B).

Tout ce contexte remis en lumière, on peut comprendre les difficultés pour obtenir un résultat probant. Au final, ça ne démontre pas grand chose à part que ce genre de PoC doit être mené sur une plus longue période et potentiellement inclure du fine-tuning pour que le modèle sache mieux "lire" les documents sources.

Parce que sur de la doc technique ou de la procédure de N1, pour l'avoir mis en production, GPT-4 n'a aucun souci à trouver une info et la renvoyer à l'opérateur.

Dans tous les cas, même si j'ai lu en diagonale certains points, l'étude reste intéressante quant à la méthodologie.
votre avatar
En deux clics sur les sources de l'article, le document de recherche avec la méthodologie : https://www.aph.gov.au/DocumentStore.ashx?id=b4fd6043-6626-4cbe-b8ee-a5c7319e94a0

3 modèles de langage ont été testés : "Llama2-70B, Mistral-7B and MistralLite"

L'article et sa conclusion sont neutres :yes:

Aucun discours "anti-IA" non plus... Surtout quand en article connexe c'est littéralement : "Le remplacement des travailleurs par l'IA, un récit peu nuancé" :windu:
votre avatar
Mais en fait, pour un travail aussi précis, on ne va pas pousser un modèle générique, surtout dans une étude face à des spécialistes.

C'est d'ailleurs que ce dit AWSPS dans ses conclusions :
An environment for rapid experimentation with close to immediate feedback from subject matter experts was important. We recommend future PoCs allow for flexibility on all aspects of the Gen AI solution, for example the ability to quickly change LLMs, or system parameters.
votre avatar
Je trouve aussi que l'étude est critiquable sur plusieurs points.

Je répondais principalement sur l'aspect "titre trompeur" mentionné par SebGF, qui pour le coup ne l'est pas : titre au conditionnel, citations des remarques et conclusions du papier de recherche. Sans prise de position sur les dites conclusions. C'est un article relai, non une analyse approfondie.

Est-ce qu'il serait intéressant de faire un dossier qui décortique l'étude ? 100%

Les journalistes/rédacteurs de Next en ont-ils le temps et/ou l'envie ? aucune idée

Ca a le mérite de nous aiguiller vers le sujet ce qui est déjà une bonne chose imho :o
votre avatar
Le rapport mentionne que Llama2-70B, Mistral-7B et MistralLite ont été testé, donc pas seulement Llama2-70B
votre avatar
Voilà mes peurs quant au progrès qui détruit les carrières de nos têtes blondes apaisées...
votre avatar
L'étude est une bonne mise en garde sur le fait de remplacer de manière aveugle des tâches humaines par des IA, une tendance malheureusement assez lourde. Donc cette étude est bienvenue, et même si l'article de Next saute trop vite à une conclusion qui généralise à toutes les IA génératives, à ce state mieux vaut ça que l'inverse.

Il n'en reste pas moins que le simple fait qu'un modèle aujourd'hui assez ancien mais générique (non spécialisé pour cette tache) et libre d'accès/ dont les poids sont disponibles publiquement, soit capables d'atteindre un tel niveau comparé à des experts dont c'est le métier, sur la base d'un prompt écrit en language naturel, est réellement impressionnant.

Il me semble raisonnable de penser que dans les années à venir le niveau va continuer à s'améliorer (c'est déjà le cas avec llama3, Claude etc). Il me semble également raisonnable de penser qu'il existe réellement une bulle car il y a un gouffre entre la perception de beaucoup de monde et la réalité des capacités actuelles.
votre avatar
Il manque le temps nécessaire à l'élaboration de ce résumé (5 minutes versus plusieurs heures ) !!!!
votre avatar
Je n'ai pas vu l'info dans le rapport, mais d'expérience un LLM met une minute à tout casser pour générer un résumé sur ce genre de documents. Et vu que c'était hébergé par l'offre managée d'AWS, en terme de performances ça doit pas forcément être mauvais.

En tous cas, ça l'est certainement plus que ma 1080 GTX qui donne l'impression que LLaMA 1, quand je l'avais testé dessus avant d'abandonner, tape comme le cliché du policier avec un doigt sur le clavier.

De mon expérience avec le GPT-4 hébergé par Azure OpenAI Services, un prompt durait généralement moins de deux minutes. Les plus longs étaient quand GPT faisait ce qu'il sait faire de mieux : étaler sa science et causer pour rien dire. Mais avec quelques optims de system prompt, on arrive à le rendre plus concis.
votre avatar
On m'a raconté la même histoire. Un résumé d'une grosse réunion a été demandé à une personne qui par flemme a utilisé Copilot qui a produit un résumé mal fichu où il manquait des informations importantes alors que d'autres n'avaient pas d'intérêt.

Résultat, il a fallu faire d'autres réunions pour corriger le tir. Donc perte de temps et d'argent ! Et la personne en question s'est pris une volée de bois vert !
votre avatar
Bien sûr que le résultat d'un LLM sera moins bon que celui d'un humain, personne n'en doute. Mais l'intérêt de la machine par rapport à l'humain, c'est son salaire, sa disponibilité 24/24, sa vitesse.

L’IA générative ferait pire que les humains dans les tâches de résumé

Fermer