La Wikipedia anglophone se bat contre des « hallucinations » venues de traductions par IA
OkAI
Le 06 mars à 11h15
La version anglophone de Wikipédia se trouve confrontée à la gestion d’éditions utilisant massivement la traduction via l’IA, ce qui ajoute des erreurs dans l’encyclopédie. En cause, notamment, une association dont le but est de créer du contenu dans Wikipédia.
La Wikipedia anglophone se bat contre des « hallucinations » venues de traductions par IA
OkAI
La version anglophone de Wikipédia se trouve confrontée à la gestion d’éditions utilisant massivement la traduction via l’IA, ce qui ajoute des erreurs dans l’encyclopédie. En cause, notamment, une association dont le but est de créer du contenu dans Wikipédia.
Le 06 mars à 11h15
Société numérique
Société
5 min
L’IA générative donne encore une fois du fil à retordre à Wikipédia. Cette fois, c’est son utilisation massive pour traduire des pages en anglais qui est pointée du doigt.
Il faut dire que la position de la fondation Wikimedia est sur une ligne de crête entre le fait de trouver des avantages à l’utilisation de l’IA générative pour automatiser certaines tâches et de gérer les problèmes qu’elle génère. Ainsi, l’année dernière, elle a dû retirer une fonctionnalité expérimentale de résumé automatique des articles de l’encyclopédie.
Une utilisation des IA génératives en discussion dans la Wikipédia anglophone
Au même moment, du côté de la version francophone, les éditeurs adoptaient un texte de recommandation sur l’usage de l’IA générative qui affirmait clairement que son utilisation était « vivement déconseillée ».
Concernant la traduction, le texte demande à ce que, si l’IA générative est utilisée pour de l’aide à la traduction, cela soit mentionné. La vérification des sens d’un mot étranger fait partie des « usages tolérés », avec la précision qu’il ne doit pas y avoir de « traduction littérale ou mot à mot », la page ajoutant « veillez à ce qu’il n’y ait pas de contre-sens ».
Mais du côté anglophone, une discussion sur le sujet n’est apparue qu’en janvier dernier, débouchant sur un texte adopté le 10 février concernant la traduction d’articles venant d’autres versions linguistiques de l’encyclopédie.
Celui-ci demande à ce que l’utilisation soit faite seulement si l’utilisateur a les compétences en anglais et dans la langue d’origine pour confirmer que la traduction est bonne. Il demande aussi que l’utilisateur ait vérifié qu’aucune hallucination n’a été ajoutée et que le texte reste fidèle aux sources citées.
Des textes traduits à la va-vite par une association dédiée à ça
Le texte a été adopté alors que des éditeurs ont pointé du doigt des erreurs manifestes dans certaines pages traduites à la va-vite. Ainsi, comme l’explique 404 Media, pour la page de la famille noble de La Bourdonnaye.
Alors que dans la version française, la phrase « La famille de La Bourdonnaye a pour berceau la seigneurie de la Bourdonnais à Trégomar dans les Côtes d’Armor en France » est accompagnée de la mention « [réf. nécessaire] », une source a été ajoutée lors de la traduction automatique par un utilisateur, mais celle-ci ne contient pas d’indication sur cette famille à la page donnée, indique Ilyas Lebleu (dont le pseudo est Chaotic Enby sur Wikipédia).
Mais ce n’est qu’un exemple, ainsi il explique à 404 média que pour certains articles « les sources avaient changé et des phrases avaient été ajoutées sans source et sans explication, tandis que l’article sur les élections sénatoriales françaises de 1879 avait ajouté des paragraphes provenant de sources sans aucun rapport avec le contenu initial ! ».
Le problème viendrait notamment d’ajouts faits par des éditeurs de l’association Open Knowledge Association (OKA). Celle-ci s’affiche comme faisant de la « diffusion de contenu gratuit sur Wikipédia et d’autres plateformes ouvertes grâce à un financement ciblé », et se vante d’avoir créé et traduit près de 5 000 articles sur Wikipedia. Les internautes peuvent donner à l’association et si la somme est supérieure à 10 000 francs suisses, ils peuvent demander d’enrichir un champ particulier.
« Si vous souhaitez faire traduire des pages spécifiques, nous les examinerons, mais ne les traduirons que si nous estimons qu’elles répondent à nos critères de qualité », ajoute l’association qui s’engage aussi à préciser les éventuels conflits d’intérêt lors de l’édition.
Mais cette découverte par Ilyas Lebleu a fait remonter de nombreuses autres traductions problématiques publiées par OKA sur l’encyclopédie. Des bénévoles de la version anglophone de Wikipédia ont pointé à 404 Media un tableur utilisé par les traducteurs d’Oka dans lequel se trouvent les instructions :
« Choisissez un article, copiez l’introduction dans Gemini ou chatGPT, puis vérifiez si certaines des suggestions améliorent la lisibilité. Modifiez les articles de Wikipédia uniquement si les suggestions constituent une amélioration et ne changent pas le sens de l’introduction. Ne modifiez pas le contenu avant d’avoir vérifié que les suggestions de Gemini sont correctes ! »
Le fondateur de OKA, Jonathan Zimmermann, explique à 404 Media que « des erreurs arrivent » mais que la méthode d’OKA « comprend une relecture humaine, demande aux traducteurs de vérifier le texte par rapport aux sources citées » et il assure que des « responsables vérifient régulièrement des extraits, spécifiquement pour des nouveaux traducteurs ».
Il explique que depuis peu, les traducteurs doivent passer leurs textes dans un autre outil en utilisant un prompt spécifique de comparaison qui doit identifier les incohérences, omissions ou inexactitudes.
Commentaires (26)
Abonnez-vous pour prendre part au débat
Déjà abonné ou lecteur ? Se connecter
Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles d'un média expert
Profitez d'au moins 1 To de stockage pour vos sauvegardes
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousLe 6 mars à 11h24
Le 6 mars à 11h31
Bon, heureusement, le mode lecture de Vivaldi le contourne.
Le 7 mars à 08h34
Le 6 mars à 11h27
Le 6 mars à 11h51
Le 6 mars à 14h49
Le 7 mars à 08h36
Le 7 mars à 11h53
Le 7 mars à 12h18
Maintenant, les effets à moyen terme sont plus difficiles à prévoir vu qu'on est seulement au début.
Modifié le 7 mars à 12h53
On commence par ne plus recourir aux freelances - c'est plus simple que de licencier. Puis pour les salariés on demande une productivité x1,2, puis x2, puis x5 "parce que maintenant t'as l'IA pour t'aider" et parallèlement on gèle les embauches, on ne remplace pas les départs. Puis après seulement, on commence à licencier des salariés.
Je pense que c'est pas du tout ou rien, mais si un gars se retrouve à faire le boulot de 5 personnes, ça va se ressentir dans la difficulté d'accès à du boulot pour les autres (je parle même pas d'un emploi stable).
La qualité du résultat s'en ressent, mais qui s'en soucie encore vraiment ?
Il peut s'écouler 5 ans, peut être même 10, entre le début "l'industrie de l'IA commence à s'intéresser à ce corps de métier" et la phase finale qui n'est même pas forcément une phase "le métier n'existe plus" mais "les freelances ne peuvent plus en vivre et/ou le salariat est complètement bouché les nouveaux postes sont très rares il y a 500 candidats pour un poste". Mais je pense que c'est vers ça qu'on va dans beaucoup de métiers.
Les métiers de la rédaction au sens large (traduction, copywriting etc.) ont été les premiers à suivre cette voie. C'est en train de se dérouler à l'identique pour les graphistes. Je pense que le secrétariat puis le développement sont les prochains sur la liste, voire sont déjà dans la phase "si t'es déjà dedans ton poste est pas menacé dans l'immédiat, mais ça devient compliqué d'y entrer en tant que newbie". D'autres suivront.
Modifié le 7 mars à 14h14
Dans tous les cas, viendra un moment où l'équilibre économique ne tiendra pas. Moins de boulot, moins de revenus, moins de pouvoir d'achat, moins de revenus pour les entreprises, effet domino. C'est le même équilibre que celles qui disent limiter l'embauche de juniors. Viendra un moment où quand les seniors auront clamsé, y'aura plus de main d'oeuvre.
Ce qui laisse songeur quant aux compétences des gestionnaires de ces entreprises quant à la vision à moyen terme.
Avec un système économique en grande partie basé sur la valeur du travail, autant dire qu'il se suicide si ses acteurs persistent dans cette voie.
Le 7 mars à 18h12
Depuis quand un diplomate travaille toute la journée sur son ordi ?
Le 7 mars à 18h34
C'est aussi (et surtout) énormément d'administratif (ce sont les diplomates qui s'occupent de tout l'administratif pour les ressortissants français dans leur pays d'affectation, et pour tous les demandeurs d'un visa français pour les nationaux du pays d'affectation), d'écrit, de dossiers et de rapports à écrire pour le compte de celui qui va effectivement aller en face à face ou à l'attention du ministre resté en France, etc.
Et en matière d'administratif et d'écriture de rapports, l'IA a un ou deux arguments à faire valoir.
Le 8 mars à 18h38
Le 8 mars à 20h32
Y aura toujours des humains dans la boucle, pour surveiller, valider, corriger, réorienter, prompter, endosser la responsabilité légale et parler en face à face là où c'est nécessaire, mais je pense qu'on va vers pleeeeein de départ en retraite non-remplacés.
Le 9 mars à 09h38
Rien que ces 3 points nécessitent que l'opérateur de l'IA fasse de toute façon le boulot.
Je crois pas du tout que ce soit la vision qu'en ont les sociopathes qui vendent et promeuvent ces outils. Ni les managers qui boivent ces discours comme du petit lait, tellement ça leur plaît l'idée de se passer de toute masse salariale.
Le 9 mars à 12h50
Le 9 mars à 15h21
Ton post résume bien ce que je pense de cette mode.
Le 9 mars à 15h41
Au début du cloud, j'avoue que je ne voyais pas ça comme une révolution qui allait marcher et pareil pour le metaverse.
Le 9 mars à 19h32
Et ceci dit, avec le recul, on voit que le cloud pas cher qui ne marche principalement que parce qu'il y a quelques grands acteurs américains qui dominent, ce n'est pas nécessairement génial pour nos entreprises qui y hébergent leurs SI (à court terme et quand on voit tout par les coûts, c'est génial, quand on regarde un peu plus loin, ça questionne).
Le 10 mars à 07h32
Alors certes j’ai du configurer correctement mes outils, je connais à peu près ses faiblesses et je sais comment lui parler.
Mais je constate surtout que 100% des gens qui me disent que l’IA fait du mauvais code soit se basent sur une expérience vite fait d’il y a 2 ans ou plus, soit pour eux l’IA c’est ChatGPT à qui tu demandes de générer une classe en lui donnant le contexte comme tu peux.
Alors que si tu utilises OpenCode (ou Claude Code) avec des modèles récents, que tu lui laisses toute la latitude pour bien explorer toute ta codebase, 99% du temps ya littéralement rien à retoucher.
Pour moi c’est un raccourci dangereux de croire que l’IA c’est ChatGPT version gratuite où tu copies colles du code. Non l’IA ce sont des agents autonomes qui dépensent des milliers de tokens par seconde pendant plusieurs minutes pour générer 3 ou 4 pauvres fichiers après avoir retourné le problème de fond en comble et lu tout le code existant. Et ça coûte cher. Mais ça marche très bien. Et c’est bien moins cher qu’un dev.
Le 10 mars à 12h49
Donc on est assez loin de juste "je copie-colle un texte dans ChatGPT et je lui dis de traduire sans plus de précisions".
Et que même comme ça, y aurait encore énormément de boulot pour passer de l'état "passable" à l'état "traduction de qualité". Mais vu les contraintes de temps et d'argent imposés par les clients et agences, on n'a pas vraiment la possibilité de faire ça, donc ça passe plutôt de "passable" à "passable+". Ce qui, soit dit en passant, a un effet boule de neige parce que du tout la qualité de la mémoire de traduction se dégrade, du coup l'IA se base sur une mémoire de moins bonne qualité, répercute ailleurs ses propres erreurs, dégradant d'autant plus la mémoire, et ainsi de suite.
Le manque de déterminisme soulevé par @deathscythe0666 est effectivement aussi un problème récurrent, avec une tendance à manquer fortement de cohérence à l'échelle d'un projet, et une incertitude permanente qui nous force à tout relire parce qu'elle est capable de prendre un segment, de le traduire correctement, de retrouver quasiment le même segment 10 pages plus loin, avec juste un mot qui change, et d'opter cette fois-ci pour un choix qui ne tient pas du tout la route.
Je n'ai pas du tout les compétences nécessaires en code pour jauger de la qualité du travail de l'IA, mais j'avoue que, chat échaudé craignant l'eau froide, après l'avoir vue à l'acte dans mon propre domaine de compétence, je reste un peu sceptique quant à sa capacité à faire un boulot impeccable dans quelque domaine que ce soit. De mon expérience, ceux qui ne voient rien à redire au travail de l'IA sont souvent dans une optique "meh, good enough" au jour le jour.
Le 10 mars à 14h47
(2) bien plus que ce qui est actuellement facturé
(3) à voir quand on nous fera raquer le coût réel
Pas tant que ça, parce que la plupart des utilisateurs, voire des organisations n'ont pas nécessairement les moyens de payer des abos Claude à 200€/mois (avec limitations) à tous. Et que, sans la version gratuite, tu n'attires personne, et la version gratuite te coûte aussi. Économiquement ce n'est pas simple.
Le 10 mars à 16h49
Pas tant, ma boite ne passe pas par un abo Claude mais par de la facturation API (via Amazon Bedrock sur laquelle Anthropic ET Amazon margent contrairement aux abos où oui, parfois ils perdent de l'argent). La PR moyenne qui me prenait 2 à 5h de travail auparavant coûte entre 1 et 5$. Et ça c'est avec Opus 4.6, le modèle le plus performant et le plus impressionnant.
Le 10 mars à 19h28
Modifié le 7 mars à 18h04
Signaler un commentaire
Voulez-vous vraiment signaler ce commentaire ?