Pour mieux comprendre quels types de données servent à entraîner de grands modèles de langage (LLM), le Washington Post a entrepris de décortiquer le jeu de données C4 de Google, avec l’aide des chercheurs du Allen Institute for AI et de la société Similarweb.
Ce jeu a notamment servi à entraîner les modèles d’IA générative T5 de Google et LLaMA de Facebook.
Constitué à 16 % de contenus tirés de sites industriels et business, à 15 % de contenu technologique et à 5 % de textes tirés de « communautés », l’objet donne une « photographie monumentale » de la production des quelque 15 millions de sites web récupérés pour entraîner des modèles d’IA, écrit le quotidien américain.
Les trois sites les plus utilisés pour produire l’immense somme de données sont la bibliothèque de brevets patent.google.com, l’encyclopédie Wikipédia et la bibliothèque numérique Scribd, uniquement accessible sur abonnement.
À la 190e place, encore assez haut dans la liste des sites recensés, le Washington Post note la présence de b-ok.org, un site connu pour avoir fait circuler des e-books piratés (et saisi par la justice américaine depuis la constitution de C4).
Au moins deux des 100 premiers pourvoyeurs de contenus soulèvent des problématiques de vie privée : coloradovoters.com et flvoters.com contiennent des copies des bases de données d’inscription de leurs électeurs, informations publiques, mais sensibles. Une fois entrées dans la base d’entraînement, leur usage est inconnu.
L’analyse suggère aussi une série de débats sur les droits d’auteur, dans la mesure où le Washington Post a relevé plus de 200 millions d’apparitions du symbole « copyright », suggérant que les travaux concernés sont soumis à la propriété intellectuelle, et recensé de nombreux noms de médias, alors que ceux-ci critiquent l’utilisation non concertée de leur production.
Le jeu embarque aussi les publications de plusieurs sites notés très bas sur l’indice de confiance des médias de la société indépendante NewsGuard, ainsi que plusieurs vecteurs notoires de publications d’extrême-droite.
Ces derniers éléments pourraient expliquer pourquoi des modèles à la ChatGPT fournissent quelques fois de la désinformation et/ou des productions discriminantes ou de la propagande de manière très assurée.
Parmi les sites dédiés à des communautés précises, le Washington Post relève une surreprésentation de sites religieux, notamment chrétiens, partageant parfois des visions très conservatrices du monde. Le Washington Post note aussi un fort biais occidental dans ces contenus.
Enfin, plus d’un demi-million de blogs personnels ont été retrouvés dans le jeu de données.
Commentaires