Des machines à laver qui lavent une IAFlock

IA ouvre toi !

IA générative : quels modèles sont vraiment ouverts

Des machines à laver qui lavent une IAFlock

Abonnez-vous pour tout dévorer et ne rien manquer.

Déjà abonné ? Se connecter

Abonnez-vous

Dans l'IA générative comme dans d'autres domaines du numérique, le mot « open » peut attirer avec ses promesses de transparence, de traçabilité, de sécurité ou de réutilisation possible. S'il est beaucoup utilisé de façon marketing, le nouvel AI Act européen prévoit des exemptions pour les modèles « ouverts ». Des chercheurs néerlandais ont classé 40 modèles de génération de textes et six modèles de génération d'images se prétendant « open » par degré d'ouverture réelle.

Dans un article (.pdf) présenté à la conférence scientifique FAccT 2024 cette semaine, deux chercheurs de l'université néerlandaise de Radboud se sont penchés sur les degrés d'ouverture des modèles d'IA génératives présentés comme « open » par leurs créateurs. Le moins que l'on puisse dire est que la notion d'ouverture n'est pas la même pour tout le monde.

Comme nous l'évoquions en septembre dernier, le mot « open » dans le milieu de l'IA générative est souvent utilisé de manière marketing et il est difficile de s'y retrouver. On voit, de fait, une tendance à ce que certains appellent de l' « open washing » : utiliser le terme un peu partout pour qualifier des modèles qui sont parfois très peu ouverts.

À l'époque, le sociologue David Gray Widder et les deux chercheuses Sarah Myers West et Meredith Whittaker expliquaient que « certains systèmes décrits comme "ouverts" ne fournissent guère plus qu'une API et une licence autorisant la réutilisation, comprenant la commercialisation de la technologie ».

L' « open » prend du poids avec l'AI Act

Abonnez-vous pour tout dévorer et ne rien manquer.

Déjà abonné ? Se connecter

Abonnez-vous

Commentaires (4)


quid générateurs de musiques comme suno?
Pour Stable Diffusion, oui et non.

Les modèles ont été entraînés avec un dataset qui était publiquement disponible, issu de l'organisme allemand LAION.

LAION-5B ayant servi à entraîner les modèles est toujours offline.

Les modèles de base de Stable Diffusion ont été entraînés avec trois sous ensembles issus de LAION-5B : LAION-2B EN, LAION High Resolution et LAION Aesthetics (pas retrouvé le repo précis).

Pour rappel, il fut désactivé en raison de contenus considérés comme problématiques identifiés dedans.

Dans tous les cas, les données sont issues de Common Crawl.
Merci pour ce super article. C'est toujours intéressant de prendre du recul par rapport aux discours marketings des boites de tech
OpenAI (à renommer ClosedAI), sûrement les mêmes marketeux géniaux que ceux qui promeuvent l'"inclusivité" par des séparations et mutilations, dans la langue notamment.

Et alors la phrase finale est tellement blasphématoire que c'est jouissif.
Modifié le 08/06/2024 à 21h44

Historique des modifications :

Posté le 08/06/2024 à 21h44


OpenAI (à renommer ClosedAI), sûrement les mêmes marketeux géniaux que ceux qui promeuvent l'"inclusivité" par des séparations et mutilations, dans la langue notamment.

Et alors la phrase finale est tellement blasphématoire que c'est jouissif.

Fermer