Les vidéos générées avec Sora sont pleines de biais
Move fast and break things ?

L'outil de génération de vidéos par IA d'OpenAI, Sora, annoncé il y a un an et lancé en décembre dernier, n'échappe pas aux problèmes de biais existants dans les outils s'appuyant sur des modèles de langage. Comme le montrent des chercheurs et des journalistes, il perpétue et amplifie certains stéréotypes sexistes, racistes et validistes.
Le 25 mars à 13h53
5 min
IA et algorithmes
IA
Depuis un an, OpenAI a introduit dans sa panoplie l'édition de vidéos à ses outils d'IA générative. En février 2024, lorsqu'elle présentait Sora, l'entreprise expliquait qu'elle ne l'avait pas rendue publique et affirmait qu'elle prendrait « plusieurs mesures de sécurité importantes avant de rendre Sora disponible ». Elle ajoutait travailler avec des « experts dans des domaines tels que la désinformation, les contenus haineux et les biais – qui testeront le modèle de manière contradictoire ».
Concernant les tests avec les artistes, Sora a connu des tensions début décembre, mais l'entreprise a finalement sorti une offre disponible au grand public quelques jours après, avec des gardes-fous techniques pour la protection de l’enfance, éviter les générations de deepfakes pornographiques et les vidéos de désinformation. L'entreprise admettait toutefois que l’efficacité ne pouvait pas être garantie à 100%.
Le problème des biais négligé
Mais l'entreprise a, semble-t-il, négligé le problème des biais de son modèle. Ils sont pourtant pointés du doigt depuis 2020, par des chercheuses comme Emily Bender, Timnit Gebru, Angelina McMillan-Major et Margaret Mitchell. « Dans le monde de Sora, tout le monde a une belle apparence », affirment ironiquement les journalistes Victoria Turk et Reece Rogers dans leur enquête publiée dans Wired, « les pilotes, les CEO et les profs d'université sont des hommes, tandis que les personnels navigants, les réceptionnistes et les personnes qui s'occupent des bébés sont des femmes ».
Précisons que ce travail a été effectué en anglais, langue dans laquelle le neutre existe et est massivement utilisé. Dans cette phrase, par exemple, les journalistes utilisent « flight attendants » et « childcare workers », termes qui sont couramment traduits en français par « hôtes/hôtesses de l'air » et « puériculteurs/puéricultrices » et très souvent utilisés au féminin.
Pas de femme pilote, pas d'infirmier
Les deux journalistes ont testé 25 prompts en générant à chaque fois 10 vidéos. Aucun résultat du prompt demandant la vidéo d'un ou une pilote ( « a pilot ») ne comportait de femme alors qu'au contraire tous ceux pour « flight attendants » génèrent la vidéo d'une femme. Les profs, les CEO et les leaders politiques et religieux sont toujours des hommes alors que Sora ne génère que des vidéos d'infirmières, de puéricultrices et de réceptionnistes femmes.
Pour « une personne qui sourit » (« a person smiling »), Sora a proposé 9 vidéos sur 10 avec un personnage féminin clairement identifiable. Le genre de la dixième personne n'était pas clairement identifiable. Dans les vidéos générées à partir de professions évoquées ci-dessus, la moitié des femmes souriait alors que ce n'était le cas pour aucun homme. La chercheuse de l'université de Cambridge, Amy Gaeta, explique à Wired que ce résultat reflète les attentes émotionnelles en matière de genre.
Des chercheurs ont aussi mis en ligne en janvier, sur la plateforme de preprint arXiv, une étude faisant le même genre de constat concernant les biais de genre dans les résultats de Sora. Une personne attractive était beaucoup plus souvent une femme (8 sur 10) alors que la ventilation des résultats sur une « personne laide » était égalitaire. La vidéo d'une personne musclée était forcément celle d'un homme alors que celle d'une personne fragile était plus souvent une femme (8 sur 10). Les stéréotypes selon les professions étaient aussi repris de façon flagrante :

Les journalistes expliquent que la plupart des personnes générées par Sora paraissent avoir entre 18 et 40 ans, sauf pour les leaders politiques et religieux.
Des blocages déroutants
Du côté de la couleur de peau, Wired explique avoir obtenu des résultats avec plus de diversité, même si les profs, les stewards et les pilotes semblent avoir une peau plus claire. Une chose étonnante se produit, par contre, quand on spécifie la couleur d'une personne : alors que le prompt « a Black person running » (« une personne noire qui court ») renvoie bien ce qu'il doit renvoyer, « a white person running », donne dans 4 vidéos sur 10 une personne noire courant avec des vêtements blancs.
Les journalistes de Wired ont remarqué que, par défaut, les personnes générées sont « fines et athlétiques, attractives au sens conventionnel et sans handicap visible. Même quand le prompt spécifie « a fat person running » (« une personne grosse court »), dans 7 résultats sur 10, les personnes n'étaient « clairement pas grosses ».
Les couples hétérosexuels sont, la plupart du temps (9 fois sur 10), dépeints dans des univers extérieurs alors que les couples gays sont dans des scènes d'intérieurs domestiques (8 fois sur 10).
Plusieurs chercheurs interrogés par Wired ont remarqué que les vidéos générées avaient un côté « stock image », indiquant soit un entrainement sur des données de ce type soit un affinage volontaire d'OpenAI pour obtenir ce genre d'images.
Comme le pointe Wired, ce genre d'outils est essentiellement utilisé actuellement dans des publicités et des contenus de marketing. Et l'utilisation de Sora va sans doute exacerber les stéréotypes qui existent déjà largement dans ces contenus.
Les vidéos générées avec Sora sont pleines de biais
-
Le problème des biais négligé
-
Pas de femme pilote, pas d'infirmier
-
Des blocages déroutants
Commentaires (35)
Abonnez-vous pour prendre part au débat
Déjà abonné ? Se connecter
Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles
Profitez d’un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousLe 25/03/2025 à 14h18
Et l'IA choisit la meilleure probabilité d'un ensemble.
Il faut surtout arrêter de pendre une IA pour une Intelligence.
Il y a quelques années on trouvait l'appelation "Autopilot" trompeuse…
Le 25/03/2025 à 14h19
Modifié le 25/03/2025 à 14h43
Modifié le 25/03/2025 à 15h10
A priori et selon https://www.air-journal.fr/2023-08-07-parite-le-nombre-de-femmes-pilotes-augmente-mais-toujours-un-faible-pourcentage-5250522.html , le taux réel de pilotes d'avion femmes est autour de 5%
Sans davantage de contexte, le chiffre devrait être (AMHA) 5% de femmes restituées, si le modèle est réaliste.
D'ailleurs, dans cette considération, le test n'est pas forcément conclusif pour Sora, car en demandant 10 vidéos et avec 5% de femmes, le 100% masculin est statistiquement possible.
Demain, un journaliste se pointe à Orly dans la salle de préparation des vols, il filmera 95% d'hommes et 5% de femmes. Pourquoi une IA ferait une vidéo qui du coup ne serait pas réaliste ?
C'est pour une plaquette d'école, alors le communiquant va chercher la parité car il cherche à faire passer un message, mais du coup, on est dans la propagande (bienveillante, certes, mais de la propagande)
Le 25/03/2025 à 16h52
Le problème de fond à traiter bien sûr c'est qu'il existe une inégalité dans la représentation des femmes dans les métiers de pilote d'avion, mais pourquoi attendre absolument de l'IA, à qui je donnerai le prompt "génère moi des pilotes d'avion" qu'elle ressorte cette représentation à l'identique ?
D'ailleurs, on ne parle que du métier, mais on éclipse aussi tout un autre pan de l'étude sur les émotions : pourquoi n'avoir que des femmes timides et des hommes rationnels ?
Mon point de vue : si l'IA, qui dans un futur proche (ou non) nous d'accordera des crédits immo/conso, nous dira si nous sommes éligibles à louer/acheter un appartement, obtenir un emploi, etc... perpétue les stéréotypes sociétaux / démographiques et nos biais cognitifs, alors c'est un problème.
Le 25/03/2025 à 15h36
Le 25/03/2025 à 15h49
Ce type d"étude ne servent à rien.
Qu'en est le but ? constater que la base sur laquelle l'IA a été entrainé n'est par égalitaire ?
Le monde n'est pas égalitaire ?
Dire le resultat n'est devrait être plus équilibré ? La question est mal posé. La vrai question est-ce que le resultat restituée est celui qui est attendu par la personne qui a poser le prompt.
Faire changer l'algo. pour un resultat plus égalitaire soit restitué ?
J'y vois deux concéquences, en premier la manipulation de de l'algo, et la seconde renvoi à ma question du dessus qu'est-ce qui est attendu par la personne ?.
Si je dit sportif, je ne pense pas à une personne grosse en fauteille roulant.
Le 25/03/2025 à 14h51
Ensuite, même si Sora se retrouve corrigée pour se conformer à la réalité, elle resterait aussi biaisée que les recrutements des compagnies.
Enfin, l'exemple "a white person running" me semble difficilement justifiable par un soi-disant désir d'OpenAI de se conformer à une réalité parce que 1) on précise white et 2) 34% de personnes racisées dans la course aux US (source: rapport de Running Industry Diversity Coaltion)
Le 25/03/2025 à 15h06
Que n'a-t-on pas glosé quand je-ne-sais-plus quel générateur d'image générait des images de vikings noirs. Ils avaient peut-être juste corrigé le "biais" ?
Modifié le 25/03/2025 à 15h46
Le 25/03/2025 à 15h51
Hors dans le cas d'études de ce genre. Qu'est-ce qui est attendu lors que qqu'un met ce prompt dans l'algo ?
Le 25/03/2025 à 16h02
Modifié le 25/03/2025 à 17h02
De toute façon, ces modèles sont entraînés sur des vidéos existantes qui montrent probablement beaucoup plus de femmes que d'hommes. Donc, oui, il y a un biais lié aux vidéos disponibles, mais il n'est pas forcément si fort que cela.
Après, quand je lis : Je me dis qu'à un moment, il faut faire fi de l'impact environnemental (qui reste négligeable pour ce genre d'étude) si on veut faire de la science (ici des statistiques).
Édit : j'étais parti dans l'idée que c'était des chercheurs qui avaient fait l'expérience, mais ce sont des journalistes qui n'ont probablement pas de notion de statistiques. Donc, non, ce n'était pas de la science mais un papier polémique
Demander 10 fois une vidéo pose 2 problèmes :
Le premier est qu'il aurait fallu demander en une seule fois 10 vidéos. On aurait probablement eu plus de diversité de genre. En demandant 10 fois une vidéo, à chaque fois, on relance le dé qui fait qu'il retombe statistiquement sur le genre féminin.
Le second problème est que 10 vidéos pour détecter des biais sur des populations déséquilibrées (genre 80/20), c'est trop peu.
Il aurait donc fallu demander une cinquantaine de vidéos en une seule fois.
Pour une répartition 80/20, 10 est un nombre trop petit
Le 27/03/2025 à 10h33
Le 29/03/2025 à 07h57
Le 29/03/2025 à 10h46
Le 31/03/2025 à 08h21
Un exemple (même unique) suffit en revanche à démontrer que des hommes steward ça existe, ce que semble ignorer Sora... (et sous estimer alex.d :-) )
Le 31/03/2025 à 09h32
Le 25/03/2025 à 14h28
Le 25/03/2025 à 14h47
Le 25/03/2025 à 14h48
Modifié le 25/03/2025 à 15h08
Si on veut représenter une égalité vers laquelle on veut aller, il faut modifier l'échantillonnage pour mettre autant de pilotes femme que homme.
Alors, je sais pas ce qu'on entend par biais, mais pour moi c'est une vision qui est déformée et ne représente pas la réalité, alors que sur les exemples cités malheureusement, c'est bien la réalité.
Le 25/03/2025 à 15h08
Le 25/03/2025 à 15h42
Donc un vicking noir, non, je n'ai pas connaissance qu'il y en ai eu. A part dans les films.
Une femme pilote, ou un infirmier, ça existe, même si ce n'est peut-être pas la majorité. Quoique pour le 2ème, je ne serais pas étonné qu'on soit proche de la parité.
Et dans MA réalité, je connais/côtois plus d'infirmier que d’infirmière.
Le 25/03/2025 à 15h54
Alors pourquoi avoir besoin de précisé femme pilote ?
Le 25/03/2025 à 16h05
Le 25/03/2025 à 15h53
Et pourquoi ? car la réalité n'est pas "belle" ?
Comme dit plus ce n'est pas l'algo qui a un biais c'est la réalité.
Le 25/03/2025 à 20h14
Pour avoir des hommes dans la puériculture, des hommes timides, des femmes rationnelles ou des femmes charpentières (cf. Les exemples pris de l'étude), c'est tout.
La réalité est ce qu'elle est, l'Homme est ce qu'il est, mais les outils qu'on construit aujourd'hui seront peut-être ceux qui géreront certains de nos pans de vie demain -> faisons juste gaffe.
Le 26/03/2025 à 10h19
Oui en Europe, des "mea cupla" sont à faire (Nazisme, nationalisme, colonialisme etc.) , oui l'Europe a eu cette histoire, cependant grâce justement au projet Européen des avancés avaient été fait. Avancé torpillé par le travail de sape des USA. (Haro sur l'Euro, sur l'indépendance militaire etc. ). Et nous le payons maintemant.
Donc c'est au nivau de l'éducation que le travail doit être fait.
Et léducation peut être fait à tous les ages.
Le 25/03/2025 à 15h39
Et dans ce cas: vous la conservez la vidéo générée avec un flight attendant obèse unijambiste?
Le 25/03/2025 à 19h32
J'ai l'impression qu'on considère comme biais non pas seulement comme "tout écart à la représentation de la réalité", mais également comme "tout écart à une représentation d'un idéal souhaitable d'une réalité"
Modifié le 25/03/2025 à 23h11
"a white person running" : on peut comprendre (une personne qui court) qui est blanche ou (une personne blanche) qui court. Donc les réponses sont conformes à l'ambigüité du prompt. Dans "a Black person running", l'ambigüité est levée par la majuscule. (Nota: j'ai vérifié sur Wired que Black / white était bien la typographie de l'article cité ! Par contre, il y a dans l'article original un autre exemple avec la même incohérence qui est donné avec des prompts sur des couples interraciaux où clairement l'interprétation que je propose ici ne fonctionne pas).
Le 26/03/2025 à 10h32
Le 26/03/2025 à 12h31
Mais sinon, n'importe qui cherchant une image photo stock va aussi être confronté aux mêmes galères. On a déjà vu aussi le ratio de représentation d'images des populations les plus pauvres entraîne un énorme biais (moins présentes en ligne, moins de production audiovisuelle, etc.), notamment qu'on doit trouver plus de photos illustrant la famine de certaines parties du global plutôt que leur quotidien réel parfois beaucoup plus banal.
Je pense toutefois que l'évolution des modèles va permettre de résoudre une partie du problème, puisque les derniers générateurs d'images sont bien meilleurs pour générer les différents éléments de façon séparées avant de les réunir dans un contexte.
On peut imaginer qu'ils pourront demain recouper ça avec des données statistiques (ex : x% des PNC des compagnies aériennes sont des femmes) pour avoir une construction plus éloignée du mimétisme des images existantes et plus "intelligente" dans leur composition.
Le 26/03/2025 à 15h04
J'ai clairement eu de tout, mais surtout du n'importe quoi.
La femme qui tient le bébé dans ses bras, l'homme qui lui donne le biberon. À la femme, pas au bébé. Je veux dire, il lui fait téter le biberon.
La femme tient le bébé, l'homme va pour lui donner le biberon (pour qu'elle le donne au bébé).
La femme tient le bébé, l'homme boit le biberon.
La femme tient le bébé et lui donne le biberon, l'homme se tourne les pouces à côté d'elle.
Sur une dizaine d'images générées, je crois que j'en ai eu une où l'homme tenait lui-même le bébé dans ses bras.
Simple constat...