OpenAI peut tatouer les textes générés par ChatGPT, mais hésite à s’en servir

OpenAI peut tatouer les textes générés par ChatGPT, mais hésite à s’en servir

CopyrAIght

12

OpenAI peut tatouer les textes générés par ChatGPT, mais hésite à s’en servir

La technologie serait « efficace à 99,9 % », mais aussi relativement facile à effacer. Ce pourquoi l'entreprise ne l'a toujours pas rendue publique, quand bien même cela pourrait contribuer à la reconnaissance des textes générés par des intelligences artificielles génératives.

Le Wall Street Journal a appris de plusieurs sources qu'OpenAI avait bien mis au point un outil susceptible de tatouer une signature en filigrane (watermarking en anglais) permettant d'identifier les contenus générés par ChatGPT. Le projet serait disponible depuis un an, mais serait « embourbé dans des débats internes à OpenAI depuis environ deux ans ».

Les employés d'OpenAI hésiteraient encore entre le fait de respecter l'engagement déclaré de la startup à la transparence et leur désir d'attirer et de retenir ses utilisateurs. Une enquête menée par l'entreprise auprès d'utilisateurs fidèles de ChatGPT aurait en effet révélé que « près d'un tiers d'entre eux seraient rebutés par la technologie anti-triche », précise le WSJ.

D'après une porte-parole d'OpenAI, l'entreprise craint en outre que l'outil n'affecte de manière disproportionnée des groupes tels que les personnes dont l'anglais n'est pas la langue maternelle : « La méthode de filigrane que nous développons est techniquement prometteuse, mais elle comporte des risques importants que nous évaluons pendant que nous recherchons des alternatives ».

Efficace à 99,9 %, mais... facile à effacer

Des employés soutenant la diffusion de l'outil ou ayant participé à son développement estiment, a contrario, que ces arguments « étaient dérisoires par rapport aux bienfaits que cette technologie pourrait apporter », tempère le WSJ.

Ces filigranes, imperceptibles à l'œil nu mais susceptibles d'indiquer la probabilité que le document entier, ou une partie de celui-ci, a été généré par ChatGPT, seraient « efficaces à 99,9 % lorsque ChatGPT crée suffisamment de nouveau texte », d'après les documents internes consultés par le WSJ.

Des employés ont néanmoins exprimé des doutes. Il serait en effet relativement facile d'effacer les filigranes « à l'aide de techniques simples, par exemple en demandant à Google de traduire le texte dans une autre langue, puis de revenir en arrière, ou en demandant à ChatGPT d'ajouter des emojis au texte, puis de les supprimer manuellement », précise un employé d'OpenAI au fait du problème.

De plus, un « large consensus » des employés estime qu'il serait difficile de déterminer qui pourrait utiliser cette fonctionnalité, tempère le WSJ :

« Si trop peu de personnes y ont accès, l'outil ne sera pas utile. Si trop de personnes y ont accès, de mauvais acteurs pourraient déchiffrer la technique de filigrane de l'entreprise. »

Le problème et les questions qui en découlent auraient commencé d'être débattus avant même qu'OpenAI ne lance ChatGPT en novembre 2022. Ils n'ont été depuis qu' « une source persistante de tension », déplorent plusieurs des sources du WSJ.

Influencer l'opinion publique en tant qu'acteurs responsables

L'outil est développé par Scott Aaronson, un professeur d'informatique directeur du Quantum Information Center de l'université du Texas à Austin. En détachement, il travaille depuis deux ans sur la sécurité (safety) à OpenAI, et a déjà plusieurs fois évoqué ces questions de watermark sur son blog.

Ses travaux auraient conduit l'un des cofondateurs d'OpenAI, John Schulman, à répertorier les avantages et inconvénients de l'outil dans un document Google partagé.

Il y précisait notamment que 69 % des utilisateurs de ChatGPT interrogés pensaient que la technologie de détection de la tricherie conduirait à de fausses accusations. Et près de 30 % déclaraient même qu'ils utiliseraient moins ChatGPT s'il déployait des filigranes alors qu'un concurrent ne le ferait pas. En avril 2023, OpenAI avait par ailleurs commandé un sondage indiquant qu'un tel outil de détection de l'IA était néanmoins soutenu par quatre personnes sur cinq.

Au début du mois de juin, les cadres supérieurs et chercheurs d'OpenAI se sont de nouveau réunis pour discuter du projet. Tout en convenant que la technologie fonctionnait bien, plusieurs auraient déclaré que l'entreprise devrait envisager d'autres approches potentiellement « moins controversées ».

Ils estimeraient aussi qu'OpenAI a besoin d'un plan « d'ici l'automne pour influencer l'opinion publique sur la transparence de l'IA ainsi que sur les nouvelles lois potentielles en la matière ». « Sans cela, nous risquons de perdre notre crédibilité en tant qu'acteurs responsables », souligne le résumé de la réunion.

L'AI Act européen exige le marquage des contenus GenAI

Cette fonctionnalité permettrait pourtant à OpenAI de se conformer au règlement sur l’intelligence artificielle (AI Act), entré en vigueur le 1er août 2024 et applicable à partir du 2 août 2026, relève Euractiv.

L’AI Act exige en effet que les fournisseurs d’intelligences artificielles génératives (GenAI) de contenus synthétiques audio, image, vidéo ou texte, indiquent s'ils ont été générés ou manipulés de manière artificielle.

« Les organisations peuvent s’y engager […] dans la mesure du possible, concevoir des systèmes d’IA générative de sorte que le contenu généré par l’IA soit marqué par des solutions techniques, telles que des filigranes et des identifiants de métadonnées », peut-on lire dans le projet de pacte sur l'IA, un ensemble d’engagements volontaires auxquels les entreprises peuvent adhérer pour se préparer à se conformer à l’AI Act.

La semaine passée, OpenAI s'était d'ailleurs engagée à respecter l’AI Act, et à travailler « en étroite collaboration » avec le nouveau bureau européen de l'IA au fur et à mesure de la mise en œuvre de la loi, « non seulement parce qu'il s'agit d'une obligation légale, mais aussi parce que l'objectif de la loi s'aligne sur notre mission de développer et de déployer une IA sûre au profit de toute l'humanité ».

À la recherche d'alternatives

Dans un billet de blog mis à jour ce dimanche suite aux révélations du WSJ, OpenAI a confirmé avoir développé un outil « très précis » permettant de rajouter un filigrane à un texte GenAI, mais aussi qu’elle « continue d’envisager des alternatives dans le cadre de sa recherche ».

Car si sa méthode de filigrane de texte « s'est révélée très précise et même efficace contre les altérations localisées, telles que la paraphrase », elle est cela dit « moins robuste contre les altérations globales, telles que l'utilisation de systèmes de traduction, la reformulation avec un autre modèle génératif ou le fait de demander au modèle d'insérer un caractère spécial entre chaque mot, puis de supprimer ce caractère – ce qui la rend facile à contourner par des acteurs malveillants ».

De plus, et « bien que le filigrane textuel ait un faible taux de faux positifs, son application à de grands volumes de texte conduirait à un grand nombre de faux positifs ». Contrairement au filigrane, l'insertion de métadonnées profite du fait qu'elles sont signées de manière cryptographique, « ce qui signifie qu'il n'y a pas de faux positifs » :

« Nous n'en sommes qu'aux premiers stades de l'exploration, il est donc trop tôt pour évaluer l'efficacité de cette approche, mais certaines caractéristiques des métadonnées la rendent particulièrement prometteuse ». 

OpenAI précise également que, à l'approche de l'élection présidentielle états-unienne, ses « équipes ont donné la priorité au lancement de solutions de provenance de contenus audiovisuels, qui sont largement considérées comme présentant des niveaux de risque plus élevés à ce stade des capacités de nos modèles ».

Commentaires (12)


Je n'arrive à envisager qu'un seul moyen pour arriver au résultat souhaité, être en mesure de détecter qu'un texte, ou extrait, ait été généré par IA. Que chaque outil de génération garde une copie carbone du contenu généré en résultat d'un prompt et que ce soit via une interrogation faite au service. Ainsi il incombera à chaque societé de dire si oui ou non ils sont à l'origine du contenu. Je vois pas comment obtenir un tracage autrement et cela permettrait aussi de responsabiliser les societés génératrices du contenu créé par leur propre model.

Du genre: "j'ai un doute sur ce machin, c'est toi qui a fait ça?"

Le recours au watermarking sera forcément contournable par ceux qui justement souhaite le contourner. Sans consensus fédérateur sur la façon d'encadrer les usages de l'IA, il n'y aura de toute façon pas de salut.

Apres vient la question de responsabilisé les usagers...
Stocker les textes générés ne me semble pas viable. À un moment donné, GPT va écrire du texte qui sera à l'identique de celui d'un humain. À partir de là, qui a raison ?

Si j'écris "Aujourd'hui, il fait beau" et que GPT génère la phrase "Aujourd'hui, il fait beau". Cela rend-t-il de fait ma phrase comme étant générée par IA ?

En fait, j'ai du mal à voir comment le texte peut avoir un watermark. Les éléments cités dans l'article me semblent un peu bizarre... Les emoji ça se supprime. Le texte traduit et retraduit par Google Translate, c'est un risque à ce qu'il réécrive le contenu.
Pour les images, un filigrane invisible c'est déjà utilisé de longue date dans d'autres domaines. Pour du texte, je suis preneur d'explications (compréhensibles, pas 3 tonnes d'équation de préférences) sur le procédé.

SebGF

Stocker les textes générés ne me semble pas viable. À un moment donné, GPT va écrire du texte qui sera à l'identique de celui d'un humain. À partir de là, qui a raison ?

Si j'écris "Aujourd'hui, il fait beau" et que GPT génère la phrase "Aujourd'hui, il fait beau". Cela rend-t-il de fait ma phrase comme étant générée par IA ?

En fait, j'ai du mal à voir comment le texte peut avoir un watermark. Les éléments cités dans l'article me semblent un peu bizarre... Les emoji ça se supprime. Le texte traduit et retraduit par Google Translate, c'est un risque à ce qu'il réécrive le contenu.
Pour les images, un filigrane invisible c'est déjà utilisé de longue date dans d'autres domaines. Pour du texte, je suis preneur d'explications (compréhensibles, pas 3 tonnes d'équation de préférences) sur le procédé.
On est d'accord, je me disais qu'un simple "copié-collé" sous le bloc note de windows devrait virer tous les "watermarks"... Ou alors, j'ai vraiment pas compris comment ça marche...

Cyber-n-Ethique

On est d'accord, je me disais qu'un simple "copié-collé" sous le bloc note de windows devrait virer tous les "watermarks"... Ou alors, j'ai vraiment pas compris comment ça marche...
Je pense que le bloc-note de Windows semble gérer l'unicode, donc le watermark par des codes non imprimables/visibles perdurera un copier/coller.

J'ai lu une proposition sur Reddit qui ne me semblait pas si farfelues. La personne imaginait un système de quantification des phrases qui permettrait de savoir si la valeur quantifiée est fréquente ou non. Du style que chaque phrase aurait un "poids" identique en fonction d'une formule particulière et que l'IA génèrerait des phrases avec un "poids" particulier pour chaque demande. Ainsi si les phrases d'un texte, ou une grande partie d'entre-elles, ont le même "poids", il est fort probable qu'on ait affaire à un texte généré par IA.

Cyber-n-Ethique

On est d'accord, je me disais qu'un simple "copié-collé" sous le bloc note de windows devrait virer tous les "watermarks"... Ou alors, j'ai vraiment pas compris comment ça marche...
À vue de nez, je dirais qu'il s'agit de rédiger le texte d'une manière telle qu'elle contient la "signature" de l'IA. Je vais prendre un exemple à la con, pas réaliste, la vraie technique est probablement à la fois beaucoup plus complexe et beaucoup plus souple que ça pour être moins détectable et moins contraignante dans la génération de texte pertinent, mais, à titre d'illustration grossière et ultra-simplifiée :

Imagine que ChatGPT s'impose de mettre X% de la lettre E entre deux consonnes, Y% de la lettre P n'importe où dans le texte, et Z% des mots qui ont la lettre S parmi les deux premières lettres du mot, sur un texte suffisamment long les chances de respecter exactement ces pourcentages "par hasard" seront hyper faibles et donc ça sera un genre de "signature" de l'IA. Et si tu modifies juste un peu le texte tu ne changes les pourcentage qu'à la marge et le détecteur pourra toujours dire "ça, il y a toujours 90% de chance que ce soit du ChatGPT parce que les pourcentages sont très proches des règles que s'impose ChatGPT".

SebGF

Stocker les textes générés ne me semble pas viable. À un moment donné, GPT va écrire du texte qui sera à l'identique de celui d'un humain. À partir de là, qui a raison ?

Si j'écris "Aujourd'hui, il fait beau" et que GPT génère la phrase "Aujourd'hui, il fait beau". Cela rend-t-il de fait ma phrase comme étant générée par IA ?

En fait, j'ai du mal à voir comment le texte peut avoir un watermark. Les éléments cités dans l'article me semblent un peu bizarre... Les emoji ça se supprime. Le texte traduit et retraduit par Google Translate, c'est un risque à ce qu'il réécrive le contenu.
Pour les images, un filigrane invisible c'est déjà utilisé de longue date dans d'autres domaines. Pour du texte, je suis preneur d'explications (compréhensibles, pas 3 tonnes d'équation de préférences) sur le procédé.
Je ne fais que des hypothèses, au vue du peu d'informations que nous avons. Comme il est mentionné la présence d'émojis dont la suppression manuelle pourrait invalider le watermark, je me demande s'il ne joue tout simplement pas sur l'encodage Unicode.

Un même caractère unicode peut avoir plusieurs représentation distinctes et toutes valides.

Par exemple, en Unicode le caractère "è" est le caractère numéro 0x00E8. Mais il peut aussi être représenté comme un "e" avec suivi du signe diacritique "`" (et donc encodé 0x0065 0x0300).

Un même caractère, plusieurs codes unicode.

Au début de l'UTF-8 et de l'UTF-16, un même caractère Unicode pouvait être encodé de plusieurs manières différentes : rien n'obligeait à utiliser le nombre minimum d'octets pour encoder un caractère, et un caractère encodable sur 2 octets pouvait l'être sur 2, 3 ou 4 en UTF-8 par exemple. Un phénomène connu sous le nom d' overlong. Mais depuis cette pratique a été interdite par des RFC. Dans la mesure où cette pratique est maintenant interdite, je ne pense pas que cela soit ça (mais ça a existé).

Il serait aussi intéressant de savoir si c'est le copier/coller depuis ChatGPT qui est détecté ou le texte en lui-même. Si c'est juste le copier/coller, cela pourrait donc bien signifier que le watermark est dans l'encodage des caractères. Si c'est le texte lui-même (par exemple, en le recopiant à la main), alors c'est le texte lui-même qui porterait une information (reste à savoir laquelle...)

fdorin

Je ne fais que des hypothèses, au vue du peu d'informations que nous avons. Comme il est mentionné la présence d'émojis dont la suppression manuelle pourrait invalider le watermark, je me demande s'il ne joue tout simplement pas sur l'encodage Unicode.

Un même caractère unicode peut avoir plusieurs représentation distinctes et toutes valides.

Par exemple, en Unicode le caractère "è" est le caractère numéro 0x00E8. Mais il peut aussi être représenté comme un "e" avec suivi du signe diacritique "`" (et donc encodé 0x0065 0x0300).

Un même caractère, plusieurs codes unicode.

Au début de l'UTF-8 et de l'UTF-16, un même caractère Unicode pouvait être encodé de plusieurs manières différentes : rien n'obligeait à utiliser le nombre minimum d'octets pour encoder un caractère, et un caractère encodable sur 2 octets pouvait l'être sur 2, 3 ou 4 en UTF-8 par exemple. Un phénomène connu sous le nom d' overlong. Mais depuis cette pratique a été interdite par des RFC. Dans la mesure où cette pratique est maintenant interdite, je ne pense pas que cela soit ça (mais ça a existé).

Il serait aussi intéressant de savoir si c'est le copier/coller depuis ChatGPT qui est détecté ou le texte en lui-même. Si c'est juste le copier/coller, cela pourrait donc bien signifier que le watermark est dans l'encodage des caractères. Si c'est le texte lui-même (par exemple, en le recopiant à la main), alors c'est le texte lui-même qui porterait une information (reste à savoir laquelle...)
Je ne pense pas qu'il s'agisse d'altération unicode, sinon un simple table de correspondance permettait de revenir à un encodage basique. Comme Liam le suggère, c'est probablement un watermark purement statistique, avec des probabilité d'occurrence de mots ou de type de construction de phrase légèrement altérées par rapport à un locuteur humain classique. La difficulté, c'est qu'entre deux locuteur humains différents, la distribution est probablement très différente. Il faut donc trouver une distribution suffisamment étrange pour être à coup sûr non-humaine, mais suffisamment subtile pour ne pas être détecté comme telle à la lecture par un humain et conserver le sens et le style désiré initialement. Sacré défi !

Bref, à mon avis, un watermark ne sera fiable que pour la génération de texte de quelques milliers de caractères (c'est là que ça importe, une IA qui écrit simplement "il fait beau" OSEF) . Ce nombre varie en fonction des langues, selon le nombre de mots et de tournures disponibles. Par exemple en français, le nombre de mot est relativement faible par rapport à l'anglais ou l'allemand, mais le nombre de tournures possibles, voire même de figures de styles dont les francophones raffolent, est supérieur. Bref, comme d'habitude pour l'IA, c'est un boulot pour très gros matheux !

ImpactID

Je ne pense pas qu'il s'agisse d'altération unicode, sinon un simple table de correspondance permettait de revenir à un encodage basique. Comme Liam le suggère, c'est probablement un watermark purement statistique, avec des probabilité d'occurrence de mots ou de type de construction de phrase légèrement altérées par rapport à un locuteur humain classique. La difficulté, c'est qu'entre deux locuteur humains différents, la distribution est probablement très différente. Il faut donc trouver une distribution suffisamment étrange pour être à coup sûr non-humaine, mais suffisamment subtile pour ne pas être détecté comme telle à la lecture par un humain et conserver le sens et le style désiré initialement. Sacré défi !

Bref, à mon avis, un watermark ne sera fiable que pour la génération de texte de quelques milliers de caractères (c'est là que ça importe, une IA qui écrit simplement "il fait beau" OSEF) . Ce nombre varie en fonction des langues, selon le nombre de mots et de tournures disponibles. Par exemple en français, le nombre de mot est relativement faible par rapport à l'anglais ou l'allemand, mais le nombre de tournures possibles, voire même de figures de styles dont les francophones raffolent, est supérieur. Bref, comme d'habitude pour l'IA, c'est un boulot pour très gros matheux !
C'est effectivement une possibilité. Après, il faut donc que ce soit le modèle lui-même qui ajoute le watermark, car ça me parait difficile d'ajouter un watermark de ce type après-coup.

Il faut donc que le modèle ait été entrainé ou fine-tuné pour l'inclure. Est-ce possible, je ne sais pas. C'est en dehors de mes compétences !
Pour revenir à l'objet du watermark, au delà de la technique, l'aspect juridique : Pour moi le devoir d'indiquer explicitement du contenu généré par IA doit s'appliquer à l'utilisateur ! C'est lui qui est responsable de la sélection du résultat généré, et qui est responsable de ce qu'il en fait (publication grand public, assistance pour le code, travail répétitif délégué à l'IA, etc.. ). Le sociétés qui mettent à disposition ces technologies ne peuvent assumer la charge morale des actes de l'ensemble de leur clients. Si on y venait, ce serait un bouleversement fondamental de tous les systèmes juridiques, voire de système de pensée.
Bouleversement, oui, il y a des algorithmes qui peuvent produire des choses illégal. Intentionnel ou non.

Et, visiblement, l'IA act en août 2026. Donc ça sera transposé dans le droit français.

mrintrepide

Bouleversement, oui, il y a des algorithmes qui peuvent produire des choses illégal. Intentionnel ou non.

Et, visiblement, l'IA act en août 2026. Donc ça sera transposé dans le droit français.
il y a des algorithmes qui peuvent produire des choses illégal


Ah bon ?
J'ajouterais dans ta phrase un mot "l'éventuel devoir d'indiquer explicitement du contenu généré par IA doit s'appliquer à l'utilisateur".

Les cas d'usages que tu décris peuvent engager la responsabilité de l'entreprise qui a choisi d'utiliser (ou non) une IA.
C'est à elle d'assumer les conneries "des choses que l'on a sous sa garde" (les guillemets, c'est parce que je cite la définition de la responsabilité civile - donc c'est déjà dans la loi).

Au contraire, mentionner l'IA pourrait presque décharger l'entreprise de certaines responsabilités... bah non, ce serait contre productif !
Fermer