Au CNRS, « l’étonnante acceptabilité des deep-fake »

Au CNRS, « l’étonnante acceptabilité des deep-fake »

Au CNRS, « l’étonnante acceptabilité des deep-fake »

Le Centre national pour la recherche scientifique rappelle que cette technologie connaît des progrès rapides. Permettant de modifier en temps réel l’apparence et/ou la voix d’une personne en vidéo, elle « nécessite une réflexion éthique très en amont sur son utilisation ».

Dans une étude publiée dans Philosophical Transactions B de la Royal Society, le CNRS explique « avoir présenté à trois cents Français (majoritairement jeunes, urbains et étudiants, représentatifs des futurs utilisateurs de ces technologies) différents scénarios hypothétiques d'application de transformations vocales émotionnelles ».

Dans ces scénarios « à la Black Mirror », on trouve notamment celui de l’employé de call-center (centre d’appels) qui transforme la voix de ses clients mécontents pour moins souffrir de leur agressivité ; du politicien qui rend sa voix plus convaincante ; mais aussi des situations thérapeutiques comme celle d’un patient dépressif qui rend sa voix plus « souriante » pour ses proches, ou d’une personne stressée qui se calme en écoutant une version apaisée de sa propre voix.

Résultat des courses : « les personnes testées ont trouvé la majorité de ces scénarios moralement acceptables, y compris, et c'est surprenant, quand l'observateur n’est pas informé que la voix de son interlocuteur est modifiée ».

Si les chercheurs s’y attendaient pour les situations thérapeutiques, ils semblent surpris que ce soit également le cas pour « des situations d'augmentation pure de capacités qui ont pourtant un fort parfum de transhumanisme ».

« Au final, la seule situation qui semble poser problème est de cacher à l'utilisateur le fait que sa propre voix est modifiée algorithmiquement ».

Commentaires (11)


“celle d’un patient dépressif qui rend sa voix plus « souriante » pour ses proches”



Euh, moi ça me parait pas très sain comme méthode, voir dangereux …
Si des proches ne sont plus en mesure “d’entendre” qu’une personne est en dépression, il y a de fortes chances qu’elle se retrouve de plus en plus en détresse …
Si quelqu’un semble “bien aller”, y’a peut de chance que des gens autour proposent de l’aider.



Le reste des propositions … c’est du black mirror, et ça fait peur aussi !


Don’t Look Up …


Je comprends pas bien pourquoi ça serait différents des messages que l’on écrit déjà. On devra juste considérer la vidéo et l’audio comme le texte à l’avenir. Du coup, ça valorisera d’autant plus les interactions en chair et en os,


Les informations digitales que sont les mots peuvent être modifiés (comme quand tu dis “je vais bien :D alors que c’est pas le cas) mais la modification est faite par l’auteur même des mots alors qu’ici c’est un algorithme qui le ferait sans notre consentement.



Comment vivre encore moins dans la réalité ?
C’est horrible d’entendre ces scénarios.



Les informations sensorielles sont la bases de nos décisions pour la majorité de nos décisions. Si la technologie s’en vient nous fausser ces bases alors nos décisions ne seront plus le fruit de notre liberté mais bien de notre asservissement.



S’il est possible de rendre quelqu’un plus convainquant, c’est tout à fait possible de le rendre moins convainquant et pareil pour chaque situation décrite. Le cyberharcèlement pourrait prendre une ampleur jamais vu si quelqu’un arrivait à hacker le système pour que tous nos interlocuteurs soient plus pénible pour nous et que nous même soyons plus pénible pour les autres.



C’est effrayant et sans valeur ajoutée de surcroît.


Putain, encore un aspect merveilleux du monde de demain.



C’est ouf que (en tout cas sur le panel de test) les gens se posent pas plus de questions que ça sur les risques sous-jacents à autoriser un usage, même censément “bénin”, sans garde-fous clairs à commencer par l’information explicite de toutes les parties en présence (ce qui certes “casse” certains usages comme le coup du patient dépressif).



Surtout, j’attends avec impatience le moment où tout le monde va réaliser qu’en l’état actuel, avec l’absence d’authentification / certification d’intégrité généralisée d’un côté, l’amélioration permanente des capacités de deep fake (spécialement en prérendu)… Il va devenir extrêmement difficile de se fier à des enregistrements audio ou vidéo pour régler toute sorte de conflit.



Bientôt le retour aux bandes magnétiques ?



swiper a dit:


Les informations digitales que sont les mots peuvent être modifiés (comme quand tu dis “je vais bien :D alors que c’est pas le cas) mais la modification est faite par l’auteur même des mots alors qu’ici c’est un algorithme qui le ferait sans notre consentement.



Comment vivre encore moins dans la réalité ? C’est horrible d’entendre ces scénarios.



Les informations sensorielles sont la bases de nos décisions pour la majorité de nos décisions. Si la technologie s’en vient nous fausser ces bases alors nos décisions ne seront plus le fruit de notre liberté mais bien de notre asservissement.



S’il est possible de rendre quelqu’un plus convainquant, c’est tout à fait possible de le rendre moins convainquant et pareil pour chaque situation décrite. Le cyberharcèlement pourrait prendre une ampleur jamais vu si quelqu’un arrivait à hacker le système pour que tous nos interlocuteurs soient plus pénible pour nous et que nous même soyons plus pénible pour les autres.



C’est effrayant et sans valeur ajoutée de surcroît.




Bof, je pense que tu flippe pour rien. La vidéo et l’audio ne sont pas des informations sensorielles, ce sont déjà des médias fortement modifiés (rien que sur le montage, le doublage, le mix audio). On peut déjà rendre quelqu’un plus ou moins convaincant avec des techniques à la portées de tous, c’est ce qu’on voit tous les jours dans le JT. Si on est conscient qu’on peut pousser cela à l’extrême, peut être qu’on va enfin réaliser qu’on est facilement manipulable, et que donc ce que nous voyons et entendons doit toujours être rapporté à la source. Si la source n’est pas opposable, alors on doit être vigilant et critique.


Cette étude reste sur un panel de 303 personnes, “jeunes et instruites”




  1. Est-ce vraiment représentatif de l’acceptation de cette techno. ? ..

  2. Il faut sérieusement se poser des questions sur l’apprentissage de la sécurité de l’information à la génération Z.



Bill2 a dit:


“celle d’un patient dépressif qui rend sa voix plus « souriante » pour ses proches”



Euh, moi ça me parait pas très sain comme méthode, voir dangereux … Si des proches ne sont plus en mesure “d’entendre” qu’une personne est en dépression, il y a de fortes chances qu’elle se retrouve de plus en plus en détresse … Si quelqu’un semble “bien aller”, y’a peut de chance que des gens autour proposent de l’aider.



Le reste des propositions … c’est du black mirror, et ça fait peur aussi !




Ha, je suis pas le seul à tiquer sur le dépressif qui se planque derrière un vocodeur.
Et le reste des scénarios, c’est pas bien plus rassurant, empêcher de gueuler en interrompant l’appel pourrait être plus pertinent que de rectifier la tonalité, ça inciterait à s’éduquer plutôt que de laisser faire.
Quant à rendre la voix plus convaincante, c’est carrément de la manipulation, mais bon ça se fait déjà un peu à certaines échelles, comme les réglages des voix radios, l’ajustement des fausses notes chez les artistes…



swiper a dit:


Les informations digitales que sont les mots




Les seules informations digitales qui existent sont celles liées aux doigts. Et en dehors de qques tatoués, je n’ai jamais vu de mot sur les doigts :fumer:


C’est parce que tu ne sais pas lire le braille.



Cumbalero a dit:


C’est parce que tu ne sais pas lire le braille.




:transpi:



(Je confirme, j’en suis actuellement incapable)


Fermer