Des chercheurs comparent la qualité de 18 voix de synthèse à celles d‘humains

La conclusion va-t-elle vous surprendre ?

Le 12 mai 2020 à 14h55

8 min

Sciences et espace

Sciences

Une étude se penche sur la qualité et les performances des voix de synthèse lors de la lecture d’un long texte. Si les voix humaines arrivent en tête du classement sur de nombreux critères, les machines les talonnent. Elles parviennent même à dépasser une des voix humaines. Pour Mozilla, cela soulève plusieurs questions.

Mozilla s’est récemment fait l’écho d’une étude portant sur la qualité des synthèses vocales (ou TTS pour text-to-speech) disponibles sur le marché et de leurs performances vis-à-vis des voix humaines. Dans le cas présent, les chercheurs se sont attardés sur un point précis : l’écoute d’un long texte, cet article de Harvard Business Review (909 mots). Le contenu est politiquement neutre pour essayer autant que possible de ne pas alterer des jugements.

Les chercheurs rappellent que de nombreux comparatifs existent sur des mots, des phrases et des paragraphes, mais que c’est encore assez rare sur un long texte. Une vingtaine de voix de synthèse et humaines ont été comparées entre mi-2018 et mi-2019, via des personnes recrutées aux États-Unis sur la plateforme Amazon Mechanical Turk. Au total, 1 090 retours ont été pris en compte, payés 2,50 dollars en moyenne pour un travail d’une dizaine de minutes.

Les tests ont été effectués en anglais, probablement la langue où la synthèse vocale est la plus répandue et aussi la plus performante. Comme on pouvait s’en douter, la conclusion des chercheurs est mi-figue mi-raisin (contrairement à ce que laisse penser le titre du billet de blog de Mozilla, nous y reviendrons) : « Nous avons constaté que les voix TTS sont proches de rivaliser avec les voix humaines, mais aucune voix ne surpasse les autres dans toutes les mesures de l'évaluation ».

Les voix d’Amazon, Apple, Google, Microsoft, Mozilla…

Quelques points importants sur les conditions des tests avant de se pencher sur les conclusions. Cinq chercheurs, tous des États-Unis, ont cosigné cette publication : Julia Cambre et Jessica Colnago de la Carnegie Mellon University, Jim Maddock de la Northwestern University, ainsi que Janice Tsai et Jofish Kaye de chez Mozilla (ce qui explique notamment pourquoi la fondation s’en fait le relais).

Les 18 voix TTS de cette étude proviennent de chez Amazon Polly, Android, Google, iOS, macOS, Voicery et Windows. Trois sont de chez Mozilla : Judy, LJ Speech et Nancy. Les trois voix humaines sont celles de membres de l’équipe de recherche, chacune avec un style différent (Human 3 a par exemple un accent britannique). Des échantillons audio et des caractéristiques techniques de toutes les voix sont disponibles par ici.

TTS comparatif

Enfonçons ensuite quelques portes ouvertes : les mesures sont évidemment subjectives, chaque personne aura des affinités différentes avec les différentes voix. Multiplier le nombre de retours permet néanmoins de lisser les scores et d’établir des classements. Entre 38 et 66 personnes ont écouté chacune des 21 voix de synthèse ou humaine, avec une médiane à 50.

Une valeur souvent utilisée dans ce genre d’analyse est le score moyen d'opinion (MOS) « qui demande aux participants d'évaluer leur impression globale d'une voix sur une échelle de 1 à 5 ». Le MOS est évidemment repris dans cette étude, avec cinq niveaux de réponse : Excellent, Bon, Neutre, Mauvais et Très mauvais.

Il était également demandé aux participants de donner une note entre 0 et 10 (11 possibilités donc) afin de savoir s’ils aimeraient écouter leurs livres, magazines ou podcasts préférés avec cette voix. D’autres critères sont également pris en compte. Il y a ainsi la vitesse de lecture, avec trop rapide, juste bien ou trop lente. Des questions binaires sont aussi posées (on répond par oui ou non) : la voix est-elle monotone, naturelle, facile à comprendre, manque-t-elle d’émotion ou de personnalité et enfin permet-elle de se concentrer sur le contenu ?

Deux humains en tête, le troisième à la traîne

Au final, la voix avec la moyenne des MOS la plus élevée est Human 3 avec 4,2 sur 5. Elle est suivie par Human 1 et Judy (de Mozilla) à égalité avec 3,9 sur 5. Une autre variante de Judy, Google, Windows et macOS sont aussi à 3,7. En bas du tableau, LJ Speech (de nouveau de Mozilla) est à 3,2 sur 5, Android UK à 2,9 et enfin iOS à 2,8 seulement (le plus mauvais score).

On remarque une certaine corrélation entre le MOS et la volonté de réécouter la voix sur d’autres textes, ce qui est finalement assez logique. Dans le cas de Human 3, le score médian des participants souhaitant écouter cette voix sur d’autres contenus est de 8 sur 10, contre 1 pour Android UK et même 0 pour iOS.

Les chercheurs indiquent que « dix voix TTS ont reçu un pourcentage plus élevé de notes positives que la voix humaine la moins bien notée, tandis que huit voix TTS ont reçu moins de notes négatives que la voix humaine la plus basse ». Dans les deux cas, Human 2 est la plus « mauvaise » voix d’une personne réelle.

En étudiant les réponses sur la qualité et la clarté des voix, les chercheurs arrivent à la conclusion suivante : « certaines voix sont faciles à comprendre, mais sont quand même déplaisantes à écouter, tandis que d'autres sont agréables, mais pas faciles à comprendre ». Ils ajoutent que « quelques-unes excellent dans les deux dimensions : généralement les voix humaines ».

L’étude de la vitesse de prononciations permet de conclure que la « bonne » vitesse est généralement entre « 163 et 177 mots par minutes », ou WPM (words per minute) dans la langue de Shakespeare. Cette fourchette dépend certainement du type de texte, de sa complexité et du public à l’écoute, mais elle donne au moins un ordre d’idée.

Aucune des voix ne surclasse toutes les autres

En guise de conclusions, les chercheurs expliquent avoir « constaté que des voix telles que Human 3, Judy W1 et Google C se classaient très bien sur plusieurs critères tels que la vitesse, la qualité et la volonté d'écouter d'autres contenus en utilisant cette voix. Cependant, aucune de ces voix n'a surpassé toutes les autres sur tous les critères évalués. Par exemple, Human 3 a reçu la note la plus élevée sur le score moyen d'opinion, la volonté d'écouter à nouveau, la clarté et la qualité, mais elle n’est classée que troisième en compréhension ».

Ils enchaînent : « Sans surprise, nous avons constaté que les voix humaines surpassaient encore largement les voix TTS. Sur presque tous les critères étudiés […] deux des voix humaines ont systématiquement reçu des notes plus élevées que toutes les voix TTS. Cependant, plusieurs des voix TTS se sont toujours mieux comportées que l'une des voix humaines (Human 2) ». Bref, il existe donc « des situations où une voix TTS de haute qualité peut être préférable à certaines voix humaines ».

Les voix de synthèse bientôt à égalité avec les voix humaines ?

Les différences entre les meilleures voix TTS et humaines sont assez faibles et les chercheurs pensent que « les voix TTS pourront bientôt atteindre la parité avec la parole humaine ». Il convient par contre de rappeler que cette étude ne porte que sur un seul texte, il est donc difficile d’en tirer de larges conclusions. En effet, sur d’autres documents les résultats pourraient être différents.

Une chose est sûre, on est désormais loin de la voix de robot, au moins pour les plus performantes. Signalons enfin que l’étude a commencé il y a près de deux ans déjà. Sans être une éternité, ce délai est loin d’être négligeable en termes de développement informatique : les voix TTS se sont sûrement encore améliorées depuis.

Dans tous les cas, Mozilla se félicite de la publication de cette étude, mais titre son billet de blog d’une manière un peu orientée : « Une étude Mozilla montre que certaines voix de synthèse obtiennent un score supérieur à celui des humains ». C’est certes vrai, mais cela laisse de côté les deux voix humaines arrivées en tête, mais un titre du genre « les voix humaines font mieux que les voix de synthèse » aurait certainement été moins vendeur.

La fondation soulève néanmoins plusieurs questions intéressantes : « Une question que nous n’avons pas posée dans cette étude était de savoir si les gens avaient confiance ou croyaient le contenu qui leur était lu ». Elle est d’autant plus d’actualité avec les deep fake et autre détournement qui permettent d’usurper la voix/vidéo d’une personne pour lui faire tenir n’importe quel discours. Avec l’amélioration des synthèses vocales, il sera d’autant plus difficile de repérer les faux.

Une étude pointe les possibles effets pervers de l'intelligence artificielle

Mozilla se demande ensuite ce qu’il arrivera quand, simplement en changeant la voix de synthèse, il sera possible de modifier (même légèrement) la compréhension d’un texte. Le choix de telle ou telle TTS serait alors tout sauf anodin. Ce qui est certain, c’est que ce genre de considération ne va pas arrêter les progrès de l’informatique.

Commentaires (18)

tazvld Abonné

Le 12/05/2020 à 16h27

Les voix de synthèses ont encore un problème de son “synthétique”, un coté métallique d’un son trop compressé.

L’autre point, c’est l’absence de son de glotte, de langue, d’inspiration qui sont très présent chez les voix humaine. Or je sais que les auteurs de wavenet (deepmind/google, et il me semble que c’est les voix de google dans l’article) lorsqu’il laissent leur réseau libre fait énormément ce genre de son.

(voir section “Knowing What to Say” dans ce billet :https://deepmind.com/blog/article/wavenet-generative-model-raw-audio)

Cumbalero

Le 12/05/2020 à 17h03

Je ne sais même pas si cette étude a un sens.

Que les voix synthétiques ressemblent techniquement de plus en plus à une voix humaine est une chose, mais il y a tellement de paramètres totalement subjectifs dans ce qui fait qu’on trouve un timbre, une diction, une scansion, un accent agréable ou non que définir si une voix ou une autre est meilleure…

La narration dans les mystérieuses cités d’or par la voix d’Arletty dans Hôtel du Nord, on tente ? Homer Simpson doublé par Philippe Noiret ? La lecture d’une RFC par Macha Béranger ne me la rendra pas moins indigeste. A l’opposé, je ne suis pas tenté par une reprise de Fitter, happier de Radiohead par Pavarotti.

Cqoicebordel Abonné

Le 12/05/2020 à 18h20

En tout cas, à écouter les échantillons, on se rend vite compte que les voix générées avec passage à travers un réseau de neurones sont un cran au dessus. C’est vachement intéressant.

Cumbalero

Le 12/05/2020 à 19h20

Cqoicebordel a écrit :

En tout cas, à écouter les échantillons, on se rend vite compte que les voix générées avec passage à travers un réseau de neurones sont un cran au dessus. C’est vachement intéressant.

C’est le cas de 100% des voix humaines, non?

Okki Abonné

Le 12/05/2020 à 22h15

Et n’oubliez pas de contribuer à Common Voice. Le jeu de données permettra de créer tout aussi bien un système de reconnaissance vocale libre de qualité, que de nouvelles voix pour la synthèse vocale.

Mihashi Abonné

Le 12/05/2020 à 23h27

Comparer des voix synthétiques à seulement trois voix humaines, c’est un peu chaud pour en tirer des conclusions fiables…

eres Abonné

Le 13/05/2020 à 09h17

J’ai testé et utilisé les voix Acapela pour un service téléphonique où il faut changer régulièrement le contenu.

Testable très facilement surhttps://acapela-box.com/AcaBox/index.php

Cela nécessite un peu d’ajustement avec les paramètres et reste encore artificiel, mais elles sont très compréhensibles et de plutôt bonne qualité (et pas cher)

cauzik Abonné

Le 13/05/2020 à 09h53

Je te remercie je testerai ça !

gendy54 Abonné

Le 13/05/2020 à 10h17

Si Mozilla se met à faire du putaclic, on est pas rendu…

MoonRa

Le 13/05/2020 à 21h44

J’ai l’impression d’avoir perdu mon temps, je suis désolé pour moi même

pixel-dot

Le 14/05/2020 à 13h30

bah voyons.

Ne pas bien documenter les voix TTS testées quand c’est justement le sujet de d’etude, ça te tique pas toi? Evidemment que je compare avec iOS car c’est ce que j’ai. Mais comment puis je faire confiance à l’etude sur les autres voix si déjà pour celles dont je peux en lire les resultats, on ne sait pas précisement de quoi on parle?

DanLo

Le 14/05/2020 à 14h19

Ou sinon tu relis attentivement la seconde phrase de mon commentaire précédent…

Scylune

Le 17/05/2020 à 15h04

Woah… Google C et les Polly sont bien fichues ^^

pixel-dot

Le 12/05/2020 à 15h36

Mais quel manque de rigueur pour étude qui se veut scientifique. L’exemple d’IOS est flagrant. Quelle voix TTS est notée? Siri, qui est la voix TTS par défaut ? Et si oui quellle version/date? Les Voix TTS inclues? Si oui laquelle? Samantha? Ava? Susan?…

pamputt Abonné

Le 12/05/2020 à 15h52

Probablement la voix par défaut pour iOS. Les voix sont écoutables ici donc vous pourrez vous faire votre avis. S’il s’agit de la voix par défaut sur iOS, il serait peut-être temps qu’Apple la change " />

DanLo

Le 12/05/2020 à 15h56

user_6677 a écrit :

Mais quel manque de rigueur pour étude qui se veut scientifique. L’exemple d’IOS est flagrant. Quelle voix TTS est notée? Siri, qui est la voix TTS par défaut ? Et si oui quellle version/date? Les Voix TTS inclues? Si oui laquelle? Samantha? Ava? Susan?…

J’en connais un qui a bobo pour Apple… " />

Sinon si tu lis leur publication tu verras que c’est indiqué…

Franchement, si le seul manque de rigueur scientifique que tu y vois c’est le fait qu’ils ont pas bien documenté les voix TTS testées (alors que c’est pas leur objectif de faire un top topito hein…), je crois qu’on est plutôt bien. " />

cauzik Abonné

Le 12/05/2020 à 16h11

fanboy spotted.

Est-ce que quelqu’un connait des bonnes voix en FR pour tester la lecture d’articles de presse ? J’ai essayé de trouver dans firefox si une était implantée mais je n’ai pas l’impression.

zeldomar Abonné

Le 12/05/2020 à 16h25

J’ai deux petites remarques sur leurs études :

 - la plateforme Amazon Mechanical Turk est principalement utilisé en inde, qui ont un fort lien avec l’Angleterre, qui peut peut-être expliqué leur affinité avec la voix humaine 3 qui a un fort accent britannique

 - les 2 premières voix humaines sortent du lot car on se rend compte que ce n’est pas de la synthèse à des petits détails, et c’est donc forcément plus appréciable à écouter (enfin j’imagine " />) :

réverbération pour le premier (il ne devait pas être en studio " />)

on entend clairement le décollement des lèvres pour le second