Microsoft a présenté hier soir lors d’une conférence une importante évolution prévue pour Skype plus tard dans l’année. Il s’agit d’un module de traduction en temps réel capable d’écouter la voix d’un correspondant d’un côté, et d’en donner oralement la version dans une autre langue dans la foulée.
Traduire oralement et en temps réel une autre langue
Lorsque Microsoft a racheté Skype pour 8,5 milliards de dollars, de nombreux observateurs n’ont pas manqué de souligner qu’il s’agissait d’une somme colossale pour une « simple » solution de messagerie. Évidemment, le sens de « colossal » est devenu plus relatif depuis le rachat de WhatsApp par Facebook, pour un total de 19 milliards de dollars. Mais Microsoft avait rapidement indiqué de son côté que Skype serait une brique importante de sa stratégie, et toutes les décisions prises depuis vont dans ce sens, la messagerie ayant totalement remplacé Live Messenger par exemple.
Dans une démonstration réalisée hier soir, Microsoft a dévoilé quel genre d’évolution était prévu pour sa solution de messagerie. En développement au sein de Microsoft Research depuis plusieurs années, une solution de traduction en temps réel sera ainsi ajoutée à la version Windows 8 de Skype plus tard dans l’année. Le principe de fonctionnement en est simple : deux personnes utilisant des langues différentes pourront se parler, Skype se chargeant de traduire oralement les propos de chacun.
Comme on peut le voir dans la vidéo de démonstration, un américain et un allemand font une conférence Skype. Dès que l’utilisateur allemand parle, l’autre reçoit sur son écran une version écrite de ce qui vient d’être prononcé. Juste après, la synthèse vocale prend le relai pour prononcer les mots.
Même perfectible, la démonstration reste impressionnante car naturelle
La solution semble efficace, mais la technologie peut encore être améliorée, comme on peut le voir dans cette autre vidéo ci-dessous. Il s’agit de la démonstration réalisée hier soir lors de la conférence Re/Code, à la suite d’un entretien sur le sujet avec Satya Nadella, PDG de Microsoft. Cette démonstration a été réalisée par Gurdeep Pall, qui dirige les équipes de Skype et de Lync. On peut y voir là encore un entretien entre des utilisateurs américain et allemand. Mais on peut remarquer que ces derniers prennent bien soin d’articuler très soigneusement. Les majuscules ne sont pas toujours présentes et la ponctuation devrait être renforcée.
Dans tous les cas, la démonstration réalisée par Microsoft reste impressionnante. La reconnaissance fonctionne bien et c’est la quasi-simultanéité des traductions qui renforce l’impression de « naturel » de cette solution. D’autant que l’utilisateur obtient un flux audio dans la langue de son interlocuteur, la phrase écrite qu’il vient de prononcer et sa version dans l’autre langue. Il s’agit d’ailleurs pour Satya Nadella de l’illustration parfaite de l’évolution qu’il constate pour l’informatique en général, qui se dirige vers une ère « plus personnelle, plus humaine ».
Mais évidemment, la question qui intéressante maintenant est : quand ? Selon le PDG de Microsoft, une version bêta de ce traducteur en temps réel sera disponible plus tard dans l’année sur Windows 8, sans aucune date plus précise pour l’instant. Cette phase de test sera suivie d’une diffusion plus générale sur d’autres plateformes. Interrogé sur la possibilité d’appeler un interlocuteur en Égypte et d’entretenir facilement une conversation traduite, Nadella a répondu que ce serait le cas « au cours des deux prochaines années ».
Commentaires (58)
Auten je gueule sur µSoft auten la je dit respect les gars
" />
Pour le moment c’est juste impressionnant parce que ce sont des démonstrations par Microsoft, tout est beau, le son de la voix à la sortie d’une tablette est en HD digital.
Attendons de voir de “vrai” démonstration et en espérant que ça ne finira pas comme illumiroom.
Étant interprète, j’ai de forts doutes concernant la qualité de la traduction donnée et soit-disant simultanée. Peut-etre que pour des phrases banales comme “bonjour comment allez-vous ?” c’est acceptable, mais pour le reste, je reste sceptique.
" />
J’ai hâte de voir comment il va traduire “Ouech Couzin bien ta vu, walla la famille nebes ou bien ?” en Allemand ou en Anglais
" />
Je l’avoue, je n’ai pas eu le temps de la regarder
" /> car une machine comprendre des sous entendus, du second degré ou encore des blagues (parfois intraduisibles) et correctement les interpéter en simultané, c’est pas évident
" />
[ mode=“oui, je sais, c’est lourd a force”]
Faut bien justifier le retrait du mode peer to peer, l’utilisation de leur cloud et faciliter l’interception pour la NSA.
[ /mode=“oui, je sais, c’est lourd a force”]
Impressionnant, GG à Microsoft et vivement le produit fini.
Dans le même temps j’espère aussi que les concurrents (Apple, Google…) sortiront aussi leurs solutions, pour qu’il y ait une émulation dans le secteur et que l’utilisateur final ait le choix.
N’empêche, le rêve serait une petite oreillette qu’on porterait et qui traduirait l’intégralité de ce que dit notre interlocuteur, voir nos interlocuteurs lors d’une réunion (plus complexe) en simultané et en conservant le timbre de voix.
" />
Le jour où on arrive à pondre ça avec une fiabilité à toute épreuve
What ??
Sa c’est la classe Oo !!
" />
" />
Pour un prototype c’est pas mauvais en anglais il faudrait le rendre plus rapide et qu’il comprenne un peu mieux (vu que la ils articulent bien) mais sa c’est vraiment génial !
C’est basé sur cortana donc puisque la voie féminine c’est elle sur un telephone sa serait un kiff !
Je pense qu’on est pas bien loin d’avoir quelque chose de fonctionnel.
Je ne dis pas ça pour le démo (qui est certes impressionnante) mais plus au niveau de la puissance de calcul, de stockage des machines et de toutes les études sur les réseaux neuronaux qui commencent à pouvoir être applicable du à la technologie.
On verra qui de Microsoft, Apple ou Google aura le premier la bonne solution.
Ouais, aucun doute que ça marche bien avec les langues accentuelles comme l’anglais et l’allemand.
" /> D’ailleurs, même à l’écrit, les traductions anglais-chinois sont à vomir…
Moi, j’attends de voir une démonstration avec des langues tonales comme le chinois.
Classe !
J’en parlais justement dans certains de mes anciens commentaires : le traitement des langues naturelles, c’est clairement un axe de recherche porteur.
C’est une espèce d’utopie qui en fait rêver plus d’un.
Grâce à des grosses structures comme Microsoft, on voit émerger des solutions grand public.
Je parle d’une “espèce d’utopie” car si à nous humains, ça nous semble si simple, pour la machine c’est tellement compliqué. A ma connaissance, il y a des choses, qui peuvent être largement améliorées.
Je doute que des expressions soient correctement traduites. Qu’on le veuille ou non, ca reste qd même une traduction faites par “une machine”.
" />
" />
" /> OK, je sors
Sinon, les traducteurs ont du soucis à se faire !
Et puis, il faut bien cela pour vous les français qui avez tant de mal avec les langues
Je vais enfin pouvoir comprendre.
" />
Ou pas.
Est-ce que la traduction est faite par un interprète de la NSA ?
" />
Du travail en plus pour la NSA, les pauvres.
" />