Avec Nova Sonic, Amazon a enfin un modèle d’IA pour le traitement vocal
Don't Call Me Baby

Amazon a présenté hier soir un nouveau venu dans sa famille de modèles d’IA générative Nova. Nommé Sonic, il est spécialisé dans le speech-to-speech et se veut idéal pour les bots dédiés à la relation client.
Le 09 avril à 16h19
3 min
IA et algorithmes
IA
Amazon renforce et complète actuellement sa gamme Nova. On a ainsi vu récemment la version 1.1 de Nova Reel, destinée à la génération de vidéos pouvant aller jusqu’à 2 minutes. Nova Sonic, le nouveau venu, est un modèle destiné à l’audio, plus précisément dans la catégorie speech-to-speech. Il est donc conçu pour donner des réponses vocales à des invites tout aussi vocales.
Destinations chatbots et streaming
Sans surprise, le modèle Sonic est fait avant tout pour les interfaces permettant les discussions à haute voix. C’est la réponse d’Amazon au Voice Mode de ChatGPT et autres technologies équivalentes. L’entreprise sait d’ailleurs qu’elle arrive assez tard sur ce marché. Elle déclenche donc une guerre des prix, avec une tarification agressive, environ 80 % moins chère que l’équivalent dans GPT-4o, en tout cas selon Amazon.
Amazon qualifie son Nova Sonic de modèle vocal « le plus rentable » du marché. Il serait également le plus rapide, avec une latence moyenne perçue de 1,09 seconde, contre 1,18 pour GPT-4o. Ces performances lui ouvrent – comme son concurrent – les portes d’une utilisation en direct sur du streaming.
Capter l'attention l'intention
Et si vous vous en doutiez, Sonic est bien le modèle utilisé par Amazon dans son assistant Alexa+ lancé récemment.
Selon l’entreprise, Sonic est particulièrement doué pour « comprendre » l’intention des utilisateurs. Il examine notamment les pauses et interruptions de l’interlocuteur et tâche de répondre « au moment opportun ». En d’autres termes, Nova Sonic tente de prendre en compte la prosodie et le sentiment, comme on peut le voir dans la démonstration ci-dessous.
Selon Amazon cependant, la plus grande force de Nova Sonic est son agilité au sein d’un environnement hétérogène. Il achemine ainsi les demandes vers différentes API, lui permettant d’aller chercher des informations sur internet, d’analyser des sources de données propriétaires et même d’agir dans d’autres applications.
Permission de marmonner
Sonic serait également doué dans sa gestion des erreurs de reconnaissance vocale. Dans le benchmark Multilingual LibriSpeech, le taux d’erreur rencontré serait de seulement 4,2 % pour l'anglais, le français, l'italien, l'allemand et l'espagnol. Cette précision le rendrait performant dans des situations de faible articulation, d’environnement bruyant ou même de « marmonnement ». Ces performances seraient atteintes grâce à l’union des capacités de compréhension et de génération en un seul modèle.
Nova Sonic est disponible depuis Amazon Bedrock, mais uniquement en anglais pour l’instant. Le modèle sait générer une transcription texte à des fins de développement. La fenêtre de contexte est de 300 000 jetons et une connexion peut durer 8 minutes, à raison de 20 connexions concurrentes par client à la fois. En revanche, cette disponibilité est limitée pour l’instant à l’anglais (accents anglais et américain inclus), et pour la seule région US East.
Enfin, Amazon parle d’IA « responsable », avec des protections incluses pour la modération de contenu et l’ajout de filigranes (watermarks).
Avec Nova Sonic, Amazon a enfin un modèle d’IA pour le traitement vocal
-
Destinations chatbots et streaming
-
Capter
l'attentionl'intention -
Permission de marmonner
Commentaires (3)
Abonnez-vous pour prendre part au débat
Déjà abonné ? Se connecter
Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles
Profitez d’un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousModifié le 09/04/2025 à 16h30
Question simple : « Qui est Sacha Treille »
Une fois sur deux j’ai une recette de cuisine.
Mais jamais la bonne réponse, toujours du « trouvé et traduit de »
Le 10/04/2025 à 12h03
Après ils ont montrés des trucs impressionnants (pour moi) notamment avec Q Developper qui peut faire la maintenance / migration d'une app quasi tout seul (limité en techno quand même). Et aussi de la rétro-documentation (ça j'ai essayé) qui m'intéresse beaucoup
Mais c'est dur de mettre en adéquation le besoin environnemental et la folie de tout donner a faire a l'IA
Le 11/04/2025 à 13h42