Data2vec, l’algorithme auto-supervisé de Meta pour la parole, les images et le texte

Data2vec, l’algorithme auto-supervisé de Meta pour la parole, les images et le texte

Data2vec, l’algorithme auto-supervisé de Meta pour la parole, les images et le texte

On dispose aujourd’hui d’algorithmes performants pour reconnaître des objets ou concepts dans des tâches précises comme des voitures dans des photos ou vidéos. On crée pour cela des modèles que l’on entraîne dans des réseaux neuronaux.

Mais si l’on dispose par exemple d’un bon algorithme pour trouver des véhicules dans des images, il en faudra un autre pour détecter que l’on parle d’un tel objet dans une conversation.

Une équipe de Meta AI (nouveau nom de Facebook AI Research) annonce donc Data2vec. Ce nouvel algorithme réussirait plusieurs tours de force, notamment être aussi à l’aise avec les images qu’avec la voix et le texte, mais aussi afficher des performances aussi bonnes – sinon plus – que les algorithmes et modèles dédiés. Le tout, sans avoir besoin de données labellisées.

Meta parle d’apprentissage auto-supervisé (on n’est pas encore sur de l’apprentissage non supervisé), qui n’est d’ailleurs pas de son invention. Il se base sur les récents progrès de modèles comme GPT-3, déjà conçus pour traiter des données sans étiquettes. Michael Auli, l’un des chercheurs, précise que l’idée est venue après s’être rendu compte que toutes les recherches dans le domaine utilisaient des techniques différentes pour atteindre le même but.

La « magie » s’opère via deux réseaux neuronaux : l’un professeur, l’autre étudiant. Le professeur est entraîné de manière classique sur des images, textes et sons. L’étudiant, lui, est entraîné à une tâche unique : prédire la représentation interne du professeur. Dans le cas d’un chien, il aboutirait à la même « image mentale » quand le professeur voit une photo d’un labrador ou reconnaît un aboiement.

Une publication scientifique a été mise en ligne ici, tandis que data2vec est disponible sur GitHub, avec des modèles pré-entraînés pour le texte et l’audio, ceux pour les images arriveront prochainement. 

Pour Meta AI, il s’agit d’une première étape : « Cela ouvre la voie à un apprentissage auto-supervisé plus général et nous rapproche d’un monde où l’IA pourrait utiliser des vidéos, des articles et des enregistrements audio pour en apprendre davantage sur des sujets compliqués, tels que le football ou différentes façons de cuire du pain ». 

« Nous espérons également que data2vec nous rapprochera d’un monde où les ordinateurs ont besoin de très peu de données étiquetées pour accomplir des tâches », ajoute le réseau social.

Commentaires (0)


Fermer