Intelligence artificielle : Facebook lance la description automatique de photos

Avec un gros réseau neuronal

Le 06 avril 2016 à 06h51

6 min

Internet

Facebook a activé la création automatique de texte alternatif pour les photos envoyées dans plusieurs pays, à partir d'un outil nourri de million de clichés. Pour le moment, le réseau social a volontairement limité certaines possibilités de son moteur, qui doit encore s'améliorer avec le temps.

Facebook veut décrire toutes les photos qu'il reçoit. Dans un billet mis en ligne hier, le réseau social annonce l'arrivée de la génération automatique de texte alternatif pour les clichés reçus. Le but : améliorer l'accessibilité du service et encourager les interactions par les personnes malvoyantes, qui n'étaient pas vraiment aidées par le service jusqu'ici. Pour obtenir sa description, Facebook s'appuie sur un réseau neuronal dont l'unique but est l'identification des éléments d'une image.

Cette description est donc fournie sous forme de texte alternatif, qui n'apparait qu'au survol ou la sélection d'une image. Il s'agit du texte lu par les lecteurs d'écran lorsque l'utilisateur pointe une image d'une page web. Auparavant, le texte alternatif se limitait au nom de la personne qui a partagé la photo. Désormais, l'utilisateur pourra par exemple entendra « Cette image peut contenir trois personnes, souriantes, en extérieur ».

Pour le moment, le réseau social réserve la fonction aux lecteurs d'écran sur iOS, dans quelques pays anglophones (Australie, Canada, États-Unis, Nouvelle-Zélande et Royaume-Uni). D'autres langues et plateformes doivent suivre « bientôt ».

Amener plus d'interactions avec les photos

« Chaque jour, plus de 2 milliards de photos sont partagées sur Facebook, Instagram, Messenger et WhatsApp » explique le groupe, qui regrette que les personnes malvoyantes aient peu de moyens d'en connaître le contenu. « Si des services existent pour aider les personnes aveugles à comprendre les photos, la plupart s'appuient sur les amis ou des volontaires pour les interpréter » explique l'équipe dans un billet dédié.

Selon une étude commanditée par l'entreprise, les personnes malvoyantes commentent et « aiment » autant les statuts avec photos que celles sans problèmes de vue, même si elles en envoient beaucoup moins. Pour comprendre une photo, les informations écrites sont donc essentielles. La légende fournie par l'utilisateur est souvent l'élément avec le plus de « sens » dans un message avec photo, même si elle ne la décrit pas toujours bien et n'est pas systématiquement présente.

Le but, bien entendu, est d'encourager les interactions des personnes malvoyantes avec ces clichés... Par exemple via des commentaires, en leur évitant de se limiter à des phrases génériques ou inspirées des messages précédents, comme ce serait beaucoup le cas actuellement. Il faut donc rendre les images systématiquement compréhensibles, en étant sûrs du contenu.

Facebook description image

Un réseau neuronal calqué sur le cortex visuel

Dans un troisième billet, technique cette fois, l'équipe dit avoir travaillé pendant 10 mois pour amener le système au stade actuel, y compris pour vérifier qu'il est viable à une échelle aussi large. Cela entre autres via de multiples itérations, bien sûr, mais aussi via des études utilisateurs. L'un des défis affichés est de contrebalancer les envies des utilisateurs, mouvantes, aux contraintes techniques.

« Par exemple, même si les membres se soucient avant tout de qui est présent dans une image et de ce qu'ils font, parfois c'est l'arrière-plan de la photo qui la rend intéressante ou importante » explique Facebook. Il ne suffit donc pas de lister les éléments qui ressortent d'une image, mais comprendre ce qui intéresse la personne qui la regarde.

Concrètement, l'outil de reconnaissance visuelle s'appuie sur un réseau neuronal, dont l'organisation est calquée sur le cortex visuel des animaux. Celui-ci dispose de millions de paramètres et a été entrainé sur des millions d'exemples, sachant que plus de 600 millions de photos sont analysées par Facebook chaque jour (voir notre analyse).

Une centaine de « concepts » inclus dans les textes

Les clichés passent d'abord par des outils conçus pour les collecter et les annoter, avant d'être utilisés « pour entrainer le réseau de manière supervisée ou semi-supervisée ». Les éléments d'une photo sont désignés comme des « concepts » (objets ou scènes). Pour le moment, une centaine de ces concepts sont inclus dans le texte généré, même si le système en reconnaît bien plus dans l'absolu.

Selon Facebook, le réseau peut en apprendre un nouveau en quelques minutes et le découvrir « immédiatement » dans les images suivantes. Nourrie par les millions d'images déposées chaque jour par les utilisateurs, l'intelligence artificielle de Facebook apprend et affine ses algorithmes tous les jours.

Les concepts choisis concernent l'apparence des gens, les véhicules, les sports et la nourriture. Le système est aussi capable de déterminer le nombre de personne, leur catégorie d'âge, leur attitude, de reconnaître des objets et la nature de l'image (texte ou selfie par exemple). Pour l'instant, l'idée est de n'afficher que des données qui ne sont pas ouvertes à interprétation.

Pour cela, Facebook a limité sa liste aux objets avec une précision de détection d'au moins 80 %. Selon le réseau social, il peut retrouver au moins un de ces concepts dans la moitié des photos envoyées sur ses serveurs.

Des phrases « naturelles » mais pas trop

Reste enfin à mettre en forme les données obtenues. Toujours selon l'équipe, les techniques actuelles ne permettent pas encore de construire automatiquement des phrases en langage naturel à partir des concepts reconnus, avec une reconnaissance qui convienne à Facebook. Cela même si l'entreprise dit y travailler. Dans cette première version, les sujets reconnus par le moteur sont simplement listés.

Plusieurs approches ont été envisagées, comme donner une liste simple des « concepts » détectés, par ordre de certitude, en indiquant le pourcentage de confiance. La méthode choisie est censée être plus naturelle : le nombre de personnes, le fait qu'elles sourient ou non, puis la liste des objets par ordre de certitude et, enfin, la scène globale (comme le cadre) et les propriétés de l'image... Précédés d'une indication « L'image peut contenir ».

Cette solution automatique est donc censée éliminer le souci des légendes inexistantes, incomplètes ou trop peu descriptives. Une solution très différente de celle de Twitter, qui a annoncé ajouter une description de 420 caractères aux images. Un moyen d'aider à la compréhension des clichés, mais aussi de préserver la limite de 140 caractère du message tout en permettant aux utilisateurs d'en mettre beaucoup plus.

De son côté, lors de la dernière conférence Build, Microsoft a présenté un système de reconnaissance automatique des images, qui doit aider les déficients visuels dans leur quotidien, par exemple en décrivant ce qui se passe dans une direction, avec l'indication de l'action d'une personne. Une belle démo technologique qui doit encore trouver un moyen d'arriver dans nos quotidiens.

Commentaires (19)

Arystos

Le 06/04/2016 à 06h57

À quand le retrait pour “racisme” ?

de mémoire Google avait proposé un truc similaire et un bon nombre de personne afro américaines avaient été catalogués comme des singes…

GuillaumeSlash

Le 06/04/2016 à 07h11

Mouais, c’est une feature intéressante pour les malvoyants, mais ça sera très probablement utilisé pour des publicités mieux ciblés…

Soyez honnête Facebook. ^^’

anonyme_6d3c8325027b08b8beb8eb7f143f3660

Le 06/04/2016 à 07h33

C’est marrant l’image de la pizza, ça me rappelle la jambe d’un ancien amis après une glissade à moto en short . Est ce que fessebouque aurait détecté ça en pizza ou jambe en charpie.

v1nce

Le 06/04/2016 à 07h44

need. Une extension pour navigateur qui filtre les images “mon petit poney” (sur deviantart par exemple).

Il me semble que NI n’avait pas fait de news sur le pendant chez Google : deep dream et les videos délirantes que cela permet   

YamaLandia

Le 06/04/2016 à 07h51

v1nce a écrit :

need. Une extension pour navigateur qui filtre les images “mon petit poney” (sur deviantart par exemple).

Il me semble que NI n’avait pas fait de news sur le pendant chez Google : deep dream et les videos délirantes que cela permet   

http://www.catuhe.com/post/Coding4Fun-and-Extreme-Defense-Grid-Explorer.aspx " /> " />

v1nce

Le 06/04/2016 à 07h53

Je te hais.

Exception

Le 06/04/2016 à 08h38

Poisson d’avril.

tazvld Abonné

Le 06/04/2016 à 08h45

Arystos a écrit :

À quand le retrait pour “racisme” ?

de mémoire Google avait proposé un truc similaire et un bon nombre de personne afro américaines avaient été catalogués comme des singes…

Ha, ça me dit quelque chose ça en effet…

C’est malheureusement dû à la façon dont l’apprentissage a été fait : il distingue finalement assez de trait pour reconnaître un visage mais il a appris à distinguer un “Homme” d’un “singe” par la composition colorimétrique de la “peau”. N’ayant pas forcément été nourris de suffisamment de photo d’Homme aux teintes de peau foncées durant son apprentissage pour trouver des moyens plus fin pour faire la distinction, un primate à la couleur de peau foncée est donc pour lui “un singe”.

C’était je crois aussi Logitech qui eux avait des difficultés à distinguer un visage lorsque la personne avait une peau particulièrement foncée. Là, je pense que le problème venais plutôt des traitements permettant de reconnaître les différents élément (bouche, nez, yeux) composant un visage qui est parasité par le faible contraste qu’offre une peau très foncé pour facilement faire ressortir la bouche et le nez.

Krogoth

Le 06/04/2016 à 08h47

Celà dit il a fallu également du temps à “l’homme blanc” pour ne pas prendre les “hommes noirs” pour des singes. L’IA reste quand même plus rapide dans son apprentissage.

WereWindle

Le 06/04/2016 à 09h00

Krogoth a écrit :

Celà dit il a fallu également du temps à “l’homme blanc” pour ne pas prendre les “hommes noirs” pour des singes. L’IA reste quand même plus rapide dans son apprentissage.

D’autant que si je me rappelle le bel exemple donné par des membres de ce qu’il faut bien appeler, faute d’un meilleur terme, nos représentants, ledit apprentissage est loin d’être acquis " />

MuadJC

Le 06/04/2016 à 09h51

Description la plus retrouvée par l’IA: “moi faisant un duckface devant mes WC”

coucou_lo_coucou_paloma

Le 06/04/2016 à 09h59

MuadJC a écrit :

Description la plus retrouvée par l’IA: “moi faisant un duckface devant mes WC”

" />

psn00ps

Le 06/04/2016 à 10h52

Cette image peut contenir : une personne, souriante, croix, couteau, pistolet.

(cf la 3ème image de démo)

  sifflote

shadowfox

Le 06/04/2016 à 11h49

et aussi “photo de bébé tout fripé dont personne a rien a battre hormis sa maman” " />

WereWindle

Le 06/04/2016 à 12h04

shadowfox a écrit :

et aussi “photo de bébé tout fripé dont personne a rien a battre hormis sa maman” " />

ouaaaah tu as fait de leur IA une GLaDOS " />

" />

sentryman

Le 06/04/2016 à 12h08

Bientôt Facebook va écrire à notre place sur la timeline " />

WereWindle

Le 06/04/2016 à 12h22

sentryman a écrit :

Bientôt Facebook va écrire à notre place sur la timeline " />

ça enlèverait une partie du fond de commerce de Bescherelle ta mère " />

letsyl

Le 06/04/2016 à 21h18

C’est basé sur “l’apprentissage profond”, une technique mise au point notamment par Yann Lecun (un chercheur français embauché par Facebook en 2013).

Il a donné un cours au collège de france sur le sujet au début de l’année. C’est accessible en ligne, la leçon inaugurale donne un bon aperçu des possiblités offertes  :http://www.college-de-france.fr/site/yann-lecun/inaugural-lecture-2016-02-04-18h…

malock

Le 07/04/2016 à 13h46

Aaaah, le deep learning, sans doute le bazar le plus à la mode ces derniers temps.

Vidéo intéressante, merci.

C’est quand même assez dingue ce qui peut être fait avec ça.