Intelligence artificielle : Facebook lance la description automatique de photos

Intelligence artificielle : Facebook lance la description automatique de photos

Avec un gros réseau neuronal

Avatar de l'auteur

Guénaël Pépin

Publié dansInternet

06/04/2016
19
Intelligence artificielle : Facebook lance la description automatique de photos

Facebook a activé la création automatique de texte alternatif pour les photos envoyées dans plusieurs pays, à partir d'un outil nourri de million de clichés. Pour le moment, le réseau social a volontairement limité certaines possibilités de son moteur, qui doit encore s'améliorer avec le temps.

Facebook veut décrire toutes les photos qu'il reçoit. Dans un billet mis en ligne hier, le réseau social annonce l'arrivée de la génération automatique de texte alternatif pour les clichés reçus. Le but : améliorer l'accessibilité du service et encourager les interactions par les personnes malvoyantes, qui n'étaient pas vraiment aidées par le service jusqu'ici. Pour obtenir sa description, Facebook s'appuie sur un réseau neuronal dont l'unique but est l'identification des éléments d'une image.

Cette description est donc fournie sous forme de texte alternatif, qui n'apparait qu'au survol ou la sélection d'une image. Il s'agit du texte lu par les lecteurs d'écran lorsque l'utilisateur pointe une image d'une page web. Auparavant, le texte alternatif se limitait au nom de la personne qui a partagé la photo. Désormais, l'utilisateur pourra par exemple entendra « Cette image peut contenir trois personnes, souriantes, en extérieur ».

Pour le moment, le réseau social réserve la fonction aux lecteurs d'écran sur iOS, dans quelques pays anglophones (Australie, Canada, États-Unis, Nouvelle-Zélande et Royaume-Uni). D'autres langues et plateformes doivent suivre « bientôt ».

Amener plus d'interactions avec les photos

« Chaque jour, plus de 2 milliards de photos sont partagées sur Facebook, Instagram, Messenger et WhatsApp » explique le groupe, qui regrette que les personnes malvoyantes aient peu de moyens d'en connaître le contenu. « Si des services existent pour aider les personnes aveugles à comprendre les photos, la plupart s'appuient sur les amis ou des volontaires pour les interpréter » explique l'équipe dans un billet dédié.

Selon une étude commanditée par l'entreprise, les personnes malvoyantes commentent et « aiment » autant les statuts avec photos que celles sans problèmes de vue, même si elles en envoient beaucoup moins. Pour comprendre une photo, les informations écrites sont donc essentielles. La légende fournie par l'utilisateur est souvent l'élément avec le plus de « sens » dans un message avec photo, même si elle ne la décrit pas toujours bien et n'est pas systématiquement présente.

Le but, bien entendu, est d'encourager les interactions des personnes malvoyantes avec ces clichés... Par exemple via des commentaires, en leur évitant de se limiter à des phrases génériques ou inspirées des messages précédents, comme ce serait beaucoup le cas actuellement. Il faut donc rendre les images systématiquement compréhensibles, en étant sûrs du contenu.

Facebook description image

Un réseau neuronal calqué sur le cortex visuel

Dans un troisième billet, technique cette fois, l'équipe dit avoir travaillé pendant 10 mois pour amener le système au stade actuel, y compris pour vérifier qu'il est viable à une échelle aussi large. Cela entre autres via de multiples itérations, bien sûr, mais aussi via des études utilisateurs. L'un des défis affichés est de contrebalancer les envies des utilisateurs, mouvantes, aux contraintes techniques.

« Par exemple, même si les membres se soucient avant tout de qui est présent dans une image et de ce qu'ils font, parfois c'est l'arrière-plan de la photo qui la rend intéressante ou importante » explique Facebook. Il ne suffit donc pas de lister les éléments qui ressortent d'une image, mais comprendre ce qui intéresse la personne qui la regarde.

Concrètement, l'outil de reconnaissance visuelle s'appuie sur un réseau neuronal, dont l'organisation est calquée sur le cortex visuel des animaux. Celui-ci dispose de millions de paramètres et a été entrainé sur des millions d'exemples, sachant que plus de 600 millions de photos sont analysées par Facebook chaque jour (voir notre analyse).

Une centaine de « concepts » inclus dans les textes 

Les clichés passent d'abord par des outils conçus pour les collecter et les annoter, avant d'être utilisés « pour entrainer le réseau de manière supervisée ou semi-supervisée ». Les éléments d'une photo sont désignés comme des « concepts » (objets ou scènes). Pour le moment, une centaine de ces concepts sont inclus dans le texte généré, même si le système en reconnaît bien plus dans l'absolu.

Selon Facebook, le réseau peut en apprendre un nouveau en quelques minutes et le découvrir « immédiatement » dans les images suivantes. Nourrie par les millions d'images déposées chaque jour par les utilisateurs, l'intelligence artificielle de Facebook apprend et affine ses algorithmes tous les jours.

Les concepts choisis concernent l'apparence des gens, les véhicules, les sports et la nourriture. Le système est aussi capable de déterminer le nombre de personne, leur catégorie d'âge, leur attitude, de reconnaître des objets et la nature de l'image (texte ou selfie par exemple). Pour l'instant, l'idée est de n'afficher que des données qui ne sont pas ouvertes à interprétation.

Pour cela, Facebook a limité sa liste aux objets avec une précision de détection d'au moins 80 %. Selon le réseau social, il peut retrouver au moins un de ces concepts dans la moitié des photos envoyées sur ses serveurs. 

Des phrases « naturelles » mais pas trop

Reste enfin à mettre en forme les données obtenues. Toujours selon l'équipe, les techniques actuelles ne permettent pas encore de construire automatiquement des phrases en langage naturel à partir des concepts reconnus, avec une reconnaissance qui convienne à Facebook. Cela même si l'entreprise dit y travailler. Dans cette première version, les sujets reconnus par le moteur sont simplement listés.

Plusieurs approches ont été envisagées, comme donner une liste simple des « concepts » détectés, par ordre de certitude, en indiquant le pourcentage de confiance. La méthode choisie est censée être plus naturelle : le nombre de personnes, le fait qu'elles sourient ou non, puis la liste des objets par ordre de certitude et, enfin, la scène globale (comme le cadre) et les propriétés de l'image... Précédés d'une indication « L'image peut contenir ».

Cette solution automatique est donc censée éliminer le souci des légendes inexistantes, incomplètes ou trop peu descriptives. Une solution très différente de celle de Twitter, qui a annoncé ajouter une description de 420 caractères aux images. Un moyen d'aider à la compréhension des clichés, mais aussi de préserver la limite de 140 caractère du message tout en permettant aux utilisateurs d'en mettre beaucoup plus.

De son côté, lors de la dernière conférence Build, Microsoft a présenté un système de reconnaissance automatique des images, qui doit aider les déficients visuels dans leur quotidien, par exemple en décrivant ce qui se passe dans une direction, avec l'indication de l'action d'une personne. Une belle démo technologique qui doit encore trouver un moyen d'arriver dans nos quotidiens.

19
Avatar de l'auteur

Écrit par Guénaël Pépin

Tiens, en parlant de ça :

KDE Plasma 6

KDE Plasma 6 a sa première bêta, le tour des nouveautés

Petite révolution tranquille

17:39 Soft 4
Un homme noir regarde la caméra. Sur son visage, des traits blancs suggèrent un traitement algorithmique.

AI Act et reconnaissance faciale : la France interpelée par 45 eurodéputés

Report minoritaire

15:46 DroitSociété 4
Api

La CNIL préconise l’utilisation des API pour le partage de données personnelles entre organismes

I'm API

15:12 SécuSociété 0

Sommaire de l'article

Introduction

Amener plus d'interactions avec les photos

Un réseau neuronal calqué sur le cortex visuel

Une centaine de « concepts » inclus dans les textes 

Des phrases « naturelles » mais pas trop

#LeBrief : intelligence artificielle à tous les étages, fichier biométrique EURODAC

KDE Plasma 6

KDE Plasma 6 a sa première bêta, le tour des nouveautés

Soft 4
Un homme noir regarde la caméra. Sur son visage, des traits blancs suggèrent un traitement algorithmique.

AI Act et reconnaissance faciale : la France interpelée par 45 eurodéputés

DroitSociété 4
Api

La CNIL préconise l’utilisation des API pour le partage de données personnelles entre organismes

SécuSociété 0
Fouet de l’Arcep avec de la fibre

Orange sanctionnée sur la fibre : l’argumentaire de l’opérateur démonté par l’Arcep

DroitWeb 10
Bombes

Israël – Hamas : comment l’IA intensifie les attaques contre Gaza

IA 10

#LeBrief : bande-annonce GTA VI, guerre électronique, Spotify licencie massivement

Poing Dev

Le poing Dev – Round 7

Next 60
Logo de Gaia-X sour la forme d’un arbre, avec la légende : infrastructure de données en forme de réseau

Gaia-X « vit toujours » et « arrive à des étapes très concrètes »

WebSécu 6

Trois consoles portables en quelques semaines

Hard 37
Une tasse estampillée "Keep calm and carry on teaching"

Cyberrésilience : les compromis (provisoires) du trilogue européen

DroitSécu 3

#LeBrief : fuite de tests ADN 23andMe, le milliard pour Android Messages, il y a 30 ans Hubble voyait clair

#Flock a sa propre vision de l’inclusion

Flock 25
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #10 : nous contacter et résumé de la semaine

44
Autoportrait Sébastien

[Autoportrait] Sébastien Gavois : tribulations d’un pigiste devenu rédac’ chef

Next 20
Logo de StreetPress

Pourquoi le site du média StreetPress a été momentanément inaccessible

Droit 21
Amazon re:Invent

re:Invent 2023 : Amazon lance son assistant Q et plusieurs services IA, dont la génération d’images

IA 14
Un œil symbolisant l'Union européenne, et les dissensions et problèmes afférents

Le Conseil de l’UE tire un bilan du RGPD, les États membres réclament des « outils pratiques »

Droit 6

19 associations européennes de consommateurs portent plainte contre Meta

DroitSocials 16

#LeBrief : Ariane 6 l’été prochain, Nextcloud rachète Roundcube, désinformation via la pub

Chiffre et formules mathématiques sur un tableau

CVSS 4.0 : dur, dur, d’être un expert !

Sécu 16
Une tête de fusée siglée Starlink.

Starlink accessible à Gaza sous contrôle de l’administration israélienne

Web 35
Fibre optique

G-PON, XGS-PON et 50G-PON : jusqu’à 50 Gb/s en fibre optique

HardWeb 53
Photo d'un immeuble troué de part en part

Règlement sur la cyber-résilience : les instances européennes en passe de conclure un accord

DroitSécu 10
lexique IA parodie

AGI, GPAI, modèles de fondation… de quoi on parle ?

IA 11

#LeBrief : logiciels libres scientifiques, fermeture de compte Google, « fabriquer » des femmes pour l’inclusion

MIA : l’IA d’enseignement de Gabriel Attal pour faire oublier le classement PISA

IASociété 2

Une main sur laquelle est collée une étiquette où est écrit "human".

AI Act : des inquiétudes de l’impact de la position française sur les droits humains

DroitIA 0

Un tiroir montrant de nombreuses fiches voire fichiers

Une centaine d’ONG dénonce l’expansion du fichier paneuropéen biométrique EURODAC

DroitSécu 0

WhatsApp

Meta coupe le lien entre Instagram et Messenger

Soft 0

Nuage (pour le cloud) avec de la foudre

Cloud : Amazon rejoint Google dans l’enquête de la CMA sur les pratiques de Microsoft

DroitWeb 0

Des billets volent dans les airs.

Mistral AI s’apprête à lever 450 millions d’euros auprès de NVIDIA et a16z

ÉcoIA 0

Commentaires (19)


Arystos
Il y a 8 ans

À quand le retrait pour “racisme” ?

de mémoire Google avait proposé un truc similaire et un bon nombre de personne afro américaines avaient été catalogués comme des singes…


GuillaumeSlash
Il y a 8 ans

Mouais, c’est une feature intéressante pour les malvoyants, mais ça sera très probablement utilisé pour des publicités mieux ciblés…

Soyez honnête Facebook. ^^’


anonyme_6d3c8325027b08b8beb8eb7f143f3660
Il y a 8 ans

C’est marrant l’image de la pizza, ça me rappelle la jambe d’un ancien amis après une glissade à moto en short . Est ce que fessebouque aurait détecté ça en pizza ou jambe en charpie.


v1nce
Il y a 8 ans

need. Une extension pour navigateur qui filtre les images “mon petit poney” (sur deviantart par exemple).

Il me semble que NI n’avait pas fait de news sur le pendant chez Google : deep dream et les videos délirantes que cela permet   


YamaLandia
Il y a 8 ans






v1nce a écrit :

need. Une extension pour navigateur qui filtre les images “mon petit poney” (sur deviantart par exemple).

Il me semble que NI n’avait pas fait de news sur le pendant chez Google : deep dream et les videos délirantes que cela permet   


http://www.catuhe.com/post/Coding4Fun-and-Extreme-Defense-Grid-Explorer.aspx&nbsp;<img data-src=" /> <img data-src=" />



v1nce
Il y a 8 ans

Je te hais.


Exception
Il y a 8 ans

Poisson d’avril.


tazvld Abonné
Il y a 8 ans






Arystos a écrit :

À quand le retrait pour “racisme” ?

de mémoire Google avait proposé un truc similaire et un bon nombre de personne afro américaines avaient été catalogués comme des singes…


Ha, ça me dit quelque chose ça en effet…

C’est malheureusement dû à la façon dont l’apprentissage a été fait : il distingue finalement assez de trait pour reconnaître un visage mais il a appris à distinguer un “Homme” d’un “singe” par la composition colorimétrique de la “peau”. N’ayant pas forcément été nourris de suffisamment de photo d’Homme aux teintes de peau foncées durant son apprentissage pour trouver des moyens plus fin pour faire la distinction, un primate à la couleur de peau foncée est donc pour lui “un singe”.

C’était je crois aussi Logitech qui eux avait des difficultés à distinguer un visage lorsque la personne avait une peau particulièrement foncée. Là, je pense que le problème venais plutôt des traitements permettant de reconnaître les différents élément (bouche, nez, yeux) composant un visage qui est parasité par le faible contraste qu’offre une peau très foncé pour facilement faire ressortir la bouche et le nez.



Krogoth
Il y a 8 ans

Celà dit il a fallu également du temps à “l’homme blanc” pour ne pas prendre les “hommes noirs” pour des singes. L’IA reste quand même plus rapide dans son apprentissage.


WereWindle
Il y a 8 ans






Krogoth a écrit :

Celà dit il a fallu également du temps à “l’homme blanc” pour ne pas prendre les “hommes noirs” pour des singes. L’IA reste quand même plus rapide dans son apprentissage.


D’autant que si je me rappelle le bel exemple donné par des membres de ce qu’il faut bien appeler, faute d’un meilleur terme, nos représentants, ledit apprentissage est loin d’être acquis <img data-src=" />



MuadJC
Il y a 8 ans

Description la plus retrouvée par l’IA: “moi faisant un duckface devant mes WC”


coucou_lo_coucou_paloma
Il y a 8 ans






MuadJC a écrit :

Description la plus retrouvée par l’IA: “moi faisant un duckface devant mes WC”

<img data-src=" />



psn00ps Abonné
Il y a 8 ans

Cette image peut contenir : une personne, souriante, croix, couteau, pistolet.
(cf la 3ème image de démo)

&nbsp; *sifflote*


shadowfox
Il y a 8 ans

et aussi “photo de bébé tout fripé dont personne a rien a battre hormis sa maman” <img data-src=" />


WereWindle
Il y a 8 ans






shadowfox a écrit :

et aussi “photo de bébé tout fripé dont personne a rien a battre hormis sa maman” <img data-src=" />


ouaaaah tu as fait de leur IA une GLaDOS <img data-src=" />
<img data-src=" />



sentryman
Il y a 8 ans

Bientôt Facebook va écrire à notre place sur la timeline <img data-src=" />


WereWindle
Il y a 8 ans






sentryman a écrit :

Bientôt Facebook va écrire à notre place sur la timeline <img data-src=" />


ça enlèverait une partie du fond de commerce de Bescherelle ta mère <img data-src=" />



letsyl
Il y a 8 ans

C’est basé sur “l’apprentissage profond”, une technique mise au point notamment par Yann Lecun (un chercheur français embauché par Facebook en 2013).
Il a donné un cours au collège de france sur le sujet au début de l’année. C’est accessible en ligne, la leçon inaugurale donne un bon aperçu des possiblités offertes&nbsp; :http://www.college-de-france.fr/site/yann-lecun/inaugural-lecture-2016-02-04-18h…


malock
Il y a 8 ans

Aaaah, le deep learning, sans doute le bazar le plus à la mode ces derniers temps.
Vidéo intéressante, merci.
C’est quand même assez dingue ce qui peut être fait avec ça.