Intelligence artificielle : Google ouvre le code de son outil de description d'images

Intelligence artificielle : Google ouvre le code de son outil de description d’images

Des jours d'entrainement pour recopier trois mots

Avatar de l'auteur

Sébastien Gavois

Publié dansSciences et espace

23/09/2016
18
Intelligence artificielle : Google ouvre le code de son outil de description d'images

Show and Tell, l'intelligence artificielle de Google qui permet d'ajouter des descriptions automatiques, est disponible en open source. Au-delà de lister des éléments, elle peut les mettre en perspective, à condition que l'IA soit suffisamment entrainée.

Google, comme bien d'autres sociétés, exploite depuis longtemps l'intelligence artificielle dans de nombreux secteurs (voir cette actualité par exemple). Il y a un peu plus d'un an, le géant du Net publiait sous licence Apache 2.0 son moteur d'apprentissage profond TensorFlow.

Aujourd'hui, il propose un nouveau modèle open source pour ce dernier : Show and Tell, sous-système de sous-titrage automatique des images. Il s'agit de la troisième itération de son service lancé pour la première fois en 2014, maintenant disponible dans ce dépôt GitHub.

Quand l'intelligence artificielle copie l'humain pour décrire des images

Par rapport aux versions précédentes, cette mouture devrait être « beaucoup plus rapide » avec des « descriptions plus détaillées et précises ». Pour appuyer ses dires, Google met en avance le score obtenu au test de reconnaissance ImageNet 2012 : précédemment de 89,6 à 91,8 %, le taux de réussite est désormais de 93,9 %.

Show and Tell Google

Au-delà de la détection correcte des éléments d'une image, il faut pouvoir les mettre en perspective afin de raconter une histoire et pas simplement les lister, ce qui peut également faire Show and Tell. Des détails et des explications techniques sont disponibles par ici (PDF).

Pour arriver à ce résultat, il n'y pas de magie, mais des « centaines de milliers d'images qui ont été sous-titrés manuellement par des humains ». Lorsque la scène est très proche d'autres qu'elle a déjà étudié, l'intelligence artificielle réutilisera un texte écrit par l'Homme.

Elle dispose également de la capacité de « générer de nouvelles légendes » lorsque les images proposées intègrent une scène complètement inédite. Pour cela, elle va mixer et regrouper des éléments d'autres images afin de la reconstituer. Voici deux exemples :

Show and Tell GoogleShow and Tell Google 

Reste à trouver les images pour entrainer l'intelligence artificielle

Si Google publie en open source l'algorithme de son intelligence artificielle Show and Tell, ce n'est pas le cas des « centaines de milliers d'images » nécessaires à son apprentissage. Il s'agit pourtant d'un élément indispensable pour entrainer l'IA afin qu'elle donne des résultats probants.

C'est d'ailleurs une des forces des géants comme Google et Facebook qui disposent d'une quantité phénoménale d'images annotées par des humains. Comme nous l'avons déjà expliqué dans ce dossier sur l'intelligence artificielle, l'année dernière les utilisateurs du réseau social de Mark Zuckerberg téléchargeaient 600 millions d'images par jour sur Facebook, un chiffre qui passe à 2 milliards avec Instagram et WhatsApp.

Facebook et Microsoft développent leurs propres solutions

Dans tous les cas, la mise en open source de cet outil n'est pas anodine. Google essaie de se positionner sur un secteur où deux autres poids lourds sont également présents : Facebook avec la description automatique des photos et Microsoft qui peut utiliser Cortana pour décrire à un aveugle ce qu'il se passe devant lui. 

18
Avatar de l'auteur

Écrit par Sébastien Gavois

Tiens, en parlant de ça :

#Flock a sa propre vision de l’inclusion

Retour à l’envoyeur

13:39 Flock 15
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #10 : nous contacter et résumé de la semaine

On est déjà à la V2 de Next ?

11:55 21
Autoportrait Sébastien

[Autoportrait] Sébastien Gavois : tribulations d’un pigiste devenu rédac’ chef

Me voilà à poil sur Internet

17:18 Next 16

Sommaire de l'article

Introduction

Quand l'intelligence artificielle copie l'humain pour décrire des images

Reste à trouver les images pour entrainer l'intelligence artificielle

Facebook et Microsoft développent leurs propres solutions

#Flock a sa propre vision de l’inclusion

Flock 15
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #10 : nous contacter et résumé de la semaine

21
Autoportrait Sébastien

[Autoportrait] Sébastien Gavois : tribulations d’un pigiste devenu rédac’ chef

Next 16
Logo de StreetPress

Pourquoi le site du média StreetPress a été momentanément inaccessible

Droit 13
Amazon re:Invent

re:Invent 2023 : Amazon lance son assistant Q et plusieurs services IA, dont la génération d’images

IA 10
Un œil symbolisant l'Union européenne, et les dissensions et problèmes afférents

Le Conseil de l’UE tire un bilan du RGPD, les États membres réclament des « outils pratiques »

Droit 4

19 associations européennes de consommateurs portent plainte contre Meta

DroitSocials 14

#LeBrief : Ariane 6 l’été prochain, Nextcloud rachète Roundcube, désinformation via la pub

Chiffre et formules mathématiques sur un tableau

CVSS 4.0 : dur, dur, d’être un expert !

Sécu 11
Une tête de fusée siglée Starlink.

Starlink accessible à Gaza sous contrôle de l’administration israélienne

Web 34
Fibre optique

G-PON, XGS-PON et 50G-PON : jusqu’à 50 Gb/s en fibre optique

HardWeb 51
Photo d'un immeuble troué de part en part

Règlement sur la cyber-résilience : les instances européennes en passe de conclure un accord

DroitSécu 10
lexique IA parodie

AGI, GPAI, modèles de fondation… de quoi on parle ?

IA 8

#LeBrief : logiciels libres scientifiques, fermeture de compte Google, « fabriquer » des femmes pour l’inclusion

livre dématérialisé

Des chercheurs ont élaboré une technique d’extraction des données d’entrainement de ChatGPT

IAScience 3
Un chien avec des lunettes apprend sur une tablette

Devenir expert en sécurité informatique en 3 clics

Sécu 11
Logo ownCloud

ownCloud : faille béante dans les déploiements conteneurisés utilisant graphapi

Sécu 16
Le SoC Graviton4 d’Amazon AWS posé sur une table

Amazon re:invent : SoC Graviton4 (Arm), instance R8g et Trainium2 pour l’IA

Hard 12
Logo Comcybergend

Guéguerre des polices dans le cyber (OFAC et ComCyberMi)

Sécu 10

#LeBrief : faille 0-day dans Chrome, smartphones à Hong Kong, 25 ans de la Dreamcast

Mur d’OVHcloud à Roubaix, avec le logo OVHcloud

OVHcloud Summit 2023 : SecNumCloud, IA et Local Zones

HardWeb 2
algorithmes de la CAF

Transparence, discriminations : les questions soulevées par l’algorithme de la CAF

IASociété 62

Plainte contre l’alternative paiement ou publicité comportementale de Meta

DroitIA 38
Nuage (pour le cloud) avec de la foudre

Économie de la donnée et services de cloud : l’Arcep renforce ses troupes

DroitWeb 0
De vieux ciseaux posés sur une surface en bois

Plus de 60 % des demandes de suppression reçues par Google émanent de Russie

Société 7
Une vieille boussole posée sur un plan en bois

La Commission européenne et Google proposent deux bases de données de fact-checks

DroitWeb 3

#LeBrief : des fichiers Google Drive disparaissent, FreeBSD 14, caméras camouflées, OnePlus 12

Le poing Dev – round 6

Next 151

Produits dangereux sur le web : nouvelles obligations en vue pour les marketplaces

Droit 9
consommation de l'ia

Usages et frugalité : quelle place pour les IA dans la société de demain ?

IA 12

La NASA établit une liaison laser à 16 millions de km, les essais continuent

Science 17
Concept de CPU

Semi-conducteurs : un important accord entre l’Europe et l’Inde

Hard 7

#LeBrief : PS5 Slim en France, Valeo porte plainte contre NVIDIA, pertes publicitaires X/Twitter

next n'a pas de brief le week-end

Le Brief ne travaille pas le week-end.
C'est dur, mais c'est comme ça.
Allez donc dans une forêt lointaine,
Éloignez-vous de ce clavier pour une fois !

Commentaires (18)


maxoux
Il y a 7 ans

“téléchargeaient 600 millions d’images par jour sur Facebook”
&nbsp;Je vois bien le robot qui finit par décrire : “Une fille et sa bestah qui est tro bel wsh”&nbsp;<img data-src=" />


picatrix
Il y a 7 ans

il faudrait le rendre obligatoire sur les sites de pr0n au titre de l’égalité pour que les malvoyants puissent aussi s’astiquer …

le seul problème c’est qu’il ne pourront pas voir s’ils en ont mis partout.


saf04
Il y a 7 ans

&nbsp;un malvoyant qui utilise un système de&nbsp;contrôle vocal, il s’en fout d’avoir son clavier qui colle.


zip
Il y a 7 ans

J’ai remarqué avant hier que dans les sources des pages de facebook quand il y a une photo il y a parfois un champ contenant une description automatisée
&nbsp;“cette image contient peut-être une femme souriante avec des lunettes”
Cette description n’étant, à ma connaissance visible nulle part ailleurs.


tazvld Abonné
Il y a 7 ans

D’un point de vu grand public, un intérêt possible est de pouvoir indexer automatiquement ses images et deles retrouver via une recherche descriptive.


colonelhati
Il y a 7 ans

Si ta connexion est un peu ralentie et que l’image met du temps à se charger, tu verra se genre de description apparaitre à l’emplacement prévu pour l’image.


matroska
Il y a 7 ans

Remarque ça pourrait être pratique quand tu cherches une actrice et que t’as le nom nulle part !

<img data-src=" />


zip
Il y a 7 ans

c’est justement comme ça que je l’ai vu la première fois, après je suis allé fouiné.
Ces données sont utilisées pour décrire une photo en audio description?


Ler van keeg
Il y a 7 ans

En même temps ils peuvent l’ouvrir leur code de l’outil de description d’images. Personne ne pourra gaver l’outil de descriptions autant qu’eux.
&nbsp;
On a été employés gracieusement pour le faire pendant des années avec les captchas et compagnie…
Il me semble qu’aux États-Unis, quelqu’un a essayé de les attaquer pour travail dissimulé d’ailleurs <img data-src=" />


Mearwen Abonné
Il y a 7 ans

Class action qui avait été débouté dans le sens ou le préjudice économique était négligeable et qu’en échange cela donnait accès à des services google.


matroska
Il y a 7 ans

Est-ce que ça détecte les cons ou pas ? Y a-t-il un algorithme qui détecte les personnes étant susceptibles d’être comme ça ?

<img data-src=" />


Sans intérêt Abonné
Il y a 7 ans

En effet, si le code est très intéressant, sans les images annotées, la technologie est surtout utile aux chercheurs qui l’exploiteront pour mettre à l’épreuve face à leurs propres solutions.

Toutefois, Google renvoie vers l’une de ces banques d’images dédiées à la recherche scientifique, ImageNet, où figurent justement des images annotées.

Ensuite, à chacun, enfin à chaque équipe, de développer sa propre solution, commerciale ou non, pour exploiter l’annotation automatique d’images.

Enfin, on ne pourra que saluer l’effort de Google, mais aussi de Microsoft, de mettre à disposition de tous des technologies d’apprentissage automatique. Cela permet à la recherche de progresser rapidement dans le domaine de la reconnaissance d’images en particulier, et de l’intelligence artificielle en général. Les scientifiques, mais aussi les ingénieurs mettant en oeuvre ces technologies, peuvent se concentrer sur de nouvelles idées, plutôt que de refaire la roue encore et encore.


gnomesgames
Il y a 7 ans

Si c’est l’attribut “alt” de l’image qui est rempli, alors oui:
http://www.alsacreations.com/astuce/lire/1166-alt-title-images-liens.html


jackjack2
Il y a 7 ans

C’est bien au moins pour les équipes de recherche
Après faut voir combien il faut d’images pour obtenir un résultat potable


oXis Abonné
Il y a 7 ans

<img data-src=" />


anonyme_5308cee4763677866e1421efa4474f79
Il y a 7 ans

Ah je comprends pourquoi sur mon mur Facebook en-dessous d’une image il y avait écrit “Votre femme en rendez-vous avec le facteur” !


Snark
Il y a 7 ans

“condition que l’IA soit suffisamment entrainée”

Aucune IA ici, c’est du Deep Learning. Il n’y a aucune analyse&nbsp;consciente&nbsp;des images, juste une grosse base de données d’apprentissage :).


tazvld Abonné
Il y a 7 ans

Cela dépend de la définition que tu donnes à IA, la définition même du terme d’intelligence est déjà un débat en soit.
Aujourd’hui, lorsque qu’en informatique, on parle d’IA, on sous entend que l’on parle d’IA faible. Cette définition étant accepté dans le domaine, l’utilisation du terme IA est donc correcte.

Ici, ce n’est pas un humain qui a écrit les caractéristiques, les conditions… permettant de classer les images, tout ceci a été déduit par le programme. C’est un programme qui à réaliser les relations entre l’image et sa description. Or, cela fait bien partie de la définition d’intelligence.

La notion de conscience est une notion philosophique, voir spirituelle. Le cerveau n’est qu’une machine organique qui suit des logique chimique et phyisique. Il n’y a point de conscience dans un neurone.