Un pas décisif pour la reconnaissance logicielle des éléments d’une photo
2 girls, 1 cup
Le 19 novembre 2014 à 09h40
2 min
Internet
Internet
Si la reconnaissance faciale est désormais une réalité, un pas de plus vient d’être franchi en matière d'intelligence artificielle. Des chercheurs de l’université Stanford et de Google (Oriol Vinyals, Alexander Toshev, Samy Bengio et Dumitru Erhan) sont parvenus chacun de leur côté à mettre au point un modèle capable de détecter automatiquement le contenu d’une photo.
Prenez une photo de deux pizzas posées sur un four, et ce futur logiciel vous dira « deux pizzas posées sur le haut d’un four ». Deux chiens jouant dans un parc ? « Deux chiens jouant dans un parc avec des arbres et de l’herbe verte ». Si une image vaut mille mots, il s’agit ici de décrire textuellement ce qui peut être observé.
Les retombées sont évidemment multiples. Google pourra par exemple aiguiser la classification et l’archivage des images. L’internaute pourra par exemple rechercher l’intégralité des photos référencées comportant un chapeau, un éléphant et/ou un stylo. « Je considère les pixels d’une image ou d’une vidéo à la matière noire d’Internet » commente dans le New York Times Fei-Fei Li, le directeur du laboratoire d’Intelligence artificielle de l’Université de Stanford. « Nous allons maintenant commencer à l’éclairer. »
Ces avancées pourraient selon d’autres scénarios également aiguiser les solutions de reconnaissance faciale sous l’angle de la sécurité. En 2012, nous rapportions qu’une équipe japonaise avait réussi à mettre au point un logiciel capable d’identifier en une seconde un visage sur 36 millions de références dans une base de données. Le New York Times estime aujourd’hui que dans quelques années, il sera possible non seulement d’identifier des visages, mais également « certains types de comportements, et peut-être même alerter automatiquement les autorités. »
Science-fiction ? Avec une telle solution on peut pratiquement envisager un sérieux coup de main pour les personnes souffrant de déficience visuelle. Ces fils d’Ariane accompagneront en effet ces personnes dans leur découverte du web par un logiciel décrivant ce qu’ils sont dans l’incapacité de voir. On pourra découvrir ces recherches d’intelligence artificielle sur cette page (Google) et celle-ci (Université de Standford).
Commentaires (96)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 19/11/2014 à 09h56
D’où le “describes with minor errors”.
Grillé…
Le 19/11/2014 à 09h59
Wow o_o
(inb4 much photo, very reconnaissance faciale )
Le 19/11/2014 à 10h00
C’est à base de réseaux de neurones, donc avec apprentissage sur une base de données d’images avec descriptions. Aucune IA ne “comprend” réellement un concept.
Le 19/11/2014 à 10h03
Mon neveu de 2 ans arrive à reconnaitre un éléphant pourtant je doute fortement qu’il comprenne le concept d’éléphant. Du coup je penche pour une simple comparaison a une base de donnée.
Le 19/11/2014 à 10h04
Les deux derniers liens de la news dirigent vers les papiers à la base de tout ça.
Dans le second, on y apprend que : “Flickr8k, Flickr30k et COCO ont été utilisés comme ensemble de données. Respectivement, 8 000, 31 000 et 123 000 images annotées avec 5 phrases (grâce à Amazon Mechanical Turk). Pour Flickr8k et Flick30k, 1000 images pour validation et test, le reste pour l’apprentissage. Pour COCO, 5000 images pour validation et test (rien n’est précisé pour l’apprentissage)”.
Pour la reco d’objet dans les images : méthode de Girshick sur 200 classes (voiture, chien, ballon….)
Après, réseaux de neurones, toussa toussa…. ça m’dépasse…
Le 19/11/2014 à 10h05
Un élément a été oublié dans l’histoire. C’est l’analyse de toutes nos photos mises sur le réseau pour mieux nous cibler publicitairement.
Même si c’est un progrès pour les aveugles. Encore faut-il qu’ils aient vu quelques années. Des aveugles de naissances, ce n’est pas sûr que ça les aide beaucoup.
Le 19/11/2014 à 10h06
J’ai rapidement lu en diagonal le papier des gars de Standford, et de ce que j’ai compris ils utilisent un set de “training images” avec une description complète associée. Dans un premier temps leur modèle infère les correspondances entre l’image et la description (multimodal embedding) et, à travers ces correspondances, apprend à créer des descriptions (via un réseau de neurones récurent).
Le 19/11/2014 à 10h11
C’est aussi et surtout la recherche d’image par le contenu (ici, décrit en langage naturel)… ça va nous simplifier la vie…
Après, oui, ça peut (va) être utilisé par les plus gros pour accumuler encore plus de données précises… inévitable…
Le 19/11/2014 à 10h12
Zut, j’avais même pas capté qu’il y avait différentes colonnes avec différents types de résultats …
J’ai pourtant mes lunettes sur le nez :-(
Le 19/11/2014 à 10h17
Two Girls Playing in the Bed. " />
Le 19/11/2014 à 10h18
Le 19/11/2014 à 10h25
Le 19/11/2014 à 10h32
On peut pas plutôt imaginer le contraire ? On dicte et ils nous dessinent l’image ?
“A guy sticking his cock in a bull’s butt, while wanking a sheep” pour les uns, “a quiet landscape” pour les autres…
Le 19/11/2014 à 10h32
en dessous de 40kg c’est plus un chien " />
" />
Le 19/11/2014 à 10h34
Mouais … cette technologie est neutre en elle même. Par contre les utilisation qui en seront faite, la ce sera autre chose ! " />
Pas moyen d’essayer avec Cette photo ? " />
(Photo non modifiée, prise quelque part dans la vallée de la Maurienne)
Le 19/11/2014 à 10h39
J’aurais plutôt pensé à Two girls, one cup " />
Le 19/11/2014 à 15h56
“Le New York Times estime aujourd’hui que dans quelques années, il sera possible non seulement d’identifier des visages, mais également « certains types de comportements, et peut-être même alerter automatiquement les autorités. » “J’imagine dans quelques années les google glass t’informer dans l’oreillette: “vous venez de croiser Léa Michu ses mensurations sont …, elle est célibataire et vous correspondez à son type d’hommes d’après les informations récoltés sur son profils Facebook/Badoo/AUM/Meetic…. et ses positions sexuelles préférés sont…… pour l’aborder généralement il suffit de lui proposer un café/verre ….“Et ça pour chaque personne autour de vous.C’est en fait vachement flippant ouais.
Le 19/11/2014 à 16h06
Le 19/11/2014 à 16h10
Le 19/11/2014 à 16h15
Le 19/11/2014 à 16h25
Le 19/11/2014 à 16h27
Après le point Godwin … il peut pas exister un point “Cradingue” ?
Genre tout ce qu’on dit après ce point … ben c’est de la merde ?!?!? " /> " />
Le 19/11/2014 à 16h30
Le 19/11/2014 à 16h36
Le 19/11/2014 à 16h38
Le 19/11/2014 à 16h59
Le 19/11/2014 à 17h33
Pauvre… Tu passes inaperçu avec ce qui suit…
Dommage…
Le 19/11/2014 à 17h50
Le 19/11/2014 à 17h52
Le 19/11/2014 à 17h54
Remarque, vu comme ça dégénère…
(Je ne parle pas QUE de mon avatar…)
" /> " /> " /> " /> " />
Le 19/11/2014 à 17h56
Thanks pour les explications sur la techno.
Bonne explication du réseau neuronal aussi… Même si c’est en réalité un peu plus compliqué (résilience, repli du système perturbé, etc.), mais je salue ta didactique…
Le 19/11/2014 à 17h58
Le 19/11/2014 à 13h37
Le 19/11/2014 à 13h42
Le 19/11/2014 à 13h52
Le 19/11/2014 à 13h54
Il me semble que le processus se déroule en deux phases :
Je crois que l’innovation se situe particulièrement dans la phase n°2 : générer du texte (les travaux sur les langages naturels, c’est à la mode depuis longtemps et ça reste très compliqué). Après, côté aspect technique :
Dans chacun des points listé ci-dessus, les réseaux de neurones interviennent (bidirectionnel, récurant…). Les réseaux de neurone, c’est un outil de classification/reconnaissance. Franchement à la mode car c’est sans doute le plus puissant (côté score de classification). Ils restent lourds à mettre en œuvre, particulièrement difficiles et consommateurs en ressources.
On retrouve comme outils similaires : les arbres de classification, SVN, les treillis de Galois, les champs conditionnels aléatoires (modèle statistique, champs de Markov…)…
Les réseaux de neurones, c’est très inspiré de la bio : des entités (neurones) reliées entre elle. Un fonction de potentiel, une fonction d’activation (l’activation dépend du potentiel). A l’initialisation, chacun neurone à un reflex (comportement par défaut) qui va être modifié par l’activation : il apprend (phase d’apprentissage, entraînement).
Il y en a plusieurs formes : un neurone relié à un et un seul neurone, un neurone relié à tous les neurones, un chemin dans les réseaux de neurones qui forme une boucle (réseaux récurrent).
Le 19/11/2014 à 13h55
Le 19/11/2014 à 14h23
Faudra voir si ca fait augmenter le trafic web sur cette news. " />
Le 19/11/2014 à 14h47
Le 19/11/2014 à 15h02
Le 19/11/2014 à 15h17
Le 19/11/2014 à 15h18
Le 19/11/2014 à 15h19
Le 19/11/2014 à 15h30
Le 19/11/2014 à 15h34
Le 19/11/2014 à 15h42
C’est pas Microsoft qui voulait contrer les bruteforce en présentant des images que les ordinateurs seraient incapable d’interpréter du genre “saisissez votre mot de passe puis cliquez sur le chaton” ? " />
En tous cas impressionnant et flippant à la fois.
Le 19/11/2014 à 15h44
Le 19/11/2014 à 15h50
Le 19/11/2014 à 09h47
C’est dommage qu’il n’y ait pas plus de détail, sur comment le soft arrive a reconnaitre des éléments ?
Car faire ‘comprendre’ un concept tel que éléphant a une ia, ça semble difficile.
Ou il s’agit d’une simple comparaison avec une grosse base de données d’éléments ?
Le 19/11/2014 à 09h51
Je pense en effet qu’il y a des tonnes de données derrière cette “intelligence”, mais tout ceci reste quand même assez incroyable, et je ne pense pas que le terme “simple comparaison” soit réellement approprié :-p
Le 19/11/2014 à 09h53
>Montre moi qui tu es, je te diras ce que tu as
" />
Alors … toi tu as des hémorroïdes.
Vachement précis cette intelligence !!! " />
Le 19/11/2014 à 09h54
Le New York Times estime aujourd’hui que dans quelques années, il sera
possible non seulement d’identifier des visages, mais également « certains types de comportements, et peut-être même alerter automatiquement les autorités. »
Bienvenue dans le Cyberpunk !!! C’est “Minority Report” ce truc là " />
Le 19/11/2014 à 09h54
C’est moi, ou il y a 3 chiens sur la photo ?" />
Le 19/11/2014 à 09h56
d’ou le titre de la colonne en fait ;)
Le 19/11/2014 à 19h08
Je l’ai vu cette vidéo, et pour moi, c’est pas possible que ce soit réel. Doit sûrement y avoir des trucages…
Un être humain ne peux pas avaler ce genre de choses par plaisir " />
Du coup ca m’a fait ni chaud ni froid quand je l’ai vu, enfin pas vraiment vu que je me suis bien marré…un peu comme quand tu regarde un film Jackass quoi.
Le 19/11/2014 à 19h10
Le 19/11/2014 à 19h14
Le 19/11/2014 à 19h22
En effet, s’il s’agit d’une maladie, c’est autre chose.
Il n’empêche que dans ce cas là les gens ne le font pas “juste parce qu’ils en ont envie”, c’est juste qu’il peuvent pas s’en empêcher.
Le 19/11/2014 à 20h18
" />
C’est bien plus compliqué oui… j’ignorais totalement tes connaissances du domaine et surtout je ne suis pas expert du machin. Je connais un peu pour m’y être intéressé un peu.
Je suis plus à l’aise du côté des modèles probabilistes… même si c’est pas bien brillant non plus " />
Le 19/11/2014 à 20h28
Je n’avais pas percuté que c’était la brique nécessaire mais toujours manquante pour enfin savoir ce que l’on possède…
Plus sérieusement, je comprends ton point de vue et je le partage plus ou moins.
Mais arrêtons-nous 5 minutes, stoppons le “de toute façon ça va servir qu’à faire de la merde” et reconnaissons que c’est un sacré truc (toujours à l’état de recherche en passant).
Le 19/11/2014 à 21h21
Le 20/11/2014 à 07h20
Ouais, entre celui qui veut un paysage tranquille et l’autre un remake de la ferme célébrités…
Le 20/11/2014 à 08h44
Le 21/11/2014 à 02h51
Le 19/11/2014 à 12h40
Le 19/11/2014 à 12h41
L’application qui en sera faite sera beaucoup plus triviale que ce que
vous espérez. Je vois bien les zayantsdroits obliger par exemple les
fabricant d’appareil photo à intégrer ce “gadget” dans leur appareil et
les messages qui en sortiraient.
Vous venez de photographier la tour Eiffel de nuit, son éclairage étant sous copyright vous pouvez :
*Un droit de visionnage de 10€00 pourra vous être réclamé à chaque
affichage du cliché. Prévoir un supplément de 5€00 par adulte
supplémentaire, 3€00 pour les moins de 16 ans, 1€00 pour les moins de 10
ans, 0.01€ pour les nouveau-né sous condition de présentation de l’acte
de naissance. Gratuit pour les aveugles sous condition de présentation
de leur canne blanche, une compensation de 0.05€ sera malgré tout
demandé pour leur chien.
Le 19/11/2014 à 12h47
Le 19/11/2014 à 12h48
2 girls, 1 cup
On dirait le titre d’un bukkake….
Sinon, on a une idée des technologie qui se cachent derrière cette reconnaissance ? Comment ils font, concrètement et techniquement parlant ?
Le 19/11/2014 à 12h49
Le 19/11/2014 à 12h49
Avec une telle solution on peut pratiquement envisager un sérieux coup
de main pour les personnes souffrant de déficience visuelle
malheureusement , ça va surtout servir a augmenter la capacité de Google a exploiter nos données persos.
Biensur pour notre bien a tous, comme ça on aura de la pub en rapport avec l’intérieur de ton salon, si si le salon qu’on vois sur tes photos que tu as uploadé sur G+ ou autre service Google.
Le 19/11/2014 à 13h02
Ok, tu as raison. Seulement, nuançons quand même : ok c’est Google mais c’est aussi Stanford.
Et dans leur papier, on trouve : “We make our code, data and annotations publicly available” (page 2, colonne de gauche).
Ce n’est donc pas la propriété de Google.
ça ne sera pas les seuls à exploiter le bazar.
Ce n’est pas juste une innovation pour voir Google encore plus puissant (ce que, à mon sens, laisse supposer ton commentaire).
Le 19/11/2014 à 13h07
Je dirais que tu as déjà tas base de donnée. Si je te présente un nouvel animal que tu ne connais pas, si je ne dis pas ce que sait. Tu pourras tout de même le ré-identifier de nouveau, sauf son nom.
Le 19/11/2014 à 13h18
Le 19/11/2014 à 13h19
Le 19/11/2014 à 13h23
Le 19/11/2014 à 13h28
Manifestement tu ne connais pas la référence.
Si tu n’es pas au travail, cherche donc sur Google images “2 girls 1 cup”…
Et pour ta culture personnelle, cherche aussi “tub girl” et “goatse” (et d’autres que je n’ai pas en tête maintenant).
Le 19/11/2014 à 13h29
Le 19/11/2014 à 13h30
Skynet/Viki/Daneel Olivaw savent maintenant reconnaître leur environnement.
Il leur manque juste l’apprentissage du langage environnant.
L’apparence humaine est une question de temps, qui est proche.
Le 19/11/2014 à 13h31
Oui, c’est évident que Google a très vite mesuré le potentiel de la chose (pour se faire encore plus de thune, bien sûr).
J’avais la sensation qu’en réponse à quelqu’un qui disait “méfions-nous alors des tournevis” tu répondais : “mais regarde, c’est Google, tire s’en tes conclusions”.
Je trouvais ça moche. Je me suis surement trompé.
Le travail doit être rendu public oui…. la publication aurait pu suffir. La diffusion du code et des données, c’est autre chose.
Le 19/11/2014 à 13h34
Et sinon, ça donne quoi, avec du tentacle hentaï ?
" />
Le 19/11/2014 à 10h39
(J’ai changé le sous titre.)
Le 19/11/2014 à 10h40
Le 19/11/2014 à 10h46
c’est encore imprécis mais déjà bien bluffant :
le pompon pour le panneau signalisation routière vu comme “un réfrigérateur plein de nourritures et boissons”…
Le 19/11/2014 à 10h48
Le 19/11/2014 à 10h51
" />
Le 19/11/2014 à 10h53
Le 19/11/2014 à 10h59
Le 19/11/2014 à 11h02
Y’a aussi 1 guy 1 jar si tu préfères " />
Le 19/11/2014 à 11h06
Le 19/11/2014 à 11h17
Le 19/11/2014 à 11h19
Le 19/11/2014 à 12h00
Le 19/11/2014 à 12h02
Le 19/11/2014 à 12h06
Le 19/11/2014 à 12h38
2 types de personnes " />
Le 19/11/2014 à 12h39
Dessine-moiun mouton…