Si la reconnaissance faciale est désormais une réalité, un pas de plus vient d’être franchi en matière d'intelligence artificielle. Des chercheurs de l’université Stanford et de Google (Oriol Vinyals, Alexander Toshev, Samy Bengio et Dumitru Erhan) sont parvenus chacun de leur côté à mettre au point un modèle capable de détecter automatiquement le contenu d’une photo.
Prenez une photo de deux pizzas posées sur un four, et ce futur logiciel vous dira « deux pizzas posées sur le haut d’un four ». Deux chiens jouant dans un parc ? « Deux chiens jouant dans un parc avec des arbres et de l’herbe verte ». Si une image vaut mille mots, il s’agit ici de décrire textuellement ce qui peut être observé.
Les retombées sont évidemment multiples. Google pourra par exemple aiguiser la classification et l’archivage des images. L’internaute pourra par exemple rechercher l’intégralité des photos référencées comportant un chapeau, un éléphant et/ou un stylo. « Je considère les pixels d’une image ou d’une vidéo à la matière noire d’Internet » commente dans le New York Times Fei-Fei Li, le directeur du laboratoire d’Intelligence artificielle de l’Université de Stanford. « Nous allons maintenant commencer à l’éclairer. »
Ces avancées pourraient selon d’autres scénarios également aiguiser les solutions de reconnaissance faciale sous l’angle de la sécurité. En 2012, nous rapportions qu’une équipe japonaise avait réussi à mettre au point un logiciel capable d’identifier en une seconde un visage sur 36 millions de références dans une base de données. Le New York Times estime aujourd’hui que dans quelques années, il sera possible non seulement d’identifier des visages, mais également « certains types de comportements, et peut-être même alerter automatiquement les autorités. »
Science-fiction ? Avec une telle solution on peut pratiquement envisager un sérieux coup de main pour les personnes souffrant de déficience visuelle. Ces fils d’Ariane accompagneront en effet ces personnes dans leur découverte du web par un logiciel décrivant ce qu’ils sont dans l’incapacité de voir. On pourra découvrir ces recherches d’intelligence artificielle sur cette page (Google) et celle-ci (Université de Standford).
Commentaires (96)
C’est dommage qu’il n’y ait pas plus de détail, sur comment le soft arrive a reconnaitre des éléments ?
Car faire ‘comprendre’ un concept tel que éléphant a une ia, ça semble difficile.
Ou il s’agit d’une simple comparaison avec une grosse base de données d’éléments ?
Je pense en effet qu’il y a des tonnes de données derrière cette “intelligence”, mais tout ceci reste quand même assez incroyable, et je ne pense pas que le terme “simple comparaison” soit réellement approprié :-p
>Montre moi qui tu es, je te diras ce que tu as
" />
" />
Alors … toi tu as des hémorroïdes.
Vachement précis cette intelligence !!!
Le New York Times estime aujourd’hui que dans quelques années, il sera
possible non seulement d’identifier des visages, mais également « certains types de comportements, et peut-être même alerter automatiquement les autorités. »
Bienvenue dans le Cyberpunk !!! C’est “Minority Report” ce truc là
C’est moi, ou il y a 3 chiens sur la photo ?
" />
d’ou le titre de la colonne en fait ;)
D’où le “describes with minor errors”.
Grillé…
Wow o_o
)
(inb4 much photo, very reconnaissance faciale
C’est à base de réseaux de neurones, donc avec apprentissage sur une base de données d’images avec descriptions. Aucune IA ne “comprend” réellement un concept.
Mon neveu de 2 ans arrive à reconnaitre un éléphant pourtant je doute fortement qu’il comprenne le concept d’éléphant. Du coup je penche pour une simple comparaison a une base de donnée.
Les deux derniers liens de la news dirigent vers les papiers à la base de tout ça.
Dans le second, on y apprend que : “Flickr8k, Flickr30k et COCO ont été utilisés comme ensemble de données. Respectivement, 8 000, 31 000 et 123 000 images annotées avec 5 phrases (grâce à Amazon Mechanical Turk). Pour Flickr8k et Flick30k, 1000 images pour validation et test, le reste pour l’apprentissage. Pour COCO, 5000 images pour validation et test (rien n’est précisé pour l’apprentissage)”.
Pour la reco d’objet dans les images : méthode de Girshick sur 200 classes (voiture, chien, ballon….)
Après, réseaux de neurones, toussa toussa…. ça m’dépasse…
Un élément a été oublié dans l’histoire. C’est l’analyse de toutes nos photos mises sur le réseau pour mieux nous cibler publicitairement.
Même si c’est un progrès pour les aveugles. Encore faut-il qu’ils aient vu quelques années. Des aveugles de naissances, ce n’est pas sûr que ça les aide beaucoup.
J’ai rapidement lu en diagonal le papier des gars de Standford, et de ce que j’ai compris ils utilisent un set de “training images” avec une description complète associée. Dans un premier temps leur modèle infère les correspondances entre l’image et la description (multimodal embedding) et, à travers ces correspondances, apprend à créer des descriptions (via un réseau de neurones récurent).
C’est aussi et surtout la recherche d’image par le contenu (ici, décrit en langage naturel)… ça va nous simplifier la vie…
Après, oui, ça peut (va) être utilisé par les plus gros pour accumuler encore plus de données précises… inévitable…
Zut, j’avais même pas capté qu’il y avait différentes colonnes avec différents types de résultats …
J’ai pourtant mes lunettes sur le nez :-(
Two Girls Playing in the Bed.
" />
On peut pas plutôt imaginer le contraire ? On dicte et ils nous dessinent l’image ?
“A guy sticking his cock in a bull’s butt, while wanking a sheep” pour les uns, “a quiet landscape” pour les autres…
en dessous de 40kg c’est plus un chien
" />
" />
Mouais … cette technologie est neutre en elle même. Par contre les utilisation qui en seront faite, la ce sera autre chose !
" />
" />
Pas moyen d’essayer avec Cette photo ?
(Photo non modifiée, prise quelque part dans la vallée de la Maurienne)
J’aurais plutôt pensé à Two girls, one cup
" />
(J’ai changé le sous titre.)
c’est encore imprécis mais déjà bien bluffant :
le pompon pour le panneau signalisation routière vu comme “un réfrigérateur plein de nourritures et boissons”…
Y’a aussi 1 guy 1 jar si tu préfères
" />
2 types de personnes
" />
Dessine-moiun mouton…
L’application qui en sera faite sera beaucoup plus triviale que ce que
vous espérez. Je vois bien les zayantsdroits obliger par exemple les
fabricant d’appareil photo à intégrer ce “gadget” dans leur appareil et
les messages qui en sortiraient.
Vous venez de photographier la tour Eiffel de nuit, son éclairage étant sous copyright vous pouvez :
*Un droit de visionnage de 10€00 pourra vous être réclamé à chaque
affichage du cliché. Prévoir un supplément de 5€00 par adulte
supplémentaire, 3€00 pour les moins de 16 ans, 1€00 pour les moins de 10
ans, 0.01€ pour les nouveau-né sous condition de présentation de l’acte
de naissance. Gratuit pour les aveugles sous condition de présentation
de leur canne blanche, une compensation de 0.05€ sera malgré tout
demandé pour leur chien.
2 girls, 1 cup
On dirait le titre d’un bukkake….
Sinon, on a une idée des technologie qui se cachent derrière cette reconnaissance ? Comment ils font, concrètement et techniquement parlant ?
Avec une telle solution on peut pratiquement envisager un sérieux coup
de main pour les personnes souffrant de déficience visuelle
malheureusement , ça va surtout servir a augmenter la capacité de Google a exploiter nos données persos.
Biensur pour notre bien a tous, comme ça on aura de la pub en rapport avec l’intérieur de ton salon, si si le salon qu’on vois sur tes photos que tu as uploadé sur G+ ou autre service Google.
Ok, tu as raison. Seulement, nuançons quand même : ok c’est Google mais c’est aussi Stanford.
Et dans leur papier, on trouve : “We make our code, data and annotations publicly available” (page 2, colonne de gauche).
Ce n’est donc pas la propriété de Google.
ça ne sera pas les seuls à exploiter le bazar.
Ce n’est pas juste une innovation pour voir Google encore plus puissant (ce que, à mon sens, laisse supposer ton commentaire).
Je dirais que tu as déjà tas base de donnée. Si je te présente un nouvel animal que tu ne connais pas, si je ne dis pas ce que sait. Tu pourras tout de même le ré-identifier de nouveau, sauf son nom.
Manifestement tu ne connais pas la référence.
Si tu n’es pas au travail, cherche donc sur Google images “2 girls 1 cup”…
Et pour ta culture personnelle, cherche aussi “tub girl” et “goatse” (et d’autres que je n’ai pas en tête maintenant).
Skynet/Viki/Daneel Olivaw savent maintenant reconnaître leur environnement.
Il leur manque juste l’apprentissage du langage environnant.
L’apparence humaine est une question de temps, qui est proche.
Oui, c’est évident que Google a très vite mesuré le potentiel de la chose (pour se faire encore plus de thune, bien sûr).
J’avais la sensation qu’en réponse à quelqu’un qui disait “méfions-nous alors des tournevis” tu répondais : “mais regarde, c’est Google, tire s’en tes conclusions”.
Je trouvais ça moche. Je me suis surement trompé.
Le travail doit être rendu public oui…. la publication aurait pu suffir. La diffusion du code et des données, c’est autre chose.
Et sinon, ça donne quoi, avec du tentacle hentaï ?
" />
Il me semble que le processus se déroule en deux phases :
Je crois que l’innovation se situe particulièrement dans la phase n°2 : générer du texte (les travaux sur les langages naturels, c’est à la mode depuis longtemps et ça reste très compliqué). Après, côté aspect technique :
Dans chacun des points listé ci-dessus, les réseaux de neurones interviennent (bidirectionnel, récurant…). Les réseaux de neurone, c’est un outil de classification/reconnaissance. Franchement à la mode car c’est sans doute le plus puissant (côté score de classification). Ils restent lourds à mettre en œuvre, particulièrement difficiles et consommateurs en ressources.
On retrouve comme outils similaires : les arbres de classification, SVN, les treillis de Galois, les champs conditionnels aléatoires (modèle statistique, champs de Markov…)…
Les réseaux de neurones, c’est très inspiré de la bio : des entités (neurones) reliées entre elle. Un fonction de potentiel, une fonction d’activation (l’activation dépend du potentiel). A l’initialisation, chacun neurone à un reflex (comportement par défaut) qui va être modifié par l’activation : il apprend (phase d’apprentissage, entraînement).
Il y en a plusieurs formes : un neurone relié à un et un seul neurone, un neurone relié à tous les neurones, un chemin dans les réseaux de neurones qui forme une boucle (réseaux récurrent).
Faudra voir si ca fait augmenter le trafic web sur cette news.
" />
C’est pas Microsoft qui voulait contrer les bruteforce en présentant des images que les ordinateurs seraient incapable d’interpréter du genre “saisissez votre mot de passe puis cliquez sur le chaton” ?
" />
En tous cas impressionnant et flippant à la fois.
“Le New York Times estime aujourd’hui que dans quelques années, il sera possible non seulement d’identifier des visages, mais également « certains types de comportements, et peut-être même alerter automatiquement les autorités. » “J’imagine dans quelques années les google glass t’informer dans l’oreillette: “vous venez de croiser Léa Michu ses mensurations sont …, elle est célibataire et vous correspondez à son type d’hommes d’après les informations récoltés sur son profils Facebook/Badoo/AUM/Meetic…. et ses positions sexuelles préférés sont…… pour l’aborder généralement il suffit de lui proposer un café/verre ….“Et ça pour chaque personne autour de vous.C’est en fait vachement flippant ouais.
Après le point Godwin … il peut pas exister un point “Cradingue” ?
" />
" />
Genre tout ce qu’on dit après ce point … ben c’est de la merde ?!?!?
Pauvre… Tu passes inaperçu avec ce qui suit…
Dommage…
Remarque, vu comme ça dégénère…
" />
" />
" />
" />
" />
(Je ne parle pas QUE de mon avatar…)
Thanks pour les explications sur la techno.
Bonne explication du réseau neuronal aussi… Même si c’est en réalité un peu plus compliqué (résilience, repli du système perturbé, etc.), mais je salue ta didactique…
Je l’ai vu cette vidéo, et pour moi, c’est pas possible que ce soit réel. Doit sûrement y avoir des trucages…
" />
Un être humain ne peux pas avaler ce genre de choses par plaisir
Du coup ca m’a fait ni chaud ni froid quand je l’ai vu, enfin pas vraiment vu que je me suis bien marré…un peu comme quand tu regarde un film Jackass quoi.
En effet, s’il s’agit d’une maladie, c’est autre chose.
Il n’empêche que dans ce cas là les gens ne le font pas “juste parce qu’ils en ont envie”, c’est juste qu’il peuvent pas s’en empêcher.
C’est bien plus compliqué oui… j’ignorais totalement tes connaissances du domaine et surtout je ne suis pas expert du machin. Je connais un peu pour m’y être intéressé un peu.
Je suis plus à l’aise du côté des modèles probabilistes… même si c’est pas bien brillant non plus
Je n’avais pas percuté que c’était la brique nécessaire mais toujours manquante pour enfin savoir ce que l’on possède…
Plus sérieusement, je comprends ton point de vue et je le partage plus ou moins.
Mais arrêtons-nous 5 minutes, stoppons le “de toute façon ça va servir qu’à faire de la merde” et reconnaissons que c’est un sacré truc (toujours à l’état de recherche en passant).
Ouais, entre celui qui veut un paysage tranquille et l’autre un remake de la ferme célébrités…