Google ou l’« OCR-isation » du monde
ED 041 CD
Le 19 novembre 2019 à 13h15
6 min
Droit
Droit
« Incroyable la vitesse à laquelle Google référence les plaques d’immatriculation. Ici une des voitures retournées à la place d'Italie ». Ce tweet posté par le compte @MCCob relève, en quelques mots, les capacités d’extractions d’images par Google. Le moteur a bien voulu réagir dans nos colonnes.
Cette fonctionnalité, également pointée par BFMTV, Caradisiac et bien avant Autoplus, montre que Google peut donc « lire » la plaque d’un véhicule, peu importe son orientation, pour ensuite l’indexer dans son moteur de recherche. Conclusion : en tapant la suite de chiffres et de lettres, on peut retrouver des photos comprenant cette référence administrative, indexées par le moteur. Magique.
Ont ainsi été « gloutonnés » par Google un véhicule mis en vente sur un site d’annonce, la plaque d’une 4L sur une photo utilisée par Wikipédia, un camion de pompier, une ambulance, l’une des voitures officielles du gouvernement (utilisée notamment par Manuel Valls, alors premier ministre) ou encore la plaque d'une Google Car utilisée pour Street View.
Plaque floutée sur Maps, en clair sur Search
Google offre ici une fonctionnalité que Google Maps s’interdit. Ou plutôt se voit interdire. En 2008, la CNIL indiquait dans son rapport que son service Street View, « qui permet de visualiser des images des villes et offre un système de navigation à 360°, n’a été lancé en France qu’après modification du système déjà utilisé aux États-Unis pour prendre en compte les préconisations de la CNIL ».
En conséquence, « des aménagements ont ainsi été effectués pour respecter les règles européennes de protection de la vie privée, notamment le "floutage" des visages et des plaques d’immatriculation ».
Voilà pourquoi depuis, ces éléments d’identification n’apparaissent pas en clair lors d’une exploration des rues en 3D. L’autorité avait par ailleurs mis en ligne un formulaire dédié pour réclamer ce traitement d’images, en cas de raté.
Plus de 10 ans plus tard, avec l’entrée en application du règlement général sur la protection des données personnelles, le sujet reste d’actualité. L’article 4 du RGPD apporte une définition suffisamment vaste de la « donnée personnelle » pour y maintenir les plaques d’immatriculation.
Ce sont en effet toutes les informations « se rapportant à une personne physique identifiée ou identifiable ». Le texte européen répute être une personne physique identifiable, « une personne physique qui peut être identifiée, directement ou indirectement, notamment par référence à un identifiant, tel qu'un nom, un numéro d'identification, des données de localisation, un identifiant en ligne, ou à un ou plusieurs éléments spécifiques propres à son identité physique, physiologique, génétique, psychique, économique, culturelle ou sociale » (notre dossier).
D’autres dispositions plus généralistes peuvent être en cause comme le droit à la vie privée, puisqu’avec la plaque, on sait qu’une personne s’est garée dans telle rue. En exploitant les métadonnées attachées à l’image, on peut parfois découvrir l’heure et le jour de la prise de vue, avant de réclamer des comptes au titulaire de la carte grise...
Cloud Vision, une reconnaissance de caractères en 50 langues
Les technologies de reconnaissance de caractères dans les images sont suivies comme le lait sur le feu par Google, en témoignent ces pages décrivant l’API « Cloud Vision ».
Cette interface de programmation, explique la page Google Cloud, « utilise la reconnaissance optique des caractères pour détecter du texte à l'intérieur d'images dans plus de 50 langues et divers types de fichiers. Elle intègre également l'IA pour la reconnaissance de document, qui vous permet de traiter rapidement des millions de documents et d'automatiser vos workflows ».
Elle sert également à la détection des « contenus explicites » (contenus réservés aux adultes ou violents). On ne sait pour l’heure si elle est intégrée au moteur de recherche.
« 8806923102858 CORINNE »
La solution de reconnaissance déployée par Google n’est en tout cas pas concentrée sur les seules plaques minéralogiques. Une requête « 8806923102858 CORINNE » permet par exemple de retrouver le scan du spécimen d’une carte d’identité utilisée sur de nombreux sites, notamment de ventes de portefeuilles.
D'ailleurs, Google associe « 8806923102858 CORINNE » à une série de mots-clefs comme porte-chéquier, cuir bleu, cuir vachette, papiers, conduire carte ou portefeuille homme, alors que sémantiquement, l'expression recherchée est sans aucun lien.
En tapant « F-GRPF », on retrouvera cette fois l’ensemble des photos de cet avion de tourisme, identifié par cette autre série de caractères.
Pour Google, cette technologie améliore la pertinence des résultats
Contactée, l’antenne française du moteur nous indique utiliser cette technologie pour améliorer la pertinence des résultats de recherche. Elle n’est donc pas orientée autour des images et des données de plaques d'immatriculation.
Google rappelle que ses services Search et Images indexent les informations, les pages Web et les images accessibles au public sur le Web. Et, dans le lot, des informations personnelles telles que les numéros de plaque d'immatriculation font nécessairement partie du corpus public. La problématique a d'ailleurs été soulevée plusieurs fois devant la Cour de justice de l'Union européenne lorsqu'a été évoqué le droit à l'oubli (ou droit à l'effacement).
Dès lors, si les plaques d'immatriculation apparaissent sur Google Images, c'est avant tout parce qu'elles sont disponibles sur le Web et sont publiques.
Google France rappelle qu’en cas de présence de données personnelles, même sur Google Images, couplées à des risques importants d'usurpation d'identité, de fraude financière ou autres dommages spécifiques, un formulaire dédié est disponible pour assurer un coup de gomme.
Contrairement à ce qui a pu être dit sur Twitter, le moteur conteste enfin l’existence d’une banque centrale d’images dédiées aux plaques d’immatriculation. La différence avec StreetView finalement, est que dans les rues, la société a développé une technologie pour flouter les visages et les plaques dans les images collectées par ses propres services, technologie inexistante sur la partie moteur ou images.
Quand le monde devient « data »
Cette fonction, qui a fait l’objet de plusieurs articles récemment surtout centrés sur les véhicules, ne date pas d’hier. Selon nos informations, elle serait en vigueur depuis plusieurs années, sans que Google ne puisse la dater exactement.
Bref, retenons qu'en plus d'être ancienne, elle n’est pas non plus liée aux seules plaques d’immatriculation. Une certitude, elle témoigne de la capacité d’ « OCR-isation », ou de reconnaissance optique de caractères, dont est équipée aujourd’hui Google ou encore Facebook. Avec cette capacité, le monde qui nous entoure devient finalement « datas » et la réalité, une donnée pour nourrir ces algorithmes à généreuses pelletées.
Google ou l’« OCR-isation » du monde
-
Plaque floutée sur Maps, en clair sur Search
-
Cloud Vision, une reconnaissance de caractères en 50 langues
-
« 8806923102858 CORINNE »
-
Pour Google, cette technologie améliore la pertinence des résultats
-
Quand le monde devient « data »
Commentaires (23)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 19/11/2019 à 16h32
C’était la blague ;)
Le 19/11/2019 à 16h58
https://pbs.twimg.com/media/DJeAlYTVAAAk7Lp.jpg
Le 19/11/2019 à 17h18
Sachant que le numéro CNI et passeport sont des informations sensibles, avec un encadrement spécifique, on imagine sans mal comment google stocke des kilomètres de données de ce type …
Le 19/11/2019 à 18h02
Oh, après, il n’y a pas forcément besoin de Google pour faire une utilisation malveillante ; il y a un site qui s’amuse à lister les plaques d’immatriculation et qui permet à son bon vouloir de renseigner (sans modération) “l’attitude” du conducteur. Ce sont des insultes, souvent racistes, basées sur rien, des appels à être violent… Je l’ai signalé aux autorités d’ailleurs, je n’ai jamais eu de retour (bienvenue en France). Et ça ne fonctionne sur aucun OCR, c’est juste du facho-délation-participatif. Google fait son boulot, ça indexe… Si quelqu’un s’en sert hors cadre, “c’est plus son problème”.
Le 19/11/2019 à 18h40
Un jour j’ai fait une recherche google sur l’identifiant que j’utilise pour jouer online - un truc improbable (et nul), je me disais que personne d’autre n’y avait pensé (évidemment, c’est pas le cas)
Je suis tombé sur des screenshots (et des vidéos??) que d’autres joueurs ont publiés. On était dans les mêmes parties, et google me les a déterrées, bien que mon indentifiant n’apparaisse que dans les screenshots…
Bref, ils sont forts (et flippants).
Le 19/11/2019 à 19h40
Le 19/11/2019 à 21h14
C’est pas bien nouveau mais une réponse officielle fait toujours du bien.
Il y a quelques années, j’avais regardé «Hitman 2», celui où à la fin du film il croise son clone. On peut lire sur sa nuque son numéro de série dans la dernière scène. A l’époque, je l’avais tapé sur Google. Aucune page en faisant référence. Pourtant, premier et unique résultat, la page Wikipedia du film. Donc je pense que Google OCR-ise aussi les films.
Le 19/11/2019 à 22h10
Et donc ton cerveau va finir dans une cuve en verre recyclé ? " />
Le découplage c’est la richesse personnelle sans la richesse matérielle qui suit. Les deux sont préférables à rien…
Google pense réduire le monde à un cerveau artificiel fait de datas… hors je vois très mal Google se questionner sur la conscience ou l’âme… alors finalement Google ment et profite de ses profits pour abuser de la notion de découplage auprès de ses actionnaires ? (…)
Le 19/11/2019 à 22h59
Là où c’est plus rigolo, c’est de faire la recherche “4970 CB” ;)
Le 20/11/2019 à 05h47
Les séries et films sont rattrapés par la réalité. La technologie est là
Le 20/11/2019 à 08h09
Donc en gros le pb est que des plaques soient dispo dans google image sans floutage qui est problématique. L’OCR n’est qu’un moyen d’indexation qui part effet de bord index aussi les plaques.
Pour le coup je suis assez d’accord avec Google, les fautifs sont les gens qui publient des photos sans accord (facebook, instagram…), google image et son OCR ne sont qu’un outil..
Et si on cherche un no de plaques dans street view on trouve la voiture (avec sa plaque floutée) ? " />
Le 20/11/2019 à 09h11
Perso ,je ne blame pas non plus google et les autre moteurs, si on essaye de flouté ou retiré les plaques , il est garantie qu’il n’y aura pas juste des plaques qui seront censuré mais du contenu autre qui vont être affecté
Le 21/11/2019 à 17h32
Le 19/11/2019 à 13h44
Parfait.
Le 19/11/2019 à 13h55
N’est ce pas?
Le futur made in Google me plait toujours plus jour après jour…
Le 19/11/2019 à 13h58
En soit, rien d’extraordinaire, ce que je comprends, c’est que lorsque google indexe une image, un coup de reconnaissance de caractère est réalisé. On peut donc ainsi facilement retrouver les plaque d’immatriculation ou des carte d’identité (factice dans le cas présenté dans l’article)
Ces infos sont traité comme un mot/texte et sont remis dans le contexte d’utilisation. Ainsi, le spécimen de carte d’identité étant très souvent trouver avec des porte feuille, le terme est donc associé dans la base de donné comme ayant une relation très forte avec les porte feuilles.
Du coup, ce qu’il faudrait que Google fasse, c’est en plus d’une OCR, ajouter une identification de contenu “sensible”, genre “hum, je vois une voiture, je trouve des caractères qui ressemble à une plaque d’immatriculation à un emplacement compatible, je n’indexe pas”.
Bon, aller, recaptcha va nous demander de trouver des cartes d’ID, des permis…
Le 19/11/2019 à 14h03
Google France rappelle qu’en cas de présence de données personnelles,
même sur Google Images, couplées à des risques importants d’usurpation
d’identité, de fraude financière ou autres dommages spécifiques, un
formulaire dédié est disponible pour assurer un coup de gomme.
Comment , “Google rappelle” ? Ce n’est pas parce qu’ils le disent à un journaliste que c’est un rappel. Popur être valable ce lien devrait être visible sur la page d’accueil de Google Images, autrement personne n’en a connaissance, et il ne sert à rien (à part les intérêts de Google qui conserve et affiche les données non supprimées).
Le 19/11/2019 à 14h11
Avec cette capacité, le monde qui nous entoure devient finalement « datas » et la réalité, une donnée pour nourrir ces algorithmes à généreuses pelletées.
C’est ce qu’on appelle un découplage : le monde physique est dématérialisé et remplacé par de l’information. La valeur de cette information peut être alors multipliée à l’infini alors que la valeur du monde physique stagne, diminue voire devient nulle.
Ce phénomène est très clair depuis les années 1970, en particulier dans l’utilisation des ressources naturelles.
Le 19/11/2019 à 14h49
Le 19/11/2019 à 15h12
des aménagements ont ainsi été effectués pour respecter les règles européennes de protection de la vie privée, notamment le “floutage” des visages et des plaques d’immatriculation
Par contre ça ne s’applique pas aux sociétés privées d’autoroute française… faites ce que je dis, pas ce que je fais " />
Le 19/11/2019 à 15h28
elles rendent les plaques et visages disponibles au public ?
Le 19/11/2019 à 15h51
Vous inquiétez pas, ils font aussi la même choses avec les visages et la reconnaissance faciale.
Le 19/11/2019 à 16h11