Refonte en règle du portail « data.gouv.fr », nouvelles données à l’appui

Refonte en règle du portail « data.gouv.fr », nouvelles données à l’appui

Le « Noël de l’Open Data » selon Regards Citoyens

Avatar de l'auteur

Xavier Berne

Publié dansInternet

19/12/2013
17
Refonte en règle du portail « data.gouv.fr », nouvelles données à l’appui

Une nouvelle version de la plateforme gouvernementale d’Open Data, « data.gouv.fr », vient d’être mise en ligne par la mission Etalab, qui gère le mouvement d’ouverture des données publiques sous l’autorité du Premier ministre. Un portail qui se veut plus simple, davantage ouvert aux contributions, et surtout plus social. Explications. 

data.gouv.fr

 

Près de deux ans jour pour jour après l’ouverture de « data.gouv.fr » sous l’impulsion du gouvernement Fillon, le Premier ministre socialiste Jean-Marc Ayrault a inauguré hier après-midi la nouvelle version du site d’Open Data national. C’était d’ailleurs l’un des engagements ancrés par l’exécutif dans sa feuille de route en matière d’ouverture des données publiques : la nouvelle version de cette plateforme était censée voir le jour dès cette année. C’est désormais chose faite. Et force est de constater que les changements ne sont pas qu’esthétiques !

 

« Nous nous sommes dit que le prochain site devait résoudre trois problèmes », nous a raconté Henri Verdier, directeur d’Etalab. « D’abord, il fallait que ça prenne une minute à une administration pour poser des données. Jusque-là c’était très lourd, on leur envoyait un cahier des charges, des règles d’indexation, etc. Ensuite, il fallait que l’on puisse trouver une réponse en quelques clics. Et puis il fallait enfin que les administrations trouvent un intérêt à partager les données. » La refonte du site a donc été orientée en fonction de ces trois défis.

Des améliorations destinées tant aux utilisateurs qu'aux contributeurs

Ainsi, l’expérience utilisateur a été profondément remodelée. Recherche plus intuitive, indice de qualité des données, possibilité de de suivre des informations en fonction du producteur (un ministère, une collectivité ou un établissement public en particulier,...), de marquer comme « utile » un jeu de données, de proposer des améliorations ou des réutilisations aux données : nombreuses sont les nouveautés destinées à séduire le public et à « faire vivre » les informations mises en ligne.

 

Autre changement, de taille : data.gouv.fr accueille désormais des données et contributions issues de la société civile en général, et non plus seulement celles libérées par les pouvoirs publics. Les universités, les médias, les associations, les entreprises sont ainsi invitées à participer à la plateforme nationale d’Open Data. Pour éviter les dérives, un bouton de signalement est néanmoins prévu pour avertir les administrateurs du site. Il n’en demeure pas moins que ces informations provenant de nouveaux producteurs deviennent référencées aux côtés des autres jeux de données « officiels », ceux issus de l’administration. L’on peut ainsi retrouver des données proposées par l’association WWF à propos de l’empreinte écologique, ou bien par certains de nos confrères au sujet de la vidéosurveillance par exemple.

 

data.gouv.fr

 

Enfin, c’est un effort de classement qui a été réalisé. Les 350 000 fichiers présents sur l’ancienne version de data.gouv.fr ont en effet été rassemblés en 2 900 séries, qui se veulent plus cohérentes (les chiffres du chômage sont par exemple regroupés, etc.). Aussi, la plateforme n’ayant pas vocation à héberger des données déjà stockées ailleurs (sur le site d’une institution telle que l’INSEE par exemple), la « V2 » de data.gouv.fr renvoie les internautes vers le site sur lequel se trouvent les données en question. Il remplit en ce sens davantage un rôle de moteur de recherche que d'hébergeur.

De nouveaux jeux de données libérés pour l'occasion

Pour l’occasion, de nouveaux jeux de données ont été mis en ligne par Etalab. L’on retrouve par exemple des données concernant :

  • Les comptes des partis et groupements politiques au titre de l’exercice 2011,
  • Les subventions allouées au titre de la réserve parlementaire pour 2011 et 2012,
  • Le fichier des adresses des établissements d’enseignement,
  • La liste des marchés publics conclus de 2008 à 2012,
  • La base de données publiques des médicaments,
  • Les indicateurs de qualité et de sécurité des soins généralisés dans les établissements de santé sur l’activité de médecine, chirurgie, obstétrique et des soins de suite et de réadaptation,
  • Le projet de loi de finances 2014 (détail par Programme et missions, et incluant le jaune relatif aux subventions versées aux associations),
  • Les données relatives à l’annuaire fiscal (impôts locaux et impôt sur le revenu par collectivité, impôt de solidarité sur la fortune par commune de plus de 20 000 habitants, taxe sur la valeur ajoutée en montant et en nombre de cases remplies),
  • Les données d’exécution budgétaire des collectivités territoriales (charges et produits de fonctionnement, dépenses et recettes totales d’investissement),
  • Le fichier FANTOIR répertoriant pour chaque commune le nom des lieux dits et des voies,
  • Le périmètre des interventions économiques analysées dans le cadre de la mission MAP sur les aides aux entreprises,
  • L’aide publique au développement,
  • Les données détaillées de connaissance et de surveillance de la qualité des eaux,
  • Les effectifs étudiants inscrits dans les établissements et les formations de l’enseignement supérieur,
  • Le recensement des licences auprès des fédérations sportives agréées par le ministère en charge des sports,
  • La localisation des sites de fouilles archéologiques de l’INRAP,
  • L’analyse trimestrielle du marché des jeux en ligne en France,
  • La base de données mondiale des plus hauts revenus (École d’Économie de Paris),
  • La base de données OpenStreetMap,
  • Les structures de la Croix Rouge française.

Un site développé sur un noyau open source

« On est le premier pays au monde à ouvrir un portail d’Open Data véritablement social, où les gens peuvent venir et enrichir les données et même, avec des règles du jeu claires, accueillir aussi des données qui ne viennent pas de l’État » se félicite aujourd’hui Henri Verdier. Le numéro un d’Etalab explique avoir tenté d’imprimer une nouvelle stratégie, afin « d’utiliser la technologie pour pousser les gens à partager les données, et faire en sorte que ça ait du sens pour eux ».

 

Pour preuve de ce tournant, le nouveau site a été réalisé par des entrepreneurs embauchés en CDD, dans l'esprit des « corporate start-ups » séduisant les grandes structures qui veulent innover. Henri Verdier affirme à cet égard que ces personnes ont ainsi su apporter des « manières d’innover et de coder assez proches du Web ». À noter que la nouvelle plateforme a été développée sur un noyau open source, CKAN, standard bien connu des acteurs de l’Open Data.

 

« C'est décidément Noël ! » a de son côté réagi l’association Regards Citoyens (en lien avec les récentes annonces de Matignon concernant l’Open Data), et qui était d’ailleurs présente pour l’inauguration de la nouvelle plateforme. L’organisation a ainsi applaudi la mise en place de la nouvelle version de data.gouv.fr et de ses conséquences concrètes sur le mouvement d’ouverture des données publiques. « L’arrêt de la course au chiffre ayant incité des administrations à fragmenter leurs données en milliers de fichiers marque un sérieux pas en avant qui permettra enfin de retrouver aisément les données publiées » a ainsi fait valoir l’association dans un communiqué, tout en soulignant que des efforts restaient à faire « en matière de respect des formats ouverts ».

17
Avatar de l'auteur

Écrit par Xavier Berne

Tiens, en parlant de ça :

#Flock a sa propre vision de l’inclusion

Retour à l’envoyeur

13:39 Flock 15
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #10 : nous contacter et résumé de la semaine

On est déjà à la V2 de Next ?

11:55 26
Autoportrait Sébastien

[Autoportrait] Sébastien Gavois : tribulations d’un pigiste devenu rédac’ chef

Me voilà à poil sur Internet

17:18 Next 16

Sommaire de l'article

Introduction

Des améliorations destinées tant aux utilisateurs qu'aux contributeurs

De nouveaux jeux de données libérés pour l'occasion

Un site développé sur un noyau open source

#Flock a sa propre vision de l’inclusion

Flock 15
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #10 : nous contacter et résumé de la semaine

26
Autoportrait Sébastien

[Autoportrait] Sébastien Gavois : tribulations d’un pigiste devenu rédac’ chef

Next 16
Logo de StreetPress

Pourquoi le site du média StreetPress a été momentanément inaccessible

Droit 16
Amazon re:Invent

re:Invent 2023 : Amazon lance son assistant Q et plusieurs services IA, dont la génération d’images

IA 10
Un œil symbolisant l'Union européenne, et les dissensions et problèmes afférents

Le Conseil de l’UE tire un bilan du RGPD, les États membres réclament des « outils pratiques »

Droit 4

19 associations européennes de consommateurs portent plainte contre Meta

DroitSocials 15

#LeBrief : Ariane 6 l’été prochain, Nextcloud rachète Roundcube, désinformation via la pub

Chiffre et formules mathématiques sur un tableau

CVSS 4.0 : dur, dur, d’être un expert !

Sécu 13
Une tête de fusée siglée Starlink.

Starlink accessible à Gaza sous contrôle de l’administration israélienne

Web 34
Fibre optique

G-PON, XGS-PON et 50G-PON : jusqu’à 50 Gb/s en fibre optique

HardWeb 52
Photo d'un immeuble troué de part en part

Règlement sur la cyber-résilience : les instances européennes en passe de conclure un accord

DroitSécu 10
lexique IA parodie

AGI, GPAI, modèles de fondation… de quoi on parle ?

IA 10

#LeBrief : logiciels libres scientifiques, fermeture de compte Google, « fabriquer » des femmes pour l’inclusion

livre dématérialisé

Des chercheurs ont élaboré une technique d’extraction des données d’entrainement de ChatGPT

IAScience 3
Un chien avec des lunettes apprend sur une tablette

Devenir expert en sécurité informatique en 3 clics

Sécu 11
Logo ownCloud

ownCloud : faille béante dans les déploiements conteneurisés utilisant graphapi

Sécu 16
Le SoC Graviton4 d’Amazon AWS posé sur une table

Amazon re:invent : SoC Graviton4 (Arm), instance R8g et Trainium2 pour l’IA

Hard 12
Logo Comcybergend

Guéguerre des polices dans le cyber (OFAC et ComCyberMi)

Sécu 10

#LeBrief : faille 0-day dans Chrome, smartphones à Hong Kong, 25 ans de la Dreamcast

Mur d’OVHcloud à Roubaix, avec le logo OVHcloud

OVHcloud Summit 2023 : SecNumCloud, IA et Local Zones

HardWeb 2
algorithmes de la CAF

Transparence, discriminations : les questions soulevées par l’algorithme de la CAF

IASociété 62

Plainte contre l’alternative paiement ou publicité comportementale de Meta

DroitIA 38
Nuage (pour le cloud) avec de la foudre

Économie de la donnée et services de cloud : l’Arcep renforce ses troupes

DroitWeb 0
De vieux ciseaux posés sur une surface en bois

Plus de 60 % des demandes de suppression reçues par Google émanent de Russie

Société 7
Une vieille boussole posée sur un plan en bois

La Commission européenne et Google proposent deux bases de données de fact-checks

DroitWeb 3

#LeBrief : des fichiers Google Drive disparaissent, FreeBSD 14, caméras camouflées, OnePlus 12

Le poing Dev – round 6

Next 151

Produits dangereux sur le web : nouvelles obligations en vue pour les marketplaces

Droit 9
consommation de l'ia

Usages et frugalité : quelle place pour les IA dans la société de demain ?

IA 12

La NASA établit une liaison laser à 16 millions de km, les essais continuent

Science 17
Concept de CPU

Semi-conducteurs : un important accord entre l’Europe et l’Inde

Hard 7

#LeBrief : PS5 Slim en France, Valeo porte plainte contre NVIDIA, pertes publicitaires X/Twitter

next n'a pas de brief le week-end

Le Brief ne travaille pas le week-end.
C'est dur, mais c'est comme ça.
Allez donc dans une forêt lointaine,
Éloignez-vous de ce clavier pour une fois !

Commentaires (17)


WereWindle
Il y a 10 ans


« On est le premier pays au monde à ouvrir un portail d’Open Data véritablement social, où les gens peuvent venir et enrichir les données et même, avec des règles du jeu claires, accueillir aussi des données qui ne viennent pas de l’État » se félicite aujourd’hui Henri Verdier.

On a une indication des contrôles effectués pour attester de la véracité des données ajoutées ou “enrichies” ? Ou est-ce qu’on va faire une roulette russe du savoir façon Wikipedia ?


caesar
Il y a 10 ans

Je pensais que l’open data était quelque peu standardisé et accessible autrement que par telechargement de fichier html ou csv…

Aucune api ? <img data-src=" /> c’est moche…

Open galère data…


knos
Il y a 10 ans






caesar a écrit :

Je pensais que l’open data était quelque peu standardisé et accessible autrement que par telechargement de fichier html ou csv…

Aucune api ? <img data-src=" /> c’est moche…

Open galère data…



J’avais même cru voir à une époque des scan alors avant les sorti automatisé on y est pas encore.



caesar
Il y a 10 ans






knos a écrit :

J’avais même cru voir à une époque des scan alors avant les sorti automatisé on y est pas encore.



Il me semble pas que cela soit compliquer pourtant… je parle pas de centralisation autour d’une BBD commune mais rien que la mise en “services” des données… une petite procédure d’import sql. c’est pas la mer a boire…

Il y a masse de … page html… des données dans des pages html… en fait c’est open “consultation” data …. pour l’exploitation on repasse dans 20 ans ? <img data-src=" />



versgui Abonné
Il y a 10 ans

Les gars, soyez un peu réalistes.

Ceux qui font ces données, ce sont des fonctionnaires qui savent à peu près utiliser Word et Excel. L’un est à Lille aux services des naissances, l’autre à Marseille dans les services des transports. N’allez pas leur parler d’uniformisation, de standards et d’API <img data-src=" />
Sérieusement, ce serait un énorme challenge d’avoir dans une base centralisée les horaires de la piscine de Trou-sur-mer, ainsi que les statistiques sur la disparition du lynx dans les Vosges. Allez structurer tout ça de manière universelle…


AirTé
Il y a 10 ans






caesar a écrit :

Il y a masse de … page html… des données dans des pages html… en fait c’est open “consultation” data …. pour l’exploitation on repasse dans 20 ans ? <img data-src=" />


C’est pas le but ?

<img data-src=" />



kade
Il y a 10 ans






WereWindle a écrit :

On a une indication des contrôles effectués pour attester de la véracité des données ajoutées ou “enrichies” ? Ou est-ce qu’on va faire une roulette russe du savoir façon Wikipedia ?


Ouais. J’ai écouté une interview hier soir du directeur de ce service. En fait (si j’ai bien tout compris) il faut d’abord créer un compte. Ensuite, l’information est vérifiée. Toute tentative de donner une info volontairement falsifiée sera sanctionnée.
J’ai pas été voir encore, mais ça doit bien être expliqué qq part.

Edit : j’ai pas trouvé ça en regardant vite fait, mais j’ai bien entendu parler de sanctions par contre.



caesar
Il y a 10 ans






AirTé a écrit :

C’est pas le but ?

<img data-src=" />



Désolé si pour moi data ça signifie un peu plus que consultation… on est au 21ième siècle il me semble.


« D’abord, il fallait que ça prenne une minute à une administration pour poser des données. Jusque-là c’était très lourd, on leur envoyait un cahier des charges, des règles d’indexation, etc. Ensuite, il fallait que l’on puisse trouver une réponse en quelques clics. Et puis il fallait enfin que les administrations trouvent un intérêt à partager les données. »


Mais lol…




  • 1 minute qu’est ce que c’est lourd…

  • Des cahiers des charges pour… poster du html ?

  • Indexation ? wtf elle est ou ta base de donnée ?



AirTé
Il y a 10 ans






caesar a écrit :

Désolé si pour moi data ça signifie un peu plus que consultation… on est au 21ième siècle il me semble.


Le smiley était là pour souligner le troll ;)



Richmond
Il y a 10 ans






caesar a écrit :

Il me semble pas que cela soit compliquer pourtant… je parle pas de centralisation autour d’une BBD commune mais rien que la mise en “services” des données… une petite procédure d’import sql. c’est pas la mer a boire…

Il y a masse de … page html… des données dans des pages html… en fait c’est open “consultation” data …. pour l’exploitation on repasse dans 20 ans ? <img data-src=" />



Je sais pas ce que vous regardez, mais tout ce que je vois est téléchargeable…

http://www.data.gouv.fr/fr/dataset/decoupage-administratif-communal-francais-iss…

http://www.data.gouv.fr/fr/dataset/residences-de-tourisme-classees-en-france-572…

http://www.data.gouv.fr/fr/dataset/subventions-aux-personnes-morales-2001-a-2003…

par exemple…et ces données sont parfaitement exploitables <img data-src=" />

Je vois pas sur quoi vous râlez (encore <img data-src=" />)



caesar
Il y a 10 ans






DrJackal a écrit :

Je sais pas ce que vous regardez, mais tout ce que je vois est téléchargeable…

http://www.data.gouv.fr/fr/dataset/decoupage-administratif-communal-francais-iss…
=&gt; OpenStreetMap ^^ forcement ca aide a avoir des données exploitable vu que déjà exploitée par de nombreux outils…






http://www.data.gouv.fr/fr/dataset/residences-de-tourisme-classees-en-france-572…
=&gt; données non normées (téléphone), Données non renseignées (colonnes vides)






http://www.data.gouv.fr/fr/dataset/subventions-aux-personnes-morales-2001-a-2003…
=&gt; “exploitable” si on considère qu’il n’y pas l’air d’avoir d’api pour récupérer les données, il faut télécharger un csv

par exemple…et ces données sont parfaitement exploitables <img data-src=" />

Je vois pas sur quoi vous râlez (encore <img data-src=" />)



T’as eu une chance de fou ou t’as pris seulement les 3 bons après une longue recherche ?

http://www.data.gouv.fr/fr/dataset/liste-des-immeubles-proteges-au-titre-des-mon…
csv degeulasse

http://www.insee.fr/fr/bases-de-donnees/default.asp?page=recensements.htm
Exploitation hasardeuse

http://www.data.gouv.fr/fr/dataset/tableau-de-bord-dechets
whoooo du flex ^^’

http://www.data.gouv.fr/fr/dataset/effectifs-d-etudiants-inscrits-dans-les-etabl…
A peu près structuré, demande l’importation des données pour exploitation.

http://www.data.gouv.fr/fr/dataset/beneficiaires-de-la-cmu-par-regions-et-depart…
Un joli site de sélection comme souvent

Pourquoi est ce que open data c’est synonyme d’interface de filtre manuel + export

Je dis pas que c’est nul, je trouve juste que -très- c’est limitatif pour créer des outils qui exploitent ces données (automatiquement à jour -of course-).

avec json ou xml il y a moyen de faire des choses… évolutives et à jour
La, dans l’extrême majorité des “open data” que j’ai pu voir, tu ne peux pas exploiter automatiquement les données, et au moindre changement du format des données….



Richmond
Il y a 10 ans

je dois avoir eu de la chance alors parce que c’était de l’aléatoire total ^^


Sinon, oui je comprends mieux ce que tu voulais dire. Cependant, à leur décharge, ça ne reste qu’un site de référencement. Ils fournissent que ce qu’on leur donne ;)


Pour finir, je sais pas ce que t’entends par “exploiter automatiquement”. Y a des sites comme géobretagne qui proposent de venir se connecter en WFS ou WMS à leurs bases, mais vrai que ça reste rare.


yvan Abonné
Il y a 10 ans






caesar a écrit :

Désolé si pour moi data ça signifie un peu plus que consultation… on est au 21ième siècle il me semble.


Je pense que le portail n’a pas vocation à servir de source de donnée pour des fournisseurs de contenus tiers. Ils les récupèrent et les hébergent eux même s’ils veulent les exploiter. C’est pas vraiment les mêmes normes et couts d’infrastructure pour publier des csv et construire un dépôt type webservice cloud des données publiques (si j’ai bien compris ta remarque initiale).



caesar a écrit :

Mais lol…




  • 1 minute qu’est ce que c’est lourd…

  • Des cahiers des charges pour… poster du html ?

  • Indexation ? wtf elle est ou ta base de donnée ?


    Je pense qu’il imageait en disant 1 minute. Et sinon pas mal de petites structures administratives, type petites mairies etc. n’ont pas de compétences même bureautiques à l’interne donc oui ça doit être super simple.

    Les cahiers des charges ça permet de ne pas avoir n’importe quoi. Si yen a pas le site héberge n’importe quoi les gens râlent. Si yen a c’est trop lent les gens ralent. Et les cahiers des charges ne concernent pas que le format d’export bien entendu. Il y a des notions d’archivistique type dua, anonymisation des données etc.

    L’indexation c’est pas juste sur les données en bases de données… a ton avis que fait google sinon de l’indexation? (au hasard)

    En fait pour moi l’open data français est encore très hautement critiquable, notamment sur la gestion des versions des données, la possibilité de publier des formats inexploitables informatiquement (pdfs, scans) ou non normés de manière identique d’une fois sur l’autre, l’ignorance des formats et normes d’archivistique ISADG etc. mais… pas tellement sur les points que tu cites.

    Edit: j’ai lu ton post suivant, on est d’accord <img data-src=" />



Jarodd Abonné
Il y a 10 ans

La vache vous n’êtes jamais contents <img data-src=" />

Il vous faut forcément tout, et tout de suite, sinon ça ne va pas et il faut râler. Et encore, je suis sûr que même avec tout cela, vous trouveriez d’autres raisons.


yvan Abonné
Il y a 10 ans






versgui a écrit :

Les gars, soyez un peu réalistes.

Ceux qui font ces données, ce sont des fonctionnaires qui savent à peu près utiliser Word et Excel. L’un est à Lille aux services des naissances, l’autre à Marseille dans les services des transports. N’allez pas leur parler d’uniformisation, de standards et d’API <img data-src=" />
Sérieusement, ce serait un énorme challenge d’avoir dans une base centralisée les horaires de la piscine de Trou-sur-mer, ainsi que les statistiques sur la disparition du lynx dans les Vosges. Allez structurer tout ça de manière universelle…


C’est surtout relativement dangereux je trouve dans la potentialité d’uniformiser les outils de gestion sur le territoire. Dans l’absolu les normes existent (on parle de fantoir dans l’article pour les rues, il y a également les normes postales et de l’insee pour gérer à l’ilot, à l’adresse) il y a des normes de dates, des normes xml d’archivistique, des normes de GED, des normes d’archéologies, des normes du BRGM, des normes pour la secu, pour les échanges d’argent, les déclarations sociales types DADSU etc.

Le jour où tout sera exploitable automatiquement et où la collecte sera temps réelle à l’échelle du territoire on vivra en dictature par contre possiblement.

Vu le niveau d’immaturité concernant le flicage automatique et des politiques et de la population (cf la dernière loi de programmation militaire ou l’usage irréfréné de facebook et google) faut pas trop se plaindre que les données de l’administration Française soient en bordel. C’est facteur de libertés publiques même si ce bordel est la conséquence d’informatisations hasardeuses et pas un choix de société pour empêcher les croisements de fichiers et le flicage temps réel. <img data-src=" />



Lomendil
Il y a 10 ans






Jarodd a écrit :

La vache vous n’êtes jamais contents <img data-src=" />

Il vous faut forcément tout, et tout de suite, sinon ça ne va pas et il faut râler. Et encore, je suis sûr que même avec tout cela, vous trouveriez d’autres raisons.




Râler est une tradition môsieur ! Cela fait partie de notre patrimoine !

<img data-src=" />



gummy35
Il y a 10 ans

“Je peux mettre le rapport là sur open data ?




  • Ca te prend combien de temps ?

  • Ben je le télécharge (sic), ca va prendre 10 minutes

  • Ok.”

    vs.

    “Je peux mettre le rapport là sur open data ?

  • Ca te prend combien de temps ?

  • Ben faut que je regarde ce qu’ils veulent comme format parce que c’est un peu chiant, que je retravaille le fichier sous excel, que je corrige le fichier 4 fois si ca passe pas chez eux, ca va prendre 2 jours

  • Tu rigoles là ? T’as autre chose à faire. Oublies”

    C’est simple à comprendre non ?