Le ministère de la Culture partenaire de la plateforme Sémanticpédia

DBpédia en français

Le 19 novembre 2012 à 16h43

3 min

Internet

Aurélie Filippetti, ministre de la Culture et de la Communication, a signé aujourd'hui un accord de partenariat pour la plateforme Sémanticpédia, qui développe le projet de DBpédia en français. En soutenant ces deux initiatives complémentaires, la Rue de Valois souhaite favoriser l'accessibilité aux données culturelles.

dbpédia

DBpédia est un projet communautaire consistant à explorer et extraire automatiquement des données à partir de Wikipédia, dans le but de proposer une version structurée des différents chapitres de l’encyclopédie en ligne. L'intérêt est de pouvoir ensuite assurer un meilleur accès à ces ressources, tant aux internautes qu'aux robots, tels que ceux exploités par les moteurs de recherche. Notamment utilisé pour les ressources en anglais, ce projet se décline en différentes langues : japonais, russe, espagnol... Selon la Rue de Valois, ce projet de DBpédia francophone va offrir aux musées, aux bibliothèques et plus généralement aux opérateurs culturels « des perspectives inédites de diffusion et de partage de leurs ressources en ligne ».

« En permettant de procéder à des requêtes à partir de contenus en langue française, le projet place également notre langue au cœur du « Web de données », enjeu culturel et technologique majeur », ajoute le ministère de la Culture, qui précise que les extractions de DBpédia concernent 1,3 million d’entrées en français, dont 45 % à caractère culturel.

Un développement dans le cadre de la plateforme Sémanticpédia

Aurélie Filippetti a ainsi signé une convention de partenariat avec Michel Cosnard, président de l'Institut national de recherche en informatique et en automatique (Inria), et Rémi Mathis, président de Wikimédia France, au sujet de la plateforme collaborative Sémanticpédia. Son but ? « Créer des programmes de recherche et de développement en matière culturelle à partir des données extraites de Wikipédia francophone », explique le ministère de la culture.

sémanticpédia

Dans la pratique, la plateforme fonctionne grâce au concours de trois acteurs, comme l’indique le site Internet de Sémanticpédia :

Le ministère de la Culture est le moteur définissant les projets. Il est censé fournir son expertise sur des contenus ou projets culturels en lien avec un réseau national d'établissements culturels.
Wikimédia France doit apporter ses connaissances relatives aux corpus, outils, données, processus éditoriaux et à la plate-forme wiki des projets wikimédiens.
L'Inria développe quant à elle des outils expérimentaux mobilisant des données et services culturels du ministère de la Culture, d'une part, et des données et services des projets wikimédiens, d'autre part.

La plateforme n'en est pourtant pas à ses débuts. Un premier jeu de données complet a par exemple déjà été extrait le 16 décembre dernier.

Commentaires (17)

kalimero

Le 19/11/2012 à 17h00

Explorer et extraire automatiquement des données à partir de Wikipédia, dans le but de proposer une version structurée des différents chapitres de l’encyclopédie en ligne.

Ca va servir à quoi et nous coûter combien ?

Quiproquo Abonné

Le 19/11/2012 à 17h16

J’ai rien compris. C’est grave, docteur ?

maxxyme

Le 19/11/2012 à 17h17

Moi ce qui me dérange là-dedans, c’est que ça ressemble à une volonté de main-mise par le ministère/gouvernemant sur les données ouvertes.

Quand je lis ça :

Le ministère de la Culture est le moteur définissant les projets. Il est censé fournir son expertise sur des contenus ou projets culturels en lien avec un réseau national d’établissements culturels.

je demande : en QUOI le ministère de la Culture est-il forcément plus expert ?

Et pourquoi uniquement sur l’aspect culturel ? Il n’y a que ça qui compte ?

TheDidouille

Le 19/11/2012 à 17h22

je trouve que c’est une très bonne chose, qui va permettre de mieux exploiter les données de Wikipedia. Ça fait travailler les chercheurs, les travaux vont profiter à plein de monde, ça semble être totalement ouvert comme projet.

Tant mieux si les musées peuvent en profiter. La sémantique des données sur Wikipedia n’est exploitée que par quelques farfelus, elles offrent un terrain de jeu illimité pour ceux qui voudraient travailler sur (ouhh j’ai peur) “l’intelligence artificiel”.

-SQP-

Le 19/11/2012 à 17h26

Quiproquo a écrit :

J’ai rien compris. C’est grave, docteur ?

pas mieux.

Il me manque :

-Quel est l’intérêt de repomper wikipedia ?

-Qu’est ce qui empèche nos musées de contribuer à wikipedia directement ?

-Quelle licence pour les données ? normalement contaminées par celles de wikipedia = CC-BY-SA

Ce ressemble pas mal à une volonté de se démarquer juste pour faire croire à une “exception culturelle”

TheDidouille

Le 19/11/2012 à 17h27

kalimero a écrit :

Ca va servir à quoi et nous coûter combien ?

ça va rapporter combien?

Les américains de chez IBM on dépensé combien pour faire “Watson”, l’ordinateur qui joue au jeu télévisé (Jéopardy)?

Si il y a bien un domaine où l’on doit faire de la recherche (pas chère en plus), c’est bien celui-là.

TheDidouille

Le 19/11/2012 à 17h33

-SQP- a écrit :

pas mieux.

Il me manque :

-Quel est l’intérêt de repomper wikipedia ?

-Qu’est ce qui empèche nos musées de contribuer à wikipedia directement ?

-Quelle licence pour les données ? normalement contaminées par celles de wikipedia = CC-BY-SA

Ce ressemble pas mal à une volonté de se démarquer juste pour faire croire à une “exception culturelle”

il s’agit pas de “repomper Wikipédia”, il s’agit de profiter des données sémantiques qui figurent dans Wikipédia :

Si vous regardez la page Wikipedia de Barack Obama :

Wikipediavous remarquerez qu’il y a une colonne à droite avec des données sémantique (qui ont du être rentrées à la main). C’est comme cela sur bien des pages, selon moi c’est l’énorme avantage de Wikipédia. Pour l’instant ces données ne sont pas exploitées par les moteurs de recherche, on fait que de la recherche textuelle. Plein de monde essaye donc de faire un moteur sémantique en profitant de ces données. On pourrait imaginer avoir un programme répondant avec exactitude à une question (pas comme ce que fait un moteur de recherche classique).

kyro

Le 19/11/2012 à 17h45

Précision accessoire : Depuis Juillet 2011 Inria n’est plus un acronyme, c’est un nom à part entière.

chambolle

Le 19/11/2012 à 18h01

@TheDidouille

Je ne comprends pas bien la difficulté.

Si c’est pour faire des index basés sur la colonne de droite, je ne vois pas bien où est la difficulté ?

Cela me fait aussi penser à la traduction automatique : ca fait 50 ans que l’on travaille sur les grammaires et les structures et ca marche moins bien que Google qui se base sur une énorme base de données.

Okki Abonné

Le 19/11/2012 à 18h55

La question que je me pose, c’est l’intérêt que peuvent avoir dbpedia / Sémanticpédia, maintenant que la Wikimedia Foundation a enfin lancé son propre projet, Wikidata

WikipediaIls auraient mieux fait de contribuer à ce dernier, plutôt que de s’éparpiller sur tout un tas de projets qui auront, à terme, fatalement moins de succès.

Zyami Abonné

Le 19/11/2012 à 19h04

maxxyme a écrit :

Moi ce qui me dérange là-dedans, c’est que ça ressemble à une volonté de main-mise par le ministère/gouvernemant sur les données ouvertes.

Quand je lis ça :

je demande : en QUOI le ministère de la Culture est-il forcément plus expert ?

Et pourquoi uniquement sur l’aspect culturel ? Il n’y a que ça qui compte ?

Qu’est ce que tu ne comprends pas ? :

Il est censé fournir son expertise sur des contenus ou projets culturels en lien avec un réseau national d’établissements culturels

C’est des organismes dépendant de l’état tout simplement et plus précisément du ministère de la culture.

C’est pas plus mal qu’ils utilisent les même outils, après à voir dans la pratique.

goodwhitegod

Le 19/11/2012 à 19h27

Sans mentir !!! Promis !!!" />

J’ai lu : “Le sinistre de la culture”" />

Évocateur de mes pensée." />

Djaron

Le 19/11/2012 à 19h48

euh ca me gene ce projet

en gros ca correspond à “reecrire l’histoire en s’autoproclamant vainqueur”

ils pompent le contenu wikipedia

l’organisent, el hierarchisent, le rendent plus ou moins visible selon leur propre ligne editoriale

de fait l’interpretent, l’orientent, ou le partialisent

le tout dans la grande tradition arrogante et francofrancaise de leur propre nouvel ordre moral juste et du comment controler les medias qui nous echappent

non desolé si je veux lire du wikipedia, je vais aller sur wikipedia (tant que les fai ont pas consigne de filtrer l’acces au site direct par les pekins lambda) et pas sur “lafranceforte.gouv.fr/wikipedia_abridged/ànotrefacon/”

Jarodd Abonné

Le 19/11/2012 à 20h24

On veut favoriser “l’accessibilité aux données culturelles” mais on empêche l’accès au patrimoine culturel avec les droits d’auteur qui durent 70 après la mort de l’auteur " />

Obero

Le 19/11/2012 à 23h28

Sinon, l’Inria dans tout ça, sont bien entendu des ploucs venus se vendre au grand méchant “Sinistre de la Culture” (sic) " />

Et ce projet est tellement inutile que le sujet d’étude principal, le traitement automatique des langues, est un ramassis d’études sans aucun but " />

TheDidouille a écrit :

il s’agit pas de “repomper Wikipédia”, il s’agit de profiter des données sémantiques qui figurent dans Wikipédia :

Si vous regardez la page Wikipedia de Barack Obama :

Wikipediavous remarquerez qu’il y a une colonne à droite avec des données sémantique (qui ont du être rentrées à la main). C’est comme cela sur bien des pages, selon moi c’est l’énorme avantage de Wikipédia. Pour l’instant ces données ne sont pas exploitées par les moteurs de recherche, on fait que de la recherche textuelle. Plein de monde essaye donc de faire un moteur sémantique en profitant de ces données. On pourrait imaginer avoir un programme répondant avec exactitude à une question (pas comme ce que fait un moteur de recherche classique).

Merci " />

maxxyme

Le 20/11/2012 à 09h00

Djaron a écrit :

euh ca me gene ce projet

en gros ca correspond à “reecrire l’histoire en s’autoproclamant vainqueur”

ils pompent le contenu wikipedia

l’organisent, el hierarchisent, le rendent plus ou moins visible selon leur propre ligne editoriale

de fait l’interpretent, l’orientent, ou le partialisent

le tout dans la grande tradition arrogante et francofrancaise de leur propre nouvel ordre moral juste et du comment controler les medias qui nous echappent

non desolé si je veux lire du wikipedia, je vais aller sur wikipedia (tant que les fai ont pas consigne de filtrer l’acces au site direct par les pekins lambda) et pas sur “lafranceforte.gouv.fr/wikipedia_abridged/ànotrefacon/”

Exactement du même avis.

chambolle

Le 20/11/2012 à 17h35

TheDidouille a écrit :

. On pourrait imaginer avoir un programme répondant avec exactitude à une question (pas comme ce que fait un moteur de recherche classique).

Google répond très bien à des questions précises, du genre

“qui est le pdg de l’inria ?”

Donc c’est quand meme un peu le cas actuellement