Connexion
Abonnez-vous

Le ministère de la Culture partenaire de la plateforme Sémanticpédia

DBpédia en français

Le ministère de la Culture partenaire de la plateforme Sémanticpédia

Le 19 novembre 2012 à 16h43

Aurélie Filippetti, ministre de la Culture et de la Communication, a signé aujourd'hui un accord de partenariat pour la plateforme Sémanticpédia, qui développe le projet de DBpédia en français. En soutenant ces deux initiatives complémentaires, la Rue de Valois souhaite favoriser l'accessibilité aux données culturelles.

dbpédia

 

DBpédia est un projet communautaire consistant à explorer et extraire automatiquement des données à partir de Wikipédia, dans le but de proposer une version structurée des différents chapitres de l’encyclopédie en ligne. L'intérêt est de pouvoir ensuite assurer un meilleur accès à ces ressources, tant aux internautes qu'aux robots, tels que ceux exploités par les moteurs de recherche. Notamment utilisé pour les ressources en anglais, ce projet se décline en différentes langues : japonais, russe, espagnol... Selon la Rue de Valois, ce projet de DBpédia francophone va offrir aux musées, aux bibliothèques et plus généralement aux opérateurs culturels « des perspectives inédites de diffusion et de partage de leurs ressources en ligne ».

 

« En permettant de procéder à des requêtes à partir de contenus en langue française, le projet place également notre langue au cœur du « Web de données », enjeu culturel et technologique majeur », ajoute le ministère de la Culture, qui précise que les extractions de DBpédia concernent 1,3 million d’entrées en français, dont 45 % à caractère culturel.

Un développement dans le cadre de la plateforme Sémanticpédia

Aurélie Filippetti a ainsi signé une convention de partenariat avec Michel Cosnard, président de l'Institut national de recherche en informatique et en automatique (Inria), et Rémi Mathis, président de Wikimédia France, au sujet de la plateforme collaborative Sémanticpédia. Son but ? « Créer des programmes de recherche et de développement en matière culturelle à partir des données extraites de Wikipédia francophone », explique le ministère de la culture.

 

sémanticpédia

 

Dans la pratique, la plateforme fonctionne grâce au concours de trois acteurs, comme l’indique le site Internet de Sémanticpédia :

  • Le ministère de la Culture est le moteur définissant les projets. Il est censé fournir son expertise sur des contenus ou projets culturels en lien avec un réseau national d'établissements culturels.
  • Wikimédia France doit apporter ses connaissances relatives aux corpus, outils, données, processus éditoriaux et à la plate-forme wiki des projets wikimédiens.
  • L'Inria développe quant à elle des outils expérimentaux mobilisant des données et services culturels du ministère de la Culture, d'une part, et des données et services des projets wikimédiens, d'autre part.

La plateforme n'en est pourtant pas à ses débuts. Un premier jeu de données complet a par exemple déjà été extrait le 16 décembre dernier. 

Commentaires (17)

Vous devez être abonné pour pouvoir commenter.

Abonnez-vous
votre avatar



Explorer et extraire automatiquement des données à partir de Wikipédia, dans le but de proposer une version structurée des différents chapitres de l’encyclopédie en ligne.





Ca va servir à quoi et nous coûter combien ?

votre avatar

J’ai rien compris. C’est grave, docteur ?

votre avatar

Moi ce qui me dérange là-dedans, c’est que ça ressemble à une volonté de main-mise par le ministère/gouvernemant sur les données ouvertes.



Quand je lis ça :

Le ministère de la Culture est le moteur définissant les projets. Il est censé fournir son expertise sur des contenus ou projets culturels en lien avec un réseau national d’établissements culturels.



je demande : en QUOI le ministère de la Culture est-il forcément plus expert ?



Et pourquoi uniquement sur l’aspect culturel ? Il n’y a que ça qui compte ?

votre avatar

je trouve que c’est une très bonne chose, qui va permettre de mieux exploiter les données de Wikipedia. Ça fait travailler les chercheurs, les travaux vont profiter à plein de monde, ça semble être totalement ouvert comme projet.



Tant mieux si les musées peuvent en profiter. La sémantique des données sur Wikipedia n’est exploitée que par quelques farfelus, elles offrent un terrain de jeu illimité pour ceux qui voudraient travailler sur (ouhh j’ai peur) “l’intelligence artificiel”.

votre avatar







Quiproquo a écrit :



J’ai rien compris. C’est grave, docteur ?





pas mieux.

Il me manque :

-Quel est l’intérêt de repomper wikipedia ?

-Qu’est ce qui empèche nos musées de contribuer à wikipedia directement ?

-Quelle licence pour les données ? normalement contaminées par celles de wikipedia = CC-BY-SA



Ce ressemble pas mal à une volonté de se démarquer juste pour faire croire à une “exception culturelle”


votre avatar







kalimero a écrit :



Ca va servir à quoi et nous coûter combien ?









ça va rapporter combien?



Les américains de chez IBM on dépensé combien pour faire “Watson”, l’ordinateur qui joue au jeu télévisé (Jéopardy)?



Si il y a bien un domaine où l’on doit faire de la recherche (pas chère en plus), c’est bien celui-là.


votre avatar







-SQP- a écrit :



pas mieux.

Il me manque :

-Quel est l’intérêt de repomper wikipedia ?

-Qu’est ce qui empèche nos musées de contribuer à wikipedia directement ?

-Quelle licence pour les données ? normalement contaminées par celles de wikipedia = CC-BY-SA



Ce ressemble pas mal à une volonté de se démarquer juste pour faire croire à une “exception culturelle”







il s’agit pas de “repomper Wikipédia”, il s’agit de profiter des données sémantiques qui figurent dans Wikipédia :



Si vous regardez la page Wikipedia de Barack Obama :

en.wikipedia.org Wikipediavous remarquerez qu’il y a une colonne à droite avec des données sémantique (qui ont du être rentrées à la main). C’est comme cela sur bien des pages, selon moi c’est l’énorme avantage de Wikipédia. Pour l’instant ces données ne sont pas exploitées par les moteurs de recherche, on fait que de la recherche textuelle. Plein de monde essaye donc de faire un moteur sémantique en profitant de ces données. On pourrait imaginer avoir un programme répondant avec exactitude à une question (pas comme ce que fait un moteur de recherche classique).





votre avatar

Précision accessoire : Depuis Juillet 2011 Inria n’est plus un acronyme, c’est un nom à part entière.

votre avatar

@TheDidouille



Je ne comprends pas bien la difficulté.

Si c’est pour faire des index basés sur la colonne de droite, je ne vois pas bien où est la difficulté ?



Cela me fait aussi penser à la traduction automatique : ca fait 50 ans que l’on travaille sur les grammaires et les structures et ca marche moins bien que Google qui se base sur une énorme base de données.

votre avatar

La question que je me pose, c’est l’intérêt que peuvent avoir dbpedia / Sémanticpédia, maintenant que la Wikimedia Foundation a enfin lancé son propre projet, Wikidata



fr.wikipedia.org WikipediaIls auraient mieux fait de contribuer à ce dernier, plutôt que de s’éparpiller sur tout un tas de projets qui auront, à terme, fatalement moins de succès.

votre avatar







maxxyme a écrit :



Moi ce qui me dérange là-dedans, c’est que ça ressemble à une volonté de main-mise par le ministère/gouvernemant sur les données ouvertes.



Quand je lis ça :

je demande : en QUOI le ministère de la Culture est-il forcément plus expert ?



Et pourquoi uniquement sur l’aspect culturel ? Il n’y a que ça qui compte ?







Qu’est ce que tu ne comprends pas ? :



Il est censé fournir son expertise sur des contenus ou projets culturels en lien avec un réseau national d’établissements culturels





C’est des organismes dépendant de l’état tout simplement et plus précisément du ministère de la culture.



C’est pas plus mal qu’ils utilisent les même outils, après à voir dans la pratique.









votre avatar

Sans mentir !!! Promis !!!<img data-src=" />



J’ai lu : “Le sinistre de la culture”<img data-src=" />



Évocateur de mes pensée.<img data-src=" />

votre avatar

euh ca me gene ce projet



en gros ca correspond à “reecrire l’histoire en s’autoproclamant vainqueur”





  1. ils pompent le contenu wikipedia

  2. l’organisent, el hierarchisent, le rendent plus ou moins visible selon leur propre ligne editoriale

  3. de fait l’interpretent, l’orientent, ou le partialisent

  4. le tout dans la grande tradition arrogante et francofrancaise de leur propre nouvel ordre moral juste et du comment controler les medias qui nous echappent



    non desolé si je veux lire du wikipedia, je vais aller sur wikipedia (tant que les fai ont pas consigne de filtrer l’acces au site direct par les pekins lambda) et pas sur “lafranceforte.gouv.fr/wikipedia_abridged/ànotrefacon/”

votre avatar

On veut favoriser “l’accessibilité aux données culturelles” mais on empêche l’accès au patrimoine culturel avec les droits d’auteur qui durent 70 après la mort de l’auteur <img data-src=" />

votre avatar

Sinon, l’Inria dans tout ça, sont bien entendu des ploucs venus se vendre au grand méchant “Sinistre de la Culture” (sic) <img data-src=" />



Et ce projet est tellement inutile que le sujet d’étude principal, le traitement automatique des langues, est un ramassis d’études sans aucun but <img data-src=" />









TheDidouille a écrit :



il s’agit pas de “repomper Wikipédia”, il s’agit de profiter des données sémantiques qui figurent dans Wikipédia :



Si vous regardez la page Wikipedia de Barack Obama :

en.wikipedia.org Wikipediavous remarquerez qu’il y a une colonne à droite avec des données sémantique (qui ont du être rentrées à la main). C’est comme cela sur bien des pages, selon moi c’est l’énorme avantage de Wikipédia. Pour l’instant ces données ne sont pas exploitées par les moteurs de recherche, on fait que de la recherche textuelle. Plein de monde essaye donc de faire un moteur sémantique en profitant de ces données. On pourrait imaginer avoir un programme répondant avec exactitude à une question (pas comme ce que fait un moteur de recherche classique).







Merci <img data-src=" />


votre avatar







Djaron a écrit :



euh ca me gene ce projet



en gros ca correspond à “reecrire l’histoire en s’autoproclamant vainqueur”





  1. ils pompent le contenu wikipedia

  2. l’organisent, el hierarchisent, le rendent plus ou moins visible selon leur propre ligne editoriale

  3. de fait l’interpretent, l’orientent, ou le partialisent

  4. le tout dans la grande tradition arrogante et francofrancaise de leur propre nouvel ordre moral juste et du comment controler les medias qui nous echappent



    non desolé si je veux lire du wikipedia, je vais aller sur wikipedia (tant que les fai ont pas consigne de filtrer l’acces au site direct par les pekins lambda) et pas sur “lafranceforte.gouv.fr/wikipedia_abridged/ànotrefacon/”





    Exactement du même avis.


votre avatar







TheDidouille a écrit :



. On pourrait imaginer avoir un programme répondant avec exactitude à une question (pas comme ce que fait un moteur de recherche classique).







Google répond très bien à des questions précises, du genre

“qui est le pdg de l’inria ?”



Donc c’est quand meme un peu le cas actuellement



Le ministère de la Culture partenaire de la plateforme Sémanticpédia

  • Un développement dans le cadre de la plateforme Sémanticpédia

Fermer