11 177 Go de pages du « Web électoral » archivées par la BNF en 2012

11 177 Go de pages du « Web électoral » archivées par la BNF en 2012

Jurassic Internet Park

Avatar de l'auteur
Xavier Berne

Publié dans

Internet

26/06/2013 5 minutes
14

11 177 Go de pages du « Web électoral » archivées par la BNF en 2012

Au total, ce sont 379 millions d’URL du « Web électoral » français qui ont été archivées l’année dernière par la Bibliothèque nationale de France. Ce qui représente pas moins de 11 177 Go de données ! La fameuse opération, qui visait à conserver une trace des sites des candidats, de leurs interventions sur les réseaux sociaux, ou bien encore des sites parodiques, s’est déroulée sur sept mois dans le cadre du dépôt légal de l’internet. 

bnf bilan 2012

 

L’année 2012 fut un grand rendez-vous sur le plan électoral, les citoyens français étant appelés aux urnes pour élire le président de la République ainsi que leurs représentants à l’Assemblée nationale, les députés. Pour l’occasion, et de la même manière qu’en 2002 et 2007, la Bibliothèque nationale de France a mené une collecte des sites Internet impliqués dans les campagnes présidentielles et législatives. Effectuée dans le cadre de sa mission de dépôt légal de l’internet, cette opération visait à remplir un objectif : garder une trace de ce à quoi ressemblait le Web lors des campagnes relatives à ces scrutins.

10 726 sites sélectionnés en 2012, contre 5 800 en 2007

Ainsi, de janvier à fin juillet 2012, les robots moissonneurs de la BNF ont collecté environ 11 177 Go de données, correspondant à 379 millions d’URL. C’est en tout cas ce que nous apprend le bilan de cette campagne ponctuelle (PDF), dévoilé cette semaine par l’institution. On y découvre également tout sur la genèse et le déroulement de cette opération.

 

La BNF rappelle la difficulté d’une telle collecte : contrairement aux opérations habituelles consistant à archiver l’ensemble du « Web français », il fallait ici opérer une sélection des sites spécifiquement « électoraux ». Plus concrètement, des bibliothécaires et agents de la BNF ont du choisir tout d’abord l’ensemble des sites des candidats, des partis et des groupes de soutien. Étaient ensuite visés les sites d’analyse, de presse ou de militants, le but étant de conserver « une trace des réactions et des contributions au débat de la société civile ». Hormis les pages Web à proprement parler, ce sont près de 145 000 vidéos qui ont été collectées depuis Dailymotion. Notons que les blogs ont représenté 14,4 % des adresses sélectionnées.

 

bnf bilan 2012

Les réseaux sociaux archivés pour la première fois

Grande nouveauté de l’archivage du Web électoral de 2012 : les réseaux sociaux étaient pour la première fois concernés par l’opération. Le bilan de la BNF insiste d’ailleurs sur le fait que l’importance de ces nouveaux vecteurs de communication politique a impacté très rapidement la collecte. Plus de 21 % des sélections opérées concernaient en effet les réseaux sociaux, et plus particulièrement Twitter et Facebook (plus de 13,5 millions d’URL collectées rien que pour le réseau de Mark Zuckerberg). Rappelons ici que seuls les éléments considérés comme publics pouvaient être archivés. Étonnamment, relève d’ailleurs l’institution, il a pourtant « fallu éliminer un certain nombre de comptes Twitter et Facebook, parfois déjà sélectionnés, en raison du caractère privé de leur expression ». En clair, certains élus disposaient de comptes privés, dès lors impossibles à sauvegarder.

  bnf bilan 2012

 

« Un des meilleurs exemples de la puissance des réseaux sociaux en 2012 est sans doute le grand bruit provoqué par le tweet de Valérie Trierweiler apportant son soutien au candidat socialiste dissident Olivier Falorni. Le compte de Valérie Trierweiler a été archivé tel quel durant la campagne alors que ce tweet a désormais été retiré » remarque par exemple la BNF.

La fausse Timeline de Nicolas Sarkozy précieusement conservée 

De la même manière que pour cette collecte en général, on apprend que les éléments apparaissant comme moins sérieux ont également été sauvegardés. « Nombre de sites humoristiques ou de détournement ont fait l’objet de diffusion très rapide lors d’événements fortement personnalisés comme les élections », relève ainsi l’institution. Le jeu permettant l’enfarinage du candidat Hollande, ou bien la fausse timeline Facebook de Nicolas Sarkozy ont à ce titre été archivés. « Pour les saisir, il a fallu bien sûr rester à l’écoute des bruissements de la société civile en ligne, mais également faire preuve d’imagination », raconte la BNF.

 

En 2007, la même opération avait conduit à la capture de plus de 5 800 sites ou parties de sites selon la BNF. La collection était ainsi constituée d’un « ensemble de 63 millions de fichiers, soit 3,4 téraoctets de données ». Pour ceux que le sujet intéresserait, nous vous invitons à consulter notre dossier complet sur les coulisses du dépôt légal de l'internet.

Écrit par Xavier Berne

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

10 726 sites sélectionnés en 2012, contre 5 800 en 2007

Fermer

Commentaires (14)


<img data-src=" />

Ca pourra faire l’objet de bêtisier ou pas ?



<img data-src=" />




De la même manière que pour cette collecte en général, on apprend que les éléments apparaissant comme moins sérieux ont également été sauvegardés





Le plus drôle reste quand même le site parodique du PS avec son fameux slogan “le changement c’est maintenant”. Quelle bonne blague !



<img data-src=" />


Ça fait quand même environ 1 Go / site en moyenne, ça fait pas mal



(même si au final 11 To de données, c’est pas grand chose)



EDITH : Je suppose que c’est consultable qu’à la BnF ou bien ?


J’imagine que les tweets de Nadine Morano sont dedans ?



C’est vrai que ce serait une grande perte pour l’humanité de ne pas les conserver… <img data-src=" />








John Shaft a écrit :



Je suppose que c’est consultable qu’à la BnF ou bien ?







Bien sûr, par contre il faut justifier d’un certain intérêt pour y avoir accès, cf : http://www.pcinpact.com/dossier/depot-legal-internet-bnf-archives/5.htm









Xavier.B a écrit :



Bien sûr, par contre il faut justifier d’un certain intérêt pour y avoir accès, cf : http://www.pcinpact.com/dossier/depot-legal-internet-bnf-archives/5.htm







Ok, ça n’a pas changé donc <img data-src=" />









CryoGen a écrit :



<img data-src=" />

Ca pourra faire l’objet de bêtisier ou pas ?



<img data-src=" />







J’ai souri <img data-src=" />









CryoGen a écrit :



<img data-src=" />

Ca pourra faire l’objet de bêtisier ou pas ?



<img data-src=" />





Le bêtisier tu vis dedans en fait <img data-src=" />









Xavier.B a écrit :



Bien sûr, par contre il faut justifier d’un certain intérêt pour y avoir accès, cf : http://www.pcinpact.com/dossier/depot-legal-internet-bnf-archives/5.htm







PCi fait une requête auprès de la BNF et met une release sur mega ? <img data-src=" />



C’est cool ! Mais ça sert à quoi ? Pourquoi se contenter au web électoral, il est meilleur que les autres ? C’est vrai que les débats volent haut, les tweets sont intéressants, les promesses sont respectées, les sites sont de vraies tueries graphiques…



Ne pas oublier que 4050% des électeurs ne se déplacent même pas pour voter, donc pour l’intérêt que cela pourrait susciter, hum <img data-src=" />








Jarodd a écrit :



C’est cool ! Mais ça sert à quoi ?





Aux sociologues souhaitant étudier les évolutions de la société française.





Ne pas oublier que 4050% des électeurs ne se déplacent même pas pour voter



Pour les présidentielles 80% des inscrits vont au bureau de vote.









Xavier.B a écrit :



Bien sûr, par contre il faut justifier d’un certain intérêt pour y avoir accès, cf : http://www.pcinpact.com/dossier/depot-legal-internet-bnf-archives/5.htm







:oui2: EPIC FAIL !



Bon aller le vrai lien utilisable









NiCr a écrit :



PCi fait une requête auprès de la BNF et met une release sur mega ? <img data-src=" />







Je crois que c’est plus simple de passer par archive.org <img data-src=" />



Je ne sais pas si PCi avait eu écho des méthodes utilisées par la BNF pour indexer tout le contenu web Français, y compris celui hébergé chez les particuliers.

Nous sommes plusieurs utilisateurs de NAS à avoir remarqué les passages récurrents du robot de la BNF, ce dernier ne tient pas compte du fichier robot.txt :



En vertu du Code du patrimoine (art L132-2-1), la BnF est autorisée à ne pas respecter le protocole d’exclusion de robot, également appelé protocole robots.txt.



(source :http://www.bnf.fr/fr/outils/a.dl_web_capture_robot.html).



Ainsi la BNF se permet de récupérer du contenu dont l’indexation n’est pas souhaitée.



Voici les adresses des serveurs en question (194.199.0.0/16 Renater) pour ceux qui souhaiteraient les bloquer :





  • robot1-depot-legal-web.bnf.fr (194.199.7.20)

  • robot2-depot-legal-web.bnf.fr (194.199.7.21)

  • robot3-depot-legal-web.bnf.fr (194.199.7.22)

  • robot4-depot-legal-web.bnf.fr (194.199.7.23)