11 177 Go de pages du « Web électoral » archivées par la BNF en 2012
Jurassic Internet Park
Le 26 juin 2013 à 15h10
5 min
Internet
Internet
Au total, ce sont 379 millions d’URL du « Web électoral » français qui ont été archivées l’année dernière par la Bibliothèque nationale de France. Ce qui représente pas moins de 11 177 Go de données ! La fameuse opération, qui visait à conserver une trace des sites des candidats, de leurs interventions sur les réseaux sociaux, ou bien encore des sites parodiques, s’est déroulée sur sept mois dans le cadre du dépôt légal de l’internet.
L’année 2012 fut un grand rendez-vous sur le plan électoral, les citoyens français étant appelés aux urnes pour élire le président de la République ainsi que leurs représentants à l’Assemblée nationale, les députés. Pour l’occasion, et de la même manière qu’en 2002 et 2007, la Bibliothèque nationale de France a mené une collecte des sites Internet impliqués dans les campagnes présidentielles et législatives. Effectuée dans le cadre de sa mission de dépôt légal de l’internet, cette opération visait à remplir un objectif : garder une trace de ce à quoi ressemblait le Web lors des campagnes relatives à ces scrutins.
10 726 sites sélectionnés en 2012, contre 5 800 en 2007
Ainsi, de janvier à fin juillet 2012, les robots moissonneurs de la BNF ont collecté environ 11 177 Go de données, correspondant à 379 millions d’URL. C’est en tout cas ce que nous apprend le bilan de cette campagne ponctuelle (PDF), dévoilé cette semaine par l’institution. On y découvre également tout sur la genèse et le déroulement de cette opération.
La BNF rappelle la difficulté d’une telle collecte : contrairement aux opérations habituelles consistant à archiver l’ensemble du « Web français », il fallait ici opérer une sélection des sites spécifiquement « électoraux ». Plus concrètement, des bibliothécaires et agents de la BNF ont du choisir tout d’abord l’ensemble des sites des candidats, des partis et des groupes de soutien. Étaient ensuite visés les sites d’analyse, de presse ou de militants, le but étant de conserver « une trace des réactions et des contributions au débat de la société civile ». Hormis les pages Web à proprement parler, ce sont près de 145 000 vidéos qui ont été collectées depuis Dailymotion. Notons que les blogs ont représenté 14,4 % des adresses sélectionnées.
Les réseaux sociaux archivés pour la première fois
Grande nouveauté de l’archivage du Web électoral de 2012 : les réseaux sociaux étaient pour la première fois concernés par l’opération. Le bilan de la BNF insiste d’ailleurs sur le fait que l’importance de ces nouveaux vecteurs de communication politique a impacté très rapidement la collecte. Plus de 21 % des sélections opérées concernaient en effet les réseaux sociaux, et plus particulièrement Twitter et Facebook (plus de 13,5 millions d’URL collectées rien que pour le réseau de Mark Zuckerberg). Rappelons ici que seuls les éléments considérés comme publics pouvaient être archivés. Étonnamment, relève d’ailleurs l’institution, il a pourtant « fallu éliminer un certain nombre de comptes Twitter et Facebook, parfois déjà sélectionnés, en raison du caractère privé de leur expression ». En clair, certains élus disposaient de comptes privés, dès lors impossibles à sauvegarder.
« Un des meilleurs exemples de la puissance des réseaux sociaux en 2012 est sans doute le grand bruit provoqué par le tweet de Valérie Trierweiler apportant son soutien au candidat socialiste dissident Olivier Falorni. Le compte de Valérie Trierweiler a été archivé tel quel durant la campagne alors que ce tweet a désormais été retiré » remarque par exemple la BNF.
La fausse Timeline de Nicolas Sarkozy précieusement conservée
De la même manière que pour cette collecte en général, on apprend que les éléments apparaissant comme moins sérieux ont également été sauvegardés. « Nombre de sites humoristiques ou de détournement ont fait l’objet de diffusion très rapide lors d’événements fortement personnalisés comme les élections », relève ainsi l’institution. Le jeu permettant l’enfarinage du candidat Hollande, ou bien la fausse timeline Facebook de Nicolas Sarkozy ont à ce titre été archivés. « Pour les saisir, il a fallu bien sûr rester à l’écoute des bruissements de la société civile en ligne, mais également faire preuve d’imagination », raconte la BNF.
En 2007, la même opération avait conduit à la capture de plus de 5 800 sites ou parties de sites selon la BNF. La collection était ainsi constituée d’un « ensemble de 63 millions de fichiers, soit 3,4 téraoctets de données ». Pour ceux que le sujet intéresserait, nous vous invitons à consulter notre dossier complet sur les coulisses du dépôt légal de l'internet.
11 177 Go de pages du « Web électoral » archivées par la BNF en 2012
-
10 726 sites sélectionnés en 2012, contre 5 800 en 2007
Commentaires (14)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 26/06/2013 à 15h18
" />
Ca pourra faire l’objet de bêtisier ou pas ?
" />
Le 26/06/2013 à 15h27
De la même manière que pour cette collecte en général, on apprend que les éléments apparaissant comme moins sérieux ont également été sauvegardés
Le plus drôle reste quand même le site parodique du PS avec son fameux slogan “le changement c’est maintenant”. Quelle bonne blague !
" />
Le 26/06/2013 à 15h31
Ça fait quand même environ 1 Go / site en moyenne, ça fait pas mal
(même si au final 11 To de données, c’est pas grand chose)
EDITH : Je suppose que c’est consultable qu’à la BnF ou bien ?
Le 26/06/2013 à 15h32
J’imagine que les tweets de Nadine Morano sont dedans ?
C’est vrai que ce serait une grande perte pour l’humanité de ne pas les conserver… " />
Le 26/06/2013 à 15h37
Le 26/06/2013 à 15h39
Le 26/06/2013 à 15h39
Le 26/06/2013 à 15h40
Le 26/06/2013 à 15h50
Le 26/06/2013 à 16h32
C’est cool ! Mais ça sert à quoi ? Pourquoi se contenter au web électoral, il est meilleur que les autres ? C’est vrai que les débats volent haut, les tweets sont intéressants, les promesses sont respectées, les sites sont de vraies tueries graphiques…
Ne pas oublier que 40⁄50% des électeurs ne se déplacent même pas pour voter, donc pour l’intérêt que cela pourrait susciter, hum " />
Le 26/06/2013 à 16h36
Le 26/06/2013 à 16h45
Le 26/06/2013 à 16h59
Le 27/06/2013 à 09h40
Je ne sais pas si PCi avait eu écho des méthodes utilisées par la BNF pour indexer tout le contenu web Français, y compris celui hébergé chez les particuliers.
Nous sommes plusieurs utilisateurs de NAS à avoir remarqué les passages récurrents du robot de la BNF, ce dernier ne tient pas compte du fichier robot.txt :
En vertu du Code du patrimoine (art L132-2-1), la BnF est autorisée à ne pas respecter le protocole d’exclusion de robot, également appelé protocole robots.txt.
(source :http://www.bnf.fr/fr/outils/a.dl_web_capture_robot.html).
Ainsi la BNF se permet de récupérer du contenu dont l’indexation n’est pas souhaitée.
Voici les adresses des serveurs en question (194.199.0.0/16 Renater) pour ceux qui souhaiteraient les bloquer :