11 177 Go de pages du « Web électoral » archivées par la BNF en 2012

11 177 Go de pages du « Web électoral » archivées par la BNF en 2012

Jurassic Internet Park

Avatar de l'auteur

Xavier Berne

Publié dansInternet

26/06/2013
14
11 177 Go de pages du « Web électoral » archivées par la BNF en 2012

Au total, ce sont 379 millions d’URL du « Web électoral » français qui ont été archivées l’année dernière par la Bibliothèque nationale de France. Ce qui représente pas moins de 11 177 Go de données ! La fameuse opération, qui visait à conserver une trace des sites des candidats, de leurs interventions sur les réseaux sociaux, ou bien encore des sites parodiques, s’est déroulée sur sept mois dans le cadre du dépôt légal de l’internet. 

bnf bilan 2012

 

L’année 2012 fut un grand rendez-vous sur le plan électoral, les citoyens français étant appelés aux urnes pour élire le président de la République ainsi que leurs représentants à l’Assemblée nationale, les députés. Pour l’occasion, et de la même manière qu’en 2002 et 2007, la Bibliothèque nationale de France a mené une collecte des sites Internet impliqués dans les campagnes présidentielles et législatives. Effectuée dans le cadre de sa mission de dépôt légal de l’internet, cette opération visait à remplir un objectif : garder une trace de ce à quoi ressemblait le Web lors des campagnes relatives à ces scrutins.

10 726 sites sélectionnés en 2012, contre 5 800 en 2007

Ainsi, de janvier à fin juillet 2012, les robots moissonneurs de la BNF ont collecté environ 11 177 Go de données, correspondant à 379 millions d’URL. C’est en tout cas ce que nous apprend le bilan de cette campagne ponctuelle (PDF), dévoilé cette semaine par l’institution. On y découvre également tout sur la genèse et le déroulement de cette opération.

 

La BNF rappelle la difficulté d’une telle collecte : contrairement aux opérations habituelles consistant à archiver l’ensemble du « Web français », il fallait ici opérer une sélection des sites spécifiquement « électoraux ». Plus concrètement, des bibliothécaires et agents de la BNF ont du choisir tout d’abord l’ensemble des sites des candidats, des partis et des groupes de soutien. Étaient ensuite visés les sites d’analyse, de presse ou de militants, le but étant de conserver « une trace des réactions et des contributions au débat de la société civile ». Hormis les pages Web à proprement parler, ce sont près de 145 000 vidéos qui ont été collectées depuis Dailymotion. Notons que les blogs ont représenté 14,4 % des adresses sélectionnées.

 

bnf bilan 2012

Les réseaux sociaux archivés pour la première fois

Grande nouveauté de l’archivage du Web électoral de 2012 : les réseaux sociaux étaient pour la première fois concernés par l’opération. Le bilan de la BNF insiste d’ailleurs sur le fait que l’importance de ces nouveaux vecteurs de communication politique a impacté très rapidement la collecte. Plus de 21 % des sélections opérées concernaient en effet les réseaux sociaux, et plus particulièrement Twitter et Facebook (plus de 13,5 millions d’URL collectées rien que pour le réseau de Mark Zuckerberg). Rappelons ici que seuls les éléments considérés comme publics pouvaient être archivés. Étonnamment, relève d’ailleurs l’institution, il a pourtant « fallu éliminer un certain nombre de comptes Twitter et Facebook, parfois déjà sélectionnés, en raison du caractère privé de leur expression ». En clair, certains élus disposaient de comptes privés, dès lors impossibles à sauvegarder.

  bnf bilan 2012

 

« Un des meilleurs exemples de la puissance des réseaux sociaux en 2012 est sans doute le grand bruit provoqué par le tweet de Valérie Trierweiler apportant son soutien au candidat socialiste dissident Olivier Falorni. Le compte de Valérie Trierweiler a été archivé tel quel durant la campagne alors que ce tweet a désormais été retiré » remarque par exemple la BNF.

La fausse Timeline de Nicolas Sarkozy précieusement conservée 

De la même manière que pour cette collecte en général, on apprend que les éléments apparaissant comme moins sérieux ont également été sauvegardés. « Nombre de sites humoristiques ou de détournement ont fait l’objet de diffusion très rapide lors d’événements fortement personnalisés comme les élections », relève ainsi l’institution. Le jeu permettant l’enfarinage du candidat Hollande, ou bien la fausse timeline Facebook de Nicolas Sarkozy ont à ce titre été archivés. « Pour les saisir, il a fallu bien sûr rester à l’écoute des bruissements de la société civile en ligne, mais également faire preuve d’imagination », raconte la BNF.

 

En 2007, la même opération avait conduit à la capture de plus de 5 800 sites ou parties de sites selon la BNF. La collection était ainsi constituée d’un « ensemble de 63 millions de fichiers, soit 3,4 téraoctets de données ». Pour ceux que le sujet intéresserait, nous vous invitons à consulter notre dossier complet sur les coulisses du dépôt légal de l'internet.

14
Avatar de l'auteur

Écrit par Xavier Berne

Tiens, en parlant de ça :

Le SoC Graviton4 d’Amazon AWS posé sur une table

Amazon re:invent : SoC Graviton4 (Arm), instance R8g et Trainium2 pour l’IA

Tout plus mieux qu'avant

09:30Hardware 0
Logo Comcybergend

Guéguerre des polices dans le cyber (OFAC et ComCyberMi)

CyberCom'

09:06Sécurité 10
Mur d’OVHcloud à Roubaix, avec le logo OVHcloud

OVHcloud Summit 2023 : SecNumCloud, IA et Local Zones

Des mini datacenters… Ouais une baie quoi ?

19:03HardwareInternet 2

Sommaire de l'article

Introduction

10 726 sites sélectionnés en 2012, contre 5 800 en 2007

Le SoC Graviton4 d’Amazon AWS posé sur une table

Amazon re:invent : SoC Graviton4 (Arm), instance R8g et Trainium2 pour l’IA

Hardware 0
Logo Comcybergend

Guéguerre des polices dans le cyber (OFAC et ComCyberMi)

Sécurité 10

#LeBrief : faille 0-day dans Chrome, smartphones à Hong Kong, 25 ans de la Dreamcast

0
Mur d’OVHcloud à Roubaix, avec le logo OVHcloud

OVHcloud Summit 2023 : SecNumCloud, IA et Local Zones

HardwareInternet 2
algorithmes de la CAF

Transparence, discriminations : les questions soulevées par l’algorithme de la CAF

IA et algorithmesSociété numérique 51

Plainte contre l’alternative paiement ou publicité comportementale de Meta

DroitIA et algorithmes 22
Nuage (pour le cloud) avec de la foudre

Économie de la donnée et services de cloud : l’Arcep renforce ses troupes

DroitInternet 0
De vieux ciseaux posés sur une surface en bois

Plus de 60 % des demandes de suppression reçues par Google émanent de Russie

Société numérique 4
Une vieille boussole posée sur un plan en bois

La Commission européenne et Google proposent deux bases de données de fact-checks

DroitInternet 3

#LeBrief : des fichiers Google Drive disparaissent, FreeBSD 14, caméras camouflées, OnePlus 12

0

Le poing Dev – round 6

Next 143

Produits dangereux sur le web : nouvelles obligations en vue pour les marketplaces

Droit 9
consommation de l'ia

Usages et frugalité : quelle place pour les IA dans la société de demain ?

IA et algorithmes 12

La NASA établit une liaison laser à 16 millions de km, les essais continuent

Sciences et espace 17
Concept de CPU

Semi-conducteurs : un important accord entre l’Europe et l’Inde

Hardware 7

#LeBrief : PS5 Slim en France, Valeo porte plainte contre NVIDIA, pertes publicitaires X/Twitter

0
Un mélange entre une réunion d’Anonymous et de tête d’ampoules, pour le meilleur et le pire

651e édition des LIDD : Liens Intelligents Du Dimanche

Internet 30
Bannière de Flock avec des bomes sur un fond rouge

#Flock, le grand remplacement par les intelligences artificielles

Flock 34
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #9 : LeBrief 2.0, ligne édito, dossiers de fond

Next 64
Pilule rouge et bleue avec des messages codés

Encapsulation de clés et chiffrement d’enveloppes

Sécurité 31
Empreinte digital sur une capteur

Empreintes digitales : les capteurs Windows Hello loin d’être exemplaires

Sécurité 20

#LeBrief : succès du test d’Ariane 6, réparer plutôt que remplacer, Broadcom finalise le rachat de VMware

0

Hébergeurs, éditeurs, espaces de conversation ? La difficile régulation des réseaux sociaux

Réseaux sociauxSociété numérique 23
Puces en silicium

Silicium : un matériau indispensable et omniprésent, mais critique

HardwareSciences et espace 25
Panneau solaire bi-face Sunology Play

Panneaux solaires en autoconsommation : on décortique le kit Play de Sunology

Hardware 28
The eyes and ears of the army, Fort Dix, N.J.

Un think tank propose d’autoriser les opérations de « hack back »

Sécurité 13

#LeBrief : Ariane 6 sur le banc de test, arrestation algorithmique, entraînement d’IA par des mineurs

0
Logo de Google sur un ordinateur portable

Chrome : Google corrige plusieurs failles sévères, dont une déjà exploitée

Logiciel 1

vieux téléphones portables

Des cadres supérieurs invités à n’utiliser que des téléphones jetables à Hong Kong

Sécurité 18

La Dreamcast de Sega fête ses 25 ans

Hardware 16

Pilule rouge et bleue avec des messages codés

Démantèlement d’un groupe ukrainien de rançongiciels

Sécurité 3

Commentaires (14)


CryoGen Abonné
Il y a 10 ans

<img data-src=" />
Ca pourra faire l’objet de bêtisier ou pas ?

<img data-src=" />


127.0.0.1
Il y a 10 ans


De la même manière que pour cette collecte en général, on apprend que les éléments apparaissant comme moins sérieux ont également été sauvegardés


Le plus drôle reste quand même le site parodique du PS avec son fameux slogan “le changement c’est maintenant”. Quelle bonne blague !

<img data-src=" />


John Shaft Abonné
Il y a 10 ans

Ça fait quand même environ 1 Go / site en moyenne, ça fait pas mal

(même si au final 11 To de données, c’est pas grand chose)

EDITH : Je suppose que c’est consultable qu’à la BnF ou bien ?


NiCr Abonné
Il y a 10 ans

J’imagine que les tweets de Nadine Morano sont dedans ?

C’est vrai que ce serait une grande perte pour l’humanité de ne pas les conserver… <img data-src=" />


Xavier.B
Il y a 10 ans






John Shaft a écrit :

Je suppose que c’est consultable qu’à la BnF ou bien ?



Bien sûr, par contre il faut justifier d’un certain intérêt pour y avoir accès, cf : http://www.pcinpact.com/dossier/depot-legal-internet-bnf-archives/5.htm



John Shaft Abonné
Il y a 10 ans






Xavier.B a écrit :

Bien sûr, par contre il faut justifier d’un certain intérêt pour y avoir accès, cf : http://www.pcinpact.com/dossier/depot-legal-internet-bnf-archives/5.htm



Ok, ça n’a pas changé donc <img data-src=" />



Xavier.B
Il y a 10 ans






CryoGen a écrit :

<img data-src=" />
Ca pourra faire l’objet de bêtisier ou pas ?

<img data-src=" />



J’ai souri <img data-src=" />



yvan Abonné
Il y a 10 ans






CryoGen a écrit :

<img data-src=" />
Ca pourra faire l’objet de bêtisier ou pas ?

<img data-src=" />


Le bêtisier tu vis dedans en fait <img data-src=" />



NiCr Abonné
Il y a 10 ans






Xavier.B a écrit :

Bien sûr, par contre il faut justifier d’un certain intérêt pour y avoir accès, cf : http://www.pcinpact.com/dossier/depot-legal-internet-bnf-archives/5.htm



PCi fait une requête auprès de la BNF et met une release sur mega ? <img data-src=" />



Jarodd Abonné
Il y a 10 ans

C’est cool ! Mais ça sert à quoi ? Pourquoi se contenter au web électoral, il est meilleur que les autres ? C’est vrai que les débats volent haut, les tweets sont intéressants, les promesses sont respectées, les sites sont de vraies tueries graphiques…

Ne pas oublier que 4050% des électeurs ne se déplacent même pas pour voter, donc pour l’intérêt que cela pourrait susciter, hum <img data-src=" />


HarmattanBlow
Il y a 10 ans






Jarodd a écrit :

C’est cool ! Mais ça sert à quoi ?


Aux sociologues souhaitant étudier les évolutions de la société française.


Ne pas oublier que 4050% des électeurs ne se déplacent même pas pour voter

Pour les présidentielles 80% des inscrits vont au bureau de vote.



linkin623 Abonné
Il y a 10 ans






Xavier.B a écrit :

Bien sûr, par contre il faut justifier d’un certain intérêt pour y avoir accès, cf : http://www.pcinpact.com/dossier/depot-legal-internet-bnf-archives/5.htm



<img data-src=" /> EPIC FAIL !

Bon aller le vrai lien utilisable



John Shaft Abonné
Il y a 10 ans






NiCr a écrit :

PCi fait une requête auprès de la BNF et met une release sur mega ? <img data-src=" />



Je crois que c’est plus simple de passer par archive.org <img data-src=" />



piwi82
Il y a 10 ans

Je ne sais pas si PCi avait eu écho des méthodes utilisées par la BNF pour indexer tout le contenu web Français, y compris celui hébergé chez les particuliers.
Nous sommes plusieurs utilisateurs de NAS à avoir remarqué les passages récurrents du robot de la BNF, ce dernier ne tient pas compte du fichier robot.txt :

En vertu du Code du patrimoine (art L132-2-1), la BnF est autorisée à ne pas respecter le protocole d’exclusion de robot, également appelé protocole robots.txt.

(source :http://www.bnf.fr/fr/outils/a.dl_web_capture_robot.html).

Ainsi la BNF se permet de récupérer du contenu dont l’indexation n’est pas souhaitée.

Voici les adresses des serveurs en question (194.199.0.0/16 Renater) pour ceux qui souhaiteraient les bloquer :




  • robot1-depot-legal-web.bnf.fr (194.199.7.20)

  • robot2-depot-legal-web.bnf.fr (194.199.7.21)

  • robot3-depot-legal-web.bnf.fr (194.199.7.22)

  • robot4-depot-legal-web.bnf.fr (194.199.7.23)