Comment les archives françaises du Web vont se déployer dans les bibliothèques

Comment les archives françaises du Web vont se déployer dans les bibliothèques

Choco BNF

Avatar de l'auteur

Xavier Berne

Publié dansInternet

13/10/2014
5
Comment les archives françaises du Web vont se déployer dans les bibliothèques

La semaine dernière, le ministère de la Culture a publié un arrêté autorisant une vingtaine de bibliothèques de province et d’outre-mer à proposer un accès aux « archives françaises du Web », alors que ceci n’était jusqu’ici possible qu’à Paris, dans les locaux de la BNF. Next INpact a pu s’entretenir avec Clément Oury, le chef du dépôt légal de l’internet, qui nous a donné davantage d’explications sur ce déploiement qui devrait s'étaler jusqu'en 2016.

24 heures sur 24, 7 jours sur 7, les robots de la Bibliothèque nationale de France (BNF) moissonnent la Toile afin d’archiver le « Web français ». Plus concrètement, ils copient régulièrement et de manière automatisée des milliers de sites considérés comme français (c’est-à-dire tous ceux en « .fr », ou dont le nom de domaine a été réservé par une personne hébergée en France, à l’image de « nextinpact.com »). Ce dispositif est tout à fait légal, puisque ces opérations rentrent dans le cadre du « dépôt légal de l’internet ». À l’image du dépôt légal traditionnel, qui s’applique notamment aux livres, le principe est de conserver un exemplaire, une trace du Web, afin de permettre aux générations futures de savoir à quoi ressemblait l’internet français à un moment T.

Un déploiement progressif en province et en outre-mer d'ici 2016

Mardi 7 octobre, le ministère de la Culture a publié un arrêté visant à faciliter grandement la consultation de ces archives. Pour y accéder, il n’y a aujourd’hui qu’une seule solution : se rendre à la BNF - donc à Paris - et « justifier d'une recherche d'ordre universitaire, professionnel ou personnel, nécessitant le recours aux collections de la Bibliothèque de recherche ». Mais dorénavant, avec cet arrêté, ce sont 21 bibliothèques de province qui sont habilitées à proposer elles aussi un accès à ce fonds réunissant plus de 460 Téraoctets de données (soit l’équivalent de 460 000 Go), ainsi que 5 établissements situés en outre-mer. Nous avions détaillé la liste complète des établissements concernés dans un précédent article.

bnf
Crédits : Xavier Berne (licence: CC by SA 3.0)

Cependant, tout ne sera pas effectif dans l’immédiat. Loin de là même. « Le déploiement des accès distants aux archives du web sera progressif » nous a ainsi expliqué Clément Oury, le chef du service du dépôt légal de l’internet. Un contrat de performance signé entre la BNF et le ministère de la Culture fixe comme objectif trois établissements raccordés d’ici la fin de l’année, huit en 2015 et quinze en 2016. L’institution a en fait besoin d’un peu de temps pour accompagner les bibliothèques dans cette transition, et surtout aider à la formation du personnel.

 

La médiathèque Émile Zola de Montpellier est la première à pouvoir profiter du dispositif. Et pour la suite ? « L’ordre de déploiement sera déterminé afin de desservir en premier les établissements s’étant impliqués de longue date dans la coopération avec la BNF autour de l’archivage du Web, tout en assurant une diversité territoriale » affirme Clément Oury. Pour autant, il ne s’agit que d’objectifs, et il n’y a rien d’obligatoire pour les bibliothèques concernées. « La BNF a vocation à offrir l’accès à tous les établissements listés. Cependant, si certains d’entre eux ne souhaitent pas bénéficier de ce service, ils ne seront pas contraints de mettre en place l’accès distant. »

Les ordinateurs des bibliothèques se connecteront au réseau de la BNF

D’un point de vue technique, l’accès sera donné « depuis un ou plusieurs postes de l’établissement concerné : ce ne sont pas des postes fournis ou appartenant à la BNF. En revanche, ces postes doivent auparavant avoir été authentifiés. Un nombre limité de postes aura droit à donner accès aux archives du Web » explique le numéro un du dépôt légal de l’internet.

 

Grâce à Internet, les postes authentifiés pourront ensuite se connecter au réseau de la BNF. « La connexion aux services de la BNF lancera un navigateur virtuel, sur une session hébergée à la BNF » poursuit Clément Oury, pour qui cette solution présente différents avantages :

  • « Elle réduit la charge technique pesant sur les bibliothèques : elles doivent simplement disposer d’un navigateur récent ;
  • comme la session est exécutée sur un serveur BNF, la BNF est en mesure de fournir toutes les applications et plug-ins nécessaires à la consultation des archives ;
  • ce système interdit tout téléchargement de données, dans le respect du Code de la propriété intellectuelle. »

Niveau coûts, l’institution reste discrète. Clément Oury indique simplement que les établissements en région doivent fournir le ou les ordinateurs permettant d’accéder aux archives du Web, tandis que « les développements informatiques pour mettre en place l’accès distant ainsi que les licences pour les systèmes de virtualisation » sont pris en charge par la BNF.

archives dépôt légal bnf
Crédits : BNF

Malgré un effort d'ouverture au public, l'accès aux archives demeure très restreint

Derrière ce déploiement, se cache « avant tout un enjeu de décentralisation » selon Clément Oury : il s’agit en effet de « permettre de donner un accès distant aux collections depuis l’ensemble du territoire métropolitain et d’outre-mer ». Mais « c’est aussi un engagement de la BNF vis-à-vis d’établissements qui se sont impliqués de longue date (dès 2004 pour certains) à la sélection de contenus Web pour archivage, notamment à l’occasion des scrutins électoraux ». Les bibliothèques participent en effet au processus de sélection des sites méritant davantage d’être archivés (s’agissant de comptes Facebook ou Twitter par exemple).

 

L’institution songe également à doper la fréquentation de ses collections, même si elle dit n’avoir aucun objectif chiffré à ce jour. À titre d’illustration, la BNF indiquait en 2012 qu’il y avait environ 50 consultations publiques par mois, dont la plupart duraient une heure ou plus (voir à cet égard notre dossier : Dans les coulisses du dépôt légal de l'internet).

 

Ce chiffre relativement faible s’explique par le fait que l’accès aux archives du Web est limité aux « chercheurs dûment accrédités » selon l’article R132-23-2 du Code du patrimoine. Si la BNF a interprété ce texte en réclamant aux visiteurs de justifier « d'une recherche d'ordre universitaire, professionnel ou personnel », il appartiendra dorénavant à chaque bibliothèque de province ou d’outre-mer d’en faire de même. « Ce sera aux établissements en région de définir les conditions d’accréditation des "chercheurs" » confirme ainsi Clément Oury. 

5
Avatar de l'auteur

Écrit par Xavier Berne

Tiens, en parlant de ça :

Un mélange entre une réunion d’Anonymous et de tête d’ampoules, pour le meilleur et le pire

652e édition des LIDD : Liens Intelligents Du Dimanche

Et bonne nuit les petits

00:04 Next 8
dessin de Flock

#Flock distribue des mandales tous azimuts

13:40 Flock 14
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #11 et résumé de la semaine

11:47 Next 40

Sommaire de l'article

Introduction

Un déploiement progressif en province et en outre-mer d'ici 2016

Les ordinateurs des bibliothèques se connecteront au réseau de la BNF

Malgré un effort d'ouverture au public, l'accès aux archives demeure très restreint

#LeBrief : faux avis sur Internet, enquêtes sur l’accord Microsoft et OpenAI, cybersécurité aux États-Unis

Un mélange entre une réunion d’Anonymous et de tête d’ampoules, pour le meilleur et le pire

652e édition des LIDD : Liens Intelligents Du Dimanche

Next 8
dessin de Flock

#Flock distribue des mandales tous azimuts

Flock 14
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #11 et résumé de la semaine

Next 40
Carte graphique AMD GeForce

Cartes graphiques : 30 ans d’évolution des GPU

Hard 24

Google lance son opération de communications Gemini pour rivaliser avec OpenAI

IA 6
Ecran bleu de Windows

Linux : le composant systemd se dote d’un écran bleu de la mort

Soft 41
Une petite fille en train d'apprendre à programmer et hacker logiciels et appareils électroniques

Un roman graphique explique les logiciels libres aux enfants

SoftSociété 21
Nouveautés pour Messenger

Meta lance (enfin) le chiffrement de bout en bout de Messenger, entre autres

Socials 5

#LeBrief : cloud européen, OSIRIS-REx a frôlée la catastrophe, CPU AMD Ryzen 8040

Windows en 2024 : beaucoup d’IA, mais pas forcément un « 12 »

Soft 21
Einstein avec des qubits en arrière plan

Informatique quantique, qubits : avez-vous les bases ?

HardScience 9
Notifications iPhone

Surveillance des notifications : un sénateur américain demande la fin du secret

DroitSécu 17

En ligne, les promos foireuses restent d’actualité

DroitWeb 19

#LeBrief : modalité des amendes RGPD, cyberattaque agricole, hallucinations d’Amazon Q, 25 ans d’ISS

Logo Twitch

Citant des « coûts prohibitifs », Twitch quitte la Corée du Sud

ÉcoWeb 29
Formation aux cryptomonnaies par Binance à Pôle Emploi

Binance fait son marketing pendant des formations sur la blockchain destinées aux chômeurs

Éco 10
Consommation électrique du CERN

L’empreinte écologique CERN en 2022 : 1 215 GWh, 184 173 teqCO₂, 3 234 Ml…

Science 8
station électrique pour voitures

Voitures électriques : dans la jungle, terrible jungle, des bornes de recharge publiques

Société 78

#LeBrief : intelligence artificielle à tous les étages, fichier biométrique EURODAC

KDE Plasma 6

KDE Plasma 6 a sa première bêta, le tour des nouveautés

Soft 13
Un homme noir regarde la caméra. Sur son visage, des traits blancs suggèrent un traitement algorithmique.

AI Act et reconnaissance faciale : la France interpelée par 45 eurodéputés

DroitSociété 4
Api

La CNIL préconise l’utilisation des API pour le partage de données personnelles entre organismes

SécuSociété 3
Fouet de l’Arcep avec de la fibre

Orange sanctionnée sur la fibre : l’argumentaire de l’opérateur démonté par l’Arcep

DroitWeb 25
Bombes

Israël – Hamas : comment l’IA intensifie les attaques contre Gaza

IA 22

#LeBrief : bande-annonce GTA VI, guerre électronique, Spotify licencie massivement

Acheter sur Internet et payer avec sa carte bancaire

La DGCCRF traque les faux avis sur Internet avec son Polygraphe

ÉcoWeb 1

Logo OpenAI

Au Royaume-Uni et aux États-Unis, l’accord entre Microsoft et OpenAI à la loupe

Droit 0

Une main tenant de gros paquets de dollars

87 % des agences états-uniennes ne parviennent pas à respecter les normes de cybersécurité

DroitSécu 0

Florie Marie démissionne de la présidence du Parti Pirate International

Société 0

Commentaires (5)


Neliger Abonné
Le 13/10/2014 à 14h18

Sinon, il y a archive.org, accessible à tous et bien plus complet :)


canti
Le 13/10/2014 à 14h18

On aura le droit à l’oubli dans leurs moteurs de recherche&nbsp;<img data-src=" />&nbsp;?


aldebourg Abonné
Le 13/10/2014 à 14h34

Rofl je poste un long commentaire et le site plante quand j’envoie.
Bon ben un café et je reposterai après …
&nbsp;


WereWindle
Le 13/10/2014 à 15h32


Ce chiffre relativement faible s’explique par le fait que l’accès aux archives du Web est limité aux «&nbsp;chercheurs dûment accrédités&nbsp;» selon l’article R132-23-2&nbsp;du Code du patrimoine.


On a une idée du pourquoi de cette volonté de bloquer l’accès à la culture ?
(outre un protectionnisme partisan et corporatiste dont je n’oserais taxer notre législateur, cela va sans dire)


Zergy
Le 13/10/2014 à 15h36

OMG, toutes les vieilles conversation Caramail vont pouvoir être consulté. Le Gorafi l’avait prédit ! <img data-src=" />