Les archives françaises du Web s’ouvrent aux bibliothèques de province

Les archives françaises du Web s’ouvrent aux bibliothèques de province

Et même de l'outre-mer

Avatar de l'auteur

Xavier Berne

Publié dansInternet

07/10/2014
10
Les archives françaises du Web s’ouvrent aux bibliothèques de province

Le ministère de la Culture a publié ce matin un arrêté qui va faciliter l’accès aux archives françaises du Web. Alors qu’il était jusqu’ici obligatoire de se rendre à Paris, une vingtaine de bibliothèques de province et même de l’outre-mer pourront dorénavant proposer une consultation de ces précieuses sauvegardes à leurs utilisateurs – sous certaines conditions toutefois.

Depuis 2002, la Bibliothèque nationale de France (BNF) procède à des opérations d’archivage du Web, et ce au titre du « dépôt légal de l’internet ». L’institution dispose ainsi de robots qui parcourent et copient de manière automatisée des milliers de sites considérés comme français (c’est-à-dire en « .fr », ou bien dès lors que le nom de domaine a été réservé par une personne hébergée en France, à l’image de « nextinpact.com »). L’objectif ? Conserver un échantillon du Web, afin de permettre aux générations futures de savoir à quoi ressemblait l’internet français à une date précise.

 

En juin 2012, nous avions d’ailleurs eu l’occasion de visiter ce dépôt légal de l’internet à la BNF (voir notre reportage). À l’époque, l’institution affirmait avoir collecté pas moins de 16,5 milliards de fichiers, pour plus de 250 Téraoctets de données (soit 250 000 Gigas). Avec un accroissement annuel d’environ 60 à 80 Téras, la somme des pages archivées doit aujourd’hui avoisiner les 400 Téraoctets.

Une consultation des archives du Web qui n'était jusqu’ici possible qu'à Paris

Problème : la consultation de ces archives s’avère relativement complexe... D’une part parce que l’accès au dépôt légal de l’internet est limité aux chercheurs accrédités, c’est-à-dire aux seules personnes pouvant « justifier d'une recherche d'ordre universitaire, professionnel ou personnel, nécessitant le recours aux collections de la Bibliothèque de recherche ». D’autre part, il fallait jusqu’ici se rendre obligatoirement à la BNF, à Paris, pour pouvoir accéder à la salle informatique raccordée à la précieuse base de données de l’institution.

Crédits : BNF

Mais un arrêté publié ce matin au Journal Officiel va grandement faciliter l’accès au dépôt légal du Web, puisque de nombreux établissements de province (et même au-delà) sont désormais habilités à proposer eux aussi ce service.

 

Les bibliothèques municipales suivantes devraient ainsi permettre prochainement à leurs utilisateurs de consulter la base de la BNF, vraisemblablement toujours à la condition d’être accrédités :

  • Ajaccio
  • Amiens
  • Angers
  • Besançon
  • Bordeaux
  • Caen
  • Châlons-en-Champagne
  • Clermont-Ferrand
  • Dijon
  • Lille
  • Limoges
  • Lyon
  • Marseille
  • Montpellier
  • Nancy
  • Orléans
  • Poitiers
  • Rennes
  • Rouen
  • Toulouse
  • Strasbourg (bibliothèque nationale et universitaire)

Les départements et collectivités d’outre-mer sont également concernés par cet arrêté, puisque des habilitations ont été accordées à :

  • La Réunion (bibliothèque départementale)
  • La Guadeloupe (bibliothèque des services d'archives départementales)
  • La Guyane (ibliothèque des services d'archives départementales)
  • La Martinique (bibliothèque des services d'archives départementales)
  • Nouméa (bibliothèque territoriale de Bernheim)

Un accès en province pour les sites collectés par la BNF et l'INA 

La BNF n’est pas la seule institution à s’occuper en France du dépôt légal du Web. L’institut national de l’audiovisuel (INA) est en effet en charge de procéder à des collectes ciblées, cette fois sur les sites consacrés aux programmes TV et radio, aux Web TV, etc. L’arrêté publié ce matin prévoit donc que certaines bibliothèques municipales soient dorénavant autorisées à proposer l’accès à cette base :

  • Bordeaux
  • Clermont-Ferrand
  • Dijon
  • Grenoble (+ cinématèque)
  • Metz
  • Montpellier
  • Nancy
  • Nantes
  • Nice
  • Pessac
  • Poitiers
  • Rouen

Nous devrions revenir plus en détail sur cette évolution importante – notamment s’agissant de ses aspects techniques – dans le cadre d’un prochain article. En attendant, rappelons qu’il est possible de consulter librement et gratuitement des archives du Web grâce à la « WayBack Machine » d’Internet Archive (accessible à cette adresse). Vous pourrez ainsi remonter dans le temps et avoir accès à d’anciennes versions de Google, du site Internet de la présidence de la République, de PC INpact, etc.

 

 

archive elysee.fr

Le site Internet de la présidence de la République, tel qu'on pouvait le consulter le 2 février 2001.

10
Avatar de l'auteur

Écrit par Xavier Berne

Tiens, en parlant de ça :

Carte graphique AMD GeForce

Cartes graphiques : 30 ans d’évolution des GPU

Ha… la bonne époque d’un CF de 4870 X2 !

18:10 Hard 10

Google lance son opération de communications Gemini pour rivaliser avec OpenAI

Preprint not PR-print

17:31 IA 5
Ecran bleu de Windows

Linux : le composant systemd se dote d’un écran bleu de la mort

LoL Micro$oft

16:33 Soft 23

Sommaire de l'article

Introduction

Une consultation des archives du Web qui n'était jusqu’ici possible qu'à Paris

Un accès en province pour les sites collectés par la BNF et l'INA 

Carte graphique AMD GeForce

Cartes graphiques : 30 ans d’évolution des GPU

Hard 10

Google lance son opération de communications Gemini pour rivaliser avec OpenAI

IA 5
Ecran bleu de Windows

Linux : le composant systemd se dote d’un écran bleu de la mort

Soft 23
Une petite fille en train d'apprendre à programmer et hacker logiciels et appareils électroniques

Un roman graphique explique les logiciels libres aux enfants

SoftSociété 17
Nouveautés pour Messenger

Meta lance (enfin) le chiffrement de bout en bout de Messenger, entre autres

Socials 5

#LeBrief : cloud européen, OSIRIS-REx a frôlée la catastrophe, CPU AMD Ryzen 8040

Windows en 2024 : beaucoup d’IA, mais pas forcément un « 12 »

Soft 18
Einstein avec des qubits en arrière plan

Informatique quantique, qubits : avez-vous les bases ?

HardScience 8
Notifications iPhone

Surveillance des notifications : un sénateur américain demande la fin du secret

DroitSécu 15

En ligne, les promos foireuses restent d’actualité

DroitWeb 19

#LeBrief : modalité des amendes RGPD, cyberattaque agricole, hallucinations d’Amazon Q, 25 ans d’ISS

Logo Twitch

Citant des « coûts prohibitifs », Twitch quitte la Corée du Sud

ÉcoWeb 29
Formation aux cryptomonnaies par Binance à Pôle Emploi

Binance fait son marketing pendant des formations sur la blockchain destinées aux chômeurs

Éco 10
Consommation électrique du CERN

L’empreinte écologique CERN en 2022 : 1 215 GWh, 184 173 teqCO₂, 3 234 Ml…

Science 6
station électrique pour voitures

Voitures électriques : dans la jungle, terrible jungle, des bornes de recharge publiques

Société 75

#LeBrief : intelligence artificielle à tous les étages, fichier biométrique EURODAC

KDE Plasma 6

KDE Plasma 6 a sa première bêta, le tour des nouveautés

Soft 13
Un homme noir regarde la caméra. Sur son visage, des traits blancs suggèrent un traitement algorithmique.

AI Act et reconnaissance faciale : la France interpelée par 45 eurodéputés

DroitSociété 4
Api

La CNIL préconise l’utilisation des API pour le partage de données personnelles entre organismes

SécuSociété 3
Fouet de l’Arcep avec de la fibre

Orange sanctionnée sur la fibre : l’argumentaire de l’opérateur démonté par l’Arcep

DroitWeb 23
Bombes

Israël – Hamas : comment l’IA intensifie les attaques contre Gaza

IA 22

#LeBrief : bande-annonce GTA VI, guerre électronique, Spotify licencie massivement

Poing Dev

Le poing Dev – Round 7

Next 102
Logo de Gaia-X sour la forme d’un arbre, avec la légende : infrastructure de données en forme de réseau

Gaia-X « vit toujours » et « arrive à des étapes très concrètes »

WebSécu 6

Trois consoles portables en quelques semaines

Hard 37
Une tasse estampillée "Keep calm and carry on teaching"

Cyberrésilience : les compromis (provisoires) du trilogue européen

DroitSécu 3

#LeBrief : fuite de tests ADN 23andMe, le milliard pour Android Messages, il y a 30 ans Hubble voyait clair

#Flock a sa propre vision de l’inclusion

Flock 25
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #10 : nous contacter et résumé de la semaine

44
Fairphone 5 démonté par iFixit

Sans surprise, le Fairphone 5 obtient 10/10 chez iFixit

Hard 7

WhatsApp vocaux à vue/écoute unique

WhatsApp permet d’envoyer des vocaux à écoute unique

Soft 11

Logo de Google sur un ordinateur portable

Google propose un correctif aux disparitions mystérieuses sur Drive

Soft 22

Puce AMD Instinct

IA : AMD annonce la disponibilité des accélérateurs Instinct MI300A et MI300X

Hard 0

Un œil symbolisant l'Union européenne, et les dissensions et problèmes afférents

Cloud : 1,2 milliard d’euros pour un Projet important d’intérêt européen commun

Web 13

Sonde OSIRIS-REx de la NASA lors du retour de la capsule des échantillons sur Terre

Échantillons d’OSIRIS-REx : la NASA a frôlé la catastrophe

Science 11

CPU AMD Ryzen avec NPU pour l’IA

Ryzen 8040 : AMD lance de nouveaux CPU mobiles (Zen 4, RDNA 3, NPU)

Hard 2

Commentaires (10)


caesar
Le 07/10/2014 à 13h51


Les bibliothèques municipales suivantes devraient ainsi permettre
prochainement à leurs utilisateurs de consulter la base de la BNF,
vraisemblablement toujours à la condition d’être accrédités :


Pourquoi juste celles-ci ?
Il y a des bibliothèques municipales qui valent plus/mieux que d’autre ?
C’est décidé au pifomètre ?


momal
Le 07/10/2014 à 13h58

oui surtout que c’est de la connexion a distance, du coup on n’a pas d’investissement a faire…


momal
Le 07/10/2014 à 13h59

bon j’arrive ni a citer, ni a modifier.. faut une config speciale ?


Jean_Peuplus
Le 07/10/2014 à 14h01






momal a écrit :

bon j’arrive ni a citer, ni a modifier.. faut une config speciale ?


config minimale : GTX Titan pour gérer le guillemet flottant qui permet de citer. <img data-src=" />



momal
Le 07/10/2014 à 14h44






Jean_Peuplus a écrit :

config minimale : GTX Titan pour gérer le guillemet flottant qui permet de citer. <img data-src=" />


nia nia nia j’ai fini par trouver… mais avant de recharger et de voir le guillemet, j’avais un autre systeme qui s’affichait, un bouton “Citer” qui ne faisait rien du tout.

Edith : Eh, ca va pas vos page 404 ??? une lettre Hadopi, vous etes dingues de me faire ca au taf, m’enfin…



caesar
Le 07/10/2014 à 15h01






momal a écrit :

nia nia nia j’ai fini par trouver… mais avant de recharger et de voir le guillemet, j’avais un autre systeme qui s’affichait, un bouton “Citer” qui ne faisait rien du tout.

Edith : Eh, ca va pas vos page 404 ??? une lettre Hadopi, vous etes dingues de me faire ca au taf, m’enfin…


Enooorme cette page 404 <img data-src=" />
<img data-src=" />



Guyom_P
Le 08/10/2014 à 08h29






caesar a écrit :

Enooorme cette page 404 <img data-src=" />
<img data-src=" />


Moi je veux un cours de smiley avec Titia. Je vais continuer à me faire flasher par la hadopi des pages 404 de NXi alors. :-)



yvan Abonné
Le 08/10/2014 à 13h31

Vous faites bien d’en parler, c’est quoi l’intérêt par rapport à internet archive, qui archive aussi les sites francophones ?


SunneX
Le 08/10/2014 à 13h32

C’est quand même le comble les archives internet non consultables par internet


Seb_Corgan
Le 13/10/2014 à 15h17

<img data-src=" />





caesar a écrit :

Pourquoi juste celles-ci ?
Il y a des bibliothèques municipales qui valent plus/mieux que d’autre ?
C’est décidé au pifomètre ?

Bonjour,
Ce n’est pas décidé au pifomètre.&nbsp;Comme évoqué dans l’article l’archivage du web fait par la BnF s’effectue au titre du dépôt légal (avec un mode de collecte différent par rapport aux imprimés) . Or certaines bibliothèques en province ont également cette mission de dépôt légal (auprès des imprimeurs) et depuis quelques années participent au dépôt légal du web en faisant de la sélection de sites à archiver.
Ce sont ces bibliothèques qui sont concernées par cet accès aux archives de l’internet de la BnF, au titre du dépôt légal&nbsp;<img data-src=" />
Pour l’INA le fait qu’il y ait moins de bibliothèque s’explique par le fait que l’INA dispose déjà de pas mal d’antennes en province.


momal a écrit :

oui surtout que c’est de la connexion a distance, du coup on n’a pas d’investissement a faire…


Si quand même un peu car juridiquement c’est un peu pète couille, l’accès aux archives de l’internet est très encadré et c’est assez strict. Donc pour que les règles soient respectées il faut tout de même mettre en place quelques briques techniques, c’est pas aussi simple que ça en a l’air.<img data-src=" />

&nbsp;

yvan a écrit :

Vous faites bien d’en parler, c’est quoi l’intérêt par rapport à internet archive, qui archive aussi les sites francophones ?


Les techniques de collecte sont plus ou moins similaires mais les critères de collecte sont différents. Déjà car Internet Archive fait essentiellement de la collecte large et que la BnF fait de la collecte large mais aussi ciblée (thématique avec des sites sélectionnés par des bibliothécaires et des critères de collecte bien défini selon le thème) et les archives de la BnF ont un spectre plus “spécialisé” : l’internet francais et donc les archives de la BnF ont tendance à être plus complètes (à partir d’une certaine période du moins), les archives d’IA auront moins tendance à collecter en profondeur en général sur les sites francophones&nbsp;<img data-src=" />