illustration de voiture Peugeot 404 error editionPeugeot 404 error edition

38 % des pages web de 2013 n’étaient plus accessibles fin 2023

illustration de voiture Peugeot 404 error editionPeugeot 404 error edition

Une étude du Pew Research Center, repérée par Meta-Media, le service de veille numérique de France Télévisions, relève que 38 % des pages web existantes en 2013 ne sont plus accessibles dix ans plus tard, contre 8 % des pages qui existaient en 2023 :

« Un quart des pages web qui ont existé à un moment donné entre 2013 et 2023 ne sont plus accessibles depuis octobre 2023. Dans la plupart des cas, cela est dû au fait qu'une page individuelle a été supprimée ou retirée d'un site web par ailleurs fonctionnel. »

Cette analyse des « liens morts » (« link rot », en anglais), reposant sur un examen des liens apparaissant sur les sites gouvernementaux et les sites d'information, ainsi que dans la section Références des pages Wikipédia au printemps 2023, révèle en outre que :

  • 5 % des liens sur les sites d'actualités n'étaient plus accessibles, et 23 % des pages examinées contenaient au moins un lien brisé ;
  • 11 % de toutes les références liées à Wikipédia ne sont plus accessibles, et 54 % des pages de Wikipedia contenant au moins un lien dans leur section Références pointent vers une page qui n'existe plus ;
  • au moins 14 % des pages gouvernementales, et 21 % des pages web des administrations publiques, contenaient au moins un lien brisé ;
  • 23 % des pages web d'actualités contiennent au moins un lien brisé, de même que 21 % des pages web de sites gouvernementaux ;
  • 25 % de toutes les pages collectées de 2013 à 2023 n'étaient plus accessibles en octobre 2023 : 16 % des pages sont inaccessibles individuellement mais proviennent d'un domaine de niveau racine par ailleurs fonctionnel ; les 9 % restants sont inaccessibles parce que l'ensemble de leur domaine racine n'est plus fonctionnel.

L'examen d'un échantillon d'utilisateurs de Twitter indique par ailleurs que près d'un tweet sur cinq (18 %) n'est plus visible publiquement sur le site quelques mois seulement après avoir été publié. Dans 60 % de ces cas, le compte qui a publié le tweet à l'origine a été rendu privé, suspendu ou entièrement supprimé.

Dans les 40 % restants, le titulaire du compte a supprimé le tweet, mais le compte lui-même existe toujours :

  • 1 % des tweets sont supprimés en moins d'une heure
  • 3 % en l'espace d'un jour
  • 10 % en l'espace d'une semaine
  • 15 % en l'espace d'un mois

Commentaires (28)


En lisant l'article, je me suis posé la question: quel est le site sur lequel je passais le plus de temps en étant ado. C'était clairement le Site du Zéro.
Je sais que c'est devenu autre chose (OpenClassroom).
Mais de voir que l'ancienne URL ne fonctionne plus m'a fait un petit pincement au coeur.
L'ancienne URL redirige vers OpenClassroom, donc techniquement elle fonctionne toujours.

AbdouSlayne

L'ancienne URL redirige vers OpenClassroom, donc techniquement elle fonctionne toujours.
Surprenant. Tout à l'heure, depuis le réseau de mon entreprise, elle ne marchait pas. Mais depuis la maison, il y a effectivement la redirection vers OC.
Merci pour ton message
C'est la page d'erreur dont je rêvais :D
Lien coupé, par Pininfarina
Cela dit, Flock ne l'a pas inventé :
https://www.peugeot.fr/toto
Toujours les targz de mes +3000 sites de 199n à 200n :D

Après sont viendus les TGP ...
Encore heureux, les européens découvraient l'euro, le paiement par carte et imaginaient que 1€ = 1 FRF :)) Quelle période bénite.
Beaucoup de chiffres... mais qu'en conclure... l'exercice me paraît un peu périlleux pour, au final les faire sur la base d'hypothèses.
Les pages web n'ont jamais eu vocation à perdurer, et leur URL encore moins.
il est même surprenant qu'autant de pages webs aient conservées leurs URLs.

Parmi les causes:
- les URLs auto-générées qui changent quand le contenu/layout/engine du site change.
- les rachats/rebranding qui provoquent un changement des noms de domaine.
- la rumeur qui consiste a supprimer/recréer les pages pour "optimiser" le SEO.

Next.ink coche les deux premières cases.
oui mais .. ils sont bon et les url marchent encore !
exemple:
https://nextinpact.com/36280/73198-windows-8-pro-media-center-pack-pour-999-euros/


par contre l'ere de pcinpact est enterré :
https://pcinpact.com/news/70670-windows-8-media-center-dvd-options.htm
Modifié le 10/06/2024 à 14h51

Historique des modifications :

Posté le 10/06/2024 à 14h49


oui mais .. ils sont bon et les url marchent encore !
exemple:
https://nextinpact.com/36280/73198-windows-8-pro-media-center-pack-pour-999-euros/

Posté le 10/06/2024 à 14h50


oui mais .. ils sont bon et les url marchent encore !
exemple:
https://nextinpact.com/36280/73198-windows-8-pro-media-center-pack-pour-999-euros/

Firefly'

oui mais .. ils sont bon et les url marchent encore !
exemple:
https://nextinpact.com/36280/73198-windows-8-pro-media-center-pack-pour-999-euros/


par contre l'ere de pcinpact est enterré :
https://pcinpact.com/news/70670-windows-8-media-center-dvd-options.htm
mais tu ne tombes pas sur une erreur 404
c'est ça l'INpactitude
heureusement que la wayback machine / internet archive est là pour donner tort à cet odieux raisonnement !

la bibliothèque d'alexandrie doit s'en retourner dans ses archives..
C'est n'importe quoi.

Les pages web ont dès le début eu vocation a maintenir des connaissances dans le temps et permettre leur partage.

Les URLs et leur structure identifient de manière uniques des ressources, donc vocation à rester et être facilement joignables.

Le code HTTP 301 et 302 vont également dans ce sens pour garantir qu'une ressource déplacées restent joignables.

Les causes que tu cites sont toutes à l'encontre de l'esprit du WWW, mais l'esprit de ce dernier est bien de perdurer.

Pinailleur

C'est n'importe quoi.

Les pages web ont dès le début eu vocation a maintenir des connaissances dans le temps et permettre leur partage.

Les URLs et leur structure identifient de manière uniques des ressources, donc vocation à rester et être facilement joignables.

Le code HTTP 301 et 302 vont également dans ce sens pour garantir qu'une ressource déplacées restent joignables.

Les causes que tu cites sont toutes à l'encontre de l'esprit du WWW, mais l'esprit de ce dernier est bien de perdurer.
unique != perdurer. Exemple: t'es quelqu'un d'unique, mais tu ne vas pas perdurer. :D

Si le web était conçu dés le départ pour perdurer, les structures/protocoles auraient gérées l'aspect temporel de l'information (version, date...).

127.0.0.1

unique != perdurer. Exemple: t'es quelqu'un d'unique, mais tu ne vas pas perdurer. :D

Si le web était conçu dés le départ pour perdurer, les structures/protocoles auraient gérées l'aspect temporel de l'information (version, date...).
C'est géré côté documents la temporalité, et c'est pas parce que tu maintiens différentes versions que tu dois pouvoir les visualiser en tant que client, le propriétaire du serveur gère et décide de ça.

Je n'ai pas dit que unique = perdurer, j'ai dit que au vue de sa conception, avec des ID uniques, c'est fait pour durer. Comme git a des ID unique de commit, et littéralement fait pour durer. Pas comme ton argumentation :mdr:

Pinailleur

C'est géré côté documents la temporalité, et c'est pas parce que tu maintiens différentes versions que tu dois pouvoir les visualiser en tant que client, le propriétaire du serveur gère et décide de ça.

Je n'ai pas dit que unique = perdurer, j'ai dit que au vue de sa conception, avec des ID uniques, c'est fait pour durer. Comme git a des ID unique de commit, et littéralement fait pour durer. Pas comme ton argumentation :mdr:
Le U de URL/URI c'est pour "uniforme", pas pour "unique".

La meilleure preuve que les contenus du web ne sont pas conçus pour durer, c'est le titre de cette news.

Un autre indice: la création du projet 'Internet Archive'.

127.0.0.1

Le U de URL/URI c'est pour "uniforme", pas pour "unique".

La meilleure preuve que les contenus du web ne sont pas conçus pour durer, c'est le titre de cette news.

Un autre indice: la création du projet 'Internet Archive'.
Le U de URL/URI c'est pour "uniforme", pas pour "unique".


Je n'ai jamais écris l'inverse, mais est-ce que tu peux avoir la même URI/URL pour deux ressources différentes ? :non:
La meilleure preuve que les contenus du web ne sont pas conçus pour durer, c'est le titre de cette news.
Un autre indice: la création du projet 'Internet Archive'.


:eeek2: quelles preuves incroyables.

Ce que ça prouve surtout c'est que la gestion des causes que tu cites n'est pas bien faite. Un lien brisé n'est pas forcément un contenu qui n'existe plus, mais un contenu qui a possiblement bougé et dont le propriétaire ou gérant n'a pas bien fait la liaison des anciennes adresses.

Un document architecture.pdf à l'adresse unsitesuper.fr/archi/docs/architecture.pdf si le site change de structure ou bien de nom ou les deux, si l'ancienne adresse ne fait pas une redirection (native au protocole HTTP) vers la nouvelle supersite.eu/documents/archi/architecture.pdf ça ne veut pas dire que tu ne retrouves pas le fichier en cherchant sur le site en question, ou sur un moteur de recherche avec ça : site:supersite.eu filetype:pdf architecture.

Bref, tout le contenu du web ne durera pas de toute façon car chacun a le droit de supprimer son propre contenu, mais la structure et les protocoles sont fait pour permettre de faire durer le contenu qui doit l'être.

Ce site en est la preuve, il n'a pas besoin d'Internet Archive, tout comme Wikipedia.

Pinailleur

Le U de URL/URI c'est pour "uniforme", pas pour "unique".


Je n'ai jamais écris l'inverse, mais est-ce que tu peux avoir la même URI/URL pour deux ressources différentes ? :non:
La meilleure preuve que les contenus du web ne sont pas conçus pour durer, c'est le titre de cette news.
Un autre indice: la création du projet 'Internet Archive'.


:eeek2: quelles preuves incroyables.

Ce que ça prouve surtout c'est que la gestion des causes que tu cites n'est pas bien faite. Un lien brisé n'est pas forcément un contenu qui n'existe plus, mais un contenu qui a possiblement bougé et dont le propriétaire ou gérant n'a pas bien fait la liaison des anciennes adresses.

Un document architecture.pdf à l'adresse unsitesuper.fr/archi/docs/architecture.pdf si le site change de structure ou bien de nom ou les deux, si l'ancienne adresse ne fait pas une redirection (native au protocole HTTP) vers la nouvelle supersite.eu/documents/archi/architecture.pdf ça ne veut pas dire que tu ne retrouves pas le fichier en cherchant sur le site en question, ou sur un moteur de recherche avec ça : site:supersite.eu filetype:pdf architecture.

Bref, tout le contenu du web ne durera pas de toute façon car chacun a le droit de supprimer son propre contenu, mais la structure et les protocoles sont fait pour permettre de faire durer le contenu qui doit l'être.

Ce site en est la preuve, il n'a pas besoin d'Internet Archive, tout comme Wikipedia.
Je n'ai jamais écris l'inverse, mais est-ce que tu peux avoir la même URI/URL pour deux ressources différentes ? :non:


L'URI/URL permet d'identifier (I) / localiser (L) une ressource.
Cette information ne garantit ni la disponibilité, ni l'intégrité de la ressource.

perte de disponibilité: la news dit que dans 38% des cas, l'URL de 2013 ne permet plus d'accéder à d'accéder à la ressource en 2023.

perte d'intégrité: le serveur peut retourner une ressource différente (=un contenu différent) à chaque appel. Soit parce que la ressource a été modifiée par son auteur (ex: un billet de blog, une news, ...). Soit parce que la ressource est générée dynamiquement (ex: contenu personnalisé).

L'URL c'est l'analogue d'un chemin de fichier. Connaitre un chemin de fichier ca ne garantit pas que le fichier sout dispo et inchangé.

127.0.0.1

Je n'ai jamais écris l'inverse, mais est-ce que tu peux avoir la même URI/URL pour deux ressources différentes ? :non:


L'URI/URL permet d'identifier (I) / localiser (L) une ressource.
Cette information ne garantit ni la disponibilité, ni l'intégrité de la ressource.

perte de disponibilité: la news dit que dans 38% des cas, l'URL de 2013 ne permet plus d'accéder à d'accéder à la ressource en 2023.

perte d'intégrité: le serveur peut retourner une ressource différente (=un contenu différent) à chaque appel. Soit parce que la ressource a été modifiée par son auteur (ex: un billet de blog, une news, ...). Soit parce que la ressource est générée dynamiquement (ex: contenu personnalisé).

L'URL c'est l'analogue d'un chemin de fichier. Connaitre un chemin de fichier ca ne garantit pas que le fichier sout dispo et inchangé.
C'est bien parce que quand je t'oppose des arguments que tu ne peux pas démonter, tu t'attaques à ce que j'ajoute dans la discussion avec mes arguments. Là on ne parle plus du web en général et tu te concentres sur l'URL.

Oui, l'URL en tant que telle ne garantit pas la disponibilité. Mais : et alors ?

Le web est fait pour que la disponibilité puisse être garantie, cf. les redirections évoquées plus haut, couplés avec l'URL qui est un chemin facile à sauvegarder pour retrouver un document dans le temps.

Donc dire que le contenu web et les URLs ne sont pas faites pour durer c'est n'importe quoi. C'est fait pour le permettre, mais comme tout outil / technologie, cela dépendra de l'utilisation qui en est faite.
Heureusement qu'il y a wayback Machine... ca aide !
Lecture intéressante sur le même sujet
Faut avouer que maintenant quand je cherche une vieille information, c'est devenu extrêmement difficile de trouver une réponse.

Déjà que Google favorise le contenu récent de façon de plus en plus agressive, mais en plus les anciennes pages qui meurent, c'est devenu mission impossible si c'est pas une information "majeure" qui a été relayée moultes fois. :pleure:
archive.org + impression PDF systématique des choses à conserver (et à sauvegarder à plusieurs endroits)
il y a quelques semaines, je regardais le wiki (en) d'ubuntu touch et de sailfishos
il faut admettre que plus de la moitié des références (journalistiques et autres) donnaient lieu à des 404
là j'ai compris que j'aurai plus jamais confiance en autre source pérenne qu'archive.org et autres miroirs de mon cru..
personnellement ce n'est pas que pour les pages web et sites internet qui disparaissent, mais surtout les vidéos youtube et autres plateformes (daily, etc etc) qui disparaissent elles aussi (ca arrive)

à chaque vidéo que je juge intéressante et trop importante pour qu'elle disparaisse de yt, j'en fais une copie personnelle, en locale, que j'héberge également sur des espaces nextcloud distants.

également, le nombre de sites web de particuleirs, et emails rattachés, qui disparaissent est troublant :
chaque année de nombreux geeks, passionnés, et ingés, oublient de renouveller leur NDD perso, et du coup leur site tombe dans les limbes et pire, emportant avec eux.... la précieuse adresse email, qui rend leurs coordonnées caduques.
Les Skyblogs faisaient autant de pages ? Ptin....
Y'a des revenants, mais sans les pages d'époque!
http://chez.com/

yl

Y'a des revenants, mais sans les pages d'époque!
http://chez.com/
et les "sites" ifrance... faits à base de Frontpage :byebye:
Modifié le 11/06/2024 à 17h21

Historique des modifications :

Posté le 11/06/2024 à 09h27


et les ifrance... fait à base de Frontpage :byebye:

Fermer