Non, Internet n’est pas éternel ! Une récente étude a fait remonter le fait qu’une grande partie des pages web finit par disparaître, laissant derrière elles un grand vide.
À l’ère du tout numérique, on pourrait facilement penser du web qu’il est une archive impérissable, que rien ne peut éroder. S’il y a une véritable volonté stratégique de quelques entreprises de faire disparaître des pages web en les déréférençant, Google par exemple, un phénomène tout autre se déroule discrètement.
Une étude récente du Pew Research Center révèle une réalité étonnante : une proportion assez importante des pages web disparaît au fil du temps, laissant des trous béants dans notre mémoire collective numérique.
Le « link rot » ou l’érosion silencieuse du web
Le phénomène du « link rot » (que l’on peut traduire par « pourrissement des liens ») a été l’objet de l’étude du Pew Research Center. En analysant un échantillon de près d’un million de pages enregistrées par l’organisation à but non lucratif Common Crawl, l’institut de recherche a établi un constat assez alarmant. 38 % des pages accessibles en 2013 ne l’étaient plus en octobre 2023.
Encore plus inquiétant, un quart des pages ayant été en ligne lors de cette décennie ont aujourd’hui complètement disparu. Une véritable érosion de l’information, touchant autant des sites d’actus, gouvernementaux et même le sacro-saint Wikipédia.
L’étude révèle également que 21 % des sites gouvernementaux parmi un échantillon de 500 000 comportaient au moins un lien brisé. Ce chiffre grimpe à 23 % pour les sites d’actualités analysés, soit 2 063 au total. Quant à Wikipédia, 54 % des 50 000 pages en anglais examinées présentaient au moins un lien cassé dans leur section « Références ». C’est la fête aux « Error 404 » !
Les réseaux sociaux et la volatilité des contenus
L’étude s’est également penchée sur la durabilité des contenus partagés sur les réseaux sociaux, en particulier ceux présents sur X.com. Entre le 8 mars et le 27 avril de l’année dernière, Pew a collecté un échantillon plutôt conséquent de 4,8 millions de tweets. Quelques semaines seulement ont suffi pour que 18 % de ces derniers disparaissent de la sphère publique le 15 juin.
Si cette volatilité est préoccupante, c’est qu’elle s’explique en grande partie par des actions humaines, et non des défaillances techniques. Dans 60 % des cas, les tweets disparus l’ont été en raison de la suppression ou du passage en privé des comptes d’utilisateurs, voire de leur suspension par la plateforme elle-même.
Autre fait intéressant : les disparités linguistiques touchant ces disparitions. Les tweets partagés en turc et en arabe étaient particulièrement touchés par ce phénomène d’éphémérité. Avec respectivement 49 % et 42 % de disparition pendant toute la période d’observation, des chiffres assez élevés. Les comptes comportant des biographies ou des photos de profil par défaut étaient également plus susceptibles de voir leurs tweets s’évaporer dans la nature.
Les informations disponibles sur la toile sont donc loin d’être pérennes et s’altèrent avec le temps. Bien heureusement, des sites d’archives web comme Internet Archive ou Common Crawl préservent une partie des pages supprimées sous forme de copies. La fragilité de la mémoire numérique est donc bien une réalité, mais nous avons heureusement les moyens pour garantir une meilleure préservation de ces données.