Le fameux rouleau posé sur une table. Il ressemble à un charbon très allongé avec des pliures.Crédit : Vesuvius Challenge

Le rêve d’une IA qui saurait lire les papyrus d’Herculanum et ses difficultés cachées

Des rouleaux encore mystérieux

Avatar de l'auteur
Martin Clavey

Publié dans

IA et algorithmesSciences et espace

27/02/2024 9 minutes
4

Le fameux rouleau posé sur une table. Il ressemble à un charbon très allongé avec des pliures.Crédit : Vesuvius Challenge

En octobre dernier puis début février, nous avons pu entendre parler des rouleaux de papyrus d'Herculanum et d'une « IA » qui serait capable de les déchiffrer. Si l'avancée promise est intéressante, elle ne concerne qu'une toute petite partie (5 %) d'un seul rouleau. Et les conditions dans lesquelles le travail a été fait posent question.

On a lu un peu partout début février, notamment via une dépêche AFP, que « grâce à l'IA, des rouleaux manuscrits brûlés lors de l'éruption du Vésuve livrent leurs secrets ». L'histoire est belle, mais c'est un peu plus compliqué que ça.

Le chercheur Brent Seales de l'université du Kentucky, qui travaille sur le sujet depuis 2009 en changeant régulièrement d'université, a lancé l'année dernière un concours, nommé Vesuvius Challenge. Objectif, que des informaticiens se penchent sur les images d'un de ces rouleaux obtenues par tomographie et proposent avant le 31 décembre 2023 un code qui détecte les lettres qui y sont inscrites.

Des mécènes de la Silicon Valley

Se trouvant comme mécènes Nat Friedman (ancien CEO de GitHub) et Daniel Gross (cofondateur de Cue), il a pu agrémenter son concours d'un prix de 700 000 dollars pour l'équipe qui arriverait la première à extraire quatre passages de textes de 140 caractères (dont au moins 85 % de caractères récupérables).

Ce prix a été décerné le 5 février dernier à une équipe composée d'un doctorant, Youssef Nader, et de deux autres étudiants, Luke Farritor et Julian Schilliger. Mais, pour le moment, aucun article scientifique n'a ni été publié ni mis en ligne sur un serveur de prépublication. Aucune donnée n'est disponible non plus pour vérifier leurs travaux. Ce qui est étonnant pour un travail de ce type, dont la nouvelle a fait le tour du monde.

Au 18ᵉ siècle, une incroyable découverte qui peut partir en poussière

Mais cette histoire, c'est d'abord celle d'une découverte faite au 18ᵉ siècle. En Italie, dans une ville antique nommée Herculanum et située à côté du Vésuve, sont retrouvés des rouleaux de papyrus carbonisés.

Ce sont des « restes d’une bibliothèque romaine enfouie par l’éruption du Vésuve en 79 et qui contiennent les seuls exemplaires conservés des livres de certains philosophes épicuriens majeurs comme Philodème de Gadara, Polyène ou Épicure lui-même ». Ces rouleaux « se présentent sous la forme de blocs carbonisés en surface et impossibles à dérouler sans être totalement ou partiellement détruits », comme l'expliquait en 2018 Julie Giovacchini, ingénieure de recherches au CNRS, spécialisée en analyse de sources anciennes et information scientifique.

Depuis cette découverte, les philologues (qui recherchent, conservent et interprètent les documents rédigés dans une langue donnée, et établissent une édition critique, cf : dictionnaire CNRTL) sont logiquement intrigués par ces rouleaux de papyrus. Le problème est qu'il est impossible de les lire sans qu'ils partent, petit à petit, en poussière de charbon. La plupart ont donc été conservés non dépliés à la bibliothèque de Naples. Certains ont été donnés en cadeaux aux rois de France et du Royaume-Uni au début du XIXe siècle, ce qui explique qu'on en trouve dans les collections de ces deux pays aujourd'hui.

Au cours de ce même siècle et jusqu'en 1969, diverses méthodes ont été inventées pour les dérouler. Certaines ont permis d'obtenir des fragments de rouleau qui ont pu être analysés. Mais « tous les textes que nous avons jusqu'à présent ont été obtenus en détruisant des rouleaux », explique Julie Giovacchini à Next. On peut donc lire des extraits de ces rouleaux depuis longtemps, mais il nous était simplement impossible d'en découvrir plus sans les détériorer.

Papyrus Heruclaneum 1521, British Library. Les sept fragments, retrouvés et publiés dans l'atelier de Piaggio en Italie, faisaient partie d'un cadeau contenant un certain nombre de parchemins que le roi Ferdinand de Naples avait envoyé à George IV d'Angleterre en échange d'une girafe royale pour son zoo privé. Le rouleau contient une partie d'un ouvrage du philosophe grec Epicure (341-270 av. J.-C.).
Fragments retrouvés dans l'atelier de Piaggio, l'inventeur d'une machine pour déplier les papyrus d'Herculanum

Des technologies non invasives utilisées depuis les années 2000

Depuis 1998, l'idée est d'utiliser des technologies non invasives d'imagerie, comme l'imagerie spectrale, pour analyser les rouleaux d'Herculanum, comme l'explique Daniel Delattre. Les chercheurs font ce que l'on appelle de la tomographie. Cette dernière fonctionne à la manière d'un scanner médical pour voir ce qu'il se passe dans le corps humain : on prend des images de l'intérieur des rouleaux sans pour autant les dérouler. Les recherches sur ce genre de papyrus permettent d'ailleurs de pousser les avancées de ces technologies.

Et, « depuis 2015, nous sommes capables d'avoir un scan en 3D du rouleau et être capable de le dérouler virtuellement », indique Julie Giovacchini. Utilisant le synchrotron européen situé à Grenoble ESRF, Vito Mocella, Emmanuel Brun, Claudio Ferrero et Daniel Delattre avaient même déjà révélé cette année-là quelques lettres d'un papyrus d'Herculanum.

« Du charbon sur du charbon »

Mais cette reconnaissance des lettres était plus difficile que pour d'autres projets. Julie Giovacchini nous raconte que « sur d'autres papyrus, ça donnait de très bons résultats, car la composition de l'encre contenait du métal et donc les lettres se voyaient. Avec Herculanum, le verrou technologique est lié à la composition de l'encre qui est un mélange de charbon et d'eau. Du charbon sur du charbon, rien ne ressortait ».

Ce verrou, l'équipe de Brent Seales l'a en partie fait sauter. L'un d'entre eux « a eu l'idée de regarder de très près et pendant des heures les scans qu'ils avaient et s'est rendu compte qu'on voyait des dépôts d'encre en relief. C'est le passage à la 3D qui a un peu changé les choses », raconte encore l'ingénieure de recherche du CNRS.

« À partir du repérage de ces traces d'encre sur la surface virtuellement déroulée et regonflée en 3D pour voir le relief (qu'ils appellent des « crakles »), ils ont eu l'idée d'entrainer un modèle de reconnaissance d'image pour toutes les débusquer et recomposer ensuite des lettres avec », explique-t-elle.

Mais pour cet entrainement, il faut de la main d'œuvre qualifiée et de nombreuses heures de travail. L'idée d'un concours a permis à Brent Seales de lancer un challenge à de nombreux étudiants en informatique, tout en ne payant très cher que ceux qui ont réussi.

Les 5 % de texte rendus par les gagnants.

Une analyse très rapide des résultats

Pour ce concours, un jury a été établi avec six papyrologues, dont Daniel Delattre, pour analyser, en trois semaines, les résultats des concurrents. Selon Julie Giovacchini, ce temps est très court puisqu'il faut en général un an pour faire ce genre d'analyses. Il est donc difficile de savoir si l'expertise a été faite convenablement.

« On est dans un cas un peu caricatural où des informaticiens sortent des trucs et les donnent aux philologues en disant "traduisez-moi tout ça" », pointe-t-elle également.

Elle ajoute que « le vrai risque, c'est le bruit. Il y a des lignes sur lesquelles il ne reste que des traces. Tout est de savoir si ces traces viennent bien d'encre correctement identifiée par la machine. Si c'est le cas, les papyrologues entrainés sont capables de restituer des lettres à partir de traces. Ils le font tout le temps ».

Mais elle met en garde : « si c'est du bruit créé par la machine, on ne peut pas le savoir. Le risque assez important sur toutes ces lignes qui sont très peu lisibles est donc qu'on invente un texte pour coller aux traces qui apparaissent sur l'image alors que ces traces ne sont pas de l'encre ».

Pour les fragments d'Herculanum qui ont été ouverts, les chercheurs travaillent sur des photos, mais vont aussi vérifier sur place, ce qui permet de distinguer un bout d'encre d'une fibre de papyrus qui passait comme tel sur la photo.

Pas de données accessibles

Et, contrairement à ce qui devrait être fait scientifiquement, les données ne sont pas accessibles et ne permettent donc pas à d'autres experts de vérifier les résultats. En effet, lors de l'inscription au concours, chaque participant s'engage à ne rien publier sans l'accord explicite de l'organisation.

Ainsi, le code des gagnants a été partagé sur GitHub. Youssef Nader a aussi publié un billet de blog où il décrit tout ce qu'il a mis en œuvre. On peut d'ailleurs y voir qu'il n'a pas seulement effectué un travail de mise en place d'un modèle, mais qu'il l'a aussi entraîné en étiquetant lui-même des lettres retravaillées sur Photoshop Online et Affinity Designer. Les images sur lesquelles il a travaillé ne sont cependant pas publiques.

Un nouveau prix pour 2024

Loin de ces préoccupations, Brent Seales a déjà annoncé le lancement d'un nouveau prix pour 2024. Le challenge est maintenant de pouvoir lire 90 % d'un des quatre rouleaux qu'il a numérisés. Avec un montant de 100 000 dollars à la clé.

Le défi est encore plus difficile à relever puisque les 5 % du premier prix visaient la partie extérieure du rouleau. Plus les participants vont aller chercher des caractères à l'intérieur, plus le challenge sera difficile. Et rien ne dit que le code de l'équipe de Youssef Nader permettra d'aller plus loin.

Écrit par Martin Clavey

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Des mécènes de la Silicon Valley

Au 18ᵉ siècle, une incroyable découverte qui peut partir en poussière

Des technologies non invasives utilisées depuis les années 2000

« Du charbon sur du charbon »

Une analyse très rapide des résultats

Pas de données accessibles

Un nouveau prix pour 2024

Fermer

Commentaires (4)


L'histoire est belle, mais c'est un peu plus compliqué que ça.


En bref : on nous a roulé !
Modifié le 27/02/2024 à 17h59

Historique des modifications :

Posté le 27/02/2024 à 17h59


L'histoire est belle, mais c'est un peu plus compliqué que ça.


En Bref : on nous a roulé !

En bref, scientifiquement parlant, ces résultats ne valent donc rien...
Pour entraîner et tester leurs modèles, ne serait-il pas envisageable de "simplement" créer de nouveaux papyrus avec un texte sauvegardé ailleurs (mais tenu secret jusqu'à l'étape de vérification), les enrouler, les cramer, numériser etc. ?
En théorie, ça permettrait de créer effectivement un modèle et d'avoir des cas d'étude. Mais il faudrait, pour que ce soit utile, créer un papyrus avec les mêmes méthodes et surtout les mêmes plantes qu'à l'époque (et la variante utilisée alors a peut-être déjà disparu, ou a muté, pour autant qu'on puisse déterminer de quel type de papyrus il s'agit), écrire avec une encre totalement identique (là encore, recréer une encre de ce type est possible, mais rien ne dit qu'on aurait le même comportement après combustion), et cramer le tout avec les mêmes conditions de température, de pression, d'absence d'oxygène, etc.

Bref, c'est beaucoup d'efforts pour un résultat très incertain.