Promesses, espoirs et embuches du stockage sous forme d’ADN

C’est « cent millions » de fois trop cher

Le 28 décembre 2021 à 08h00

11 min

Sciences et espace

Sciences

Entre la promesse de stocker toutes les données du monde dans une boîte à chaussures et la réalité, il y a encore beaucoup d’étapes à franchir. Cette technologie progresse à vitesse grand V, mais elle reste encore beaucoup (beaucoup (beaucoup)) trop chère.

L’Office parlementaire d'évaluation des choix scientifiques et technologiques (OPECST) a publié une « note » sur le stockage des données sous la forme d’ADN (.pdf). Cette technologie est déjà connue depuis des années et elle a même fait son entrée aux Archives nationales en novembre 2021 avec DNA Drive, une « première mondiale ».

Le stockage ADN est déjà une réalité, avec une densité record

Deux textes symboliques ont été stockés sur de l’ADN : la Déclaration des droits de l’homme et du citoyen de 1789 et la Déclaration des droits de la femme et de la citoyenne de 1791. Ils sont placés dans deux capsules métalliques, chacune contenant 100 milliards de copies des textes.

C’était l’occasion pour le CNRS de rappeler que « le DNA Drive se veut une solution de stockage écoresponsable : durable, écologique, et ultra-compacte, elle peut être conservée durant des millénaires dans des capsules métalliques à l’abri de l’eau, de l’air et de la lumière sans apport énergétique ».

La densité peut atteindre des records. L’année dernière, le Centre national pour la recherche scientifique rappelait qu’un « seul gramme [pouvait] théoriquement contenir jusqu’à 455 exabits d’informations, soit 455 milliards de milliards de bits. Toutes les données du monde tiendraient alors dans une boîte à chaussures ». Une densité qui fait rêver…

« Le stockage d’informations sous forme d’ADN constitue une technologie attrayante, susceptible d’offrir de nombreux bénéfices pour l’archivage de données », indique le rapport de l'OPECST. Encore faut-il réussir à largement améliorer les technologies existantes, mais aussi à mener une réflexion sur notre mode de consommation des données.

Les limites du stockage actuel

Depuis que nous sommes dans l’ère de la révolution numérique, les besoins en stockage sont toujours plus importants et cela ne devrait pas se calmer de sitôt.

S’appuyant sur un rapport de la Commission européenne – lui-même basé sur une étude IDC de 2018 – l’Office parlementaire des choix scientifiques et technologiques explique que « la sphère globale des données, de 33 zettaoctets (Zo, 10²¹ octets) en 2018, devrait passer à 175 Zo en 2025, et pourrait même atteindre 5 000 Zo en 2040 ».

Il rappelle que « cette croissance n’est cependant pas sans conséquences » et qu’elle est bien souvent « sous-estimée par les utilisateurs du fait de l’invisibilité des infrastructures utilisées ».

« Les impacts environnementaux du numérique sont pourtant loin d’être anecdotiques : en 2019, ce secteur représentait 3,6 % de la consommation énergétique mondiale et devrait atteindre une part comprise entre 4,8 et 5,9 % en 2025 », indique l'OPECST (qui reprend tel quel les chiffres de The Shift Projet, critiqués par certains).

Empreinte carbone des internautes : les modalités d’information… une méthodologie « foireuse » ?

Dans le numérique, les data centers « représentaient 19 % de la consommation d’énergie du numérique en 2017, et nécessitent des métaux et terres rares pour leur construction ainsi que d’importantes quantités d’eau pour leur refroidissement ». Un point que nous abordons en détail dans notre magazine #3.

Alors certes les technologies s’améliorent en diminuant l’empreinte écologique, mais cela ne suffit pas forcément à compenser la hausse des besoins, un peu comme l’arrivée de la 5G par rapport à la 4G. De plus, « les technologies de stockage actuelles s’approchent de leur optimum théorique, laissant présager un ralentissement prochain des gains d’efficacité ».

Sur les disques durs, les fabricants rivalisent à coup de nouvelles technologies pour dépasser leur plafond de verre : MAMR, HAMR, BPMR, TDMR, HDMR… ce ne sont pas les sigles qui manquent.

Les promesses du stockage ADN

Néanmoins, « une innovation de rupture dans le domaine du stockage de données apparait nécessaire » pour l'OPECST. Le stockage ADN pourrait être la solution à long terme, avec de nombreux avantages :

« Tout d’abord, il offre une densité informationnelle considérable : une cinquantaine d’atomes seulement sont nécessaires pour stocker 1 bit, alors que le stockage magnétique en requiert 1 million.

La longévité de l’ADN est aussi l’un de ses points forts : stockée dans des conditions appropriées, une molécule d’ADN peut être conservée des dizaines de milliers d’années, alors que les données stockées sur des supports classiques nécessitent d’être recopiées tous les 5 à 10 ans pour éviter leur dégradation.

En outre, en tant que support de l’information génétique, l’ADN n’est soumis à aucun risque d’obsolescence et restera un support universel. Enfin, on peut citer la grande facilité à dupliquer les données stockées sous la forme d’ADN à l’aide de technologies maitrisées basées sur des enzymes ».

Il faut néanmoins ne pas oublier qu’il existe encore de nombreux défis technologiques à relever « avant de voir une réelle utilisation de l’ADN comme support d’information ». Certaines marches sont bien plus hautes que d’autres. Afin de bien les comprendre, regardons de plus près le stockage par ADN.

Stockage ADN — Crédits : Rapport de l'OPECST

Une sauvegarde en trois étapes : encodage, synthétisation et stockage

Le principe de fonctionnement : « la séquence binaire correspondant à un fichier à conserver doit être encodée en une séquence ADN (une suite de nucléotides), qui peut alors être synthétisée et stockée. Pour recouvrer le fichier, la molécule d’ADN doit être séquencée et cette séquence décodée ».

Le système de codage doit être le plus efficace possible afin de minimiser le nombre de nucléotides. Cela permet à la fois d’aboutir à une plus importante densité, mais aussi à un processus global plus efficient, « les étapes de synthèse et de séquençage étant à la fois lentes et coûteuses ».

Il doit aussi être « développé de manière à minimiser l’occurrence d’erreurs lors des étapes de synthèse et de séquençage, et dépend donc directement des technologies utilisées ».

Selon le rapport de l'OPECST, il serait préférable de ne pas utiliser des « brins d’ADN de plus de 200 nucléotides » afin de limiter les risques d’erreurs.

Il faut donc segmenter un fichier en plusieurs petits morceaux, ce qui implique que la méthode de codage doit « inclure un système d’indexation et d’adressage pour permettre de réassembler le fichier lors de l’étape de décodage ».

« Cette étape permet également le chiffrement des données stockées pour éviter tout problème de cybersécurité », ajoute le rapport.

Les défis de synthétiser une séquence ADN

La synthétisation de l’ADN la plus répandue actuellement consiste en une approche séquentielle : les nucléotides sont ajoutés un à un sur le brin. Si l’on dispose de plusieurs brins, la parallélisation permet de décupler les performances de cette étape.

C’est ainsi que la société Twist Bioscience (un des leaders en synthèse d’ADN par voie chimique dans le monde) « a conçu une puce permettant de synthétiser simultanément un million de fragments d’ADN, éventuellement différents, de 200 nucléotides en vingt-quatre heures ».

Elle est composée « d’une plaque de silicium et possède 10 000 puits. Dans chaque puits, 100 fragments différents de 200 nucléotides sont synthétisés ».

Il existe une autre approche pour la synthétisation, la voie enzymatique (en plus de celle chimique). Sans entrer dans les détails, elle est « moins polluante, elle permet à la fois une plus grande vitesse de synthèse, un coût plus faible et un taux d’erreur amoindri », précise le rapport. Aux États-Unis, l’entreprise Catalog DNA « a développé une machine capable de synthétiser l’équivalent de 500 Ko/s ».

Cette étape de synthèse « est celle qui doit relever le plus grand nombre de défis pour espérer parvenir à une généralisation du stockage de données sous la forme d’ADN : sa vitesse doit encore être considérablement améliorée et les coûts qui lui sont liés drastiquement baissés », explique l'OPECST.

Capsules en acier avec insert en verre pour le stockage

Vient ensuite la question du stockage, également délicate : « Pour être conservées sur de longues durées, les molécules d’ADN doivent être tenues à l’écart de l’eau et de l’oxygène, mais aussi de la lumière et des hautes températures ». La technique « classique » est de passer par de la très basse température, mais cela est couteux en espace et en argent.

« L’entreprise française Imagene a développé des capsules en acier inoxydable, contenant un insert en verre, pour la conservation de molécules d’ADN (celles-ci étant préalablement séchées sous vide puis placées sous atmosphère inerte ». Cette technique permettrait de conserver l’information pendant « plusieurs dizaines de milliers d’années à température ambiante ».

Les progrès du séquençage des données

Pour lire les données, il faut séquencer l’ADN. « Au cours des dernières années, les technologies de séquençage ont réalisé de prodigieux progrès, bien plus rapides que ceux décrits par la loi de Moore », affirme le rapport.

L'OPECST donne quelques chiffres : « Alors qu’il avait fallu entre 500 millions et 1 milliard de dollars américains pour séquencer le premier génome humain (opération achevée en 2001), le coût actuel est proche de 700 dollars ».

Du génome aux nouveaux modes de transport, retour sur 20 ans de découvertes scientifiques

C’est néanmoins toujours insuffisant pour envisager un réel développement commercial du stockage de données sous la forme d’ADN ; des améliorations sont encore nécessaires… mais elles sont « moins importantes que pour la synthèse », précise tout de même le rapport.

Aller au-delà de la preuve de concept

Vous l’aurez compris, avant de devenir viable et de pouvoir être couramment utilisé, le stockage sous forme d’ADN doit encore « être complètement automatisé et inclure des étapes de synthèse et de séquençage aux coûts et durées mesurés ».

Une étape importante a été franchie en 2019 avec une équipe de l’Université de Washington et de Microsoft qui a présenté un prototype capable de réaliser l’ensemble du processus, de manière autonome.

Mais pour obtenir un système utilisable dans de bonnes conditions, l'OPECST « estime actuellement qu’il faudrait réduire les coûts d’un facteur mille pour le séquençage et de cent millions pour la synthèse ».

Dans tous les cas, les étapes d’écriture et de lecture « devraient rester relativement lentes par rapport aux technologies actuellement utilisées pour le stockage de données numériques ».

L’ADN devrait donc se positionner dans un premier temps comme solution pour du stockage à froid, c’est-à-dire des données n’ayant pas besoin d’être consultées ou modifiées régulièrement et pour lesquelles une latence importante est donc possible.

Le stockage ADN devrait donc se positionner en face des dispositifs à bandes magnétiques. Ces derniers ne représentent par contre « qu’une faible part de l’électricité consommée par les centres de données », l’arrivée de l’ADN ne devrait donc pas radicalement changer la donne sur ce point. Elle permettra néanmoins d‘augmenter drastiquement la durée de conservation.

Mais il faut aussi prendre en compte « l’effet rebond » si le stockage ADN se démocratise : « Des données qui n’auraient pas été conservées pourraient l’être du fait de l’utilisation de l’ADN comme support de stockage », entrainant donc une hausse des besoins énergétiques.

Bref, le stockage ADN « ne dispensera pas d’une réflexion sur les modes de consommation de données et devra notamment s’accompagner de règles de bon usage afin de déterminer les données méritant d’être conservées sur le long terme », affirme l'OPECST en guise de conclusion.

Commentaires (14)

the_frogkiller Abonné

Le 28/12/2021 à 08h56

Moue je reste circonspect face à l’émergence d’autres types de supports (verre, holographique etc)

Spike Abonné

Le 28/12/2021 à 09h33

A quand l’utilisation des cristaux comme dans la plupart des films de SF ?

FFManiac

Le 28/12/2021 à 10h15

J’attends toujours l’arrivée des 3 coquillages.

Idiogène

Le 28/12/2021 à 11h56

L’adn de palourde coûtant cher tu finiras avec un rat burger.

La densité de l’adn fait rêver mais il est vrai qu’il ne manque pas grand chose avec des matériaux plus communs et durables.

the_frogkiller Abonné

Le 28/12/2021 à 10h28

FFManiac a dit:

J’attends toujours l’arrivée des 3 coquillages.

Vous ne savez pas vous servir des coquillages ?

KooKiz Abonné

Le 28/12/2021 à 11h04

A moins d’une révolution technologique, la limitation de l’ADN (et de tout stockage moléculaire) restera la vitesse, ce qui limite à des usages de stockage très longue durée. L’article cite 500 ko/s, mais je ne pense pas qu’il faut prendre ça au sens instantanné, à mon avis c’est plutôt une quantité de données stockée après un processus de plusieurs minutes (heures ?) qui équivaut à une vitesse moyenne de 500 ko/s.

MisterDams Abonné

Le 28/12/2021 à 12h36

C’est marrant, le problème du stockage aujourd’hui est résumé dans l’actu elle-même :

Ils sont placés dans deux capsules métalliques, chacune contenant 100 milliards de copies des textes.

La réalité, c’est que si on arrivait à mieux gérer les duplications de fichier, on aurait certainement largement assez d’espace sur les solutions existantes. Peut-être qu’à terme on pourra imaginer qu’avec la blockchain et le cloud on aura tous la possibilité de charger le même fichier source plutôt que d’en avoir 5 000 000 de copies partout dans le monde…

Typiquement, les fichiers système de Windows “strictement identiques pour tous”, c’est combien de Go consommés dans le monde ? Même chose pour les médias, comme l’image qui illustre cette actu par exemple.

SKN Abonné

Le 28/12/2021 à 13h14

Bah le souci c’est que si tu veux de la continuité de service t’es obligé de dupliquer… Sinon le jour où le serveur où l’image de base est stockée tombe (ou que tu n’as plus de connexion réseau) ben tu l’as dans le

C’est un peu le même principe que le RAID1 dans un sens d’avoir de multiple copies ;)
Enfin un RAID1 sans backup quoi ^^’

MisterDams Abonné

Le 28/12/2021 à 14h56

Je comprends bien le principe de redondance, mais c’est pas ce qu’on fait ici à dupliquer les fichiers, puisqu’un fichier peut continuer à circuler alors que l’auteur lui-même l’a perdu.

En revanche on arrive quand même à des extrêmes où un type prend une photo (fichier 1), il est backup dans son Cloud privé (fichier 2), il le publie sur un réseau social (fichier 3), il est enregistré par un de ses amis (fichier 4) qui le publie à son tour (fichier 5). Si avec la blockchain on pouvait garder un NFT de la source, ça ne voudrait pas forcément dire que le fichier soit figé ad vitam sur un hébergement, mais que c’est bien le même fichier (a priori le fichier 2) qui serait affiché partout.

Évidemment il faut de la redondance pour le stockage, mais globalement on aurait 1 fichier au lieu de 5. Bon, ça reste d’une grande complexité dans l’usage, mais n’empêche que ça réduirait beaucoup les volumes de stockage (car applicable à la vidéo, à l’audio..) et permettrait à l’auteur de garder la main sur ses contenus (puisqu’en blockchain, on doit pouvoir “résilier” le contrat qui autorise les X réseaux sociaux à exploiter le fichier), soit un gain pour tous les sujets de vie privée, etc.

fofo9012 Abonné

Le 30/12/2021 à 14h58

T’es totalement HS avec la blockchain, justement la data est dupliquée à l’infinie avec blockchain ! La suppression y est impossible et tout utilisateur à une copie intégrale de la blockchain sur son diusque dur.
Les mineurs passent leur temps à télécharger toute la blockchain pour effectuer des contrôles de validités. Une blockchain duplique toute son info sur chacun des utilisateurs. C’est la catastrophe d’un point de vue efficacité ou stockage !
Mais c’est extrêmement sécurisé car tout utilisateur contrôle en permanence l’ensemble des données présentes, pour pouvoir corrompre une blockchain, il faut pirater plus de 50% des utilisateurs, pour qu’ils minent le même hash du maillon vérolé, et en faisant ça les 49,xxx% légitimes ne calculeront pas la bonne somme de contrôle donc sauraient que la BC est corrompue !

Bourrique

Le 28/12/2021 à 14h15

A quand le premier hack pour générer un fichier qui une fois encodé donnera un virus contagieux.

Les premiers essais n’auraient-ils pas été effectués avec de l’ADN de pangolin ? Quelque part en Chine ?

—> []

xyloforce Abonné

Le 29/12/2021 à 15h01

Impatient de voir les informaticiens venir se prendre la tête avec nous sur les données biologiques 🌟 on a des vcf des fasta et des bed pour dormir, vous allez voir c’est quali 😛

Methio Abonné

Le 30/12/2021 à 14h27

MisterDams a dit:

Je comprends bien le principe de redondance, mais c’est pas ce qu’on fait ici à dupliquer les fichiers, puisqu’un fichier peut continuer à circuler alors que l’auteur lui-même l’a perdu.

Si, parce que dans ton exemple de photo, si tu as perdu ta photo, parce que t’as perdu/cassé ton téléphone, tu peux le retrouver sur ton cloud.
Si tu t’es tout fait piraté (cloud perso + réseaux sociaux) ton pote peut te redonner la photo.

Si pour tous ces usages tu ne stock qu’une fois (disons sur le cloud), lorsque tu supprimes par accident ou que tu te fais pirater, tout le monde a perdu la photo.

Si on transpose ça par exemple à Windows, disons qu’on partage System32 entre un groupe de personnes/organisations. A la première corruption d’un fichier, par exemple mauvaise mise à jour, c’est tout le monde en même temps qui ne peut plus travailler.
Notons que cet exemple existe et que c’est parfois un risque pris au sein d’une même organisation.

La blockchain n’a aucun rapport ici elle est même carrément superflue, ça serait de l’énergie dépensée pour rien. N’importe quel base de données pourrait choisir de stocker l’information comme quoi la photo se trouve sur https://sitedimages…. mais beaucoup choisissent de ne pas le faire pour des raisons d’optimisations, d’affichage, de conversions, de disponibilité, de redondance, de reconnaissance de personnes, de sécurité… j’en passe

Un exemple de sécurité (confidentialité), si ton réseau social, ton cloud, toi et ton pote et ceux qui regardent la publication, doivent tous pouvoir accéder à une image stockée en un seul endroit, ça veut déjà dire que la photo doit être accessible publiquement sur internet.
Ou alors il faut mettre en place un autre système d’authentification qui permettra de faire rejoindre tous les systèmes autour d’une même table de permissions. Bon courage…

fofo9012 Abonné

Le 30/12/2021 à 15h16

Pour info les vaccins Moderna et Pfizzer c’est exactement ce principe.
Tu tapes ta séquence ADN cible dans un fichier et fait Fichier > Imprimer.
L’imprimante à ADN se lance et te créer cette séquence d’ARN.

Tu as donc un unique brin d’ADN qu’il faut ensuite dupliquer à l’infini via le processus cellulaire naturel (ribosome, ARN messager…).

La difficulté est de faire une séquence ADN qui soit suffisamment redondante pour ne pas perdre trop en info pendant la duplication (à chaque duplication il y’a un risque de mutation, si tu essaies de faire une séquence trop proche d’une séquence naturelle existante, il est probable qu’il y’ait une mutation vers cette séquence naturelle).

Ensuite il faut aussi que l’ARN produise un truc qui ressemble suffisamment au virus pour que les anticorps créés par le système immunitaire fonctionnement aussi pour le virus cible.

C’est ça aussi qui explique la complication de conservation de ces vaccins (un ADN c’est fait pour être à l’abri dans un chromosome lui-même au sein du noyau, dans une cellule… Soit pas en vrac dans un flacon au frigo :)

Pour revenir au sujet le “stockage ADN” c’est plutôt un one shot type archivage. Pour lire ce brin, il faut le séquencer (c’est-à-dire le détruire)