Des chercheurs franchissent un cap dans le stockage de données dans de l’ADN
D'abord la fiabilité, ensuite le reste
Le 06 mars 2017 à 16h30
7 min
Sciences et espace
Sciences
Un groupe de chercheurs a réussi à stocker une grande quantité d’informations dans des brins d’ADN, en atteignant une densité théorique record de 215 pétaoctets par gramme. Une technique qui ouvre de vraies pistes sur le stockage pérenne d’informations, avec de sérieuses limitations toutefois sur le coût et le temps.
L’idée d’utiliser de l’ADN pour stocker des données initialement électroniques n’est pas nouvelle. Des travaux sont menés en ce sens depuis des années, puisque l’acide désoxyribonucléique – de son vrai nom – est une molécule conçue justement pour transporter de l’information. Le concept est-il applicable à l’informatique ? Techniquement, oui. De manière pérenne ? Aussi. Est-ce facilement exploitable ? Pas encore.
Une idée qui n'est pas neuve...
Dans la revue Science, les chercheurs Yaniv Erlich et Dina Zielinksi et leur équipe ont mis au point une nouvelle technique. Les résultats obtenus sont très prometteurs, puisque non seulement le stockage s’est passé sans problème, mais les lectures ont permis de restaurer plusieurs fois les données sans aucune erreur. Les chiffres obtenus donnent le tournis : une densité estimée de 215 pétaoctets par gramme d’ADN, et un nombre de lectures avant dégradation estimé à 10^15. Autant dire virtuellement illimité.
Pour comprendre la technique utilisée, il faut rappeler quelques bases. L’ADN est une molécule utilisée par le monde du vivant pour stocker, transporter et transmettre l’information, en l’occurrence le patrimoine génétique (génome). Cette information est stockée grâce à des paires de nucléotides : adénine (A), cytosine (C), guanine (G) et thymine (T). L’ensemble de l’information est donc représenté par une séquence de ces quatre lettres.
... les problèmes non plus
Le principal problème dans le stockage d’une information dans de l’ADN est la fiabilité de la retranscription. Qu’il s’agisse de stockage ou de lecture, il peut survenir des erreurs. Il en survient d’autant plus que les scientifiques, pour obtenir assez d’ADN en vue d’y enregistrer des informations, recourent à la technique PCR (réaction de polymérisation en chaine), qui réplique le double brin.
En outre, et comme l’expliquent les chercheurs, certaines séquences peuvent entrainer des erreurs plus nombreuses de lecture. Par exemple, la trop grande fréquence des bases C et G, ou les longues répétitions d’une même base, comme AAAAAA, ou TTTTTT. Quelle que soit la technique utilisée, il fallait donc qu’elle soit accompagnée d’une véritable tolérance aux erreurs.
Ajouter des données de redondance
C’est précisément ce qu’ont fait les chercheurs. Leur technique se nomme Fountain DNA car ils sont allés chercher du côté des « fountain codes ». Ces derniers permettent de générer des données supplémentaires pour les informations transmises par paquets. Plus on ajoute de données, plus la tolérance d’erreur devient grande, l’information réelle pouvant être reconstituée. Une technique qui n'est pas sans rappeler les fichiers PAR(2) notamment utilisés sur les newsgroups. Ils ont été créés justement pour transmettre des données sur des liaisons de très mauvaise qualité, qui entrainaient des erreurs multiples. Il faut bien entendu trouver le bon ratio pour ne pas surcharger les brins d’ADN.
Le processus commence donc avec un encodage tenant compte des fountain codes. Les chercheurs obtiennent alors une grande quantité de petits paquets. Ces derniers sont ensuite codés en séquences ADN, en s’appuyant sur les nucléotides. L’astuce est alors d’analyser le code obtenu, et de retirer toutes les séquences qui pourraient poser des problèmes à la lecture. Puisque les données supplémentaires sont là en solution de secours, cette suppression n’a pas d’impact sur l’information.
Une densité record
Dans une archive compressée (tarball) de 2,1 Mo seulement, les chercheurs ont pu stocker un système d’exploitation minimal et son interface, un film et quelques autres fichiers. Cette archive a ensuite été divisée en 67 088 segments de 32 octets. Chaque segment s’est vu ajouter 6 octets de fountain code, puis a été ensuite inscrit dans une séquence de 128 nucléotides (ou bases azotées). Une quantité suffisante pour coder de manière fiable des fichiers pesant jusqu’à 500 Mo. 38 octets représentant 304 bits, cette quantité était encodée dans un brin de 152 paires de base. La redondance obtenue était de 7 %, suffisante pour assurer une très bonne résilience des données face aux erreurs.
Tous les tests effectués ensuite par les chercheurs ont montré que le système fonctionnait très bien. Ils ont eux-mêmes inséré des erreurs ou encore supprimé aléatoirement des séquences d’ADN, mais l’information a quand même pu être restaurée à chaque fois. Ils ont également dilué l’ADN pour chercher le point de rupture (information illisible) et ont ainsi obtenu l’estimation théorique d’une densité de 215 pétaoctets par gramme de molécule.
À titre de comparaison, Samsung parvient actuellement à stocker 512 Go dans une puce de 1 gramme seulement (avec un débit de 1,5 Go/s), mais nul doute que cette capacité augmentera au fil des années avec l'arrivée de NAND QLC avec toujours plus de couches empilées.
Pourquoi ne pas tout basculer dans l'ADN ?
Un stockage pérenne, dont l’entretien ne coûterait qu’une fraction de ce que suppose un centre de données aujourd’hui, très résistant aux erreurs et qui assure un nombre virtuellement illimité de lectures. Pourquoi ne pas dès lors construire demain des banques de stockage et passer au tout-ADN ? Parce qu’il y a bien sûr des limites, principalement deux : le coût et le temps.
Une fois que l’information est stockée, les brins d’ADN peuvent être gardés dans un endroit isolé, avec peu de moyens. Mais la création de ces brins d’informations coûte actuellement une petite fortune : les chercheurs estiment la facture – très salée – à environ 3 500 dollars par Mo. Il faut cependant tenir compte de la commande initiale d’ADN par les chercheurs, qui avaient réclamé des brins sans erreurs. La qualité pourrait être revue à la baisse en laissant les fountain codes faire le travail.
L’autre grand problème est le temps nécessaire. Sans même parler de toucher à l’ADN, l’encodage de chacun des 67 088 segments prenait 2min30 en laissant faire « le CPU d’un ordinateur portable classique ». On pourrait évidemment aller beaucoup plus vite, mais il resterait le problème de la transcription dans l’ADN, et surtout de sa lecture : pour rappeler l’archive de 2,1 Mo utilisée pour les tests, il faudrait presque une journée entière.
Rappelons cependant qu’il s’agit de travaux de recherche. La technique peut donc être largement affinée, surtout si elle devait être un jour industrialisée. Si le stockage dans l’ADN doit devenir une technique porteuse, les coûts baisseraient immanquablement. Les soucis de performances seraient nettement plus complexes à dépasser, mais tous les types de stockages ne se valent pas sur ce terrain.
Ce n’est pas en effet par ce que l’ADN est considéré comme moyen de stockage que l’on doit envisager son arrivée dans les ordinateurs ou les appareils mobiles. On pourrait imaginer des banques de stockage spécialisées dans la préservation à très long terme, un domaine dans lequel la molécule pourrait avoir son mot à dire.
Des chercheurs franchissent un cap dans le stockage de données dans de l’ADN
-
Une idée qui n'est pas neuve...
-
... les problèmes non plus
-
Ajouter des données de redondance
-
Une densité record
-
Pourquoi ne pas tout basculer dans l'ADN ?
Commentaires (49)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 07/03/2017 à 10h17
Le 07/03/2017 à 12h12
Le 07/03/2017 à 12h47
L’article dit “une molécule conçue justement pour transporter de l’information”
Tout le monde comprendra sur le fond, mais non, la molécule d’ADN n’a pas été “conçue pour”. Ça fait très Créationnisme, Intelligent Design, etc. comme tournure. Je doute quand même que ce soit l’intention de Next Inpact de vouloir donner dans ce flou là ?
Le 07/03/2017 à 16h25
C’est bien connu de toute manière, le hasard ou les molécules de base, s’auto-code elle même, en base quaternaire avec correcteur d’erreur, duplication d’information et réparation automatique de l’information …
çà serais marrant de prendre l’intégralité du code binaire d’un O.S (Windows ou peut importe) et dire que c’est les numéros qui se sont mélanger aléatoirement sur 1 milliard d’année pour donnée çà …
Mais bon çà fait pas assez hype de penser autre chose en 2017 voyons …
Le 08/03/2017 à 12h27
Ta réponse me fait d’autant plus penser, que la correction du passage concerné dans l’article, mérite d’être faite. /o
Le 06/03/2017 à 21h38
Il se pourrait bien que l’ADN soit le maître du monde et que les êtres vivant ne soient qu’un outil pour lui permettre de se répliquer et de se disséminer " />
Le 06/03/2017 à 21h44
Actuellement l’ADN humain (et je crois que c’est généralisable à tout type d’ADN) en tant que molécule n’est pas brevetable pour cause d’éthique (un peu comme l’expérimentation sur les embryons humains). En revanche certaines méthodes d’utilisation de l’ADN (incorporation de gènes via des virus ou des plasmides…) sont déjà brevetées. Ce qui pose bien sûr des problèmes dans le domaine de la recherche ou certaines études sont stoppées par d’autres organismes car ils utilisent sans le savoir des méthodes brevetés… Quand il y a de l’argent en jeu les brevets arrivent toujours à s’imposer d’une façon ou d’une autre.
Le 06/03/2017 à 21h47
Le 06/03/2017 à 22h01
Les aliens ont stocké des choses dans notre ADN ? Vont-ils le mettre à jour ?
Le 06/03/2017 à 22h37
Le 06/03/2017 à 22h38
Le 06/03/2017 à 23h06
l’acide de désoxyribonucléique – de son vrai nom – est une molécule conçue justement pour transporter de l’information.
Ah bon ? L’ADN a été conçue ? Par qui ? La formulation m’a fait un peu tiquer, ça fait un peu formule d’un manuel d’Intelligent Design…
Idée intéressante, surtout que des études sont menées pour utiliser non pas 4 mais 6 bases, ce qui densifierait encore plus l’information: YouTube
Le 07/03/2017 à 06h12
tout le monde ou presque pourra y avoir accès, par le bord d’un verre, mégot etc….
Le 07/03/2017 à 06h36
Oui mais a des usages réservés aux entreprises, comme les bandes magnétiques.
Là je vois un usage en plus, on peut transporter beaucoup d’information de manière quasi indétectable. Il y a des gouvernements qui doivent se réjouir en ce moment.
Le 07/03/2017 à 09h26
Le 07/03/2017 à 09h44
On pourrait imaginer des banques de stockage spécialisées dans la préservation à très long terme, un domaine dans lequel la molécule pourrait avoir son mot à dire.
Lapalissade. Ça fait des millions d’années que l’adn stocke des données. Avec plus ou moins de succès : qui se rappelle de l’adn de dodo ?
Le 07/03/2017 à 09h46
Le 07/03/2017 à 09h56
Le 07/03/2017 à 09h59
" />" />
Le 07/03/2017 à 10h09
Le 07/03/2017 à 10h11
Tu regardais pas un peu trop Stargate toi ?
Le 06/03/2017 à 16h36
finalement un logiciel informatique ce sera une sorte d’OGM.
Les écolos ne vont-ils pas s’opposer à ce type de stockage ?
Le 06/03/2017 à 16h38
Entre cet article et celui du CERN, heureusement que j’ai passé un quintuple doctorat sur les sims.
Sinon ça à l’air prometteur.
Le 06/03/2017 à 16h42
c’est vrai que niveau densité ça laisse rêver, mais en temps d’accès houlàlà " />
Le 06/03/2017 à 16h48
Wikipedia
Le 06/03/2017 à 16h51
Je me demandais ce qui allait pousser mon imprimante 3D vers la poubelle…
Les enfants j’ai ré-imprimé le chat!
Le 06/03/2017 à 17h05
Une fois que l’information est stockée, les brins d’ADN peuvent être gardés dans un endroit isolé, avec peu de moyens
Ouais une paille. " />
Le 06/03/2017 à 17h05
Si on se donne la liberté d’utiliser un moyen relativement peu fiable et très lent en lecture/écriture, n’y a-t-il pas beaucoup d’autres moyens que l’ADN pour stocker de très très grandes quantité d’information sur de petits espaces ?
L’avantage évident de l’ADN c’est que c’est sa fonction première et que ça apparaît comme la solution évidente, mais il y en a peut-être d’autres qui seraient naturellement plus simples à utiliser.
Le 06/03/2017 à 17h10
Et pour faire du chiffrement one-time pad, tu donnes la clé dans les gènes de la femme, le message dans les gênes de l’homme, et tu envoies l’enfant dans les lignes ennemies.
S’il revient vivant, on lui demande de se reproduire avec l’opposé de sa mère, et le petit-fils aura le message.
Comment ça il faut que j’arrêt de fumer ça ? " />
Le 06/03/2017 à 17h11
Imaginons qu’une vidéo familiale de Facebook soit encodée en ADN, que cet ADN s’échappe de son support et infecte comme un virus les cellules de l’humanité, quelle fin horrible !!!!!!!!!!!!
Le 06/03/2017 à 17h22
Euh ils peuvent écrire n’importe quoi ?
Le 06/03/2017 à 17h25
En outre, et comme l’expliquent les chercheurs, certaines séquences peuvent entrainer des erreurs plus nombreuses de lecture. Par exemple, la trop grande fréquence des bases C et G, ou les longues répétitions d’une même base, comme AAAAAA, ou TTTTTT. Quelle que soit la technique utilisée, il fallait donc qu’elle soit accompagnée d’une véritable tolérance aux erreurs.
Tiens un problème identique à celui des CD optiques, pas plus de 10 bits identiques de suite. Autant dire que ce problème a donc déjà été résolu.
Le 06/03/2017 à 17h41
+1 j’ai pensé la même chose " />
Le 06/03/2017 à 17h43
Le 06/03/2017 à 18h00
L’autre aspect intéressant, c’est la durée de conservation de la sauvegarde. Quel support du marché permet actuellement de répondre à la demande réglementaire des Etats de conserver les données de santé pendant 70 ans ?
Le 06/03/2017 à 18h19
Dans une archive compressée (tarball) de 2,1 Mo seulement, les
chercheurs ont pu stocker un système d’exploitation minimal et son
interface, un film et quelques autres fichiers.
Cool. On va pouvoir se faire INplanter un port USB au bout du doigt et y stocker tous nos films de vacances.
Par contre, Pascal Rogard va demander une taxe copie privée sur chacun de nous… " />
Le 06/03/2017 à 18h25
Les cristaux de données asgardes doivent être sûrement sur ce principe. 😍
Le 06/03/2017 à 18h27
C’est marrant, d’un côté on utilise les mutations dans le code génétique comme horloge moléculaire (pour savoir à quand remonte une population), et de l’autre on fait tout pour que ça n’arrive pas avec des données.
J’aime la science, quand tu comprends un trucs, les chercheurs s’empressent de s’en servir. N’importe comment " />
Mais c’est pas pour maintenant, ça reste intéressant à voir ce que ça donne.
Le 06/03/2017 à 18h45
Ainsi les virus informatiques reviendront à leur sens original : insérer leur code génétique dans le code ADN et attendre qu’un Fessebouqueur réplique la photo de vacances à destination de Tatie Michèle… " />
Edit : Finalement, les 4 bases azotées, c’est pas un peu du Quad Level Cell comme on s’apprête à avoir bientôt dans les SSD ?
Le 06/03/2017 à 19h04
Le jour où ça se démocratise c’est la mort des ayant droits.
Impossible de taxer une personne qui pourrait très facilement leur rendre un support de stockage bien fumant et odorant. " />
Le 06/03/2017 à 19h21
a quand un brevet sur le stockage d’informations avec l’ADN ? Bref, breveter le code source de la vie, ca promet " />
Par contre, les débits ne sont pas précisés.
Le 06/03/2017 à 19h23
They demonstrated efficient encoding of information -including a full computer operating system - into DNA that could be retrieved at scale after multiple rounds of polymerase chain reaction.
ANDroid DNA
soon…
Le 06/03/2017 à 19h46
Le 06/03/2017 à 19h58
Et ils ont prévu de stocker des “fake news”? " />
Le 06/03/2017 à 20h02
Le 06/03/2017 à 20h03
Le 06/03/2017 à 20h06
Une petite API pour me stocker un blu ray rip dans mes veines ? " />
Le 06/03/2017 à 20h31
Le 06/03/2017 à 20h38
Moi je reste bluffé par l’ADN en elle même !