Microsoft s’essaye au stockage des données dans l’ADN
Le cinquième élément
Le 30 avril 2016 à 13h00
4 min
Sciences et espace
Sciences
Microsoft a décidé de se tourner vers le stockage des données dans des brins d’ADN synthétiques. La technique n’est en soi pas nouvelle, mais la firme s’intéresse de très près à un stockage pérenne des données. Encore faut-il que le coût autorise une exploitation à large échelle.
L’avènement du cloud a provoqué une explosion du centre de données. D’immenses bâtiments renfermant des milliers de serveurs entièrement dédiés au stockage et au traitement de nos données. Outre les inévitables questions de puissance, refroidissement, consommation et sécurité qui se posent, celle du stockage même reste cruciale.
Microsoft s’intéresse notamment à la pérennité des données, c’est-à-dire la capacité à leur faire conserver leur intégrité. Elle se chiffre globalement en années aujourd’hui, de nombreux contrôles permettant de savoir quand des pièces doivent être changées (surtout des disques durs). Mais si l’avenir permettait d’établir des échelles en décennies, voire en siècles ?
Un milliard de téraoctets
C’est précisément ce qu’aimerait la firme, qui a commandé auprès de l’entreprise californienne Twist Bioscience dix millions de brins d’ADN synthétiques « personnalisés ». Microsoft ne possède pas elle-même la technologie pour stocker des informations dans la précieuse molécule : les informations sont envoyées à Twist, qui se charge de les transcrire sous forme de paires de bases azotées (adénine, cytosine, guanine et thymine), reconstituant la structure bicaténaire hélicoïdale que tout le monde connaît.
Pourquoi cet intérêt pour l’ADN ? Parce que cette molécule, que l’on trouve dans tous les cellules du vivant, permet une densité de stockage dont on ne peut pour l’instant que rêver. Un seul gramme d’ADN peut ainsi stocker en théorie jusqu’à environ un milliard de téraoctets. Cet acide nucléique bénéfice également d’une excellente résistance au temps, puisque l’on est capable de séquencer des brins vieux de plusieurs milliers d’années.
La technologie fonctionne, mais...
Les premiers essais de Microsoft avec Twist se sont apparemment bien passés, si l’on en croit un communiqué de la startup californienne. La totalité des informations a pu être codée dans l’ADN puis lue ensuite, sans problèmes particuliers. Mais comme l’indique le chercheur Doug Carmean de chez Microsoft, il faudra encore plusieurs années avant que ces opérations puissent être viables économiquement.
La fabrique des brins synthétiques est une opération nettement mieux maitrisée aujourd'hui qu’elle ne l’était il y a encore quelques années. Elle se fait surtout aussi à un coût plus raisonnable. Mais stocker l’information n’est qu’une partie du problème : il faut pouvoir la lire. L’opération requiert donc un séquençage de tout l’ADN. Une opération dont le coût s’est complètement effondré, mais n’est pas nul. À titre de comparaison, le séquençage du génome humain avait coûté environ 3 milliards de dollars (fini en 2003 après plus de dix ans), mais ne réclamerait aujourd’hui que 1 000 dollars.
Une technologie de stockage qui n’est encore à considérer qu’à ses balbutiements. Elle pourrait se révéler cependant particulièrement précieuse à l’avenir, par exemple pour des informations qui doivent impérativement être sauvegardées de manière certaine, sans pour autant nécessiter de fréquents accès.
Microsoft s’essaye au stockage des données dans l’ADN
-
Un milliard de téraoctets
-
La technologie fonctionne, mais...
Commentaires (81)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 02/05/2016 à 11h11
ok, pas de problème " />
" />
Le 02/05/2016 à 11h17
Fascinant ;)
Par contre j’ai rien pigé au 3⁄4 des commentaires " />
Le 02/05/2016 à 11h20
Les rayonnements ne provoquent pas de mutations génétiques sur de l’ADN dans un tube en solution. Dans un organisme vivant, les rayonnements provoquent des altérations/changements de structures qui entrainent des mutations lors du processus de réplication. Un ADN en solution dans un tube ne se réplique pas.
Le 02/05/2016 à 11h24
Le 02/05/2016 à 11h56
Pour rester simple les UV créent des réactions qui, au final, aboutissent à la création de liaisons chimiques “fortes” (type dimérisation des thymines) qui vont empêcher le bon déroulement des brins lors de la réplication et entrainer soit la mort cellulaire soit le démarrage de certains “mécanismes de réparation d’urgence” qui permettront la réplication mais entraineront des erreurs aléatoires grosso modo dans la zone du dimère, à l’issue de la réplication.
Pas de réplication, pas de mutation. Si tu as deux thymines (le T de ATGC) voisines, meme si elles dimérisent il y aura au final deux thymines voisines dans le tube. Par contre, dans un organisme vivant, le dimère va mettre le boxon lors de la réplication dans cette zone et il est possible que le “trou” soit bouché par d’autres bases, et donc qu’il y ait des mutations.
Le 03/05/2016 à 09h11
Faisons de la SF.
Et si en encodant de la donnée médicale dans un brun d’ADN (donc un SMB ; support mémoriel biochimique) pour documenter, un tout petit truc foire et on se retrouve avec un virus (ou vecteur) archi puissant, archi rapide a transmettre et létal en 48h. Le tout transporté par un mec qui ignore tout du contenu de la boite…
Autre usage.
-“Hey salut je t’ai ramené des films… en pilule… ”
-“whoeu nan pas des tipiak j’ai eu la gerbe la dernière fois”
-“Nan mais c’est du bon la, original remasterisé, directors cut”.
(toute ressemblance avec un échange de molécule chimique récréative entre deux individus peu recommandable est complètement fortuite)
Ou encore:
-“Bon jeanjean maintenant tu apprend ta leçon, prend ton sirop de math et on en parle plus!”
-“Méheu papa ce sirop, il est dégueulasse, en plus c’est nul les maths, Et puis c’est thibaud…”
Bam,
“on ne montre pas du doigt, ha tu vas voir que j’en ai encore sous le coude. Aller hop piqure encyclopédique, ce soir.”
Bref on peu broder longtemps la dessus.
Le 04/05/2016 à 20h43
Le 30/04/2016 à 17h28
“puisque l’on est capable de séquencer des brins vieux de plusieurs milliers d’années.” Plutot faux. La demi vie de l’ADN étant ~500ans, il ne reste plus d’information intact facilement accessible apres plusieurs milliers d annees
Le 30/04/2016 à 17h34
“mais ne réclamerait aujourd’hui que 1 000 dollars” Plutôt faux aussi. All inclusive (prep des échantillons, séquençage, assemblage complet, stockage des données…) c’est au moins 10 fois plus sans compter qu’on a en pratique pas encore sequence la totalité du genome humain
Le 30/04/2016 à 17h45
Oui et non, un run complet est > 1000, mais si on ramener à la taille du séquençage on y arrive.
Genre un Miseq c’est 6-7000€ le run (banque comprise), pour 25 milliards de base, soit 7 génomes. Meme si ici je simplifie (en gros on doit lire 2 ou 3 fois les séquençages avant d’être sur de pouvoir le décoder).
Si je dis pas de connerie le séquençage complet a quand meme était réussi, il a fallut un peu plus de temps.
Même si j’ai un doute sur les séquences répétées.
Le 30/04/2016 à 17h48
Par contre à noter que c’est dans le cas d’un individu mort. L’ADN conservée dans un congélo est probablement virtuellement “immortel”
Le 30/04/2016 à 18h14
Le 30/04/2016 à 18h33
Le 30/04/2016 à 18h42
Tu oublies plusieurs “detail” dans ton calcul “8 lanes de myseq ~ 7 genomes”: 8 lanes représentent théoriquement 8X de couverture d’un seul genome humain ce qui n’est pas grand chose… si tu arrives a developer un algo capable d assembler de facon fiable un genome humain complet avec 8X de couverture de sequences de 250pb, tu risques de decrocher le prochain prix Nobel de medecine ;) (meme Eichler qui a les moyens de sequencer a 50-100X un genome en pacbio est loin d’avoir le genome complet assemble, alors en myseq…). Donc non, on a toujours pas 100% du genome humain et voir Illumina & co balancer des communiques de press depuis plusieurs annees pour parler d un hypothetique genome a 1k$ ca me fait bien rire…
Pour la conservation, ton idée ne fonctionne pas vraiment non plus (cf la derniere tentative de sequencage du mamouth si tu veux t en convaincre). La seul alternative “viable” est de conserver l’info in vivo (dans des bacteries, levures…)
Le 30/04/2016 à 18h59
A priori, tant qu’il y aura des hommes pour chercher à lire les données, il y aura de l’adn et des appareils pour séquencer.
Sinon comme adn=infos, dans qq années, un type qui se br*nle sera-t-il comme considéré comme un lanceur d’alerte?
Le 30/04/2016 à 19h22
On ne peut pas vraiment parler de base 4 même s’il a 4 acides aminés, puisque ce sont toujours les deux mêmes qui sont ensemble: adénine et thymine, cytosine et guanine.
Du coup, on est plutôt en base 2. Et puisque la majorité des systèmes de stockage sont en base 2, je ne vois pas en quoi cela est un problème.
Le 30/04/2016 à 19h29
Le 30/04/2016 à 19h36
Le 30/04/2016 à 19h38
Le 30/04/2016 à 19h45
Le 30/04/2016 à 20h18
Le 30/04/2016 à 20h47
Le 30/04/2016 à 21h12
Ah oui c’est pas faux… Je n’avais pas réfléchi à la technique utilisée, je croyais qu’ils lisaient les brin d’ADN deux à deux (comme on se les représente toujours) et qu’ils se contentaient de lire les paires. C’est pourquoi je croyais que ce n’était qu’en base 2. Mais s’ils ne codent qu’un brin et qu’ils ne lisent qu’un brin, c’est bien en base 4.
Je croyais ça car pour être stable il faut 2 brins, mais il est possible de juste créer l’autre brin pour la stabilité…
Le 01/05/2016 à 17h48
Question: l’adn est-il réinscriptible?
Le 01/05/2016 à 18h32
Si l’ADN est soumis à la copie privée, ce sont les ayants-droits qui vont être contents " />
Le 01/05/2016 à 18h36
Le 01/05/2016 à 18h45
Génial, M$ va provoquer des aberrations génétiques en stockant cookies et autres données personnelles de “ciblage marketeux” dans le code génétique des gens pour mettre en place la publicité universelle…
Le 01/05/2016 à 18h55
Bon, alors, 1 cellule humaine, c’est 3.4milliard de paires de base, soit 0.85Go/cellule. Tu as environs 100 000 milliards de cellules humaines… ça te fait un stockage de base d’environs 85 000 000 000 000 Go (85 zettaOctet). Bon, mais tu copies pour remplacer tes cellules morte, j’ai trouvé un nombre de 2000 cellules/seconde… pfffui, ça fait du 1700Go/s monsieur, 146,88 pétaOctets par jour et 4,406 exaOctets par mois.
Bon, Nous avons oublier les 1 000 000 000 milliards de bactéries de ton microbiote soit 10 fois plus que tes propres cellules (presque 1.5kg de bactéries rien que dans ton intestin). Tu vas raquer mon petits, je peux te l’assurer…
Le 01/05/2016 à 20h01
Je vais tout stocker dans mon chat !!!!
Le 02/05/2016 à 05h51
Soit on tient enfin le script d’une nouvelle série avec un mix de blindspot et de prison break. Il a été enfermé en prison,il ne se souvient de rien mais tous ses souvenirs se trouvent dans son ADN avec un mélange de complots et d’extraterrestres.
Sinon,ça me fait penser que nos prochains antivirus,on les connait déjà doliprane et rin advil. Je sors.
Le 02/05/2016 à 06h59
bien vu !
Le 02/05/2016 à 07h03
Merci pour ton explication. Ca confirme bien ce que je pensais. Tous ceux qui s’amusent à se faire peur qu’on devienne des supports de données en réécrivant notre adn se fourvoient complètement. De toutes façons, avoir un adn étranger dans des cellules vivantes de notre corps sera soit éliminé rapidement, soit (mais improbable) deviendra une sorte de cancer.
Le 02/05/2016 à 07h53
Le 02/05/2016 à 08h18
Il y a bien la technique toute nouvelle de Cas9 (vidéo de CRISPR) qui permet de modifier ponctuellement le code de nos cellules et c’est à l’heure actuel la voie la plus prometteuse pour faire de la thérapie génique (soigné des maladies génétiques en corrigeant le génome). Mais là encore, pas de quoi s’affoler pour l’instant, il ne faut pas s’attendre à corriger une terachier de nucléotide. Je n’ai pas regardé dans le détail, mais la taille des inserts reste très certainement relativement petite quelque chose de l’ordre de 100 ou 1000 paires de base.
Mais surtout, ce genre de méthode est vraiment aléatoire. Tu ne peux pas t’assurer à 100% que toutes les cellules ont était corrigé. En faite, comme toutes manipulations avec l’ADN, la réussite est plutôt exceptionnelle. Dans les labo, lorsque l’on doit créer un organisme génétiquement modifié pour les manip (classiquement on veut par exemple avoir accès sur un switch On/Off d’un gène pour savoir ce qu’il fait. Les OGM, c’est pas uniquement des semences de Monsanto, c’est surtout, et avant tout, des outils de laboratoire), c’est simple, on part généralement de plein de cellules individuelles, on ajoute notre modification accoler à quelque chose qui nous permettra de sélectionner les cellules qui ont réussi à intégrer cette construction (gène de résistance au antibiotique par exemple). Ainsi, si on part de milliers de cellules mais que seulement une 100aine intègre bien notre construction, il suffit d’élimer les autres en les faisant pousser sur un milieu bourré d’antibiotique.
Le 02/05/2016 à 08h43
Synthèse d’oligonucléotides sur support solide. La technique est connue et maitrisée, tu synthétises chimiquement la séquence que tu veux, comme si tu la tapais à la machine. Mais ca ne peut synthétiser que des brins courts pour l’instant.
Le 02/05/2016 à 10h02
Le 02/05/2016 à 10h11
Faut tout lire -> dans un tube (protège d’un certain nombre de rayonnement), et à -80°C donc dans un frigo -> protège de tout le reste …
Le 02/05/2016 à 10h48
Le 30/04/2016 à 14h24
Le 30/04/2016 à 14h27
Le 30/04/2016 à 14h35
Si ça vous intéresse l’un des premiers articles sur le sujet :
http://www.nature.com/nature/journal/v494/n7435/full/nature11875.html
avec une jolie image ici :
Ars Technica
Le 30/04/2016 à 14h44
Le 30/04/2016 à 14h49
Le 30/04/2016 à 14h56
Le 30/04/2016 à 15h12
Il faut tout de même se rendre compte du problème des séquenceurs :
Ils ne savent pas lire en continue de long texte. On leur fait donc lire des “extraits” (des read) un peu au pif. Ils lisent dans les 2 sens. Et enfin, ils font souvent des fautes de lectures. Imaginez vous que vous avec une tête de lecture un peu naze qui essaie de lire un disque dur pendant qu’un DJ fait du scratch avec et on te demande de reconstituer le disque dur.
Sinon, pour les nouveaux séquenceur regardez la machine actuelle alors qu’il y a encore quelques années, celle-ci n’en faisait pas autant (c’est le genre de machine qui a été utilisé pour séquencer le génome humain)
Le 30/04/2016 à 15h29
Le 30/04/2016 à 15h50
Le 30/04/2016 à 16h07
Et quid des mutations (sensibilité aux radiations par exemple) ?
Le 30/04/2016 à 16h12
Pas mal pour faire de la dématérialisation de documents. Si l’ADN peut remplacer le papier à terme, ça serait top.
Le 30/04/2016 à 16h17
C’est honteux, pardon…
Je m’en vais me faire fouetter immédiatement.
Pis je vais éditer mon post aussi… Parce que ça fait moche^^
Le 30/04/2016 à 16h45
dans un tube à -80°C, aucun risque ^^
Le 30/04/2016 à 16h47
Le séquençage d’un génome c’est plusieurs centaines de Go derrière à traiter par info, pas sur qu’on y arrive ^^
Comme dit précédemment, en gros, si l’ADN fait 10000, on va couper en 100 x100 puis par info on reconstitue le tout. Donc pour le moment on arrive pas à avoir directement l’info sans traitement assez lourd.
Le 30/04/2016 à 16h52
Le 30/04/2016 à 17h03
Bientôt des êtres vivants qui auront le code de Windows dans leur ADN ? " />
Des programmes informatiques capables de s’auto-répliquer ? " />
Le 30/04/2016 à 13h10
Je sens venir le port USB (ou n’importe quel standard du futur) au bout du doigt pour que l’on soit notre propre espace de stockage… Plus de problèmes de pertes de clés usb ! " />
Le 30/04/2016 à 13h17
Ouais mais je dis pas les dangers pour les espions et escrocs de tout poil qui se feront alpaguer. Hop une petite virée dans leur ADN et on saura tout." />
Le 30/04/2016 à 13h24
L’ADN Humain croisé avec 500000 Po de pr0n, pas certain du resultat " />
Le 30/04/2016 à 13h27
Je me demande comment ca marche. L’ADN n’existe que dans une cellule, c’est bien ca?
Si c’est le cas, l’ADN n’est pas le code qui permet de définir comment fonctionne/vit une cellule, ses fonctions, sa duplication, sa durée de vie?
Si l’on prend le cas des êtres vivants sur cette planete, des cellules meurent et se font remplacer en permanence. Donc comment feront nous pour stocker dans le temps ces cellules?
Le 30/04/2016 à 13h42
En fait il faut déjà partir d’un principe : rien ne dit que l’ADN qu’ils aient implémenté ne corresponde à quelque chose du vivant, du coup tout le porno de l’univers dans le petit doigt c’est pas pour demain.
Mais si j’ai bien compris rien n’empêche de définir un séquençage ADN suivant un algorithme qui puisse convenir à la fois à des cellules temporairement stables mais également à un ensemble de données sur support organiques.
Après malheureusement je ne saurais pas te dire concrètement comment on peut inscrire une données directement dans un séquençage d’ADN et je partage ton interrogation.
Le 30/04/2016 à 13h43
Chouette, faut apprendre à être « programmateur » en base 4. Déjà que la « programmatisation » binaire n’est pas simple !
Par contre les peek / poke étaient rigolos (sauf pour ceux qui n’avaient pas ce C64).
Ici, il s’agit de brins synthétique, et que ce passerait il si ces données étaient codées dans le génome humain?
A notre naissance des infos seraient intégrés a notre ADN. Et ensuite? , qui contrôle ?
On ne serai plus propriétaire de notre corps (Monsanto et autres, quand on voit que les graines vendues ont une DLC )
Le 30/04/2016 à 13h47
Je m’offusque en lisant ton commentaire !
Le programmateur, c’est le truc qu’on trouve sur la machine à laver/lave-vaisselle.
Le synonyme de développeur/développement, c’est programmeur/programmation.
Le 30/04/2016 à 13h50
Faut juste se souvenir que l’ADN est une molécule. Comme le CO2, sauf qu’elle est beaucoup beaucoup plus grosse. Dans un cas comme dans l’autre, on la retrouve dans les êtres vivants, mais ça ne signifie pas que son existence est restreinte au vivant (certes on ne la trouve pas à l’état « naturel » en dehors du vivant, mais je suppose que Twist a trouvé un moyen de la synthétiser).
Quant à l’aspect code, c’est à nous de décider. Dans nos cellules nous avons des ARN polymérases qui transcrivent l’ADN en ARN (je ne suis pas biologiste donc je ne te ferai pas un cours plus en détails, tu regarderas sur wikipédia), mais rien ne nous interdit d’avoir nos propres transcripteurs.
Tout comme le rhyming slang reprend des mots anglais pour leur donner une signification complètement différente, nous sommes libres de choisir comment coder et décoder des chaînes de bits en chaîne de nucléotides ;)
Le 30/04/2016 à 13h54
Captain here (Tech de cytogénétique ;) !
L’ADN est une protéine qui peut être synthétisée dans un milieu approprié (tampon stringent), l’évolution aidant, cette protéine est particulièrement stable, elle l’est d’autant plus quand on la congèle dans un milieu parfaitement maîtrisée.
C’est une protéine qui a pour particularité de contenir de l’information, mais ça reste biochimiquement parlant une protéine comme une autre.
La dégradation de l’ADN suit des processus connus, et on est capable de restituer de l’information à partir d’ADN dénaturé.
Il ne faut pas confondre l’ADN et toute la machinerie cellulaire qui l’entretient, ça c’est plus compliqué, faisable mais compliqué.
Le 30/04/2016 à 13h55
Le 30/04/2016 à 14h06
Le 30/04/2016 à 14h15
Ca donne un nouveau sens au terme “ fuite de données”.
Le 30/04/2016 à 22h33
Oui, les 2 brins, c’est bien pratique pour la stabilité. Mais ces 2 brins ne tiennent que par des ponts hydrogène, par analogie, et très grossièrement, c’est comme des aimants. Justement entre un A et un T, il y a 2 ponts hydrogène et entre un C et un G, il en a 3, ce qui rend les paires CG plus stable que les paires AT.
Il est très simple de séparer les 2 brins. Le plus simple, c’est de chauffer, comme lors d’un PCR (une methode classique pour amplifier, dupliquer plein de fois, un bout d’ADN). Mais tu peux aussi utiliser des outils que la nature fournie : les hélicases, des enzymes qui comme son nom l’indique sert à dérouler la double hélice et séparer les 2 brins.
Mais certain séquenceurs de dernière génération ne s’encombre même pas de ça, il lisent directement qu’un seul des 2 brins. Même si c’est le mauvais, qu’importe, il suffit juste de faire le complémentaire inverse (oui parce qu’un brin d’ADN à quand même un sens de lecture, mais les 2 brin dans l’hélice il ne sont pas dans le même sens). Ainsi si il y a des marqueurs de débuts de fin et que ton séquenceur il lit :
-“debut……fin” ok je suis dans le bon brins
-“uij … tnqep” : je crois que je suis sur le mauvais, il faut que j’inverse ça.
Le 01/05/2016 à 02h09
Le 01/05/2016 à 06h26
Le 01/05/2016 à 07h01
Le 01/05/2016 à 07h19
Vous vous focalisez tous sur le sequencage (ie la lecture des infos), mais le plus compliqué aujourd’hui c’est la création des brins (l’écriture).
Créer des brins de taille raisonnable, s’assurer qu’on a codé la bonne informations, c’est ça qui est long.
La chimie des nucléotides est un peu particulière, en plus…
Le 01/05/2016 à 07h27
YouTube
Le 01/05/2016 à 08h04
” sans forcement devoir faire 10 couvertures” => il te faut plus que ca si tu veux etre certain de ton info, ce qui dans le cas de l informatique est assez interessant…“in vivo” veut bien dire ce que ca veut dire. Et oui le risque de mutation doit etre modélise mais il est facilement controlable, pas comme la demi vie de l ADN qui elle est inexorable, meme sans DNAse (et pour le coup, aucun interet de conserver a -80 des tubes, autant aller dans de l azote)
Le 01/05/2016 à 08h05
la demi vie de l adn est de 521 ans ;)
Le 01/05/2016 à 10h23
Avec des films qui font du QHD, faut bien un nouveau type d’espace de stockage " />
Le 01/05/2016 à 10h36
Le 01/05/2016 à 12h11
dans le cas d’une non conservation (individu mort), relit le papier.
On depasse le million d’année à -5°C. A -80°C/Azote liquide aucun risque de dégradation pendant un bon moment.
Le 01/05/2016 à 12h14
Le 01/05/2016 à 12h18
En fait imagine un code source où les commentaires sont plus important et ont plus de fonction que le code en lui même ^^
Seulement un peu plus de 1% de l’ADN codent pour des protéines.
Le 01/05/2016 à 12h34
Le 01/05/2016 à 17h44
Le problème du stockage, c’est que l’humanité confond activité et agitation inutile.
Avec le temps, 99,9% de notre création disparaîtra parce qu’objectivement, seule une très petite partie mérite de passer à la postérité.