Quantcast

Ça y est, le stockage de données dans l’ADN est 100% fiable

L’ère des CD et des disques durs externes est révolue : nos prochains supports de stockage seront biologiques.

Farnia Fekri

Farnia Fekri

L'humanité produit des quantités gigantesques de données chaque jour. D'ici 2020, la quantité d'informations que nous souhaitons stocker pour les conserver avoisinera les 44 trillions de gigaoctets. Or, jusqu'ici, nous ne disposions pas d'un support de stockage physique fiable capable de résister au temps.

De nombreux chercheurs estiment que nous avons trouvé la solution à ce problème : les brins d'ADN, qui permettent de stocker des milliers de gigaoctets de manière parfaitement fiable, et dépassent en tout point le meilleur iPhone du marché. Des millions d'années d'évolution nous ont donné un système de stockage biologique ultra perfectionné. Pourquoi ne pas en profiter ?

Les scientifiques envisagent depuis plusieurs années d'utiliser l'ADN pour stocker des données, mais jusqu'ici cette perspective était limitée par le coût élevé de la méthode, les erreurs de transcription et la corruption des données. Aujourd'hui, dans une étude publiée dans la revue Science, les chercheurs ont annoncé qu'ils avaient utilisé une technique de stockage 100% fiable où aucune perte de données n'est à déplorer. Elle est donc 60% plus efficace que les techniques utilisées jusque-là. Nous sommes près de disposer d'un dispositif de stockage possédant une fiabilité absolue.

Quelques obstacles demeurent néanmoins : l'opération prend beaucoup de temps et est toujours extrêmement onéreuse. 

Une technologie obsolète. Image: mlange_b/Flickr

La nouvelle méthode fonctionne comme une sorte de Sudoku. Il s'agit d'utiliser différents indices afin d'éviter que la perte de données spécifiques ruine l'ensemble du lot de données. « Même si vous n'avez pas tous les chiffres du Sudoku, vous pouvez quand même résoudre le puzzle. Ici, c'est le même principe », explique Yaniv Erlich, co-auteur de l'étude et professeur d'informatique à l'Université de Columbia.

Selon l'étude, réalisée en collaboration avec l'équipe de Dina Zielinski au New York Genome Center, cette méthode est beaucoup plus efficace que les précédentes : elle permet de compresser une plus grande quantité de données sur les brins d'ADN – environ 215 000 000 gigaoctets par gramme d'ADN. En comparaison, on ne peut stocker que 8,5 gigabytes sur un DVD, et 256 gigabytes sur un Iphone.

Dans la précédente étude significative sur le sujet, publiée en 2013, les chercheurs n'étaient parvenus qu'à stocker 2 000 000 gigabytes sur un gramme d'ADN.

Pourquoi s'acharner ainsi sur un dispositif de stockage biologique ? Pour commencer, l'ADN est capable d'embarquer d'énormes quantités d'information sur une toute petite surface, à l'échelle moléculaire. D'autre part, il ne sera jamais obsolète, contrairement aux CD et aux cassettes, par exemple. Enfin, il peut durer des dizaines de milliers d'années (c'est ce qui permet aux paléontologues d'obtenir des informations de nature génétique sur des êtres qui vivaient au Jurassique, par exemple). Ces caractéristiques en fond un support extrêmement précieux, qui a déjà inspiré les plus folles spéculations. Le scientifique et artiste Joe Davis a ainsi proposé de planter une forêt d'arbres dont l'ADN coderait l'ensemble de Wikipédia, par exemple.

L'alphabet de l'ADN est formé de quatre lettres correspond à quatre bases azotées (A, C, G et T), qui peuvent être converties en code binaire. 00 pour A, 01 pour C, 10 pour G et 11 pour T.  

L'innovation principale de cette nouvelle étude est l'utilisation du Fountain ADN, ou code fontaine – un type de code qui permet de transformer des fichiers entiers en fragments de code, (les « gouttelettes ») pour stocker les fichiers. Selon Erlich, ce système protège les données de la corruption. Lorsque vous disposez d'une « fontaine » de données encodées, même en cas de corruption il suffit de récupérer suffisamment de gouttelettes pour pouvoir reconstituer les fichiers.

« En gros, chaque oligonucléotide (une section ADN courte) constitue une sorte d'indice, explique Erlich. « Même si tous les oligos ne tiennent pas la distance, vous pouvez toujours résoudre le casse-tête. »

Jusqu'à présent, la technique la plus utilisée pour écrire des données dans l'ADN (comme l'explique cette étude de 2013, par exemple) était ce que l'on appelle le mode répétition, explique-t-il. Si vous voulez coder, mettons, « She loves you » des Beatles, la séquence à découper se succède comme suit : « she loves », « loves you », « you yeah » « yeah yeah ».

« Cette stratégie de répétition des informations est extrêmement utile. S'il vous manque un oligo, il suffit de trouver les deux autres oligos qui vous donneront l'information que vous cherchez. Ici, s'il vous manque « loves you », il suffit de « she loves » et « you yeah » pour la reconstituer. »

Pour tester leur méthode, Erlich et Zielinski ont encodé six fichiers dans l'ADN : un système d'exploitation, un virus informatique, le film Arrival of a Train at La Ciotat, une carte cadeau Amazon, une reproduction de la plaque Pioneer, et une étude de 1895 sur la théorie de l'information. Ils ont copié et dilué leurs fichiers à plusieurs reprises, puis Erlich a confié le manuscrit final à l'un de ses followers Twitter : s'il parvenait à le télécharger et à le décoder, les chercheurs lui offraient la carte cadeau Amazon de 50 $. L'individu s'est acheté un bouquin avec l'argent récolté.

Outre le temps passé à encoder, stocker, télécharger, il faut actuellement 24h pour décoder un fichier de 2 mégaoctets de données. C'est, évidemment, beaucoup trop long. Autre problème de cette technique : elle coûte extrêmement cher.

Selon Erlich, coder et décoder 2 mégaoctets de données coûte 7000 $ à l'heure actuelle. « Nous avons amélioré l'efficacité de la technique de 60% », explique-t-il. « Mais stocker des informations sur l'ADN est toujours très onéreux. » Cela devrait changer d'ici quelques années. Patience !