Stockage ADN

Pierre-Yves Burgi, Université de Genève : «Tant qu’il y aura de la vie nous maîtriserons l’ADN, et donc pas de risque d’obsolescence technologique»

Le stockage ADN progresse et ses applications ne sont plus de la science fiction. Etat des lieux avec Pierre-Yves Burgi, Directeur SI adjoint à l’Université de Genève, impliqué dans un nouveau projet de recherche européen en la matière.

(Source: Braňo sur Unsplash)
(Source: Braňo sur Unsplash)

Si vous deviez résumer en quelques mots: comment fonctionne le stockage ADN?

L'idée de base est d'utiliser l'ADN non pas pour le patrimoine génétique, mais pour stocker des données numériques de toutes sortes comme du texte, des images, des vidéos, des résultats scientifiques, des archives numériques, etc. Les molécules d’ADN possèdent 4 bases, à savoir les nucléotides représentés par les lettres A, C, G, et T. Pour stocker de l’information dans l’ADN, une étape d’encodage est donc nécessaire pour passer d’une représentation binaire à une base 4. Un encodage simple consiste par exemple à faire correspondre les codes binaires 00 à A, 01 à C, 10 à G, et 11 à T. Sans entrer dans les détails, plusieurs types d’encodage sont possibles, mais ils doivent tenir compte de contraintes biologiques, comme éviter des répétitions successives des mêmes nucléotides ou de certains motifs, ainsi qu’une répartition équilibrée entre les nucléotides GC et CT. Comme le procédé chimique de fabrication des nucléotides de synthèse fonctionne avec un taux d’erreur relativement faible pour des segments inférieurs à 200 nucléotides, les fichiers binaires sont segmentés pour respecter cette limite. Pour être capable de reconstituer les fichiers par la suite, un index encodé dans la structure des nucléotides est associé à chaque segment. A cela s’ajoute des informations redondantes de correction d’erreurs. Finalement, des structures de nucléotides spécifiques, dénommés «primers» sont ajoutées en début des segments d’ADN et leur complément en bout de chaîne. Ce sont ces primers qui permettent de sélectionner des données spécifiques en les amplifiant par des mécanismes de PCR devenus populaires avec le Covid. Une fois encodés numériquement, les segments sont transmis à des machines capables de synthétiser l’ADN lettre par lettre pour créer les molécules d’ADN. Ces molécules sont ensuite conditionnées sous forme déshydratée dans des flacons. La relecture de l’ADN, à savoir le passage inverse de l’ADN à un fichier binaire se fait par une étape de séquençage des molécules, suivi de l’étape de décodage selon des algorithmes capables de corriger les erreurs. Ces erreurs, actuellement de l’ordre de 10% avec les technologies de séquençage que nous prévoyons d’utiliser, sont de plusieurs natures, et incluent des substitutions, insertions, et délétions. La combinaison de ces 3 types d'erreurs rend évidemment la tâche de correction difficile, mais réalisable grâce à des algorithmes issus entre autres de la génomique.

A quels problèmes ce type de stockage répond-il? Quels sont ses atouts? Quelles sont ses applications les plus prometteuses?

Le stockage ADN répond à la tendance actuelle d’une production exponentielle de données numériques. En effet, il est possible d’obtenir des densités de stockage de l’ordre de centaines d’exabytes par gramme d’ADN avec des durées de conservation qui vont dépendre des technologies utilisées. Ces durées peuvent aller de plusieurs décennies à plusieurs millénaires. De telles densités sur de telles périodes de temps sont deux atouts inégalés par les technologies de stockage actuelles. D’autre part, tant qu’il y aura de la vie nous maîtriserons l’ADN, et donc pas de risque d’obsolescence technologique comme c’est le cas avec les procédés magnétiques et optiques. Avec les technologies génomiques actuelles, l’application la plus prometteuse est l’archivage long terme de données patrimoniales dans un mode «write-once-read-many». Dans un avenir plus lointain, il devrait être possible d'utiliser l'ADN de la même manière qu'un disque optique réinscriptible, mais avec une densité d'information de 7 à 8 ordres de grandeur plus élevée. En effet, bien qu’il soit possible aujourd’hui de modifier des molécules d’ADN, le procédé n’est pas encore applicable à large échelle.

Voilà quelques années déjà que l'on parle de stockage ADN. Quels progrès ont été réalisés? Quels sont les principaux défis? Estimez-vous que l'on disposera un jour de solutions commerciales?

L'idée de stocker des données numériques à l'aide de molécules d'ADN remonte à la fin des années 50 avec la première expérience réalisée en 1988 qui a consisté à insérer dans l’ADN d’une bactérie 35 bits représentant des points d’une image. Depuis quelques années il y a néanmoins une accélération dans l’application de cette technologie pour atteindre 200 MB en 2018 en utilisant de l’ADN de synthèse in vitro. En octobre 2020 des entreprises high tech dans les domaines de la génétique, du stockage, et de l’informatique, à savoir Illumina, Twist Bioscience, Western Digital et Microsoft, ont créé l’alliance «DNA data storage» qui comprend à ce jour une quarantaine de membres. Cette alliance est sous l’égide de la Storage Networking Industry Association, une organisation industrielle qui élabore des normes mondiales sur toutes les technologies liées aux données. Cette alliance confère au domaine une forte composante commerciale. Aujourd’hui les défis principaux sont de réduire les coûts de synthèse et de séquençage de l’ADN et d’automatiser les processus génomiques qui demandent encore beaucoup de manipulations humaines. Le potentiel financier de ce nouveau marché fait que les membres de l'alliance apporteront l'innovation nécessaire pour répondre à ces défis à court terme, probablement d'ici 2030.

Votre groupe de recherche à l'Université de Genève participe à un projet européen dans le domaine. De quoi s'agit-il?

L’intérêt pour créer un consortium afin de participer à un projet européen m’est venu en juillet 2022 lors de l’appel à projet «Pathfinder challenge», qui répondait à mon idée d’utiliser des concepts de micro-machines conçus initialement pour l’horlogerie, pour les appliquer à la manipulation de l’ADN. Ce programme européen vise à explorer de nouvelles solutions portant sur les opérations de lecture, d’écriture et de modification des données numériques dans l'ADN synthétique, en tirant parti des avantages de la haute densité et de la stabilité de cette forme de stockage. Le projet, intitulé «DNA Microfactory for Autonomous Archiving», regroupe des équipes de 5 pays européens dont les compétences couvrent les domaines de l’algorithmique, de la génomique, de la microfluidique pour manipuler des quantités infimes d’ADN, et la mécatronique. Le partenaire suisse de la haute école ARC à Neuchâtel va se focaliser sur l’automatisation des processus en se basant sur leur expérience en micro-machines. Quant à mon équipe de l’Université de Genève, elle se concentrera sur la couche logicielle du système d’archivage. La brique de base OLOS est une plateforme suisse issue du projet DLCM réalisé dans le cadre d’un programme de swissuniversities qui vise à promouvoir la science ouverte. Cette plateforme est disponible à la communauté académique depuis 2021 et permet d’archiver les données de la recherche. OLOS permet d’archiver les données sur des supports de stockage classiques, à savoir des disques durs et bandes magnétiques. Au terme du projet européen, les utilisateurs pourront stocker leurs données dans l'ADN, sans avoir à se soucier des manipulations chimiques nécessaires pour les écrire et les lire, puisque ces opérations seront prises en charge par des micro-machines, interfacées à OLOS.

P-Y Burgy

Pierre-Yves Burgi, Directeur SI adjoint en charge du domaine fonctionnel “Recherche & Information Scientifique” à l’Université de Genève, et impliqué dans un nouveau projet européen en la matière.

Tags
Webcode
6DzZJ5Sf