Un geek chez les virologistes

Il n’arpente pas les berges, les plages ou autres vasières. Il ne travaille pas à la paillasse d’un laboratoire. Pourtant il est lui aussi un chasseur de virus ! Son terrain de prédilection est un bureau et son arme favorite, un ordinateur. Sourakhata Tirera est bioinformaticien au Laboratoire des Interactions Virus Hôtes : il utilise l’informatique pour traquer des virus comme la Grippe ou pour en découvrir de nouveaux chez les oiseaux migrateurs !

A la télé et peut-être dans le futur, on verrait les chercheurs découper un bout de plume, le placer dans un appareil plein d’écrans et en sortir la liste détaillée des virus les plus rares.

Dans la réalité, c’est une autre histoire !

Les chercheurs capturent des oiseaux sur des sites choisis. Ils baguent chaque individu, estiment son âge font un prélèvement de sang ainsi que sur le bec et dans le cloaque avant de le relâcher. Chaque échantillon comprend des tas de molécules. De retour au laboratoire à Cayenne, l’ensemble des gènes qu’ils contiennent seront isolés[1] puis copiés de multiples fois[2].

Les échantillons sont conservés à -80°C
Les échantillons sont conservés à -80°C

Ce matériel génétique est envoyé à une entreprise qui assure son « décodage »[3] grâce à la technologie NGS[4]. C’est à réception des milliers de séquences de gènes de plus ou moins grande taille, sous forme de données informatiques, que le travail du bioinformaticien démarre.

En concertation avec les biologistes, Sourakhata conçoit puis met en œuvre une « chaine de traitement » : il devra s’assurer de la qualité des données, reconstituer l’information génétique, la recouper et les comparer aux bases de données existantes dans le monde entier… pour identifier des virus connus ou non.

Si un échantillon correspondait à un paquet de pages diverses et que les virus étaient des poèmes, c’est un peu comme si le jeune homme devait faire le tri dans les millions de mots (le matériel génétique), repérer des bouts de phrases (les séquences) qui permettront d’identifier les poèmes dont ils sont issus (tout ou partie des gènes d’un virus, connu ou pas).

Ce traitement informatique nécessite d’utiliser des programmes adéquats ou d’en développer, de les faire « tourner » sur de puissants ordinateurs. A l’instar de quelques équipes sur le département, le LIVH était déjà doté de capacités de calculs propres ; le projet BirDiV leur a tout récemment permis de renforcer l’arsenal de Sourakhata d’un serveur informatique qui avec 28 cœurs[5] a doublé leurs capacités de calcul.

Voilà les oiseaux migrateurs prévenus : aucun de leurs virus n’échappera aux virologistes de l’Institut Pasteur ces deux prochaines années !

[1] On parle de purification.
[2] On parle d’amplification.
[3] Séquençage
[4] On désigne par séquençage haut débit (HTS pour high-throughput sequencing) aussi appelé NGS pour next-generation sequencing un ensemble de méthodes apparues à partir de 2005 produisant des millions de séquences .
[5] En informatique, un cœur physique (« core » en anglais) est un ensemble de circuits capables d’exécuter des programmes de façon autonome. Les microprocesseurs des ordinateurs/serveurs/calculateurs peuvent aujourd’hui en posséder plusieurs qui fonctionnent simultanément.