Découverte de nouvelles espèces de cyanobactéries basales. Assemblage métagénomique d'échantillons environnementaux et annotation automatique de leurs biomes par Zero-Shot Classification
Harmel, Marie
Promotor(s) : Baurain, Denis ; Cornet, Luc
Date of defense : 5-Sep-2024 • Permalink : http://hdl.handle.net/2268.2/21069
Details
Title : | Découverte de nouvelles espèces de cyanobactéries basales. Assemblage métagénomique d'échantillons environnementaux et annotation automatique de leurs biomes par Zero-Shot Classification |
Translated title : | [en] Discovery of New Basal Cyanobacteria Species: Metagenomic Assembly of Environmental Samples and Automatic Biome Annotation via Zero-Shot Classification |
Author : | Harmel, Marie |
Date of defense : | 5-Sep-2024 |
Advisor(s) : | Baurain, Denis
Cornet, Luc |
Committee's member(s) : | Tocquin, Pierre
Mayer, Alice Geurts, Pierre |
Language : | French |
Number of pages : | 55 |
Keywords : | [fr] phylogénétique [fr] Cyanobactéries [fr] Evolution de la photosynthèse [en] Machine learning [en] Zero-Shot Classification |
Discipline(s) : | Life sciences > Genetics & genetic processes |
Institution(s) : | Université de Liège, Liège, Belgique |
Degree: | Master en bioinformatique et modélisation, à finalité approfondie |
Faculty: | Master thesis of the Faculté des Sciences |
Abstract
[fr] Les cyanobactéries constituent un phylum extrêmement diversifié de procaryotes photosynthétiques, présentes dans une vaste gamme d’environnements. Intensivement étudiées, elles jouent un rôle crucial non seulement sur le plan écologique, de par leur rôles de producteurs primaires et de fixateurs de l’azote atmosphérique, et évolutif, mais également dans diverses applications biotechnologiques. À l’origine de la photosynthèse il y a au moins 2,4 milliards d’années (Sánchez Baracaldo et al., 2022 ; Stirbet et al., 2019), elles sont également responsables de l’apparition de ce processus chez les eucaryotes photosynthétiques (Cardona et al., 2015 ; Sibbald & Archibald,
2020).
Ce phylum a d’abord été classifié sur la base de critères morphologiques, conduisant à l’émergence de noms décrivant ces différents groupements (Stanier et al., 1979). Cependant, l’utilisation de données génétiques (ARNr 16S) puis génomiques plutôt que morphologiques pour définir les espèces et leur classification a entraîné des révisions successives de cette taxonomie. Ces révisions ont mis en évidence des incohérences entre la taxonomie et la phylogénie et ont posé des problèmes de compatibilité entre différents systèmes (NCBI, GTDB). En raison de la complexité liée au placement des clades les plus basaux, plusieurs taxonomies des cyanobactéries coexistent actuellement, dont une partie reste encore inexplorée, dissimulant ainsi des informations importantes sur le métabolisme des premières cyanobactéries (Cornet et al., 2021).
Dans le cadre de ce travail, une recherche systématique d’échantillons métagénomiques a été entreprise dans les bases de données publiques. Ces échantillons ont été filtrés de manière à ne garder que ceux avec une proportion minimale de reads de cyanobactéries basales, cette identification ayant été réalisée par l’outil de classification taxonomique STAT (K. S. Katz et al., 2021).
Les métadonnées associées à ces échantillons ont été récupérées à l’aide de l’outil EDirect (Kans, 2024) et d’une requête SQL. Ces métadonnées, sous forme de textes bruts, ont ensuite été soumises à bart-large-mnli, un Large Language Model capable de réaliser de la classification Zero-Shot (Wang et al., 2023). Cela a permis de générer des étiquettes décrivant les données environnementales, surpassant d’autres modèles de Natural Language Processing grâce à sa capacité à comprendre le sens des textes. Le dictionnaire d’étiquettes a été développé à partir de l’ontologie environnementale ENVO (Mungall, 2015/2024).
Parallèlement, les assemblages de ces échantillons menant à une phylogénie des cyanobactéries pré sentes a été construite grâce à l’outil GENERA (Cornet et al., 2023). L’objectif étant de combler le fossé évolutif observé entre le phylum des cyanobactéries et son groupe frère non photosynthétique, les Melainabacteria.
Cite this master thesis
The University of Liège does not guarantee the scientific quality of these students' works or the accuracy of all the information they contain.