Feedback

Faculté des Sciences
Faculté des Sciences
MASTER THESIS
VIEW 36 | DOWNLOAD 17

Découverte de nouvelles espèces de cyanobactéries basales. Assemblage métagénomique d'échantillons environnementaux et annotation automatique de leurs biomes par Zero-Shot Classification

Download
Harmel, Marie ULiège
Promotor(s) : Baurain, Denis ULiège ; Cornet, Luc
Date of defense : 5-Sep-2024 • Permalink : http://hdl.handle.net/2268.2/21069
Details
Title : Découverte de nouvelles espèces de cyanobactéries basales. Assemblage métagénomique d'échantillons environnementaux et annotation automatique de leurs biomes par Zero-Shot Classification
Translated title : [en] Discovery of New Basal Cyanobacteria Species: Metagenomic Assembly of Environmental Samples and Automatic Biome Annotation via Zero-Shot Classification
Author : Harmel, Marie ULiège
Date of defense  : 5-Sep-2024
Advisor(s) : Baurain, Denis ULiège
Cornet, Luc 
Committee's member(s) : Tocquin, Pierre ULiège
Mayer, Alice ULiège
Geurts, Pierre ULiège
Language : French
Number of pages : 55
Keywords : [fr] phylogénétique
[fr] Cyanobactéries
[fr] Evolution de la photosynthèse
[en] Machine learning
[en] Zero-Shot Classification
Discipline(s) : Life sciences > Genetics & genetic processes
Institution(s) : Université de Liège, Liège, Belgique
Degree: Master en bioinformatique et modélisation, à finalité approfondie
Faculty: Master thesis of the Faculté des Sciences

Abstract

[fr] Les cyanobactéries constituent un phylum extrêmement diversifié de procaryotes photosynthétiques, présentes dans une vaste gamme d’environnements. Intensivement étudiées, elles jouent un rôle crucial non seulement sur le plan écologique, de par leur rôles de producteurs primaires et de fixateurs de l’azote atmosphérique, et évolutif, mais également dans diverses applications biotechnologiques. À l’origine de la photosynthèse il y a au moins 2,4 milliards d’années (Sánchez Baracaldo et al., 2022 ; Stirbet et al., 2019), elles sont également responsables de l’apparition de ce processus chez les eucaryotes photosynthétiques (Cardona et al., 2015 ; Sibbald & Archibald,
2020).
Ce phylum a d’abord été classifié sur la base de critères morphologiques, conduisant à l’émergence de noms décrivant ces différents groupements (Stanier et al., 1979). Cependant, l’utilisation de données génétiques (ARNr 16S) puis génomiques plutôt que morphologiques pour définir les espèces et leur classification a entraîné des révisions successives de cette taxonomie. Ces révisions ont mis en évidence des incohérences entre la taxonomie et la phylogénie et ont posé des problèmes de compatibilité entre différents systèmes (NCBI, GTDB). En raison de la complexité liée au placement des clades les plus basaux, plusieurs taxonomies des cyanobactéries coexistent actuellement, dont une partie reste encore inexplorée, dissimulant ainsi des informations importantes sur le métabolisme des premières cyanobactéries (Cornet et al., 2021).
Dans le cadre de ce travail, une recherche systématique d’échantillons métagénomiques a été entreprise dans les bases de données publiques. Ces échantillons ont été filtrés de manière à ne garder que ceux avec une proportion minimale de reads de cyanobactéries basales, cette identification ayant été réalisée par l’outil de classification taxonomique STAT (K. S. Katz et al., 2021).
Les métadonnées associées à ces échantillons ont été récupérées à l’aide de l’outil EDirect (Kans, 2024) et d’une requête SQL. Ces métadonnées, sous forme de textes bruts, ont ensuite été soumises à bart-large-mnli, un Large Language Model capable de réaliser de la classification Zero-Shot (Wang et al., 2023). Cela a permis de générer des étiquettes décrivant les données environnementales, surpassant d’autres modèles de Natural Language Processing grâce à sa capacité à comprendre le sens des textes. Le dictionnaire d’étiquettes a été développé à partir de l’ontologie environnementale ENVO (Mungall, 2015/2024).
Parallèlement, les assemblages de ces échantillons menant à une phylogénie des cyanobactéries pré sentes a été construite grâce à l’outil GENERA (Cornet et al., 2023). L’objectif étant de combler le fossé évolutif observé entre le phylum des cyanobactéries et son groupe frère non photosynthétique, les Melainabacteria.


File(s)

Document(s)

File
Access TFE_Marie_2024.pdf
Description:
Size: 10.49 MB
Format: Adobe PDF

Author

  • Harmel, Marie ULiège Université de Liège > Master bioinf. & mod., fin. approf.

Promotor(s)

Committee's member(s)

  • Tocquin, Pierre ULiège Université de Liège - ULiège > Département des sciences de la vie > Care "PhytoSYSTEMS"
    ORBi View his publications on ORBi
  • Mayer, Alice ULiège Université de Liège - ULiège > Département des sciences biomédicales et précliniques > Département des sciences biomédicales et précliniques
    ORBi View his publications on ORBi
  • Geurts, Pierre ULiège Université de Liège - ULiège > Dép. d'électric., électron. et informat. (Inst.Montefiore) > Algorith. des syst. en interaction avec le monde physique
    ORBi View his publications on ORBi
  • Total number of views 36
  • Total number of downloads 17










All documents available on MatheO are protected by copyright and subject to the usual rules for fair use.
The University of Liège does not guarantee the scientific quality of these students' works or the accuracy of all the information they contain.