Feedback

Faculté des Sciences
Faculté des Sciences
Mémoire
VIEW 36 | DOWNLOAD 17

Découverte de nouvelles espèces de cyanobactéries basales. Assemblage métagénomique d'échantillons environnementaux et annotation automatique de leurs biomes par Zero-Shot Classification

Télécharger
Harmel, Marie ULiège
Promoteur(s) : Baurain, Denis ULiège ; Cornet, Luc
Date de soutenance : 5-sep-2024 • URL permanente : http://hdl.handle.net/2268.2/21069
Détails
Titre : Découverte de nouvelles espèces de cyanobactéries basales. Assemblage métagénomique d'échantillons environnementaux et annotation automatique de leurs biomes par Zero-Shot Classification
Titre traduit : [en] Discovery of New Basal Cyanobacteria Species: Metagenomic Assembly of Environmental Samples and Automatic Biome Annotation via Zero-Shot Classification
Auteur : Harmel, Marie ULiège
Date de soutenance  : 5-sep-2024
Promoteur(s) : Baurain, Denis ULiège
Cornet, Luc 
Membre(s) du jury : Tocquin, Pierre ULiège
Mayer, Alice ULiège
Geurts, Pierre ULiège
Langue : Français
Nombre de pages : 55
Mots-clés : [fr] phylogénétique
[fr] Cyanobactéries
[fr] Evolution de la photosynthèse
[en] Machine learning
[en] Zero-Shot Classification
Discipline(s) : Sciences du vivant > Génétique & processus génétiques
Institution(s) : Université de Liège, Liège, Belgique
Diplôme : Master en bioinformatique et modélisation, à finalité approfondie
Faculté : Mémoires de la Faculté des Sciences

Résumé

[fr] Les cyanobactéries constituent un phylum extrêmement diversifié de procaryotes photosynthétiques, présentes dans une vaste gamme d’environnements. Intensivement étudiées, elles jouent un rôle crucial non seulement sur le plan écologique, de par leur rôles de producteurs primaires et de fixateurs de l’azote atmosphérique, et évolutif, mais également dans diverses applications biotechnologiques. À l’origine de la photosynthèse il y a au moins 2,4 milliards d’années (Sánchez Baracaldo et al., 2022 ; Stirbet et al., 2019), elles sont également responsables de l’apparition de ce processus chez les eucaryotes photosynthétiques (Cardona et al., 2015 ; Sibbald & Archibald,
2020).
Ce phylum a d’abord été classifié sur la base de critères morphologiques, conduisant à l’émergence de noms décrivant ces différents groupements (Stanier et al., 1979). Cependant, l’utilisation de données génétiques (ARNr 16S) puis génomiques plutôt que morphologiques pour définir les espèces et leur classification a entraîné des révisions successives de cette taxonomie. Ces révisions ont mis en évidence des incohérences entre la taxonomie et la phylogénie et ont posé des problèmes de compatibilité entre différents systèmes (NCBI, GTDB). En raison de la complexité liée au placement des clades les plus basaux, plusieurs taxonomies des cyanobactéries coexistent actuellement, dont une partie reste encore inexplorée, dissimulant ainsi des informations importantes sur le métabolisme des premières cyanobactéries (Cornet et al., 2021).
Dans le cadre de ce travail, une recherche systématique d’échantillons métagénomiques a été entreprise dans les bases de données publiques. Ces échantillons ont été filtrés de manière à ne garder que ceux avec une proportion minimale de reads de cyanobactéries basales, cette identification ayant été réalisée par l’outil de classification taxonomique STAT (K. S. Katz et al., 2021).
Les métadonnées associées à ces échantillons ont été récupérées à l’aide de l’outil EDirect (Kans, 2024) et d’une requête SQL. Ces métadonnées, sous forme de textes bruts, ont ensuite été soumises à bart-large-mnli, un Large Language Model capable de réaliser de la classification Zero-Shot (Wang et al., 2023). Cela a permis de générer des étiquettes décrivant les données environnementales, surpassant d’autres modèles de Natural Language Processing grâce à sa capacité à comprendre le sens des textes. Le dictionnaire d’étiquettes a été développé à partir de l’ontologie environnementale ENVO (Mungall, 2015/2024).
Parallèlement, les assemblages de ces échantillons menant à une phylogénie des cyanobactéries pré sentes a été construite grâce à l’outil GENERA (Cornet et al., 2023). L’objectif étant de combler le fossé évolutif observé entre le phylum des cyanobactéries et son groupe frère non photosynthétique, les Melainabacteria.


Fichier(s)

Document(s)

File
Access TFE_Marie_2024.pdf
Description:
Taille: 10.49 MB
Format: Adobe PDF

Auteur

  • Harmel, Marie ULiège Université de Liège > Master bioinf. & mod., fin. approf.

Promoteur(s)

Membre(s) du jury

  • Tocquin, Pierre ULiège Université de Liège - ULiège > Département des sciences de la vie > Care "PhytoSYSTEMS"
    ORBi Voir ses publications sur ORBi
  • Mayer, Alice ULiège Université de Liège - ULiège > Département des sciences biomédicales et précliniques > Département des sciences biomédicales et précliniques
    ORBi Voir ses publications sur ORBi
  • Geurts, Pierre ULiège Université de Liège - ULiège > Dép. d'électric., électron. et informat. (Inst.Montefiore) > Algorith. des syst. en interaction avec le monde physique
    ORBi Voir ses publications sur ORBi
  • Nombre total de vues 36
  • Nombre total de téléchargements 17










Tous les documents disponibles sur MatheO sont protégés par le droit d'auteur et soumis aux règles habituelles de bon usage.
L'Université de Liège ne garantit pas la qualité scientifique de ces travaux d'étudiants ni l'exactitude de l'ensemble des informations qu'ils contiennent.