Contribution à la modélisation des relations virus-vecteurs-hôtes via l'analyse protéomique du génome viral
Simankov, Nikolay
Promotor(s) : Massart, Sébastien ; Soyeurt, Hélène
Date of defense : 24-Aug-2022 • Permalink : http://hdl.handle.net/2268.2/15199
Details
Title : | Contribution à la modélisation des relations virus-vecteurs-hôtes via l'analyse protéomique du génome viral |
Translated title : | [en] Contribution to the modeling of virus-vector-host relationships via proteomic analysis analysis of the viral genome |
Author : | Simankov, Nikolay |
Date of defense : | 24-Aug-2022 |
Advisor(s) : | Massart, Sébastien
Soyeurt, Hélène |
Committee's member(s) : | Tahzima, Rachid
De Jonghe, Kris Gatto, Laurent Nauwynck, Hans Charles, Catherine |
Language : | English |
Number of pages : | 57 |
Keywords : | [en] Machine Learning [en] Plant virology [en] Vectors [en] Transmission modes [en] Prediction [en] Inliers [en] Epidemiology [en] Genomic [en] Proteomic [en] Modulome |
Discipline(s) : | Life sciences > Genetics & genetic processes Engineering, computing & technology > Computer science Engineering, computing & technology > Multidisciplinary, general & others Life sciences > Multidisciplinary, general & others |
Research unit : | Gembloux Agro-Bio-Tech |
Name of the research project : | Genopredict |
Target public : | Researchers Professionals of domain |
Institution(s) : | Université de Liège, Liège, Belgique |
Degree: | Master en bioingénieur : sciences et technologies de l'environnement, à finalité spécialisée |
Faculty: | Master thesis of the Gembloux Agro-Bio Tech (GxABT) |
Abstract
[fr] Les phytovirus constituent le groupe le plus répandu d'organismes responsables des maladies des plantes. Ils représentent un défi majeur pour le contrôle épidémiologique dans notre monde profondément interconnecté, qui facilite les nouvelles rencontres entre virus et hôtes. L'identification et la prédiction des caractéristiques biologiques des virus peuvent fournir des informations utiles sur les fonctions des virus nouvellement découverts et sur les mécanismes qui sous-tendent les processus de transmission, et peuvent servir de base à une surveillance épidémiologique fondée sur la génomique.
Dans le cadre d'un projet de recherche en cours, GenoPredict, ce travail vise à étudier comment les prédictions biologiques pour les virus végétaux nouvellement séquencés ou mal caractérisés peuvent être améliorées en explorant et en comparant les caractéristiques génomiques évolutives conservées des protéomes viraux, des connaissances génétiques, épidémiologiques et biologiques des virus végétaux bien caractérisés. Nous avons émis l'hypothèse que la combinaison des modules associés aux protéomes viraux avec des données biologiques pourrait maximiser la prédiction des vecteurs et des modes de transmission à partir des données de séquences virales. Notre tentative consiste à proposer des algorithmes de classification supervisé basés sur des bases de données virales ad-hoc complètes.
En exploitant le Modulome, un référentiel complet et unique de caractéristiques fonctionnelles virales-protéomiques et d'attributs biologiques pour les espèces virales bien caractérisées, nous proposons une méthode pour la prédiction des propriétés virales. Dans un premier temps, nous avons testé un grand nombre de méthodes de Machine learning (KNN, SVM, DT, RF, GBDT et HGBDT) pour traiter les données. Ensuite, nous avons testé et validé les modèles sur un ensemble représentatif d'espèces virales bien caractérisées, associées à leurs divers vecteurs et modes de transmission. Les méthodes les plus robustes et les plus performantes ont été sélectionnées pour construire des classificateurs multi-méthodes pondérés F1 (WMM). Les 25% les plus performants ont obtenu des scores de Kappa de Cohen compris entre 89,8% et 100% et entre 98,6% et 100% pour la prédiction des vecteurs vivants et de leurs interactions au sein du vecteur. Par ailleurs, la transmission par le matériel végétal a obtenu des scores de Kappa allant de 83,9% à 91,3%. Enfin, les vecteurs non vivants sont prédits avec des scores compris entre 79% et 100%. En outre, nous avons proposé une méthode innovante pour traiter les données potentiellement manquantes au sein des propriétés biologiques étudiées. Pour mieux comprendre nos modèles, une analyse détaillée de nos prédictions a été réalisée sur deux familles virales (Closteroviridae et Rhabdoviridae).
Avec des perspectives potentielles d'améliorations supplémentaires, telles que des analyses de dinucléotides et de K-mers, cette recherche pourrait aboutir à une prédiction fiable des propriétés biologiques des virus des plantes comme base pour une analyse préliminaire des risques et une priorisation de la recherche.
[en] Plant viruses are the most widespread group of organisms causing plant diseases, representing a major challenge for epidemiological control in our deeply interconnected world, facilitating new encounters between viruses and hosts. Identifying and predicting biological features of viruses may provide useful insight into the functions of newly discovered viruses and the mechanisms underlying transmission processes, and can provide a basis for genomic-informed epidemiological monitoring.
In the frame of a currently running research project, GenoPredict, this work seeks to investigate how biological predictions for newly sequenced or ill-characterized plant viruses may be improved using conserved evolutionary genomic features of viral proteomes and vector/host-adaptations, notionally by exploring and comparing the combination of genetic, epidemiological, and biological knowledge of well characterized plant viruses. We hypothesized that combining viral proteome-associated modules with biological data could maximize prediction of vectors and modes of transmission from viral sequence data. Our attempt is to propose supervised machine learning algorithms based on comprehensive ad-hoc virus databases.
Tapping into the Modulome, a comprehensive and unique repository of viral-proteomic functional features and biological attributes for the well characterized viral species, we propose a module-based method, for prediction of viral properties. First, we exploited a broad variety of machine learning methods (KNN, SVM, DT, RF, GBDT and HGBDT) to process data. Second, we tested and validated models on a representative set of well characterized viral species associated to their diverse vectors and different transmission modes. The most robust and well performing methods were selected to build F1-weighted multi-method (WMM) classifiers. The 25% best performing WMM, reached Cohen’s Kappa scores ranging between 89.8% and 100% and between 98.6% and 100% for the prediction of living vectors and their associations with vector transmissions. Furthermore transmission by plant material achieved Kappa scores ranging from 83.9% to 91.3%. Finaly, non-living vectors are predicted with scores in range between 79% and 100%. In addition, we proposed an innovative centroid-based method to deal with potentially missing labels within the studied biological properties. To better understand our models a detailed analysis of our predictions was realised on two viral families (Closteroviridae and Rhabdoviridae).
With potential perspectives of further improvements, such as dinucleotide and K-mers analyses, this research could result in reliable prediction of biological properties of plant viruses as a basis for preliminary risk analysis and research prioritization.
File(s)
Document(s)
Description: Faites bon usage des hyperliens
Size: 9.41 MB
Format: Adobe PDF
Annexe(s)
Description:
Size: 1.91 MB
Format: Adobe PDF
Cite this master thesis
The University of Liège does not guarantee the scientific quality of these students' works or the accuracy of all the information they contain.