Contribution à la modélisation des relations virus-vecteurs-hôtes via l'analyse protéomique du génome viral

Contribution à la modélisation des relations virus-vecteurs-hôtes via l'analyse protéomique du génome viral

Simankov, Nikolay

Date de soutenance : 24-aoû-2022 • URL permanente : `http://hdl.handle.net/2268.2/15199`

Détails

Titre :	Contribution à la modélisation des relations virus-vecteurs-hôtes via l'analyse protéomique du génome viral
Titre traduit :	[en] Contribution to the modeling of virus-vector-host relationships via proteomic analysis analysis of the viral genome
Auteur :	Simankov, Nikolay
Date de soutenance :	24-aoû-2022
Promoteur(s) :	Massart, Sébastien Soyeurt, Hélène
Membre(s) du jury :	Tahzima, Rachid De Jonghe, Kris Gatto, Laurent Nauwynck, Hans Charles, Catherine
Langue :	Anglais
Nombre de pages :	57
Mots-clés :	[en] Machine Learning [en] Plant virology [en] Vectors [en] Transmission modes [en] Prediction [en] Inliers [en] Epidemiology [en] Genomic [en] Proteomic [en] Modulome
Discipline(s) :	Sciences du vivant > Génétique & processus génétiques Ingénierie, informatique & technologie > Sciences informatiques Ingénierie, informatique & technologie > Multidisciplinaire, généralités & autres Sciences du vivant > Multidisciplinaire, généralités & autres
Centre(s) de recherche :	Gembloux Agro-Bio-Tech
Intitulé du projet de recherche :	Genopredict
Public cible :	Chercheurs Professionnels du domaine
Institution(s) :	Université de Liège, Liège, Belgique
Diplôme :	Master en bioingénieur : sciences et technologies de l'environnement, à finalité spécialisée
Faculté :	Mémoires de la Gembloux Agro-Bio Tech (GxABT)

Résumé

[fr] Les phytovirus constituent le groupe le plus répandu d'organismes responsables des maladies des plantes. Ils représentent un défi majeur pour le contrôle épidémiologique dans notre monde profondément interconnecté, qui facilite les nouvelles rencontres entre virus et hôtes. L'identification et la prédiction des caractéristiques biologiques des virus peuvent fournir des informations utiles sur les fonctions des virus nouvellement découverts et sur les mécanismes qui sous-tendent les processus de transmission, et peuvent servir de base à une surveillance épidémiologique fondée sur la génomique.

Dans le cadre d'un projet de recherche en cours, GenoPredict, ce travail vise à étudier comment les prédictions biologiques pour les virus végétaux nouvellement séquencés ou mal caractérisés peuvent être améliorées en explorant et en comparant les caractéristiques génomiques évolutives conservées des protéomes viraux, des connaissances génétiques, épidémiologiques et biologiques des virus végétaux bien caractérisés. Nous avons émis l'hypothèse que la combinaison des modules associés aux protéomes viraux avec des données biologiques pourrait maximiser la prédiction des vecteurs et des modes de transmission à partir des données de séquences virales. Notre tentative consiste à proposer des algorithmes de classification supervisé basés sur des bases de données virales ad-hoc complètes.

En exploitant le Modulome, un référentiel complet et unique de caractéristiques fonctionnelles virales-protéomiques et d'attributs biologiques pour les espèces virales bien caractérisées, nous proposons une méthode pour la prédiction des propriétés virales. Dans un premier temps, nous avons testé un grand nombre de méthodes de Machine learning (KNN, SVM, DT, RF, GBDT et HGBDT) pour traiter les données. Ensuite, nous avons testé et validé les modèles sur un ensemble représentatif d'espèces virales bien caractérisées, associées à leurs divers vecteurs et modes de transmission. Les méthodes les plus robustes et les plus performantes ont été sélectionnées pour construire des classificateurs multi-méthodes pondérés F1 (WMM). Les 25% les plus performants ont obtenu des scores de Kappa de Cohen compris entre 89,8% et 100% et entre 98,6% et 100% pour la prédiction des vecteurs vivants et de leurs interactions au sein du vecteur. Par ailleurs, la transmission par le matériel végétal a obtenu des scores de Kappa allant de 83,9% à 91,3%. Enfin, les vecteurs non vivants sont prédits avec des scores compris entre 79% et 100%. En outre, nous avons proposé une méthode innovante pour traiter les données potentiellement manquantes au sein des propriétés biologiques étudiées. Pour mieux comprendre nos modèles, une analyse détaillée de nos prédictions a été réalisée sur deux familles virales (Closteroviridae et Rhabdoviridae).

Avec des perspectives potentielles d'améliorations supplémentaires, telles que des analyses de dinucléotides et de K-mers, cette recherche pourrait aboutir à une prédiction fiable des propriétés biologiques des virus des plantes comme base pour une analyse préliminaire des risques et une priorisation de la recherche.

[en] Plant viruses are the most widespread group of organisms causing plant diseases, representing a major challenge for epidemiological control in our deeply interconnected world, facilitating new encounters between viruses and hosts. Identifying and predicting biological features of viruses may provide useful insight into the functions of newly discovered viruses and the mechanisms underlying transmission processes, and can provide a basis for genomic-informed epidemiological monitoring.

In the frame of a currently running research project, GenoPredict, this work seeks to investigate how biological predictions for newly sequenced or ill-characterized plant viruses may be improved using conserved evolutionary genomic features of viral proteomes and vector/host-adaptations, notionally by exploring and comparing the combination of genetic, epidemiological, and biological knowledge of well characterized plant viruses. We hypothesized that combining viral proteome-associated modules with biological data could maximize prediction of vectors and modes of transmission from viral sequence data. Our attempt is to propose supervised machine learning algorithms based on comprehensive ad-hoc virus databases.

Tapping into the Modulome, a comprehensive and unique repository of viral-proteomic functional features and biological attributes for the well characterized viral species, we propose a module-based method, for prediction of viral properties. First, we exploited a broad variety of machine learning methods (KNN, SVM, DT, RF, GBDT and HGBDT) to process data. Second, we tested and validated models on a representative set of well characterized viral species associated to their diverse vectors and different transmission modes. The most robust and well performing methods were selected to build F1-weighted multi-method (WMM) classifiers. The 25% best performing WMM, reached Cohen’s Kappa scores ranging between 89.8% and 100% and between 98.6% and 100% for the prediction of living vectors and their associations with vector transmissions. Furthermore transmission by plant material achieved Kappa scores ranging from 83.9% to 91.3%. Finaly, non-living vectors are predicted with scores in range between 79% and 100%. In addition, we proposed an innovative centroid-based method to deal with potentially missing labels within the studied biological properties. To better understand our models a detailed analysis of our predictions was realised on two viral families (Closteroviridae and Rhabdoviridae).

With potential perspectives of further improvements, such as dinucleotide and K-mers analyses, this research could result in reliable prediction of biological properties of plant viruses as a basis for preliminary risk analysis and research prioritization.

Fichier(s)

Document(s)

Nikolay_Simankov_s164225_TFE.pdf
Description: Faites bon usage des hyperliens
Taille: 9.41 MB
Format: Adobe PDF

Demander un tiré à part

Annexe(s)

Nikolay_Simankov_s164225_Annexes.pdf
Description:
Taille: 1.91 MB
Format: Adobe PDF

Demander un tiré à part

Citer ce mémoire

Tous les documents disponibles sur MatheO sont protégés par le droit d'auteur et soumis aux règles habituelles de bon usage.
L'Université de Liège ne garantit pas la qualité scientifique de ces travaux d'étudiants ni l'exactitude de l'ensemble des informations qu'ils contiennent.

Mémoire

Contribution à la modélisation des relations virus-vecteurs-hôtes via l'analyse protéomique du génome viral

Simankov, Nikolay

Promoteur(s) : Massart, Sébastien ; Soyeurt, Hélène

Date de soutenance : 24-aoû-2022 • URL permanente : http://hdl.handle.net/2268.2/15199

Détails

Résumé

Fichier(s)

Document(s)

Annexe(s)

Auteur

Promoteur(s)

Membre(s) du jury

Citer ce mémoire

Date de soutenance : 24-aoû-2022 • URL permanente : `http://hdl.handle.net/2268.2/15199`