Feedback

Faculté des Sciences
Faculté des Sciences
MASTER THESIS

Inférence de réseaux génétiques à partir de la littérature scientifique de Chlamydomonas reinhardtii : conception d'un package R

Download
Lété, Jonathan ULiège
Promotor(s) : Meyer, Patrick ULiège
Date of defense : 6-Sep-2017 • Permalink : http://hdl.handle.net/2268.2/3243
Details
Title : Inférence de réseaux génétiques à partir de la littérature scientifique de Chlamydomonas reinhardtii : conception d'un package R
Author : Lété, Jonathan ULiège
Date of defense  : 6-Sep-2017
Advisor(s) : Meyer, Patrick ULiège
Committee's member(s) : Cardol, Pierre ULiège
Baurain, Denis ULiège
Franck, Fabrice ULiège
Language : French
Number of pages : 61
Keywords : [en] Bibliomics
[en] Automated gene-name identification
[en] NER
[en] Machine learning
[en] R package
Discipline(s) : Life sciences > Biotechnology
Engineering, computing & technology > Computer science
Target public : Researchers
General public
Institution(s) : Université de Liège, Liège, Belgique
Degree: Master en biochimie et biologie moléculaire et cellulaire, à finalité spécialisée en bioinformatique et modélisation
Faculty: Master thesis of the Faculté des Sciences

Abstract

[fr] La fouille de textes (text mining) comme outil de création automatique de réseaux génétiques.

Avec l’amélioration constante de la vitesse et de l’accessibilité des techniques de génomique, transcriptomique et protéomique, la quantité de données disponible pour ces secteurs de recherche ne cesse d’augmenter. Malheureusement, la majorité de ces informations est encore stockée sous forme de documents textes non structurés et ce malgré la présence de certaines bases de données spécialisées.

Toutefois, une technique existe pour interpréter automatiquement ces documents textes et en retirer les informations utiles : la "fouille de textes" (text mining). Bien que généralement utilisée dans d’autres secteurs que la biologie, par exemple pour extraire les mots revenant le plus souvent sur twitter, elle est toutefois capable d’isoler des informations bien plus ciblées telle que la relation entre deux gènes.
Cette technique consiste à appliquer des analyses statistiques sur l’ensemble des mots issus d’un groupe de textes qui aura préalablement subi différents traitements tels que la séparation en phrases, la suppression de la ponctuation, etc ...

Le but était ici de développer un package R capable de rechercher automatiquement, sur base d’un ou plusieurs mot clé spécifiés par l’utilisateur (Chlamydomonas reinhardtii, ...), les documents disponibles sur une base de données ("PubMed", ...), de les analyser et d’en extraire un réseau génétique d’interactions entre les différents gènes issus de ces documents.

Au final, malgré l’identification de relations entre gènes d’espèces différentes à cause de sa capacité à isoler les gènes de plusieurs espèces, les prédictions générées par notre modèle peuvent être considérées comme satisfaisantes (score F1 de 68% pour l’identification des gènes dans le corpus CRAFT) compte tenu du fait qu’il n’utilise aucune ressource externe spécifique au type d’organisme analysé.

La version finale de la librairie R "GeneMining" construite tout au long de ce mémoire est disponible sur le site http://www.biosys.ulg.ac.be/students/Lete/GeneMining_0.4.0.tar.gz.
Enfin, les résultats intermédiaires obtenus au cours de ce mémoire ont fait l’objet de l’écriture d’un article pour la sixième conférence internationale de bioinformatique et sciences biomédicales à Singapour. L’article en question peut être consulté à l’adresse suivante : http://www.biosys.ulg.ac.be/students/Lete/ICBBS2017.pdf.


File(s)

Document(s)

File
Access LETE - Thesis - Final.pdf
Description: -
Size: 5.11 MB
Format: Adobe PDF

Author

  • Lété, Jonathan ULiège Université de Liège > Master bioch. & biol. mol. & cel., à fin.

Promotor(s)

Committee's member(s)

  • Cardol, Pierre ULiège Université de Liège - ULg > Département des sciences de la vie > Génétique et physiologie des microalgues
    ORBi View his publications on ORBi
  • Baurain, Denis ULiège Université de Liège - ULg > Département des sciences de la vie > Phylogénomique des eucaryotes
    ORBi View his publications on ORBi
  • Franck, Fabrice ULiège Université de Liège - ULg > Département des sciences de la vie > Département des sciences de la vie
    ORBi View his publications on ORBi








All documents available on MatheO are protected by copyright and subject to the usual rules for fair use.
The University of Liège does not guarantee the scientific quality of these students' works or the accuracy of all the information they contain.