Feedback

Faculté des Sciences
Faculté des Sciences
Mémoire

Inférence de réseaux génétiques à partir de la littérature scientifique de Chlamydomonas reinhardtii : conception d'un package R

Télécharger
Lété, Jonathan ULiège
Promoteur(s) : Meyer, Patrick ULiège
Date de soutenance : 6-sep-2017 • URL permanente : http://hdl.handle.net/2268.2/3243
Détails
Titre : Inférence de réseaux génétiques à partir de la littérature scientifique de Chlamydomonas reinhardtii : conception d'un package R
Auteur : Lété, Jonathan ULiège
Date de soutenance  : 6-sep-2017
Promoteur(s) : Meyer, Patrick ULiège
Membre(s) du jury : Cardol, Pierre ULiège
Baurain, Denis ULiège
Franck, Fabrice ULiège
Langue : Français
Nombre de pages : 61
Mots-clés : [en] Bibliomics
[en] Automated gene-name identification
[en] NER
[en] Machine learning
[en] R package
Discipline(s) : Sciences du vivant > Biotechnologie
Ingénierie, informatique & technologie > Sciences informatiques
Public cible : Chercheurs
Grand public
Institution(s) : Université de Liège, Liège, Belgique
Diplôme : Master en biochimie et biologie moléculaire et cellulaire, à finalité spécialisée en bioinformatique et modélisation
Faculté : Mémoires de la Faculté des Sciences

Résumé

[fr] La fouille de textes (text mining) comme outil de création automatique de réseaux génétiques.

Avec l’amélioration constante de la vitesse et de l’accessibilité des techniques de génomique, transcriptomique et protéomique, la quantité de données disponible pour ces secteurs de recherche ne cesse d’augmenter. Malheureusement, la majorité de ces informations est encore stockée sous forme de documents textes non structurés et ce malgré la présence de certaines bases de données spécialisées.

Toutefois, une technique existe pour interpréter automatiquement ces documents textes et en retirer les informations utiles : la "fouille de textes" (text mining). Bien que généralement utilisée dans d’autres secteurs que la biologie, par exemple pour extraire les mots revenant le plus souvent sur twitter, elle est toutefois capable d’isoler des informations bien plus ciblées telle que la relation entre deux gènes.
Cette technique consiste à appliquer des analyses statistiques sur l’ensemble des mots issus d’un groupe de textes qui aura préalablement subi différents traitements tels que la séparation en phrases, la suppression de la ponctuation, etc ...

Le but était ici de développer un package R capable de rechercher automatiquement, sur base d’un ou plusieurs mot clé spécifiés par l’utilisateur (Chlamydomonas reinhardtii, ...), les documents disponibles sur une base de données ("PubMed", ...), de les analyser et d’en extraire un réseau génétique d’interactions entre les différents gènes issus de ces documents.

Au final, malgré l’identification de relations entre gènes d’espèces différentes à cause de sa capacité à isoler les gènes de plusieurs espèces, les prédictions générées par notre modèle peuvent être considérées comme satisfaisantes (score F1 de 68% pour l’identification des gènes dans le corpus CRAFT) compte tenu du fait qu’il n’utilise aucune ressource externe spécifique au type d’organisme analysé.

La version finale de la librairie R "GeneMining" construite tout au long de ce mémoire est disponible sur le site http://www.biosys.ulg.ac.be/students/Lete/GeneMining_0.4.0.tar.gz.
Enfin, les résultats intermédiaires obtenus au cours de ce mémoire ont fait l’objet de l’écriture d’un article pour la sixième conférence internationale de bioinformatique et sciences biomédicales à Singapour. L’article en question peut être consulté à l’adresse suivante : http://www.biosys.ulg.ac.be/students/Lete/ICBBS2017.pdf.


Fichier(s)

Document(s)

File
Access LETE - Thesis - Final.pdf
Description: -
Taille: 5.11 MB
Format: Adobe PDF

Auteur

  • Lété, Jonathan ULiège Université de Liège > Master bioch. & biol. mol. & cel., à fin.

Promoteur(s)

Membre(s) du jury

  • Cardol, Pierre ULiège Université de Liège - ULg > Département des sciences de la vie > Génétique et physiologie des microalgues
    ORBi Voir ses publications sur ORBi
  • Baurain, Denis ULiège Université de Liège - ULg > Département des sciences de la vie > Phylogénomique des eucaryotes
    ORBi Voir ses publications sur ORBi
  • Franck, Fabrice ULiège Université de Liège - ULg > Département des sciences de la vie > Département des sciences de la vie
    ORBi Voir ses publications sur ORBi








Tous les documents disponibles sur MatheO sont protégés par le droit d'auteur et soumis aux règles habituelles de bon usage.
L'Université de Liège ne garantit pas la qualité scientifique de ces travaux d'étudiants ni l'exactitude de l'ensemble des informations qu'ils contiennent.