Optimisation d'une procédure d'analyses de données RNA-Seq chez l'allotétrapoïde Brassica napus
Stévenne, Pauline
Promotor(s) : Hanikenne, Marc
Date of defense : 4-Sep-2020 • Permalink : http://hdl.handle.net/2268.2/9835
Details
Title : | Optimisation d'une procédure d'analyses de données RNA-Seq chez l'allotétrapoïde Brassica napus |
Translated title : | [en] Optimization of an RNA-Seq analysis pipeline in the Brassica napus allotetraploid |
Author : | Stévenne, Pauline |
Date of defense : | 4-Sep-2020 |
Advisor(s) : | Hanikenne, Marc |
Committee's member(s) : | Nouet, Cécile
Baurain, Denis Druet, Tom Peers, Bernard |
Language : | French |
Number of pages : | 95 |
Discipline(s) : | Life sciences > Phytobiology (plant sciences, forestry, mycology...) |
Institution(s) : | Université de Liège, Liège, Belgique |
Degree: | Master en bioinformatique et modélisation, à finalité approfondie |
Faculty: | Master thesis of the Faculté des Sciences |
Abstract
[fr] Dans le contexte du projet ECOSOL qui vise la valorisation de friches industrielles par la
production de molécules à haute valeur ajoutée, six variétés de colza (Brassica napus) ont
été cultivées sur une friche pilote sur deux parcelles avec des profils de pollution différents.
Une analyse des gènes différentiellement exprimés entre les deux parcelles et un terrain
agricole témoin a été entreprise par RNA-Seq. B. napus est une espèce allotétraploïde
provenant de l’hybridation naturelle entre (B. rapa et B. oleracea).
Étant donné le nombre élevé de séquences s’alignant sur différents gènes des deux sous-
génomes, certaines étapes de l’analyse RNA-Seq telles que le compte des séquences
alignées sur le génome de référence ainsi que l’assignation à des gènes sont critiques. Peu
d’information concernant la gestion de cette ambiguïté sont disponibles dans la littérature.
Le but principal de ce mémoire était donc d‘identifier la combinaison de programmes et
d’options permettant d’éviter la sur- ou sous-estimation de l’expression des gènes tout en
tenant compte de la présence de gènes homéologues caractéristiques de cette espèce.
Plusieurs comparaisons ont été effectuées concernant le comptage des séquences assignées
à des gènes. Celles-ci se basent sur l’utilisation de featureCounts et htseq-count ainsi
que l’application ou non de leurs options respectives pour gérer les alignements multiples.
Pour ces différentes analyses, featureCounts présente un nombre de gènes pour lesquels
aucune séquence ne s’aligne sur le génome de référence plus faible que pour les autres
méthodes. Ce programme permet également de préserver une bonne capacité à détecter
des différences d’expression entre les gènes de paires homéologues. Pour finir, le nombre
de gènes différentiellement exprimés (DEG) au sein de plantes exposées à des profils de
pollution différents est plus élevé lors de l’utilisation de cette méthode.
En conclusion, il semblerait donc que l’utilisation de featureCounts en tenant compte
des alignements multiples est la méthode la plus adéquate afin de prendre en compte
l’expression différentielle d’un maximum de gènes.
File(s)
Document(s)
Description: -
Size: 1.93 MB
Format: Adobe PDF
Cite this master thesis
The University of Liège does not guarantee the scientific quality of these students' works or the accuracy of all the information they contain.