Feedback

HEC-Ecole de gestion de l'Université de Liège
HEC-Ecole de gestion de l'Université de Liège
Mémoire
VIEW 145 | DOWNLOAD 844

Predicting review helpfulness : the case of class imbalance

Télécharger
Delic, Leïla ULiège
Promoteur(s) : Ittoo, Ashwin ULiège
Date de soutenance : 21-jui-2019/25-jui-2019 • URL permanente : http://hdl.handle.net/2268.2/6399
Détails
Titre : Predicting review helpfulness : the case of class imbalance
Auteur : Delic, Leïla ULiège
Date de soutenance  : 21-jui-2019/25-jui-2019
Promoteur(s) : Ittoo, Ashwin ULiège
Membre(s) du jury : Heuchenne, Cédric ULiège
Hoffait, Anne-Sophie ULiège
Langue : Anglais
Nombre de pages : 67
Mots-clés : [en] Machine learning
[en] Review helpfulness
[en] Text classification
[en] Class imbalance
[en] Prediction
[en] Online customer review
Discipline(s) : Sciences économiques & de gestion > Gestion des systèmes d'information
Institution(s) : Université de Liège, Liège, Belgique
Diplôme : Master en ingénieur de gestion, à finalité spécialisée en Supply Chain Management and Business Analytics
Faculté : Mémoires de la HEC-Ecole de gestion de l'Université de Liège

Résumé

[en] Online reviews are becoming increasingly abundant, which makes them sometimes overwhelming for the users. To mitigate the problem of information overload, online retailers often proceed to display them according to their helpfulness to other users. In recent years, research has been aimed at finding efficient ways to automatically predict review helpfulness. This paper offers insight on both the most appropriate algorithm for the task of predicting review helpfulness in the specific context of class imbalance and high overlap of class features, and on the pre-processing techniques which can improve classifier performance in that context. To do so, it considers three classification algorithms: random forest, multinomial naive Bayes and linear support vector machine that uses stochastic gradient descent for learning.
It shows that : (1) none of the considered algorithm exhibit satisfying performance when facing imbalanced datasets and similar class features; (2) the use of linguistic pre-processing techniques results in marginal or no improvement; (3) the use of frequency-based pre- processing yields moderate improvement; (4) re-sampling techniques are highly efficient, especially Synthetic Minority Over-sampling TEchnique (SMOTE); (5) Overall, random forest combined with SMOTE shows the best performance in terms of precision, recall and F1-score.


Fichier(s)

Document(s)

File
Access masterThesis_LeilaDelic.pdf
Description:
Taille: 742.97 kB
Format: Adobe PDF

Auteur

  • Delic, Leïla ULiège Université de Liège > Master ingé. gest., à fin.

Promoteur(s)

Membre(s) du jury

  • Heuchenne, Cédric ULiège Université de Liège - ULiège > HEC Liège : UER > Statistique appliquée à la gestion et à l'économie
    ORBi Voir ses publications sur ORBi
  • Hoffait, Anne-Sophie ULiège Université de Liège - ULiège > HEC Liège : UER > Statistique appliquée à la gestion et à l'économie
    ORBi Voir ses publications sur ORBi
  • Nombre total de vues 145
  • Nombre total de téléchargements 844










Tous les documents disponibles sur MatheO sont protégés par le droit d'auteur et soumis aux règles habituelles de bon usage.
L'Université de Liège ne garantit pas la qualité scientifique de ces travaux d'étudiants ni l'exactitude de l'ensemble des informations qu'ils contiennent.