Feedback

Faculté des Sciences appliquées
Faculté des Sciences appliquées
Mémoire
VIEW 191 | DOWNLOAD 642

NLP Methods for Insurance Document Comparison

Télécharger
Schoffeniels, Adrien ULiège
Promoteur(s) : Ittoo, Ashwin ULiège ; Doloris, Samy
Date de soutenance : 6-sep-2021/7-sep-2021 • URL permanente : http://hdl.handle.net/2268.2/13271
Détails
Titre : NLP Methods for Insurance Document Comparison
Auteur : Schoffeniels, Adrien ULiège
Date de soutenance  : 6-sep-2021/7-sep-2021
Promoteur(s) : Ittoo, Ashwin ULiège
Doloris, Samy 
Membre(s) du jury : Fontaine, Pascal ULiège
Gribomont, Pascal ULiège
Langue : Anglais
Nombre de pages : 65
Discipline(s) : Ingénierie, informatique & technologie > Sciences informatiques
Institution(s) : Université de Liège, Liège, Belgique
Diplôme : Master en ingénieur civil en informatique, à finalité spécialisée en "intelligent systems"
Faculté : Mémoires de la Faculté des Sciences appliquées

Résumé

[en] This work aims to study the different steps of a process that would allow to compare 2 different versions of a document. This process is decomposed into 4 parts: text extraction, text segmentation, text matching and text comparison, which have been the subject of research and experiments. Especially, one show that comparing the sections of the documents rather than the complete documents improve the quality of the comparison.

The text matching task, which is the part studied in more depth, is a variant of the classification task, with the difference that there are no general categories from which we try to classify. Instead, each document has a unique set of classes, corresponding to each section, that can not be known in advance. This has many implications, mainly the fact that traditional classifiers cannot be used, as one cannot create training data for this task.

Different natural language processing (NLP) methods have been compared on the text matching task. For this purpose, a small dataset of pairs of documents with their matching has been built, and metrics inspired from the confusion matrix for the classification task has been designed, to be able to assess the performances of the different models. The models compared are term frequency (TF), TF-IDF, Word2vec combined with the Word Mover's distance, Doc2vec, BERT and RoBERTa. The different experiments show that more complex models are not suited for this matching task, and that it is preferable to use simple statistical models. Further work may investigate the performances of Latent Semantic Analysis (LSA) for this matching task.


Fichier(s)

Document(s)

File
Access Schoffeniels2020.pdf
Description: Report
Taille: 5.9 MB
Format: Adobe PDF
File
Access Schoffeniels2020abstract.pdf
Description: Abstract
Taille: 43.67 kB
Format: Adobe PDF

Auteur

  • Schoffeniels, Adrien ULiège Université de Liège > Master ingé. civ. info., à fin.

Promoteur(s)

Membre(s) du jury

  • Fontaine, Pascal ULiège Université de Liège - ULiège > Dép. d'électric., électron. et informat. (Inst.Montefiore) > Systèmes informatiques distribués
    ORBi Voir ses publications sur ORBi
  • Gribomont, Pascal ULiège Université de Liège - ULiège > Dép. d'électric., électron. et informat. (Inst.Montefiore) > Informatique et intelligence artificielle
    ORBi Voir ses publications sur ORBi
  • Nombre total de vues 191
  • Nombre total de téléchargements 642










Tous les documents disponibles sur MatheO sont protégés par le droit d'auteur et soumis aux règles habituelles de bon usage.
L'Université de Liège ne garantit pas la qualité scientifique de ces travaux d'étudiants ni l'exactitude de l'ensemble des informations qu'ils contiennent.