Quelle est la plus-value d'une exploitation de dossiers médicaux informatisés par Natural Language Processing? - Etude comparative par rapport à une extraction de données structurées.
Velotta, Sandra
Promotor(s) : JACQUES, Jessica ; GILLET, Pierre
Date of defense : 1-Sep-2021/3-Sep-2021 • Permalink : http://hdl.handle.net/2268.2/12731
Details
Title : | Quelle est la plus-value d'une exploitation de dossiers médicaux informatisés par Natural Language Processing? - Etude comparative par rapport à une extraction de données structurées. |
Translated title : | [fr] Quelle est la plus-value d'une exploitation de dossiers médicaux informatisés par Natural Language Processing? - Étude comparative par rapport à une extraction de données structurées |
Author : | Velotta, Sandra |
Date of defense : | 1-Sep-2021/3-Sep-2021 |
Advisor(s) : | JACQUES, Jessica
GILLET, Pierre |
Committee's member(s) : | COUCKE, Philippe
Geurts, Pierre Ittoo, Ashwin |
Language : | French |
Number of pages : | 58 |
Keywords : | [fr] Dossier médical informatisé - [fr] Traitement du langage naturel - [fr] données médicales |
Discipline(s) : | Human health sciences > Public health, health care sciences & services |
Target public : | Researchers Professionals of domain Student General public Other |
Institution(s) : | Université de Liège, Liège, Belgique |
Degree: | Master en sciences de la santé publique, à finalité spécialisée en gestion des institutions de soins |
Faculty: | Master thesis of the Faculté de Médecine |
Abstract
[fr] Introduction : La gestion de données médicales au sein d’un hôpital est indispensable. En effet, l’exploitation des données de santé a pour intérêt d’aider les politiques de santé, la recherche scientifique ainsi que les gestionnaires des institutions de soins. Ces informations sont regroupées dans le dossier médical informatisé, où se côtoient des données structurées et non structurées, pouvant présenter des avantages comme des inconvénients. Les nouvelles technologies essaient d’exploiter ces données de manière idéale, offrant de nouvelles perspectives en combinant différentes applications. Une source utilisant le texte libre est difficilement exploitable. Dès lors, le NLP devient un atout. La comparaison de cette source avec une source utilisant des données structurées au travers d’une définition institutionnelle permettrait de déterminer la plus-value de cet outil manipulant le NLP.
Méthodologie : Cette étude compare deux méthodes ayant pour objectif d’identifier les patients diabétiques. La 1ère liste est composée de patients identifiés par l’exploitation de données structurées alors que la 2ème liste reprend les patients identifiés par l’outil de NLP. Pour ce faire, des données ont été extraites sur une période d’un an et des tables de contingence ont été créées afin de comparer la capacité des deux méthodes à identifier les patients atteints de diabète. Une revue de dossiers au sein du DMI a ensuite été réalisée afin de vérifier si les méthodes identifient correctement le statut diabétique du patient.
Résultats : L’outil de NLP identifie 34 218 patients que la méthode standardisée ne repère pas. Sur base d’une revue de dossiers de 100 patients, les patients identifiés uniquement par cette méthode présentent un taux de 94% de faux positifs. Pour la méthode standardisée, 5 691 patients ont été identifiés comme étant diabétiques uniquement par cette méthode. L’analyse démontre que 100% de vrais positifs sont identifiés par l’anamnèse infirmière, alors que le critère HBG >ou= 5,7% entraîne 75% de faux positifs.
Conclusion : Pour la méthode standardisée, les 3 critères de la définition institutionnelle sont fiables. L’information complémentaire « metformine » semble intéressante à intégrer. Par contre, l’HBG >ou= 5,7% est trop large. L’outil de NLP n’apporte pas de plus-value dans l’immédiat.
File(s)
Document(s)
Cite this master thesis
The University of Liège does not guarantee the scientific quality of these students' works or the accuracy of all the information they contain.