Feedback

Faculté des Sciences appliquées
Faculté des Sciences appliquées
Mémoire
VIEW 78 | DOWNLOAD 92

Representing Jupyter Notebooks with Knowledge Graphs to Address Data Lineage Problems

Télécharger
Birtles, Alixia ULiège
Promoteur(s) : Debruyne, Christophe ULiège
Date de soutenance : 24-jui-2024/25-jui-2024 • URL permanente : http://hdl.handle.net/2268.2/20479
Détails
Titre : Representing Jupyter Notebooks with Knowledge Graphs to Address Data Lineage Problems
Titre traduit : [fr] Représentation de Notebooks Jupyter à l'aide de graphes de connaissances pour résoudre des problèmes de traçabilité de données
Auteur : Birtles, Alixia ULiège
Date de soutenance  : 24-jui-2024/25-jui-2024
Promoteur(s) : Debruyne, Christophe ULiège
Membre(s) du jury : Geurts, Pierre ULiège
Ittoo, Ashwin ULiège
Langue : Anglais
Nombre de pages : 80
Mots-clés : [en] Data Lineage
[en] Jupyter Notebook
[en] Knowledge Graph
[en] PROV-O Ontology
[en] RML
Discipline(s) : Ingénierie, informatique & technologie > Sciences informatiques
Public cible : Chercheurs
Professionnels du domaine
Etudiants
Institution(s) : Université de Liège, Liège, Belgique
Diplôme : Master : ingénieur civil en science des données, à finalité spécialisée
Faculté : Mémoires de la Faculté des Sciences appliquées

Résumé

[en] In data science, data lineage is a crucial aspect that is often insufficiently considered. To
address challenges related to data lineage, the approach presented in this thesis leverages
knowledge graphs and data provenance.
The PROV-O ontology and the FOAF vocabulary are harnessed to design a structure, along
with defined terms. This ontology aims to represent the information extracted from Jupyter
notebooks, tools often used in data science. Additionally, public APIs are leveraged to enrich
the graph.
Initially, the RML language was used to map the data, but it was too limiting and led to
the consideration of the RDFLib library in Python. RMLMapper and Morph-KGC have been
considered, but the former does not have the required extension to access the desired data
in the source code, while the latter has iterator challenges and does not support theta-joins.
The correctness of the approach was validated with visualization in GraphDb and SPARQL
queries. A complex query related to the extraction of licenses demonstrated the feasibility of
the approach and the ability to answer questions about data lineage. Moreover, experimentation
with queries on a real-world dataset, the KGTorrent dataset, showed the effectiveness of
the approach. Performance measurements on the construction of the graph and on SPARQL
queries in real-world conditions led to promising results.


Fichier(s)

Document(s)

File
Access Resume_AlixiaBirtles.pdf
Description:
Taille: 61.8 kB
Format: Adobe PDF
File
Access Thesis_AlixiaBirtles.pdf
Description:
Taille: 1.19 MB
Format: Adobe PDF

Auteur

  • Birtles, Alixia ULiège Université de Liège > Mast. ing. civ. sc. don. fin. spéc.

Promoteur(s)

Membre(s) du jury

  • Geurts, Pierre ULiège Université de Liège - ULiège > Dép. d'électric., électron. et informat. (Inst.Montefiore) > Algorith. des syst. en interaction avec le monde physique
    ORBi Voir ses publications sur ORBi
  • Ittoo, Ashwin ULiège Université de Liège - ULiège > HEC Liège : UER > UER Opérations : Systèmes d'information de gestion
    ORBi Voir ses publications sur ORBi
  • Nombre total de vues 78
  • Nombre total de téléchargements 92










Tous les documents disponibles sur MatheO sont protégés par le droit d'auteur et soumis aux règles habituelles de bon usage.
L'Université de Liège ne garantit pas la qualité scientifique de ces travaux d'étudiants ni l'exactitude de l'ensemble des informations qu'ils contiennent.