Feedback

Faculté des Sciences appliquées
Faculté des Sciences appliquées
Mémoire

Master's Thesis : Audio frame reconstruction from incomplete observations using Deep Learning techniques

Télécharger
Schils, Minh ULiège
Promoteur(s) : Embrechts, Jean-Jacques ULiège
Date de soutenance : 7-sep-2020/9-sep-2020 • URL permanente : http://hdl.handle.net/2268.2/10138
Détails
Titre : Master's Thesis : Audio frame reconstruction from incomplete observations using Deep Learning techniques
Auteur : Schils, Minh ULiège
Date de soutenance  : 7-sep-2020/9-sep-2020
Promoteur(s) : Embrechts, Jean-Jacques ULiège
Membre(s) du jury : Van Droogenbroeck, Marc ULiège
Louppe, Gilles ULiège
sarti, Augusto 
Langue : Anglais
Mots-clés : [en] audio inpainting
[en] deep learning
Discipline(s) : Ingénierie, informatique & technologie > Sciences informatiques
URL complémentaire : https://ced211.github.io/
Institution(s) : Université de Liège, Liège, Belgique
Diplôme : Master en ingénieur civil en informatique, à finalité spécialisée en "intelligent systems"
Faculté : Mémoires de la Faculté des Sciences appliquées

Résumé

[en] In this thesis, we tackle the problem of restoring an audio frame given the
preceding and subsequent one, e.g. audio inpainting, and extend our proposed
solution to the prediction of an audio frame given the last one. We
consider frames of 64 and 128 milliseconds. The proposed solution combines
a signal processing pipeline with a Generative adversarial network (GAN).
Using as input the absolute value of the STFT of the surrounding frames, the
network is able to retrieve the STFT magnitude corresponding to the gap
frame. By applying the Griffin-Lim Algorithm, we are then able to estimate
also the STFT phase and finally through the inverse STFT to reconstruct
the missing audio frame. We compare our method, considering as baseline a
Linear predictive coefficient (LPC) technique. The proposed solution shows
encouraging results with respect to the baseline both for inpainting and prediction.
It outperforms the baseline in term of Signal to noise ratio (SNR)
on the magnitude spectrum and performs equally well or better in term of
the Objective difference grade (ODG) which is a measure used tu assess the
perceived audio quality. Since the phase of the STFT can be only approximately
reconstructed through the Griffin-Lim Algorithm, the baseline shows
better performances in terms of audio SNR. We further show the model generalization
ability, by training and testing on two different types of music
datasets.


Fichier(s)

Document(s)

File
Access report.pdf
Description:
Taille: 4.22 MB
Format: Adobe PDF

Annexe(s)

File
Access code.zip
Description:
Taille: 84.47 MB
Format: Unknown
File
Access page_web.zip
Description:
Taille: 9.52 MB
Format: Unknown

Auteur

  • Schils, Minh ULiège Université de Liège > Master ingé. civ. info., à fin.

Promoteur(s)

Membre(s) du jury

  • Van Droogenbroeck, Marc ULiège Université de Liège - ULiège > Dép. d'électric., électron. et informat. (Inst.Montefiore) > Télécommunications
    ORBi Voir ses publications sur ORBi
  • Louppe, Gilles ULiège Université de Liège - ULiège > Dép. d'électric., électron. et informat. (Inst.Montefiore) > Big Data
    ORBi Voir ses publications sur ORBi
  • sarti, Augusto








Tous les documents disponibles sur MatheO sont protégés par le droit d'auteur et soumis aux règles habituelles de bon usage.
L'Université de Liège ne garantit pas la qualité scientifique de ces travaux d'étudiants ni l'exactitude de l'ensemble des informations qu'ils contiennent.