Perception de l'aspect naturel de phonèmes produits avec différentes méthodes de synthèse de la parole
Fontaine, Camille
Promotor(s) : Remacle, Angélique ; Blandin, Rémi [ext016]
Date of defense : 22-Jun-2022/28-Jun-2022 • Permalink : http://hdl.handle.net/2268.2/14310
Details
Title : | Perception de l'aspect naturel de phonèmes produits avec différentes méthodes de synthèse de la parole |
Author : | Fontaine, Camille |
Date of defense : | 22-Jun-2022/28-Jun-2022 |
Advisor(s) : | Remacle, Angélique
Blandin, Rémi [ext016] |
Committee's member(s) : | Didone, Vincent
Warnier, Morgane |
Language : | French |
Number of pages : | 97 |
Keywords : | [fr] Hautes fréquences [fr] Perception [fr] Phonèmes [fr] Synthèse de la parole [fr] Modélisations physiques [fr] Modèles acoustiques |
Discipline(s) : | Social & behavioral sciences, psychology > Multidisciplinary, general & others |
Target public : | Researchers Professionals of domain Student |
Institution(s) : | Université de Liège, Liège, Belgique |
Degree: | Master en logopédie, à finalité spécialisée en voix |
Faculty: | Master thesis of the Faculté de Psychologie, Logopédie et Sciences de l’Education |
Abstract
[fr] La parole de synthèse peut-être réalisée via diverses méthodes, notamment la synthèse articulatoire. Il existe différentes modélisations physiques : le modèle acoustique unidimensionnel (1D), le modèle acoustique tridimensionnel (3D) et le modèle d’algorithme d’extension (BWE). Le modèle 3D semble offrir la parole la plus naturelle (Gully, 2017). D’une part, il se base sur la forme précise du tractus vocal, générant des simulations acoustiques proches de la réalité, et d’autre part, il permet de modéliser correctement les hautes fréquences (HF) (> 5kHz) (Arnela et al., 2019 ; Freixes et al., 2018). Longtemps mises de côté dans les recherches sur la perception de la parole, ces HF connaissent un nouvel intérêt depuis plusieurs années, car elles semblent jouer un rôle important dans l’aspect naturel de la parole (Vitela et al., 2015 ; Monson & Caravello, 2019 ; Boyd-Pratt & Donnai, 2020 ; Birkholz & Drechsel, 2021). Ce mémoire s’inscrit dans un projet de développement d’un outil de synthèse articulatoire à large bande, dont l’aspect se veut le plus naturel possible. Notre objectif est de déterminer, pour la synthèse articulatoire, comment les différents modèles : 1D, 3D et BWE, impactent la perception de l’aspect naturel de la parole chez les jeunes adultes. Après avoir rempli un questionnaire anamnestique et passé une audiométrie tonale, 40 participants ont réalisé deux tâches expérimentales. La première tâche était une comparaison par paires, qui avait pour but de comparer l’aspect naturel des différents stimuli deux à deux. La seconde tâche était une évaluation de l’aspect naturel des stimuli, à l’aide d’une échelle métrique allant de 0 (pas du tout naturel) à 100 (totalement naturel). Ces tâches nous ont permis de répondre à trois hypothèses concernant le degré de réalisme physique des modèles acoustiques, et d’investiguer différentes questions de recherche concernant le genre de la voix de synthèse, la qualité vocale, et le type de phonème, et la fiabilité inter-juges. Les deux tâches expérimentales ont permis de mettre en avant plusieurs effets significatifs. Un effet significatif du modèle acoustique a été trouvé, de façon générale, le modèle 3D est plus naturel. Un effet significatif du type de phonème a montré que le degré de naturalité dépend du phonème. Une interaction a été trouvée entre le modèle acoustique et le type de phonème, révélant que l’aspect naturel des modèles diffère selon le type de phonème. Seule la seconde tâche expérimentale a permis de mettre en lumière un effet significatif du genre de la voix de synthèse, indiquant que la voix de synthèse masculine parait plus naturelle que la féminine. Ce mémoire a cherché à explorer le rôle des HF dans la perception des phonèmes selon différents degrés de réalismes physiques de modèles acoustiques.
File(s)
Document(s)
Cite this master thesis
The University of Liège does not guarantee the scientific quality of these students' works or the accuracy of all the information they contain.