Using multistability to solve fading memory problems in reinforcement learning

Using multistability to solve fading memory problems in reinforcement learning

De Geeter, Florent

Date de soutenance : 24-jui-2021/25-jui-2021 • URL permanente : `http://hdl.handle.net/2268.2/11556`

Détails

Titre :	Using multistability to solve fading memory problems in reinforcement learning
Titre traduit :	[fr] Utiliser la multistabilité pour résoudre des problèmes de mémoire qui s'estompe dans l'apprentissage par renforcement
Auteur :	De Geeter, Florent
Date de soutenance :	24-jui-2021/25-jui-2021
Promoteur(s) :	Drion, Guillaume
Membre(s) du jury :	Ernst, Damien Wehenkel, Antoine
Langue :	Anglais
Nombre de pages :	72
Mots-clés :	[en] Machine learning [en] Deep learning [en] Recurrent neural networks [en] Reinforcement learning
Discipline(s) :	Ingénierie, informatique & technologie > Sciences informatiques
Public cible :	Chercheurs Professionnels du domaine Etudiants
Institution(s) :	Université de Liège, Liège, Belgique
Diplôme :	Master en ingénieur civil en informatique, à finalité spécialisée en "intelligent systems"
Faculté :	Mémoires de la Faculté des Sciences appliquées

Résumé

[fr] Cette thèse se concentre sur deux sujets importants de l'apprentissage automatique. Premièrement, les réseaux de neurones récurrents (RNN), qui sont des réseaux de neurones avec mémoire, c'est-à-dire qui sont capables de propager de l'information dans le temps. Deuxièmement, l'apprentissage par renforcement (RL), une technique d'apprentissage automatique dans laquelle des agents doivent apprendre à effectuer les meilleures actions en interagissant avec des environnements. L'objectif de cette thèse est d'utiliser les RNNs dans un contexte d'apprentissage par renforcement pour apprendre à retenir des informations qui leur seront utiles dans le futur pour sélectionner les meilleures actions.

Plus précisément, cette thèse étudie les avantages de l'utilisation d'agents basés sur des RNNs dont la mémoire utilise la multistabilité dans des environnements qui nécessitent une mémoire durable. En effet, la mémoire des RNNs s'estompe généralement avec le temps car elle repose sur leur dynamique, mais ce n'est plus vrai lorsque la multistabilité est utilisée.

L'objectif de cette thèse est double: tout d'abord nous montrons l'intérêt de la mémoire basée sur la multistabilité en testant un nouveau type de RNN appelé nBRC construit pour être multistable dans un environnement RL spécifiquement conçu pour nécessiter une mémoire durable. Ce nouveau RNN montre une grande capacité de généralisation grâce à sa mémoire: en étant seulement entraîné sur une petite version de l'environnement, il est capable de généraliser et de jouer correctement sur des versions beaucoup plus longues.

Le deuxième objectif de cette thèse est d'introduire et de tester un algorithme de pré-entraînement, appelé multistability warmup ("échauffement de multistabilité"), qui est censé forcer un RNN à devenir multistable. Cet algorithme est appliqué à plusieurs types de RNNs, dont les bien connus GRU et LSTM. Ensuite, ces RNNs sont testés sur le même environnement que précédemment, et nous observons que leurs résultats sont améliorés, en particulier pour le GRU qui est capable de rivaliser avec le nBRC.

Enfin, nous discutons de ce qui pourrait être fait ensuite. D'une part, la multistabilité nous a donné de grandes observations, et il pourrait être très intéressant de la tester sur des environnements plus complexes pour voir ce qu'elle a à offrir. D'autre part, la multistability warmup pourrait encore être améliorée, car elle ne fonctionne pas très bien avec chaque type de RNN.

[en] This thesis focuses on two important topics in machine learning. First, recurrent neural networks (RNN), which are neural networks with memory, i.e. which can propagate information through the time. Second, reinforcement learning (RL), a machine learning technique in which agents have to learn to perform the best actions by interacting with environments. The goal of the thesis is to use RNNs in a reinforcement learning setting to learn to retain information which will be useful in the future for selecting the best actions.

More specifically, this thesis studies the benefits of using RNN agents whose memories are based on multistability when dealing with environments that require a long-lasting memory. Indeed, the memory of RNNs usually fades with time because it relies on their dynamics, but it is no longer true when multistability is used.

The goal of this paper is twofold: first we show the interest of the multistability-based memory by testing a new type of RNN called the nBRC built for being multistable on a RL environment specifically made to require a long-lasting memory. This new RNN shows a great generalization capability thanks to its memory: by only being trained on a small version of the environment, it is able to generalize its knowledge and to play correctly on longer versions.

The second objective of this thesis it to introduce and test a pretraining algorithm, called the multistability warmup, which is supposed to force a RNN to become multistable. This algorithm is applied to several types of RNNs, including the well-known GRU and LSTM. Then these RNNs are tested on the same environment as previously, and we observe that their results are improved, especially for GRU which is able to compete with the nBRC.

Finally, we discuss about what could be done next. On one hand, multistability gave us great observations, and it could be very interesting to test it on more complex environments to see what it has to offer. On the other hand, the multistability warmup could still be improved, as it does not work very well with each type of RNN.

Fichier(s)

Document(s)

Report.pdf
Description:
Taille: 2.21 MB
Format: Adobe PDF

Annexe(s)

Summary.pdf
Description:
Taille: 62.12 kB
Format: Adobe PDF

Main figures.pdf
Description:
Taille: 272.1 kB
Format: Adobe PDF

Citer ce mémoire

Tous les documents disponibles sur MatheO sont protégés par le droit d'auteur et soumis aux règles habituelles de bon usage.
L'Université de Liège ne garantit pas la qualité scientifique de ces travaux d'étudiants ni l'exactitude de l'ensemble des informations qu'ils contiennent.

Nom	Provider / Domaine	Expiration	Description
JSESSIONID	Oracle Corporation www.uliege.be	Session	Cookie de session de plate-forme à usage général, utilisé par les sites écrits en JSP. Habituellement utilisé pour maintenir une session utilisateur anonyme par le serveur.
CookieScriptConsent	CookieScript .uliege.be	1 an	Ce cookie est utilisé par le service Cookie-Script.com pour mémoriser les préférences de consentement des visiteurs en matière de cookies. Il est nécessaire pour que la bannière de cookies Cookie-Script.com fonctionne correctement.

Nom	Provider / Domaine	Expiration	Description
_pk_id	InnoCraft Ltd .uliege.be	1 an	Ce nom de cookie est associé à la plateforme d'analyse Web open source Matomo. Il est utilisé pour aider les propriétaires de sites Web à suivre le comportement des visiteurs et à mesurer les performances du site. Il s'agit d'un cookie de type modèle, où le préfixe _pk_id est suivi d'une courte série de chiffres et de lettres, qui est censé être un code de référence pour le domaine définissant le cookie.
_pk_ses	InnoCraft Ltd .uliege.be	30 minutes	Ce nom de cookie est associé à la plateforme d'analyse Web open source Matomo. Il est utilisé pour aider les propriétaires de sites Web à suivre le comportement des visiteurs et à mesurer les performances du site. Il s'agit d'un cookie de type modèle, où le préfixe _pk_ses est suivi d'une courte série de chiffres et de lettres, ce qui est considéré comme un code de référence pour le domaine définissant le cookie.
_pk_ref	InnoCraft Ltd .uliege.be	6 mois	Ce nom de cookie est associé à la plateforme d'analyse Web open source Matomo. Il est utilisé pour aider les propriétaires de sites Web à suivre le comportement des visiteurs et à mesurer les performances du site. Il s'agit d'un cookie de type modèle, où le préfixe _pk_ref est suivi d'une courte série de chiffres et de lettres, ce qui est considéré comme un code de référence pour le domaine définissant le cookie.

Mémoire

Using multistability to solve fading memory problems in reinforcement learning

De Geeter, Florent

Promoteur(s) : Drion, Guillaume

Date de soutenance : 24-jui-2021/25-jui-2021 • URL permanente : http://hdl.handle.net/2268.2/11556

Détails

Résumé

Fichier(s)

Document(s)

Annexe(s)

Auteur

Promoteur(s)

Membre(s) du jury

Citer ce mémoire

APA

Chicago

Date de soutenance : 24-jui-2021/25-jui-2021 • URL permanente : `http://hdl.handle.net/2268.2/11556`