Large Language Models: Building General Coding Assistants

Large Language Models: Building General Coding Assistants

Daoud, Samuel

Date de soutenance : 5-sep-2024/6-sep-2024 • URL permanente : `http://hdl.handle.net/2268.2/20996`

Détails

Titre :	Large Language Models: Building General Coding Assistants
Titre traduit :	[fr] Grands Modèles de Langage: Construire des Assistants Généraux en Programmation
Auteur :	Daoud, Samuel
Date de soutenance :	5-sep-2024/6-sep-2024
Promoteur(s) :	Ernst, Damien
Membre(s) du jury :	Drugmand, Philippe Louppe, Gilles
Langue :	Anglais
Nombre de pages :	74
Mots-clés :	[en] LLM
Discipline(s) :	Ingénierie, informatique & technologie > Sciences informatiques
Institution(s) :	Université de Liège, Liège, Belgique
Diplôme :	Master : ingénieur civil en science des données, à finalité spécialisée
Faculté :	Mémoires de la Faculté des Sciences appliquées

Résumé

[en] In the realm of software development, the frequent release of new Application Programming Interface (API) versions presents a significant challenge for engineers and developers. Traditionally, adapting to these changes requires a comprehensive update of the entire application, resulting in considerable time and resource investments.
This situation highlights the need to support developers in managing the numerous tedious tasks they encounter daily.

This thesis addresses these challenges by leveraging Large Language Models (LLMs) for code-related tasks and introduces a framework for deploying advanced general coding assistants that achieve state-of-the-art performance.

The approach involves selecting and deploying a model based on several meaningful criteria, choosing appropriate benchmarks and datasets for fine-tuning, and developing a framework capable of fine-tuning on a single GPU. We also deploy our own benchmark, building upon the dataset released in previous related works.

We address the limitations associated with fine-tuning under constrained computational resources. Our fine-tuned models demonstrate a systematic improvement in performance for the specific downstream tasks they are adapted to. Improving their precision up to 206.25\%.

We also provide critical insights into both the evaluation metrics for LLMs and the limits of current benchmarks.

Fichier(s)

Document(s)

SamuelDaoudTFE.pdf
Description:
Taille: 4.61 MB
Format: Adobe PDF

Citer ce mémoire

Tous les documents disponibles sur MatheO sont protégés par le droit d'auteur et soumis aux règles habituelles de bon usage.
L'Université de Liège ne garantit pas la qualité scientifique de ces travaux d'étudiants ni l'exactitude de l'ensemble des informations qu'ils contiennent.

Nom

Provider / Domaine

Expiration

Description

JSESSIONID

Oracle Corporation

www.uliege.be

Session

Cookie de session de plate-forme à usage général, utilisé par les sites écrits en JSP. Habituellement utilisé pour maintenir une session utilisateur anonyme par le serveur.

CookieScriptConsent

CookieScript

.uliege.be

1 an

Ce cookie est utilisé par le service Cookie-Script.com pour mémoriser les préférences de consentement des visiteurs en matière de cookies. Il est nécessaire pour que la bannière de cookies Cookie-Script.com fonctionne correctement.

Nom

Provider / Domaine

Expiration

Description

_pk_id

InnoCraft Ltd

.uliege.be

1 an

Ce nom de cookie est associé à la plateforme d'analyse Web open source Matomo. Il est utilisé pour aider les propriétaires de sites Web à suivre le comportement des visiteurs et à mesurer les performances du site. Il s'agit d'un cookie de type modèle, où le préfixe _pk_id est suivi d'une courte série de chiffres et de lettres, qui est censé être un code de référence pour le domaine définissant le cookie.

_pk_ses

InnoCraft Ltd

.uliege.be

30 minutes

Ce nom de cookie est associé à la plateforme d'analyse Web open source Matomo. Il est utilisé pour aider les propriétaires de sites Web à suivre le comportement des visiteurs et à mesurer les performances du site. Il s'agit d'un cookie de type modèle, où le préfixe _pk_ses est suivi d'une courte série de chiffres et de lettres, ce qui est considéré comme un code de référence pour le domaine définissant le cookie.

_pk_ref

InnoCraft Ltd

.uliege.be

6 mois

Ce nom de cookie est associé à la plateforme d'analyse Web open source Matomo. Il est utilisé pour aider les propriétaires de sites Web à suivre le comportement des visiteurs et à mesurer les performances du site. Il s'agit d'un cookie de type modèle, où le préfixe _pk_ref est suivi d'une courte série de chiffres et de lettres, ce qui est considéré comme un code de référence pour le domaine définissant le cookie.

Nom	Provider / Domaine	Expiration	Description
JSESSIONID	Oracle Corporation www.uliege.be	Session	Cookie de session de plate-forme à usage général, utilisé par les sites écrits en JSP. Habituellement utilisé pour maintenir une session utilisateur anonyme par le serveur.
CookieScriptConsent	CookieScript .uliege.be	1 an	Ce cookie est utilisé par le service Cookie-Script.com pour mémoriser les préférences de consentement des visiteurs en matière de cookies. Il est nécessaire pour que la bannière de cookies Cookie-Script.com fonctionne correctement.

Nom	Provider / Domaine	Expiration	Description
_pk_id	InnoCraft Ltd .uliege.be	1 an	Ce nom de cookie est associé à la plateforme d'analyse Web open source Matomo. Il est utilisé pour aider les propriétaires de sites Web à suivre le comportement des visiteurs et à mesurer les performances du site. Il s'agit d'un cookie de type modèle, où le préfixe _pk_id est suivi d'une courte série de chiffres et de lettres, qui est censé être un code de référence pour le domaine définissant le cookie.
_pk_ses	InnoCraft Ltd .uliege.be	30 minutes	Ce nom de cookie est associé à la plateforme d'analyse Web open source Matomo. Il est utilisé pour aider les propriétaires de sites Web à suivre le comportement des visiteurs et à mesurer les performances du site. Il s'agit d'un cookie de type modèle, où le préfixe _pk_ses est suivi d'une courte série de chiffres et de lettres, ce qui est considéré comme un code de référence pour le domaine définissant le cookie.
_pk_ref	InnoCraft Ltd .uliege.be	6 mois	Ce nom de cookie est associé à la plateforme d'analyse Web open source Matomo. Il est utilisé pour aider les propriétaires de sites Web à suivre le comportement des visiteurs et à mesurer les performances du site. Il s'agit d'un cookie de type modèle, où le préfixe _pk_ref est suivi d'une courte série de chiffres et de lettres, ce qui est considéré comme un code de référence pour le domaine définissant le cookie.

Mémoire

Large Language Models: Building General Coding Assistants

Daoud, Samuel

Promoteur(s) : Ernst, Damien

Date de soutenance : 5-sep-2024/6-sep-2024 • URL permanente : http://hdl.handle.net/2268.2/20996

Détails

Résumé

Fichier(s)

Document(s)

Auteur

Promoteur(s)

Membre(s) du jury

Citer ce mémoire

APA

Chicago

Date de soutenance : 5-sep-2024/6-sep-2024 • URL permanente : `http://hdl.handle.net/2268.2/20996`