Grand modèle de langage
modèle de langage possédant un grand nombre paramètres / De Wikipedia, l'encyclopédie encyclopedia
Un grand modèle de langage[1], grand modèle linguistique[2], grand modèle de langue[1],[3], modèle de langage de grande taille[1] ou encore modèle massif de langage[4] (abrégé LLM[1] de l'anglais large language model) est un modèle de langage possédant un grand nombre de paramètres (généralement de l'ordre d'un milliard ou plus).
Type | |
---|---|
Nom court | |
Aspect de |
Ce sont des réseaux de neurones profonds entraînés sur de grandes quantités de texte non étiqueté utilisant l'apprentissage auto-supervisé ou l'apprentissage semi-supervisé[5]. Les LLM sont apparus vers 2018 et ont été utilisés pour la mise en œuvre d'agents conversationnels.
Ils excellent également dans un large éventail de tâches. Au lieu d'être entraînés pour une tâche spécifique (telle que l'analyse des sentiments, la reconnaissance d'entités nommées ou le raisonnement mathématique), ils sont entraînés à prédire une suite probable à une entrée donnée[6]. La qualité de leur sortie semble être en fonction de la quantité des ressources (taille des paramètres, puissance de calcul, données) et de la qualité des données qui leur sont fournies[7].
Les modèles de langage possédant un grand nombre de paramètres s'avèrent capables de capturer une grande partie de la syntaxe et de la sémantique du langage humain. Ils font également preuve d'une connaissance générale considérable sur le monde, et sont capables de « mémoriser » une grande quantité de faits lors de l'entraînement.
Avant le succès des grands modèles de langage, l'attention des chercheurs en traitement automatique des langues était principalement focalisée sur l'apprentissage supervisé de modèles spécialisés pour des tâches spécifiques.