Plongement lexical

Le plongement lexical ou plongement sémantique (« word embedding » en anglais) est une méthode d'apprentissage d'une représentation de mots sous forme de vecteur, utilisée notamment en traitement automatique des langues.

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

Certaines informations figurant dans cet article ou cette section devraient être mieux reliées aux sources mentionnées dans les sections « Bibliographie », « Sources » ou « Liens externes » (décembre 2015).

Vous pouvez améliorer la vérifiabilité en associant ces informations à des références à l'aide d'appels de notes.

Cette technique permet de représenter chaque mot d'un dictionnaire par un vecteur de nombres réels, autrement dit une liste de nombre. Les vecteurs des mots ont tous la même longueur et encodent le sens des mots d'un point de vue de similarité d'utilisation. Plus des mots peuvent être utilisées dans le même contexte (l'un à la place de l'autre dans une phrase) et plus leurs vecteurs sont proches. Par exemple, on pourrait s'attendre à ce que les mots « chien » et « chat » soient représentés par des vecteurs relativement proche. Cette technique est basée sur l'hypothèse (dite « de Harris » ou distributional hypothesis^[1]^,^[2]) qui veut que les mots apparaissant dans des contextes similaires ont des significations apparentées. La similarité entre des vecteurs peut être défini comme la distance dans l'espace vectoriel où sont définis ces vecteurs ou comme l'angle entre ces vecteurs.

La technique des plongements lexicaux diminue la dimension (la taille) de la représentation des mots en comparaison d'un modèle vectoriel par exemple, facilitant ainsi les tâches d'apprentissage impliquant ces mots, puisque moins soumis au fléau de la dimension.

[1]

[2]

Plongement lexical

Vectorisation de mots pour les techniques d'apprentissage automatique / De Wikipedia, l'encyclopédie encyclopedia

Cher Wikiwand IA, Faisons court en répondant simplement à ces questions clés :