Je travaille sur un modèle de langage récurrent. Pour apprendre les intégrations Word qui peuvent être utilisées pour initialiser mon modèle de langage, j'utilise le modèle Word2vec de gensim. Après la formation, le modèle Word2vec contient deux vecteurs pour chaque mot du vocabulaire: l'incorporation de mots (lignes de matrice d'entrée/masquée) et l'incorporation de contexte (colonnes de matrice masquée/de sortie).
Comme indiqué dans cet article il existe au moins trois façons courantes de combiner ces deux vecteurs d'intégration:
Cependant, je n'ai pas pu trouver de documents ou de rapports appropriés sur la meilleure stratégie. Mes questions sont donc:
Questions connexes (mais sans réponse):
J'ai trouvé une réponse dans la conférence de Stanford "Deep Learning for Natural Language Processing" (Conférence 2, mars 2016). Il est disponible ici . À la minute 46, Richard Socher déclare que la méthode courante consiste à faire la moyenne des deux vecteurs Word.
Je ne connais aucun travail qui teste empiriquement différentes façons de combiner les deux vecteurs, mais il existe un article très influent comparant: 1) il suffit d'utiliser le vecteur Word, et 2) d'additionner Word et le vecteur de contexte. L'article est ici: https://www.aclweb.org/anthology/Q15-1016/ .
Tout d'abord, notez que la métrique est des tests d'analogie et de similitude, PAS des tâches en aval.
Voici une citation du journal:
pour SGNS et GloVe, il vaut la peine d'expérimenter avec la variante w + c [additionnant les vecteurs Word et contextuels], qui est bon marché à appliquer (ne nécessite pas de recyclage) et peut entraîner des gains substantiels (ainsi que des pertes substantielles) .
Je suppose donc que vous avez juste besoin de l'essayer sur votre tâche spécifique.
À propos, voici un article sur la façon d'obtenir des vecteurs de contexte à partir de gensim: link
Vous devriez lire ce travail de recherche au moins une fois pour avoir l'idée de combiner les intégrations Word en utilisant différents opérateurs algébriques. C'était ma recherche.
Dans cet article, vous pouvez également voir les autres méthodes pour combiner des vecteurs Word.
En bref L1-Les vecteurs de mots moyens normalisés et la somme des mots sont de bonnes représentations.