web-dev-qa-db-fra.com

word2vec - quel est le meilleur? ajouter, concaténer ou des vecteurs Word moyens?

Je travaille sur un modèle de langage récurrent. Pour apprendre les intégrations Word qui peuvent être utilisées pour initialiser mon modèle de langage, j'utilise le modèle Word2vec de gensim. Après la formation, le modèle Word2vec contient deux vecteurs pour chaque mot du vocabulaire: l'incorporation de mots (lignes de matrice d'entrée/masquée) et l'incorporation de contexte (colonnes de matrice masquée/de sortie).

Comme indiqué dans cet article il existe au moins trois façons courantes de combiner ces deux vecteurs d'intégration:

  1. sommer le contexte et le vecteur Word pour chaque mot
  2. sommation et moyenne
  3. concaténation du contexte et du vecteur Word

Cependant, je n'ai pas pu trouver de documents ou de rapports appropriés sur la meilleure stratégie. Mes questions sont donc:

  1. Existe-t-il une solution commune pour additionner, faire la moyenne ou concaténer les vecteurs?
  2. Ou la meilleure façon dépend-elle entièrement de la tâche en question? Si oui, quelle stratégie est la meilleure pour un modèle de langage au niveau Word?
  3. Pourquoi combiner les vecteurs? Pourquoi ne pas utiliser les intégrations de mots "originales" pour chaque mot, c'est-à-dire celles contenues dans la matrice de poids entre les neurones d'entrée et cachés.

Questions connexes (mais sans réponse):

9
Lemon

J'ai trouvé une réponse dans la conférence de Stanford "Deep Learning for Natural Language Processing" (Conférence 2, mars 2016). Il est disponible ici . À la minute 46, Richard Socher déclare que la méthode courante consiste à faire la moyenne des deux vecteurs Word.

4
Lemon

Je ne connais aucun travail qui teste empiriquement différentes façons de combiner les deux vecteurs, mais il existe un article très influent comparant: 1) il suffit d'utiliser le vecteur Word, et 2) d'additionner Word et le vecteur de contexte. L'article est ici: https://www.aclweb.org/anthology/Q15-1016/ .

Tout d'abord, notez que la métrique est des tests d'analogie et de similitude, PAS des tâches en aval.

Voici une citation du journal:

pour SGNS et GloVe, il vaut la peine d'expérimenter avec la variante w + c [additionnant les vecteurs Word et contextuels], qui est bon marché à appliquer (ne nécessite pas de recyclage) et peut entraîner des gains substantiels (ainsi que des pertes substantielles) .

Je suppose donc que vous avez juste besoin de l'essayer sur votre tâche spécifique.

À propos, voici un article sur la façon d'obtenir des vecteurs de contexte à partir de gensim: link

0
Hai

Vous devriez lire ce travail de recherche au moins une fois pour avoir l'idée de combiner les intégrations Word en utilisant différents opérateurs algébriques. C'était ma recherche.

Dans cet article, vous pouvez également voir les autres méthodes pour combiner des vecteurs Word.

En bref L1-Les vecteurs de mots moyens normalisés et la somme des mots sont de bonnes représentations.

0
Nomiluks