web-dev-qa-db-fra.com

Quelle est la différence majeure entre gant et word2vec?

Quelle est la différence entre Word2vec et Gant? Sont à la fois les moyens de former un mot incorporant? Si oui, alors comment pouvons-nous utiliser les deux?

8
Hrithik Puri

Word2vec est un modèle prédictif: trains en essayant de prédire un mot cible donné un contexte ( [~ # ~] CBOW [~ # ~] Méthode) ou les mots de contexte de la cible ( Skip-gram méthode). Il utilise des poids entraînables en incorporation pour cartographier des mots sur leurs intégrations correspondantes, qui sont utilisées pour aider le modèle à faire des prédictions. La fonction de perte pour la formation du modèle est liée à la qualité des prédictions du modèle, de sorte que les trains de modèles pour faire de meilleures prédictions, cela entraînera une meilleure intégration.

Le gant est basé sur des techniques de factorisation matricielles sur la matrice de contexte de mot. Il construit d'abord une grande matrice de (mots x context) des informations co-occurrence, c'est-à-dire pour chaque "mot" (les lignes), vous comptez à quelle fréquence (valeurs matricielles) nous voyons ce mot dans certains "context" (les colonnes) dans un grand corpus. Le nombre de "contextes" serait très important, car il est essentiellement en taille combinatoire. Nous facturons donc cette matrice pour donner une matrice inférieure dimensionnelle (caractéristiques de Word X), où chaque ligne donne maintenant une représentation vectorielle pour chaque mot. En général, cela se fait en minimisant une "perte de reconstruction". Cette perte tente de trouver les représentations inférieure dimensionnelles qui peuvent expliquer la majeure partie de la variance dans les données à haute dimension.

Avant le gant, les algorithmes des représentations de mots peuvent être divisés en deux flux principaux, la statistique (LDA) et la base de l'apprentissage (Word2vec). LDA produit les vecteurs de mots bidimensionnels par la décomposition de la valeur singulière (SVD) sur la matrice de co-occurrence, tandis que Word2vec utilise un réseau neuronal à trois couches pour effectuer la tâche de classification de la paire de mots de contexte centre-contexte où les vecteurs de mots ne sont que le sous-produit.

Le point le plus étonnant de Word2vec est que des mots similaires sont situés ensemble dans l'espace vectoriel et les opérations arithmétiques sur des vecteurs de mots peuvent poser des relations sémantiques ou syntaxiques, par exemple "roi" - "homme" + "femme" -> "reine" ou " mieux "-" Bon "+" Bad "->" Pire ". Cependant, LDA ne peut pas maintenir une relation aussi linéaire dans l'espace vectoriel.

La motivation du gant est de forcer le modèle à apprendre une telle relation linéaire basée sur la matrice de co-interprète explicitement. Le gant est essentiellement un modèle log-bilinéaire avec un objectif pondéré des moindres carrés. De toute évidence, il s'agit d'une méthode hybride qui utilise l'apprentissage de la machine sur la base de la matrice statistique, et c'est la différence générale entre Glove et Word2vec.

Si nous plongons dans la procédure de déduction des équations dans Gant, nous trouverons la différence inhérente à l'intuition. Gant observe que les rapports de probabilités de co-occurrence de mots de mot ont le potentiel d'encoder une forme de sens. Prenez l'exemple de Stanfordnlp ( Vecteurs globaux pour la représentation de Word )) Pour examiner les probabilités de co-occurrence pour les mots cibles de la glace et de la vapeur avec diverses mots de sonde de la vocabulaire:

  • Comme on pouvait s'y attendre, la glace co-apparaît plus fréquemment avec un solide qu'il ne le fait avec du gaz, alors que la vapeur co-apparaît plus fréquemment avec du gaz que de solide.
  • Les deux mots co-apparaissent fréquemment avec leur eau partagée, et les deux co-présents avec le mot sans rapport de manière rarement.
  • Seulement dans le rapport probabilités fait du bruit de mots non discriminants tels que l'eau et la mode annuler, de sorte que les grandes valeurs (beaucoup supérieures à 1) se corrélent bien avec des propriétés spécifiques à la glace et de petites valeurs (beaucoup moins de 1) corrélent bien avec Propriétés spécifiques de la vapeur.

Toutefois, Word2Vec travaille sur les probabilités de co-occurrence pure afin que la probabilité que les mots entourant le mot cible soient au contexte soient maximisés.

Dans la pratique, pour accélérer le processus de formation, Word2VEC utilise un échantillonnage négatif pour substituer le fucntion Softmax par la fonction Sigmoid fonctionnant sur les données réelles et les données de bruit. Cela entraîne de manière obligatoire le regroupement de mots dans un cône dans l'espace vectoriel, tandis que les vecteurs de mots de Gant sont situés plus discrètement.

1
Abhi25t