web-dev-qa-db-fra.com

suppression de mots vides lors de l'utilisation de Word2vec

J'essaie Word2vec depuis un certain temps maintenant en utilisant la bibliothèque Word2vec de gensim. Ma question est la suivante: dois-je supprimer les mots vides de mon texte d'entrée? Parce que, sur la base de mes premiers résultats expérimentaux, je pouvais voir des mots comme "de", "quand" .. (mots vides) surgir lorsque je fais une model.most_similar('someword') ..?

Mais je n'ai vu nulle part faire référence à l'arrêt de la suppression de Word avec Word2vec? Est-ce que Word2vec est censé gérer les mots vides même si vous ne les supprimez pas?

Quelles sont les choses à faire avant le traitement (comme pour la modélisation de sujets, il est presque indispensable de supprimer les mots vides)?

18
samsamara

Personnellement, je pense que la suppression de l'arrêt Word donnera de meilleurs résultats, vérifiez lien

Aussi pour la modélisation de sujet, vous devez effectuer un prétraitement sur le texte, en suivant les choses que vous devez faire,

  1. Suppression des mots vides.
  2. Tokenisation.
  3. Stemming et Lemmatisation .
9
Prashant Puri

L'implémentation de Gensim est basée sur le modèle Tomas Mikolov original de Word2vec, puis il sous-échantillonne automatiquement tous les mots fréquents en fonction de la fréquence.

Comme indiqué dans le document :

Nous montrons que le sous-échantillonnage des mots fréquents pendant la formation entraîne une accélération significative (environ 2x - 10x) et améliore la précision des représentations des mots moins fréquents.

Cela signifie que ces mots ne sont parfois pas pris en compte dans la fenêtre des mots à prédire. L'exemple de paramètre par défaut à 0,001 est utilisé comme paramètre pour éliminer ces mots. Si vous souhaitez supprimer certains mots d’arrêt spécifiques qui ne seraient pas supprimés en fonction de sa fréquence, vous pouvez le faire.

Résumé: Le résultat ne ferait aucune différence significative si vous arrêtez la suppression des mots.

36
Trideep Rath