web-dev-qa-db-fra.com

Que signifie l'intégration d'un mot pondéré?

Dans le papier que j'essaie de mettre en œuvre, il est dit,

Dans ce travail, les tweets ont été modélisés en utilisant trois types de représentation textuelle. Le premier est un modèle de sac de mots pondéré par tf-idf (terme fréquence - fréquence inverse du document) (section 2.1.1). La seconde représente une phrase en faisant la moyenne des plongements Word de tous les mots (dans la phrase) et la troisième représente une phrase en faisant la moyenne des plongements Word pondérés de tous les mots, le poids d'un mot est donné par tf-idf (Section 2.1.2 ).

Je ne suis pas sûr de la troisième représentation qui est mentionnée car les incorporations pondérées de mots qui utilisent le poids d'un mot sont données par tf-idf. Je ne sais même pas s'ils peuvent être utilisés ensemble.

10
Dawn17

La moyenne (éventuellement pondérée) des intégrations Word est logique, bien que, selon l'algorithme principal et les données de formation, cette représentation de phrase ne soit pas la meilleure. L'intuition est la suivante:

  • Vous voudrez peut-être gérer des phrases de longueur différente, d'où la moyenne (meilleure que la somme simple).
  • Certains mots d'une phrase ont généralement beaucoup plus de valeur que d'autres. TF-IDF est la mesure la plus simple de la valeur Word. Notez que l'échelle du résultat ne change pas.

Voir aussi cet article de Kenter et al . Il y a un Nice post qui effectue la comparaison de ces deux approches dans différents algorithmes, et conclut qu'aucune n'est significativement meilleure que l'autre: certains algorithmes favorisent la moyenne simple, certains algorithmes fonctionnent mieux avec la pondération TF-IDF .

11
Maxim

Dans ce article ou ce n , nous utilisons des sommes pondérées, la pondération idf et la pondération de la partie de la parole et une méthode mixte qui utilise les deux. La méthode mixte est la meilleure et nous aide à être le premier dans la tâche de similitude SemEval 2017 pour l'anglais-espagnol et l'arabe-arabe (en fait, nous étions officiellement deuxièmes pour l'arabe parce que nous n'avons pas envoyé la méthode mixte pour certaines raisons).

Il est très facile à implémenter et à utiliser, vous avez une formule dans l'article mais en résumé, le vecteur d'une phrase est simplement V = sum_i ^ k = 1 Posweight (w_i) * IDFWeight (w_i) * V_i

7
Didier Schwab