J'ai lu que la technique la plus courante pour la modélisation de sujets (extraire des sujets possibles du texte) est l'allocation de Dirichlet latente (LDA).
Cependant, je suis curieux de savoir s'il est judicieux d'essayer la modélisation de sujets avec Word2Vec, car elle regroupe des mots dans un espace vectoriel. Les clusters ne pourraient-ils donc pas être considérés comme des sujets?
Pensez-vous qu’il est logique de suivre cette approche dans l’intérêt de certaines recherches? En fin de compte, ce qui m'intéresse, c'est d'extraire des mots-clés d'un texte en fonction de sujets.
Vous voudrez peut-être consulter les documents suivants:
Dat Quoc Nguyen, Richard Billingsley, Lan Du et Mark Johnson. 2015. Amélioration des modèles de sujet avec des représentations de mots-clés latentes . Transactions de l'Association de linguistique computationnelle, vol. 3, pages 299-313. [ CODE ]
Yang Liu, Zhiyuan Liu, Tat-Seng Chua, Maosong Sun. 2015. Emballages de mots d'actualité . Dans les actes de la 29e Conférence de l'AAAI sur l'intelligence artificielle, 2418-2424. [ CODE ]
Le premier document intègre les incorporations de Word dans le modèle LDA et le modèle DMM à un sujet par document. Il fait état d'améliorations significatives en termes de cohérence des sujets, de regroupement de documents et de classification, notamment de petits corpus ou de courts textes (par exemple, Tweets).
Le deuxième article est également intéressant. Il utilise LDA pour attribuer un sujet à chaque mot, puis utilise Word2Vec pour apprendre les opérations d’incorporation de Word en fonction des mots et de leurs sujets.
Deux personnes ont essayé de résoudre ce problème.
Chris Moody de StichFix est sorti avec LDA2Vec, et certains doctorants de la CMU ont écrit un article intitulé "LDA gaussien pour les modèles de sujet avec Embeddings Word" avec code ici ... bien que je ne puisse pas obtenir le code Java pour produire des résultats sensuels. C’est une idée intéressante d’utiliser Word2vec avec des distributions gaussiennes (en réalité des distributions T lorsque vous travaillez en calcul), des distributions de sujets Word. Les ADL gaussiennes devraient être capables de gérer les mots de vocabulaire de la formation.
LDA2Vec tente de former simultanément le modèle LDA et les vecteurs Word. Il vous permet également de placer les a priori de LDA sur des non-mots pour obtenir des résultats vraiment intéressants.
Dans Word2Vec, considérons 3 phrases
“Le chien a vu un chat”,
“Le chien a chassé le chat”,
“Le chat a grimpé dans un arbre”
Ici, nous donnons le mot d'entrée 'cat', nous obtiendrons alors le mot de sortie comme 'monté'
son basé sur la probabilité de tous les mots étant donné le contexte Word (cat). C'est un modèle de sac de mots continu. Nous obtiendrons des mots similaires au mot d’entrée basé sur le contexte. Word2Vec fonctionne bien dans un grand ensemble de données seulement.
LDA est utilisé pour extraire des sujets d'un corpus. Ce n'est pas basé sur le contexte. Comme il utilise la distribution Dirichlet pour dessiner des mots sur des sujets et des sujets sur des documents. Le problème auquel nous sommes confrontés ici est le hasard. Nous obtenons des sorties différentes à chaque fois.
La technique que nous choisissons dépend de nos exigences.