Pour Elmo, FastText et Word2Vec, je suis en train de calculer le mot encegements dans une phrase et utilise la clustering HDbsCan/KMeans pour grouper des phrases similaires.
Un bon exemple de la mise en œuvre peut être vu dans ce court article: http://ai.intelligentonlinetools.com/ml/text-Clustering-mord-embedding-machine-learning/
Je voudrais faire la même chose à l'aide de Bert (à l'aide de Bert python package de la face étreinte), mais je suis plutôt inconnu avec comment extraire les vecteurs de mots/phrases bruts afin de les saisir Dans un algorithme de clustering. Je sais que Bert peut générer des représentations de phrase - alors comment extraire-je les vecteurs bruts d'une phrase?
Toute information serait utile.
Je ne sais pas si vous en avez encore besoin, mais récemment, un document a expliqué comment utiliser les embarcations de documents vers des documents en grappes et extraire des mots de chaque cluster pour représenter un sujet. Voici le lien: https: //arxiv.org/pdf/2008.09470.pdf , Https: //github.com/ddangelov/top2vec
Inspiré par le papier ci-dessus, un autre algorithme de modélisation de sujet utilisant Bert pour générer des traces d'embarcations est mentionné ici: https: //TowardsDaScience.com/topic-modeling-with-bert-779f7db187E6 , Https: //github.com/maartengr/bertopic
Les deux bibliothèques ci-dessus fournissent une solution de bout en bout pour extraire des sujets d'un corpus. Mais si vous êtes intéressé uniquement dans la génération de phrase en toute phrase, consultez Gensim's Doc2Vec ( https: //radimrehurek.com/gensim/models/doc2vec.html ) ou à des transformateurs de phrases ( Https: //github.com/ukplab/sentenence-Transformers ) Comme mentionné dans les autres réponses. Si vous allez avec des transformateurs de phrase, il est suggéré de former un modèle sur votre domaine spécifique de domaine pour obtenir de bons résultats.