J'ai essayé de suivre ceci.
Mais certains comment j'ai perdu beaucoup de temps pour finir avec rien d'utile.
Je souhaite simplement former un modèle GloVe
sur mon propre corpus (fichier corpus.txt de 900 Mo environ). J'ai téléchargé les fichiers fournis dans le lien ci-dessus et les ai compilés à l'aide de cygwin
(après avoir modifié la démo). Fichier .sh et l'a remplacé par VOCAB_FILE=corpus.txt
. dois-je laisser CORPUS=text8
inchangé?) la sortie était:
Comment puis-je utiliser ces fichiers pour le charger en tant que modèle GloVe
sur python?
votre corpus devrait aller à la variable CORPUS. Le fichier vectors.txt est la sortie supposée être utile. Vous pouvez entraîner Glove en python, mais cela prend plus de temps et vous devez disposer d'un environnement de compilation en langage C. Je l'ai essayé avant et je ne le recommanderai pas.
Voici mon point de vue sur ceci ::
make
qui formera les quatre fichiers dans le dossier de construction../demo.sh
qui va former et faire tout ce qui est mentionné dans le script sur votre propre corpus et la sortie sera générée sous forme de fichier vectors.txt.Remarque : N'oubliez pas de conserver votre fichier corpus directement dans le dossier Glove.
Voici comment vous exécutez le modèle
$ git clone http://github.com/stanfordnlp/glove
$ cd glove && make
Pour le former sur votre propre corpus, il vous suffit de modifier un fichier, c'est-à-dire demo.sh.
Supprimez le script de if à fi après 'make'. Remplacez le nom CORPUS par votre nom de fichier 'corpus.txt' Il existe une autre boucle if à la fin du fichier 'demo.sh'.
if [ "$CORPUS" = 'text8' ]; then
Remplacez text8 par votre nom de fichier.
Exécutez demo.sh une fois les modifications apportées.
$ ./demo.sh
Assurez-vous que le format de votre fichier de corpus est correct. Vous devrez préparer votre corpus sous la forme d’un fichier texte unique contenant tous les mots séparés par un ou plusieurs espaces ou tabulations. Si votre corpus comporte plusieurs documents, ceux-ci (uniquement) doivent être séparés par des caractères de nouvelle ligne.