J'ai récemment téléchargé un modèle pré-formé Fasttext pour l'anglais. J'ai deux fichiers:
Je ne sais pas quelle est la différence entre les deux fichiers?
Le .vec
les fichiers ne contiennent que les vecteurs Word agrégés, en texte brut. Le .bin
fichiers en plus contiennent les paramètres du modèle, et surtout, les vecteurs pour tous les n-grammes.
Donc, si vous voulez encoder des mots que vous ne vous êtes pas entraînés à utiliser ces n-grammes (les fameuses "informations de sous-mots" de FastText), vous avez besoin pour trouver une API capable de gérer FastText .bin
fichiers (la plupart ne prennent en charge que les .vec
fichiers, cependant ...).
Comme le dit documentation ,
model.vec
est un fichier texte contenant les vecteurs Word, un par ligne.model.bin
est un fichier binaire contenant les paramètres du modèle avec le dictionnaire et tous les hyper paramètres.
En d'autres termes, .vec
le format de fichier est le même que .txt
format de fichier, et vous pouvez l'utiliser dans d'autres applications (par exemple, pour échanger des données entre votre modèle FastText et votre modèle Word2Vec depuis .vec
le fichier est similaire à .txt
fichier généré par Word2Vec). Et le .bin
Le fichier peut être utilisé si vous souhaitez continuer à entraîner les vecteurs ou redémarrer l'optimisation.