TypeError: ufunc 'add' ne contenait pas de boucle avec les types correspondant à la signature

Question

Je crée un sac de mots représentant la phrase. Ensuite, comparez les mots qui existent dans la phrase avec le fichier "vectors.txt", afin d’obtenir leurs vecteurs d’incorporation. Après avoir obtenu des vecteurs pour chaque mot existant dans la phrase, je prends la moyenne des vecteurs des mots de la phrase. Ceci est mon code:

import nltk import numpy as np from nltk import FreqDist from nltk.corpus import brown news = brown.words(categories='news') news_sents = brown.sents(categories='news') fdist = FreqDist(w.lower() for w in news) vocabulary = [Word for Word, _ in fdist.most_common(10)] num_sents = len(news_sents) def averageEmbeddings(sentenceTokens, embeddingLookupTable): listOfEmb=[] for token in sentenceTokens: embedding = embeddingLookupTable[token] listOfEmb.append(embedding) return sum(np.asarray(listOfEmb)) / float(len(listOfEmb)) embeddingVectors = {} with open("D:\Embedding\vectors.txt") as file: for line in file: (key, *val) = line.split() embeddingVectors[key] = val for i in range(num_sents): features = {} for Word in vocabulary: features[Word] = int(Word in news_sents[i]) print(features) print(list(features.values())) sentenceTokens = [] for key, value in features.items(): if value == 1: sentenceTokens.append(key) sentenceTokens.remove(".") print(sentenceTokens) print(averageEmbeddings(sentenceTokens, embeddingVectors)) print(features.keys())

Je ne sais pas pourquoi, mais j'obtiens cette erreur:

TypeError Traceback (most recent call last) <ipython-input-4-643ccd012438> in <module>() 39 sentenceTokens.remove(".") 40 print(sentenceTokens) ---> 41 print(averageEmbeddings(sentenceTokens, embeddingVectors)) 42 43 print(features.keys()) <ipython-input-4-643ccd012438> in averageEmbeddings(sentenceTokens, embeddingLookupTable) 18 listOfEmb.append(embedding) 19 ---> 20 return sum(np.asarray(listOfEmb)) / float(len(listOfEmb)) 21 22 embeddingVectors = {} TypeError: ufunc 'add' did not contain a loop with signature matching types dtype('<U9') dtype('<U9') dtype('<U9')

P.S. Le vecteur d'inclusion ressemble à ceci:

the 0.011384 0.010512 -0.008450 -0.007628 0.000360 -0.010121 0.004674 -0.000076 of 0.002954 0.004546 0.005513 -0.004026 0.002296 -0.016979 -0.011469 -0.009159 and 0.004691 -0.012989 -0.003122 0.004786 -0.002907 0.000526 -0.006146 -0.003058 one 0.014722 -0.000810 0.003737 -0.001110 -0.011229 0.001577 -0.007403 -0.005355 in -0.001046 -0.008302 0.010973 0.009608 0.009494 -0.008253 0.001744 0.003263

Après avoir utilisé np.sum, j'obtiens cette erreur:

TypeError Traceback (most recent call last) <ipython-input-13-8a7edbb9d946> in <module>() 40 sentenceTokens.remove(".") 41 print(sentenceTokens) ---> 42 print(averageEmbeddings(sentenceTokens, embeddingVectors)) 43 44 print(features.keys()) <ipython-input-13-8a7edbb9d946> in averageEmbeddings(sentenceTokens, embeddingLookupTable) 18 listOfEmb.append(embedding) 19 ---> 20 return np.sum(np.asarray(listOfEmb)) / float(len(listOfEmb)) 21 22 embeddingVectors = {} C:\Anaconda3\lib\site-packages
umpy\core\fromnumeric.py in sum(a, axis, dtype, out, keepdims) 1829 else: 1830 return _methods._sum(a, axis=axis, dtype=dtype, -> 1831 out=out, keepdims=keepdims) 1832 1833 C:\Anaconda3\lib\site-packages
umpy\core\_methods.py in _sum(a, axis, dtype, out, keepdims) 30 31 def _sum(a, axis=None, dtype=None, out=None, keepdims=False): ---> 32 return umr_sum(a, axis, dtype, out, keepdims) 33 34 def _prod(a, axis=None, dtype=None, out=None, keepdims=False): TypeError: cannot perform reduce with flexible type

Dunes · Accepted Answer

Vous avez un tableau numpy de chaînes, pas de floats. C'est ce que l'on entend par dtype('<U9') - une chaîne unicode encodée au format endian contenant jusqu'à 9 caractères.

essayer:

return sum(np.asarray(listOfEmb, dtype=float)) / float(len(listOfEmb))

Cependant, vous n'avez pas du tout besoin de Numpy. Vous pouvez vraiment faire:

return sum(float(embedding) for embedding in listOfEmb) / len(listOfEmb)

Ou si vous êtes vraiment prêt à utiliser numpy.

return np.asarray(listOfEmb, dtype=float).mean()