J'essayais donc de marquer un tas de mots dans une liste (le marquage POS pour être exact) comme ceci:
pos = [nltk.pos_tag(i,tagset='universal') for i in lw]
où lw
est une liste de mots (c'est vraiment long ou je l'aurais posté mais c'est comme [['hello'],['world']]
(c'est-à-dire une liste de listes contenant chacune un mot), mais lorsque j'essaie de l'exécuter, je reçois:
Traceback (most recent call last):
File "<pyshell#183>", line 1, in <module>
pos = [nltk.pos_tag(i,tagset='universal') for i in lw]
File "<pyshell#183>", line 1, in <listcomp>
pos = [nltk.pos_tag(i,tagset='universal') for i in lw]
File "C:\Users\my system\AppData\Local\Programs\Python\Python35\lib\site-packages\nltk\tag\__init__.py", line 134, in pos_tag
return _pos_tag(tokens, tagset, tagger)
File "C:\Users\my system\AppData\Local\Programs\Python\Python35\lib\site-packages\nltk\tag\__init__.py", line 102, in _pos_tag
tagged_tokens = tagger.tag(tokens)
File "C:\Users\my system\AppData\Local\Programs\Python\Python35\lib\site-packages\nltk\tag\perceptron.py", line 152, in tag
context = self.START + [self.normalize(w) for w in tokens] + self.END
File "C:\Users\my system\AppData\Local\Programs\Python\Python35\lib\site-packages\nltk\tag\perceptron.py", line 152, in <listcomp>
context = self.START + [self.normalize(w) for w in tokens] + self.END
File "C:\Users\my system\AppData\Local\Programs\Python\Python35\lib\site-packages\nltk\tag\perceptron.py", line 240, in normalize
Elif Word[0].isdigit():
IndexError: string index out of range
Quelqu'un peut-il me dire pourquoi et comment j'obtiens cette erreur et comment la corriger? Merci beaucoup.
Tout d’abord, utilisez des noms de variables lisibles par l’homme, ça aide =)
Ensuite, pos_tag
input est une liste de chaînes. Alors c'est
>>> from nltk import pos_tag
>>> sentences = [ ['hello', 'world'], ['good', 'morning'] ]
>>> [pos_tag(sent) for sent in sentences]
[[('hello', 'NN'), ('world', 'NN')], [('good', 'JJ'), ('morning', 'NN')]]
De même, si vous avez entré des chaînes brutes, vous pouvez utiliser Word_tokenize
avant pos_tag
:
>>> from nltk import pos_tag, Word_tokenize
>>> a_sentence = 'hello world'
>>> Word_tokenize(a_sentence)
['hello', 'world']
>>> pos_tag(Word_tokenize(a_sentence))
[('hello', 'NN'), ('world', 'NN')]
>>> two_sentences = ['hello world', 'good morning']
>>> [Word_tokenize(sent) for sent in two_sentences]
[['hello', 'world'], ['good', 'morning']]
>>> [pos_tag(Word_tokenize(sent)) for sent in two_sentences]
[[('hello', 'NN'), ('world', 'NN')], [('good', 'JJ'), ('morning', 'NN')]]
Et vous avez les phrases dans un paragraphe, vous pouvez utiliser sent_tokenize
pour scinder la phrase.
>>> from nltk import sent_tokenize, Word_tokenize, pos_tag
>>> text = "Hello world. Good morning."
>>> sent_tokenize(text)
['Hello world.', 'Good morning.']
>>> [Word_tokenize(sent) for sent in sent_tokenize(text)]
[['Hello', 'world', '.'], ['Good', 'morning', '.']]
>>> [pos_tag(Word_tokenize(sent)) for sent in sent_tokenize(text)]
[[('Hello', 'NNP'), ('world', 'NN'), ('.', '.')], [('Good', 'JJ'), ('morning', 'NN'), ('.', '.')]]
Voir aussi: Comment faire du marquage POS en utilisant le tagueur NLTK POS en Python?
Une fonction commune pour analyser un document avec des balises pos,
def get_pos(string):
string = nltk.Word_tokenize(string)
pos_string = nltk.pos_tag(string)
return pos_string
get_post(sentence)
J'espère que cela t'aides !