web-dev-qa-db-fra.com

Comment je tokenize une phrase de chaîne en NLTK?

J'utilise nltk, je souhaite donc créer mes propres textes personnalisés, comme ceux par défaut sur nltk.books. Cependant, je viens de faire la méthode comme

my_text = ['This', 'is', 'my', 'text']

J'aimerais découvrir n'importe quel moyen de saisir mon "texte" en tant que:

my_text = "This is my text, this is a Nice way to input text."

Quelle méthode, de python ou de nltk me permet de le faire. Et plus important encore, comment puis-je écarter les symboles de ponctuation?

47
diegoaguilar

C'est en fait sur le page principale de nltk.org :

>>> import nltk
>>> sentence = """At eight o'clock on Thursday morning
... Arthur didn't feel very good."""
>>> tokens = nltk.Word_tokenize(sentence)
>>> tokens
['At', 'eight', "o'clock", 'on', 'Thursday', 'morning',
'Arthur', 'did', "n't", 'feel', 'very', 'good', '.']
134
Pavel Anossov