web-dev-qa-db-fra.com

Ajout de mots à la liste d'arrêt CountVectorizer de Scikit-Learn

La classe CountVectorizer de Scikit-learn vous permet de passer une chaîne 'english' à l'argument stop_words. Je veux ajouter quelques éléments à cette liste prédéfinie. Quelqu'un peut-il me dire comment faire cela?

27
panterasBox

Selon le code source pour sklearn.feature_extraction.text, la liste complète (en fait un frozenset, de stop_words ) de ENGLISH_STOP_WORDS est exposé par __all__. Par conséquent, si vous souhaitez utiliser cette liste ainsi que d'autres éléments, vous pouvez faire quelque chose comme:

from sklearn.feature_extraction import text 

stop_words = text.ENGLISH_STOP_WORDS.union(my_additional_stop_words)

(où my_additional_stop_words est une séquence de chaînes) et utilisez le résultat comme stop_words argument. Cette entrée vers CountVectorizer.__init__ est analysé par _check_stop_list, qui passera directement le nouveau frozenset.

50
jonrsharpe