La classe CountVectorizer de Scikit-learn vous permet de passer une chaîne 'english' à l'argument stop_words. Je veux ajouter quelques éléments à cette liste prédéfinie. Quelqu'un peut-il me dire comment faire cela?
Selon le code source pour sklearn.feature_extraction.text
, la liste complète (en fait un frozenset
, de stop_words
) de ENGLISH_STOP_WORDS
est exposé par __all__
. Par conséquent, si vous souhaitez utiliser cette liste ainsi que d'autres éléments, vous pouvez faire quelque chose comme:
from sklearn.feature_extraction import text
stop_words = text.ENGLISH_STOP_WORDS.union(my_additional_stop_words)
(où my_additional_stop_words
est une séquence de chaînes) et utilisez le résultat comme stop_words
argument. Cette entrée vers CountVectorizer.__init__
est analysé par _check_stop_list
, qui passera directement le nouveau frozenset
.