J'ai un corpus en R utilisant le package tm
. J'applique la fonction removeWords
pour supprimer les mots vides
tm_map(abs, removeWords, stopwords("english"))
Y a-t-il un moyen d'ajouter mes propres mots vides personnalisés à cette liste?
stopwords
vous fournit simplement un vecteur de mots, il suffit que c
associe les vôtres à ceci.
tm_map(abs, removeWords, c(stopwords("english"),"my","custom","words"))
Enregistrez votre stop words
personnalisé dans un fichier csv (ex: Word.csv
).
library(tm)
stopwords <- read.csv("Word.csv", header = FALSE)
stopwords <- as.character(stopwords$V1)
stopwords <- c(stopwords, stopwords())
Ensuite, vous pouvez appliquer custom words
à votre fichier texte.
text <- VectorSource(text)
text <- VCorpus(text)
text <- tm_map(text, content_transformer(tolower))
text <- tm_map(text, removeWords, stopwords)
text <- tm_map(text, stripWhitespace)
text[[1]]$content
Vous pouvez également utiliser le package textProcessor
. Ça marche plutôt bien:
textProcessor(documents,
removestopwords = TRUE, customstopwords = NULL)
Vous pouvez créer un vecteur de vos mots vides personnalisés et utiliser l'énoncé suivant:
tm_map(abs, removeWords, c(stopwords("english"), myStopWords))
Il est possible d’ajouter vos propres mots vides à la liste par défaut des mots vides fournie avec tm install. Le paquet "tm" est fourni avec de nombreux fichiers de données, y compris les mots vides. Notez que les fichiers de mots vides sont disponibles dans de nombreuses langues. Vous pouvez ajouter, supprimer ou mettre à jour le fichier english.dat sous le répertoire mots clés.
Le moyen le plus simple de trouver le répertoire de mots vides est de rechercher le répertoire "mots vides" de votre système via votre navigateur de fichiers. Et vous devriez trouver english.dat avec de nombreux autres fichiers de langue. Ouvrez le fichier french.dat de RStudio qui devrait vous permettre d’éditer le fichier - vous pouvez ajouter vos propres mots ou supprimer des mots existants au besoin. Il en va de même si vous souhaitez éditer des mots vides dans une autre langue.