web-dev-qa-db-fra.com

Ajout de mots vides personnalisés dans R tm

J'ai un corpus en R utilisant le package tm. J'applique la fonction removeWords pour supprimer les mots vides

tm_map(abs, removeWords, stopwords("english")) 

Y a-t-il un moyen d'ajouter mes propres mots vides personnalisés à cette liste?

12
Brian Vanover

stopwords vous fournit simplement un vecteur de mots, il suffit que c associe les vôtres à ceci.

tm_map(abs, removeWords, c(stopwords("english"),"my","custom","words")) 
33
James

Enregistrez votre stop words personnalisé dans un fichier csv (ex: Word.csv).

library(tm)
stopwords <- read.csv("Word.csv", header = FALSE)
stopwords <- as.character(stopwords$V1)
stopwords <- c(stopwords, stopwords())

Ensuite, vous pouvez appliquer custom words à votre fichier texte.

text <- VectorSource(text)
text <- VCorpus(text)
text <- tm_map(text, content_transformer(tolower))
text <- tm_map(text, removeWords, stopwords)
text <- tm_map(text, stripWhitespace)

text[[1]]$content
3
Reza Rahimi

Vous pouvez également utiliser le package textProcessor. Ça marche plutôt bien:

textProcessor(documents, 
  removestopwords = TRUE, customstopwords = NULL)
1
Henryk Borzymowski

Vous pouvez créer un vecteur de vos mots vides personnalisés et utiliser l'énoncé suivant:

tm_map(abs, removeWords, c(stopwords("english"), myStopWords)) 
1
Jeff J.

Il est possible d’ajouter vos propres mots vides à la liste par défaut des mots vides fournie avec tm install. Le paquet "tm" est fourni avec de nombreux fichiers de données, y compris les mots vides. Notez que les fichiers de mots vides sont disponibles dans de nombreuses langues. Vous pouvez ajouter, supprimer ou mettre à jour le fichier english.dat sous le répertoire mots clés.
Le moyen le plus simple de trouver le répertoire de mots vides est de rechercher le répertoire "mots vides" de votre système via votre navigateur de fichiers. Et vous devriez trouver english.dat avec de nombreux autres fichiers de langue. Ouvrez le fichier french.dat de RStudio qui devrait vous permettre d’éditer le fichier - vous pouvez ajouter vos propres mots ou supprimer des mots existants au besoin. Il en va de même si vous souhaitez éditer des mots vides dans une autre langue.

1
BMALURU