Je suis novice en apprentissage automatique et pour mon premier projet, j'aimerais écrire un filtre anti-spam naïf de Bayes. Je me demandais s'il existait des ensembles de formation publiquement disponibles contenant des spams étiquetés spam/non spam, de préférence en texte brut et non comme un vidage d'une base de données relationnelle (à moins qu'ils ne les impriment joliment?).
Je sais qu'une telle base de données accessible au public existe pour d'autres types de classification de texte, en particulier le texte d'un article de presse. Je n'ai tout simplement pas été capable de trouver le même genre de chose pour les emails.
Voici ce que je cherchais: http://untroubled.org/spam/
Cette archive contient environ un gigaoctet de messages spam cumulés compressés datant de 1998 à 2011. Il ne me reste plus qu'à recevoir des courriers électroniques non-spam. Je vais donc interroger mon propre compte Gmail à l'aide du programme getmail et du didacticiel de mattcutts.com
Bien sûr, il y a Spambase }, qui, autant que je sache, est l'ensemble de données de spam le plus largement cité dans la littérature sur l'apprentissage automatique.
J'ai utilisé cet ensemble de données plusieurs fois; chaque fois, je suis impressionné par tous les efforts déployés pour la mise en forme et la documentation de cet ensemble de données.
Quelques caractéristiques de l'ensemble Spambase:
4601 points de données - tous complets
chacun composé de 58 caractéristiques (attributs)
chaque point de données est étiqueté 'spam' ou 'pas de spam'
environ. 40% sont étiquetés spam
des caractéristiques, toutes sont continues (vs. discrete)
une caractéristique représentative: moyenne séquence continue de majuscules lettres
Spambase est archivé dans le référentiel UCI Machine Learning ; en outre, il est également disponible sur le Site Web pour l'excellent traité ML/Calcul statistique, Éléments d'apprentissage statistique de Hastie et al.
SpamAssassin a un corpus public de spam et de non-spam, bien qu'il n'ait pas été mis à jour depuis quelques années. Lisez le fichier readme.html pour savoir ce qu’il y a.
Vous pourriez envisager de jeter un coup d'oeil au corpus de spam/jambon de TREC (qui, à mon avis, est la collection de courriels d'Enron qui a été rendue publique à l'issue du procès). TREC exécute généralement un ensemble de tâches de traitement de texte concurrentes. Il peut donc vous donner des références à des fins de comparaison.
L'inconvénient est qu'ils sont stockés au format brut mbox, bien qu'il existe des analyseurs syntaxiques disponibles dans de nombreuses langues (Apache Tika en est un bon exemple).
La page Web n’est pas TREC, mais cela semble être un bon aperçu de la tâche avec des liens vers les données: http://plg.uwaterloo.ca/~gvcormac/spam/
Un ensemble plus moderne de formation au spam peut être trouvé à kaggle . De plus, vous pouvez tester la précision de votre classificateur sur leur site Web en téléchargeant vos résultats.
J'ai également une réponse, ici vous pouvez trouver une base de données bayésienne actualisée quotidiennement pour la formation initiale et également une archive quotidienne contenant les spams capturés. Vous trouverez les instructions d'utilisation sur le site.