web-dev-qa-db-fra.com

Ensemble de formation de filtre anti-spam accessible au public

Je suis novice en apprentissage automatique et pour mon premier projet, j'aimerais écrire un filtre anti-spam naïf de Bayes. Je me demandais s'il existait des ensembles de formation publiquement disponibles contenant des spams étiquetés spam/non spam, de préférence en texte brut et non comme un vidage d'une base de données relationnelle (à moins qu'ils ne les impriment joliment?). 

Je sais qu'une telle base de données accessible au public existe pour d'autres types de classification de texte, en particulier le texte d'un article de presse. Je n'ai tout simplement pas été capable de trouver le même genre de chose pour les emails.

36
JeremyKun

Voici ce que je cherchais: http://untroubled.org/spam/

Cette archive contient environ un gigaoctet de messages spam cumulés compressés datant de 1998 à 2011. Il ne me reste plus qu'à recevoir des courriers électroniques non-spam. Je vais donc interroger mon propre compte Gmail à l'aide du programme getmail et du didacticiel de mattcutts.com

29
JeremyKun

Bien sûr, il y a Spambase }, qui, autant que je sache, est l'ensemble de données de spam le plus largement cité dans la littérature sur l'apprentissage automatique.

J'ai utilisé cet ensemble de données plusieurs fois; chaque fois, je suis impressionné par tous les efforts déployés pour la mise en forme et la documentation de cet ensemble de données.

Quelques caractéristiques de l'ensemble Spambase:

  • 4601 points de données - tous complets

  • chacun composé de 58 caractéristiques (attributs)

  • chaque point de données est étiqueté 'spam' ou 'pas de spam'

  • environ. 40% sont étiquetés spam

  • des caractéristiques, toutes sont continues (vs. discrete)

  • une caractéristique représentative: moyenne séquence continue de majuscules lettres


Spambase est archivé dans le référentiel UCI Machine Learning ; en outre, il est également disponible sur le Site Web pour l'excellent traité ML/Calcul statistique, Éléments d'apprentissage statistique de Hastie et al.

10
doug

SpamAssassin a un corpus public de spam et de non-spam, bien qu'il n'ait pas été mis à jour depuis quelques années. Lisez le fichier readme.html pour savoir ce qu’il y a.

8
ViennaMike

Vous pourriez envisager de jeter un coup d'oeil au corpus de spam/jambon de TREC (qui, à mon avis, est la collection de courriels d'Enron qui a été rendue publique à l'issue du procès). TREC exécute généralement un ensemble de tâches de traitement de texte concurrentes. Il peut donc vous donner des références à des fins de comparaison.

L'inconvénient est qu'ils sont stockés au format brut mbox, bien qu'il existe des analyseurs syntaxiques disponibles dans de nombreuses langues (Apache Tika en est un bon exemple).

La page Web n’est pas TREC, mais cela semble être un bon aperçu de la tâche avec des liens vers les données: http://plg.uwaterloo.ca/~gvcormac/spam/

6
Keith Trnka

Un ensemble plus moderne de formation au spam peut être trouvé à kaggle . De plus, vous pouvez tester la précision de votre classificateur sur leur site Web en téléchargeant vos résultats.

4
warmspringwinds

J'ai également une réponse, ici vous pouvez trouver une base de données bayésienne actualisée quotidiennement pour la formation initiale et également une archive quotidienne contenant les spams capturés. Vous trouverez les instructions d'utilisation sur le site.

0
Frantique