Duplicata possible:
Recherche d'un ensemble de données pour tester les recherches de style FULLTEXT sur
Je suis récemment sur un projet de Data Mining, pour lequel j'ai besoin de 100 Go de texte brut pour les tests ... Je suis fatigué de chercher sur le net toute la journée. Quelqu'un, aidez-moi s'il vous plaît en fournissant les liens où je peux télécharger ces fichiers texte. Merci.
Quel type de texte recherchez-vous? Conversation, articles, livres - ou une bonne diffusion de tout?
Le projet Gutenberg pourrait être un bon début: http://www.gutenberg.org/
Wikipedia vous permet également de télécharger une archive d'articles: http://en.wikipedia.org/wiki/Wikipedia:Database_download
vous devez utiliser http://dumps.wikimedia.org/