Grands ensembles de données gratuits pour expérimenter avec Hadoop

Question

Connaissez-vous un grand ensemble de données pour expérimenter avec Hadoop qui soit gratuit/à faible coût? Tous les pointeurs/liens liés sont appréciés.

Préférence:

Au moins un Go de données.
Données du journal de production du serveur Web.

Peu d'entre eux que j'ai trouvé jusqu'à présent:

Pouvons-nous également exécuter notre propre robot pour collecter des données à partir de sites, par exemple Wikipédia? Tous les conseils sur la façon de procéder sont également appréciés.

Binary Nerd · Accepted Answer

Quelques points sur votre question concernant l'exploration et wikipedia.

Vous êtes lié aux vidages de données wikipedia et vous pouvez utiliser le projet Cloud9 de UMD pour travailler avec ces données dans Hadoop.

Ils ont une page à ce sujet: Travailler avec Wikipedia

Une autre source de données à ajouter à la liste est:

ClueWeb09 - 1 milliard de pages Web collectées entre janvier et février 09. 5 To compressés.

L'utilisation d'un robot pour générer des données devrait être publiée dans une question distincte à propos de Hadoop/MapReduce, je dirais.

APC · Answer

Une source évidente: les vidages de données de la trilogie Stack Overflow . Ceux-ci sont disponibles gratuitement sous la licence Creative Commons.

Peter Wippermann · Answer

Ceci est une collection de 189 jeux de données pour l'apprentissage automatique (qui est l'une des plus belles applications pour hadoop g ): http: // archive .ics.uci.edu/ml/datasets.html

Olvagor · Answer

Ce n'est pas un fichier journal mais vous pouvez peut-être utiliser le fichier planète d'OpenStreetMap: http://wiki.openstreetmap.org/wiki/Planet.osm

Licence CC, environ 160 Go (non emballée)

Il existe également des fichiers plus petits pour chaque continent: http://wiki.openstreetmap.org/wiki/World