Connaissez-vous un grand ensemble de données pour expérimenter avec Hadoop qui soit gratuit/à faible coût? Tous les pointeurs/liens liés sont appréciés.
Préférence:
Au moins un Go de données.
Données du journal de production du serveur Web.
Peu d'entre eux que j'ai trouvé jusqu'à présent:
Pouvons-nous également exécuter notre propre robot pour collecter des données à partir de sites, par exemple Wikipédia? Tous les conseils sur la façon de procéder sont également appréciés.
Quelques points sur votre question concernant l'exploration et wikipedia.
Vous êtes lié aux vidages de données wikipedia et vous pouvez utiliser le projet Cloud9 de UMD pour travailler avec ces données dans Hadoop.
Ils ont une page à ce sujet: Travailler avec Wikipedia
Une autre source de données à ajouter à la liste est:
L'utilisation d'un robot pour générer des données devrait être publiée dans une question distincte à propos de Hadoop/MapReduce, je dirais.
Une source évidente: les vidages de données de la trilogie Stack Overflow . Ceux-ci sont disponibles gratuitement sous la licence Creative Commons.
Ceci est une collection de 189 jeux de données pour l'apprentissage automatique (qui est l'une des plus belles applications pour hadoop g ): http: // archive .ics.uci.edu/ml/datasets.html
Ce n'est pas un fichier journal mais vous pouvez peut-être utiliser le fichier planète d'OpenStreetMap: http://wiki.openstreetmap.org/wiki/Planet.osm
Licence CC, environ 160 Go (non emballée)
Il existe également des fichiers plus petits pour chaque continent: http://wiki.openstreetmap.org/wiki/World