J'ai besoin de données volumineuses (plus de 10 Go) pour exécuter la démo Hadoop. Tout le monde sait où je peux le télécharger. S'il vous plaît, faites-moi savoir.
Je vous suggère de télécharger un ensemble de millions de chansons à partir du site Web suivant:
http://labrosa.ee.columbia.edu/millionsong/
La meilleure chose avec Millions Songs Dataset est que vous pouvez télécharger 1 Go (environ 10000 chansons), 10 Go, 50 Go ou environ 300 Go sur votre cluster Hadoop et faire le test que vous souhaitez. J'adore l'utiliser et j'apprends beaucoup en utilisant cet ensemble de données.
Pour commencer, vous pouvez télécharger le jeu de données commencer par n'importe quelle lettre de A-Z, qui variera de 1 Go à 20 Go. Vous pouvez également utiliser le site Infochimp:
http://www.infochimps.com/collections/million-songs
Dans l'un de mes blogs suivants, j'ai montré comment télécharger un ensemble de données de 1 Go et exécuter des scripts Pig:
Tom White a mentionné un échantillon de données météorologiques dans son livre (Hadoop: le guide définitif).
http://hadoopbook.com/code.html
Les données sont disponibles depuis plus de 100 ans.
J'ai utilisé wget
sous linux pour extraire les données. Pour l'année 2007, la taille des données est de 27 Go.
Il est hébergé sous forme de lien FTP
. Vous pouvez donc télécharger avec n'importe quel utilitaire FTP.
ftp://ftp.ncdc.noaa.gov/pub/data/noaa/
Pour plus de détails, veuillez consulter mon blog:
http://myjourneythroughhadoop.blogspot.in/2013/07/how-to-download-weather-data-for-your.html
Un article qui pourrait vous intéresser, " tilisation de Hadoop pour analyser les fichiers de vidage complets de Wikipédia en utilisant WikiHadoop ".
Si vous recherchez les statistiques de la page Wikipedia , alors this pourrait vous aider. Vous pouvez télécharger des fichiers pagecount de 2007 jusqu'à la date actuelle. Juste pour donner une idée de la taille des fichiers, 1,9 Go pour une seule journée ( ici j'ai choisi 2012-05-01) répartis sur 24 fichiers.
Actuellement, 31 pays ont des sites qui mettent à disposition des données publiques dans divers formats, http://www.data.gov/opendatasites . En outre, la Banque mondiale met des données à disposition sur http://data.worldbank.org/data-catalog
Il existe des jeux de données publics disponibles sur Amazon:
http://aws.Amazon.com/publicdatasets/
Je suggère d'envisager d'y exécuter un cluster de démonstration - et donc d'économiser le téléchargement.
Il existe également un bon ensemble de données sur le Web bondé de Common Crawl, qui est également disponible sur Amazon s3. http://commoncrawl.org/
Si vous êtes intéressé par les indicateurs de pays, la meilleure source que j'ai trouvée était worldbank.org. Les données qu'ils proposent peuvent être exportées au format CSV, ce qui facilite leur utilisation dans Hadoop. Si vous utilisez .NET, j'ai écrit un blogpost http://ryanlovessoftware.blogspot.ro/2014/02/creating-hadoop-framework-for-analysing.html où vous pouvez voir comment les données regarde, et si vous téléchargez le code depuis gidhub https://github.com/ryan-popa/Hadoop-Analysis , vous avez déjà les méthodes d'analyse de chaîne.
Qu'en est-il du "Recensement Internet 2012", données recueillies par une analyse distribuée sur l'ensemble d'Internet:
Annonce: http://seclists.org/fulldisclosure/2013/Mar/166
Données: http://internetcensus2012.bitbucket.org/
L'ensemble des données est de 7 To, (évidemment) uniquement disponible par torrent.
Il pourrait être plus rapide de générer les données que de les télécharger et de les mettre en place. Cela a l'avantage de vous donner le contrôle du domaine problématique et de laisser votre démo signifier quelque chose pour les gens qui regardent.