Téléchargez des données volumineuses pour Hadoop

Question

J'ai besoin de données volumineuses (plus de 10 Go) pour exécuter la démo Hadoop. Tout le monde sait où je peux le télécharger. S'il vous plaît, faites-moi savoir.

AvkashChauhan · Answer

Je vous suggère de télécharger un ensemble de millions de chansons à partir du site Web suivant:

http://labrosa.ee.columbia.edu/millionsong/

La meilleure chose avec Millions Songs Dataset est que vous pouvez télécharger 1 Go (environ 10000 chansons), 10 Go, 50 Go ou environ 300 Go sur votre cluster Hadoop et faire le test que vous souhaitez. J'adore l'utiliser et j'apprends beaucoup en utilisant cet ensemble de données.

Pour commencer, vous pouvez télécharger le jeu de données commencer par n'importe quelle lettre de A-Z, qui variera de 1 Go à 20 Go. Vous pouvez également utiliser le site Infochimp:

http://www.infochimps.com/collections/million-songs

Dans l'un de mes blogs suivants, j'ai montré comment télécharger un ensemble de données de 1 Go et exécuter des scripts Pig:

http://blogs.msdn.com/b/avkashchauhan/archive/2012/04/12/processing-million-songs-dataset-with-pig-scripts-on-Apache-hadoop-on-windows- Azure.aspx

Jagadish Talluri · Answer

Tom White a mentionné un échantillon de données météorologiques dans son livre (Hadoop: le guide définitif).

http://hadoopbook.com/code.html

Les données sont disponibles depuis plus de 100 ans.

J'ai utilisé wget sous linux pour extraire les données. Pour l'année 2007, la taille des données est de 27 Go.

Il est hébergé sous forme de lien FTP. Vous pouvez donc télécharger avec n'importe quel utilitaire FTP.

ftp://ftp.ncdc.noaa.gov/pub/data/noaa/

Pour plus de détails, veuillez consulter mon blog:

http://myjourneythroughhadoop.blogspot.in/2013/07/how-to-download-weather-data-for-your.html

user799188 · Answer

Un article qui pourrait vous intéresser, " tilisation de Hadoop pour analyser les fichiers de vidage complets de Wikipédia en utilisant WikiHadoop ".

Si vous recherchez les statistiques de la page Wikipedia , alors this pourrait vous aider. Vous pouvez télécharger des fichiers pagecount de 2007 jusqu'à la date actuelle. Juste pour donner une idée de la taille des fichiers, 1,9 Go pour une seule journée ( ici j'ai choisi 2012-05-01) répartis sur 24 fichiers.

Actuellement, 31 pays ont des sites qui mettent à disposition des données publiques dans divers formats, http://www.data.gov/opendatasites . En outre, la Banque mondiale met des données à disposition sur http://data.worldbank.org/data-catalog

David Gruzman · Answer

Il existe des jeux de données publics disponibles sur Amazon:
http://aws.Amazon.com/publicdatasets/
Je suggère d'envisager d'y exécuter un cluster de démonstration - et donc d'économiser le téléchargement.
Il existe également un bon ensemble de données sur le Web bondé de Common Crawl, qui est également disponible sur Amazon s3. http://commoncrawl.org/

Ryan · Answer

Si vous êtes intéressé par les indicateurs de pays, la meilleure source que j'ai trouvée était worldbank.org. Les données qu'ils proposent peuvent être exportées au format CSV, ce qui facilite leur utilisation dans Hadoop. Si vous utilisez .NET, j'ai écrit un blogpost http://ryanlovessoftware.blogspot.ro/2014/02/creating-hadoop-framework-for-analysing.html où vous pouvez voir comment les données regarde, et si vous téléchargez le code depuis gidhub https://github.com/ryan-popa/Hadoop-Analysis , vous avez déjà les méthodes d'analyse de chaîne.

Kartoch · Answer

Qu'en est-il du "Recensement Internet 2012", données recueillies par une analyse distribuée sur l'ensemble d'Internet:

Annonce: http://seclists.org/fulldisclosure/2013/Mar/166

Données: http://internetcensus2012.bitbucket.org/

L'ensemble des données est de 7 To, (évidemment) uniquement disponible par torrent.

Mark Roberts · Answer

Il pourrait être plus rapide de générer les données que de les télécharger et de les mettre en place. Cela a l'avantage de vous donner le contrôle du domaine problématique et de laisser votre démo signifier quelque chose pour les gens qui regardent.