web-dev-qa-db-fra.com

Grands ensembles de données publics?

Je recherche quelques grands ensembles de données publics, notamment:

  1. Exemples de journaux de serveur Web volumineux qui ont été anonymisés.

  2. Jeux de données utilisés pour l'analyse comparative des performances de la base de données.

Tout autre lien vers de grands ensembles de données publics serait apprécié. Je connais déjà les jeux de données publics d'Amazon sur: http://aws.Amazon.com/publicdatasets/

63
Jason

1. Grands exemples de journaux de serveur Web qui ont été anonymisés.

Ces travaux commencent avec:

Il y a beaucoup, beaucoup plus d'ensembles de données disponibles que ceux-ci (voir la gamme d'autres réponses), mais il s'agit du fruit le plus bas qui correspond à vos critères d'origine. En prime, ils ont un lien de contact si vous avez des besoins spécifiques qu'ils peuvent connaître.

2. Les ensembles de données utilisés pour l'analyse comparative des performances de la base de données.

Cela ressemble à un abus de langage, car vous demandez des ensembles de données empiriques décrivant bien défini _ { algorithmique _ { problèmes } _. En particulier, on dirait que vous essayez de trouver des ensembles de données que vous pouvez utiliser pour tester et comparer différents systèmes de base de données en temps réel, à l’aide de données relationnelles normalisées bien définies pouvant être utilisées comme un ensemble de scénarios de test pour déterminer la solution la plus efficace qui répond à vos besoins.

Je ne suis pas d'accord avec cette approche. Plutôt que de rechercher une multitude de systèmes de base de données et leurs implémentations intégrées, il est préférable d'explorer les algorithmes _ { garanties de ces systèmes comme votre premier port d'escale. Une fois que vous avez déterminé les contraintes algorithmiques qui répondent à vos besoins, vous pouvez vous concentrer sur un ensemble de solutions prédéfinies que vous pouvez évaluer en termes d'efficacité, par exemple pour l'indexation, le tri, la recherche, l'insertion, la suppression et la récupération.

Wikipedia fournit un { un article succinct sur les concepts de test de base de données } que vous pouvez utiliser pour déterminer et rédiger des scénarios de test afin d'évaluer les performances. Par exemple, vous pouvez utiliser une interface d’accès aux données agnostique telle que JDBC et indice de référence JDBC pour déterminer le minutage relatif de chaque opération. À partir de là, vous pouvez trouver une solution adéquate.

En bref, allez à la recherche première pour déterminer les garanties de base de données. Une fois qu'un ensemble de solutions candidates a été identifié, vous pouvez choisir parmi celles-ci en testant (ou en déterminant de toute autre manière) les performances à temps constant de chaque opération souhaitée.

29
MrGomez

Based on Quora answers and my personal collections in my studies, an awesome-public-datasets repository was created and updated lively on GitHub:

Below is a snapshot version of this list. For a newest list, please visit Github:

This list of public data sources are collected and tidied from blogs, answers, and user responses. Most of the data sets listed below are free, however, some are not. This list comes from https://github.com/caesar0301/awesome-public-datasets.

Climate

Economics

Finance

Biology

Physics

Healthcare

GeoSpace

Transportation

Government

Data Challenges

Machine Learning

Natural Language

Image Processing

Time Series

Social Sciences

Complex Networks

Computer Networks

Data SEs

Public Doamins

Complementary Collections

24
caesar0301
13
Gene De Lisa

Juste une pensée: 

9
Jason S

Google Fusion Tables en a quelques-uns.

http://tables.googlelabs.com/

3
Carter Medlin

Pour les journaux de serveur Web, vous pouvez toujours les générer au format dont vous avez besoin. Si vous voulez tester du code, etc., il devra être adapté aux champs que vous souhaitez stocker/analyser.

Pour les ensembles de données utilisés pour l'analyse comparative des performances de la base de données, vous souhaiterez probablement rechercher un outil capable de générer des données pour vous. Red Gate a un excellent pour pas trop d'argent. 

3
kemiller2002

Jeux de données disponibles ici aussi.

1
viper

http://Quandl.com compte plus de 10 millions d'ensembles de données glanés sur tout Internet. L'avantage de cette ressource est qu'elle offre un moyen unique d'accéder à toutes les données. Le site dispose d'un plug-in Excel gratuit ou il y a des bibliothèques en R, Python, Ruby, etc.

1
Brian Risk

Kaggle.com a souvent des problèmes de datamining. Les jeux de données couvrent un large éventail de domaines: données de fournisseur de soins de santé et informations sur l'historique de crédit. Peut-être que quelque chose est ce que vous recherchez.

1
Rishi

Certaines bases de données utilisées comme ensembles de formation pour les algorithmes de reconnaissance faciale: face-rec.org

0
Mihai Todor

Eh bien, celui-ci est nouveau et comporte un défi:

Défi de millions de chansons

0
zeroDivisible
0
alex

Je suis surpris que personne n'ait mentionné Google N-Grams. Plus d'informations sur N-Grams à l'adresse http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html

0
Vishnu Pedireddi