Comme l'indique Wikpedia
L'objectif global du processus d'exploration de données est d'extraire des informations d'un ensemble de données et de les transformer en une structure compréhensible pour une utilisation ultérieure
Comment est-ce lié au Big Data? Est-il exact de dire que Hadoop fait du data mining de manière parallèle?
Le Big Data est un terme marketing, pas un terme technique. Tout est big data de nos jours. Ma clé USB est désormais un "cloud personnel" et mon disque dur est un big data. Sérieusement. Il s'agit d'un terme totalement non spécifique qui est largement défini par ce que les services marketing de diverses entreprises très optimistes peuvent vendre - et les C * Os des grandes entreprises achètent, afin de réaliser la magie. Mise à jour: et maintenant, la même chose s'applique à la science des données . C'est juste du marketing.
En fait, l'exploration de données était tout aussi surutilisée ... cela pouvait signifier quelque chose comme
C'est juste que le marketing avait besoin d'un nouveau terme. "Business intelligence", "business analytics", ... ils continuent de vendre les mêmes choses , c'est juste rebaptisé "big data" maintenant.
Étant donné que la plupart des méthodes - du moins celles qui donnent des résultats intéressants - ne sont tout simplement pas mises à l'échelle, la plupart des données "extraites" ne sont en fait pas volumineuses. C'est clairement beaucoup plus grand qu'il y a 10 ans, mais pas grand comme dans les Exabytes. Une enquête menée par KDnuggets avait quelque chose comme 1-10 Go étant le "plus grand ensemble de données analysé" en moyenne. Ce n'est pas du big data par aucun moyen de gestion de données; il n'est grand que par ce qui peut être analysé en utilisant les méthodes complex. (Je ne parle pas d'algorithmes triviaux comme un k-means).
Maintenant, le "Big data" est réel. Google possède des données volumineuses et le CERN possède également des données volumineuses. La plupart des autres ne le font probablement pas. Les données commencent à être volumineuses, lorsque vous avez besoin de 1000 ordinateurs juste pour stocker.
Les technologies de Big Data telles que Hadoop sont également réelles. Ils ne sont pas toujours utilisés de manière raisonnable (ne vous embêtez pas à exécuter des clusters hadoop de moins de 100 nœuds - car à ce stade, vous pouvez probablement obtenir de bien meilleures performances à partir de machines non clusterisées bien choisies), mais bien sûr, les gens écrivent de tels logiciels.
Mais l'essentiel de ce qui se fait n'est pas l'exploration de données. C'est Extraire, Transformer, Charger (ETL) , donc il remplace l'entrepôt de données. Au lieu d'utiliser une base de données avec une structure, des index et des requêtes accélérées, les données sont simplement transférées dans hadoop, et lorsque vous avez compris quoi faire, vous relisez toutes vos données et extrayez les informations dont vous avez vraiment besoin, les transformez et chargez-le dans votre feuille de calcul Excel. Parce qu'après sélection, extraction et transformation, ce n'est généralement plus "gros".
Beaucoup des promesses marketing du big data ne tiendront pas. Twitter produit beaucoup moins d'informations pour la plupart des entreprises que ce qui est annoncé (à moins que vous ne soyez une rockstar teenie, c'est-à-dire); et la base d'utilisateurs de Twitter est fortement biaisée. Corriger un tel biais est difficile et nécessite des statisticiens hautement expérimentés.
Le biais des données est un problème - si vous collectez simplement des données aléatoires sur Internet ou une application, elles ne seront généralement pas représentatives; en particulier pas d'utilisateurs potentiels. Au lieu de cela, vous serez trop adapté aux gros utilisateurs existants si vous n'arrivez pas à annuler ces effets.
L'autre gros problème est juste le bruit. Vous avez des robots collecteurs de mails, mais aussi d'autres outils (pensez aux "sujets tendance" de Twitter qui renforcent les "tendances") qui rendent les données beaucoup plus bruyantes que d'autres sources. Le nettoyage de ces données est difficile, et non une question de technologie mais d'expertise dans le domaine statistique. Par exemple Google Flu Trends s'est révélé à plusieurs reprises assez inexact. Il a fonctionné dans certaines des années précédentes (peut-être à cause d'un sur-ajustement?) Mais n'est plus de bonne qualité.
Malheureusement, beaucoup d'utilisateurs de Big Data n'y prêtent pas trop attention; ce qui est probablement l'une des nombreuses raisons pour lesquelles la plupart des projets de Big Data semblent échouer (les autres étant une gestion incompétente, des attentes gonflées et irréalistes, et un manque de culture d'entreprise et de personnes qualifiées).
Maintenant, pour la deuxième partie de votre question. Hadoop ne fait pas d'exploration de données. Hadoop gère le stockage des données (via HDFS, un type de base de données distribuée très primitif) et il planifie les tâches de calcul, vous permettant d'exécuter le calcul sur les mêmes machines qui stockent les données. Il fait pas fait une analyse complexe.
Il existe des outils qui tentent d'apporter l'exploration de données à Hadoop. En particulier, Apache Mahout peut être appelé la tentative officielle d'Apache de faire de l'exploration de données sur Hadoop . Sauf qu'il s'agit principalement d'un outil d'apprentissage automatique (apprentissage automatique! = Exploration de données; l'exploration de données utilise parfois des méthodes d'apprentissage automatique). Certaines parties de Mahout (comme le clustering) sont loin d'être avancées. Le problème est que Hadoop est bon pour les problèmes linéaires, mais la plupart de l'exploration de données n'est pas linéaire . Et les algorithmes non linéaires ne se limitent pas aux grandes données; vous devez soigneusement développer des approximations linéaires et vivre avec des pertes de précision - des pertes qui doivent être plus petites que ce que vous perdriez en travaillant simplement sur des données plus petites.
Un bon exemple de ce problème de compromis est k-means. K-means est en fait un problème (principalement) linéaire; il peut donc être quelque peu exécuté sur Hadoop. Une seule itération est linéaire, et si vous aviez une bonne implémentation, elle s'adapterait bien au big data. Cependant, le nombre d'itérations jusqu'à la convergence augmente également avec la taille de l'ensemble de données, et donc il n'est pas vraiment linéaire. Cependant, comme il s'agit d'une méthode statistique pour trouver des "moyens", les résultats ne s'améliorent pas beaucoup avec la taille de l'ensemble de données. Donc, même si vous pouvez exécuter k-means sur des données volumineuses, cela n'a pas beaucoup de sens - vous pouvez simplement prendre un échantillon de vos données, exécuter une version hautement efficace à un seul nœud de k-means, et les résultats seront soyez aussi bon. Parce que les données supplémentaires vous donnent juste quelques chiffres supplémentaires de précision d'une valeur que vous n'avez pas besoin d'être aussi précise.
Comme cela s'applique à beaucoup de problèmes, l'exploration de données réelle sur Hadoop ne semble pas démarrer. Tout le monde essaie de le faire, et beaucoup d'entreprises vendent ce genre de choses. Mais cela ne fonctionne pas vraiment mieux que la version non grande. Mais tant que les clients voudront l'acheter, les entreprises vendront cette fonctionnalité. Et tant qu'il vous obtient une subvention, les chercheurs rédigeront des articles à ce sujet. Que cela fonctionne ou non. C'est la vie.
Il y a quelques cas où ces choses fonctionnent. La recherche Google en est un exemple, et Cern. Mais la reconnaissance d'image (mais sans utiliser Hadoop, les grappes de GPU semblent être la voie à suivre) a récemment bénéficié d'une augmentation de la taille des données. Mais dans l'un de ces cas, vous disposez de données plutôt propres. Google indexe tout; Le Cern supprime toutes les données non intéressantes et analyse uniquement les mesures intéressantes - il n'y a pas de spammeurs introduisant leur spam dans le Cern ... et en analyse d'images, vous vous entraînez sur des images pertinentes présélectionnées, pas sur des webcams ou des images aléatoires d'Internet (et si tel est le cas, vous les traitez comme des images aléatoires et non comme des données représentatives).
Cette réponse est vraiment destinée à ajouter une spécificité à l'excellente réponse d'Anony-Mousse.
Il y a beaucoup de débats sur ce qu'est exactement le Big Data. Anony-Mousse a évoqué ici beaucoup de problèmes autour de la surutilisation de termes tels que analytique, big data et data mining, mais il y a quelques choses sur lesquelles je veux fournir plus de détails.
Big Data
À des fins pratiques, la meilleure définition que j'ai entendue des mégadonnées est celle qui n'est pas pratique ou ne fonctionne pas dans une base de données relationnelle traditionnelle. Il peut s'agir de données de 1PB qui ne peuvent pas être utilisées ou même uniquement de données de 1 Go mais qui ont 5 000 colonnes.
Il s'agit d'une définition souple et flexible. Il y aura toujours des configurations ou des outils de gestion des données qui pourront fonctionner, mais c'est là que des outils comme Hadoop, MongoDB et d'autres peuvent être utilisés plus efficacement que la technologie antérieure.
Que pouvons-nous faire avec des données qui sont gênantes/volumineuses/difficiles à utiliser? Il est difficile de simplement regarder une feuille de calcul et de trouver un sens ici, nous utilisons donc souvent l'exploration de données et l'apprentissage automatique.
Exploration de données
Cela a été souligné un peu plus haut - mon objectif ici est d'être plus précis et, espérons-le, de fournir plus de contexte. L'exploration de données s'applique généralement aux méthodes analytiques ou statistiques quelque peu supervisées pour l'analyse des données. Ceux-ci peuvent s'inscrire dans la régression, la classification, le regroupement ou le filtrage collaboratif. Il y a beaucoup de chevauchements avec le machine learning, cependant, cela est toujours généralement conduit par un utilisateur plutôt que par une exécution non supervisée ou automatisée, ce qui définit assez bien le machine learning.
Apprentissage automatique
Souvent, l'apprentissage automatique et l'exploration de données sont utilisés de manière interchangeable. L'apprentissage automatique englobe beaucoup des mêmes domaines que l'exploration de données, mais comprend également l'IA, la vision par ordinateur et d'autres tâches non supervisées. La principale différence, et c'est certainement une simplification, est que la saisie de l'utilisateur est non seulement inutile mais généralement indésirable. L'objectif est que ces algorithmes ou systèmes s'auto-optimisent et s'améliorent, plutôt qu'un cycle de développement itératif.
Quelle est la différence entre le Big Data et Hadoop?
R: La différence entre le Big Data et le logiciel open source Hadoop est distincte et fondamentale. Le premier est un atout, souvent complexe et ambigu, tandis que le second est un programme qui accomplit un ensemble de buts et d'objectifs pour gérer cet atout.
Les mégadonnées sont simplement les grands ensembles de données que les entreprises et les autres parties rassemblent pour servir des objectifs et des opérations spécifiques. Les mégadonnées peuvent inclure différents types de données dans de nombreux types de formats différents. Par exemple, les entreprises peuvent consacrer beaucoup de travail à la collecte de milliers de données sur les achats au format monétaire, sur les identifiants des clients comme le nom ou le numéro de sécurité sociale, ou sur les informations sur les produits sous la forme de numéros de modèle, de numéros de vente ou de numéros d'inventaire. Tout cela, ou toute autre grande masse d'informations, peut être appelé big data. En règle générale, il est brut et non trié jusqu'à ce qu'il soit soumis à différents types d'outils et de gestionnaires.
Hadoop est l'un des outils conçus pour gérer les mégadonnées. Hadoop et d'autres produits logiciels fonctionnent pour interpréter ou analyser les résultats des recherches Big Data via des algorithmes et des méthodes propriétaires spécifiques. Hadoop est un programme open source sous la licence Apache qui est maintenu par une communauté mondiale d'utilisateurs. Il comprend divers composants principaux, y compris un ensemble de fonctions MapReduce et un système de fichiers distribué Hadoop (HDFS).
L'idée derrière MapReduce est que Hadoop peut d'abord mapper un grand ensemble de données, puis effectuer une réduction sur ce contenu pour des résultats spécifiques. Une fonction de réduction peut être considérée comme une sorte de filtre pour les données brutes. Le système HDFS agit ensuite pour distribuer les données sur un réseau ou les migrer si nécessaire.
Les administrateurs de bases de données, les développeurs et autres peuvent utiliser les différentes fonctionnalités de Hadoop pour gérer les mégadonnées de différentes manières. Par exemple, Hadoop peut être utilisé pour poursuivre des stratégies de données telles que le clustering et le ciblage avec des données non uniformes, ou des données qui ne s'intègrent pas parfaitement dans une table traditionnelle ou ne répondent pas bien aux requêtes simples.
Voir l'article publié sur http://www.shareideaonline.com/cs/what-is-the-difference-between-big-data-and-hadoop/
Merci Ankush
Le Big Data est un TERM qui consiste en la collecte de frameworks et d'outils qui pourraient faire des miracles avec les très grands ensembles de données, y compris l'exploration de données.
Hadoop
est un framework qui divisera les très grands ensembles de données en blocs (par défaut 64 Mo) puis il le stockera dans HDFS
(Hadoop Distributed File System) et ensuite quand sa logique d'exécution ( MapReduce
) est fourni avec tout bytecode
pour traiter les données stockées dans HDFS
. Il prendra la division basée sur le bloc (les divisions peuvent être configurées) et imposera l'extraction et le calcul via le processus Mapper and Reducer. De cette façon, vous pourriez faire le processus ETL, l'exploration de données, le calcul de données, etc.,
Je voudrais conclure que le Big Data est une terminologie qui pourrait jouer avec de très grands ensembles de données. Hadoop
est un framework qui peut très bien faire un traitement parallèle avec ses composants et services. De cette façon, vous pouvez également acquérir l'exploration de données ..
Le Big Data est le terme utilisé par les gens pour dire comment le stockage est bon marché et facile de nos jours et comment les données sont disponibles pour être analysées.
L'exploration de données est le processus consistant à essayer d'extraire des informations utiles des données.
Habituellement, l'exploration de données est liée au Big Data pour 2 raisons
Peut-on dire que hadoop est un data mining en parallèle? Qu'est-ce que le hadoop? Leur site dit
The Apache Hadoop software library is a framework that allows for the
distributed processing of large data sets across clusters of computers
using simple programming models
La partie "parallèle" de votre déclaration est donc vraie. La partie "exploration de données" ne l'est pas nécessairement. Vous pouvez simplement utiliser hadoop pour résumer des tonnes de données et ce n'est pas nécessairement l'exploration de données, par exemple. Mais dans la plupart des cas, vous pouvez parier que les gens essaient d'extraire des informations utiles des mégadonnées à l'aide de hadoop, c'est donc une sorte de oui.
Je dirais que BigData est un cadre modernisé pour répondre aux nouveaux besoins des entreprises. Comme beaucoup de gens le savent, BigData concerne le volume, la variété et la vélocité de 3 v. BigData est un besoin de tirer parti d'une variété de données (données structurées et non structurées) et d'utiliser une technique de clustering pour résoudre les problèmes de volume et obtenir également des résultats en moins de temps, c'est-à-dire la vitesse.
Là où le Datamining est basé sur le principe ETL, c'est-à-dire trouver des informations utiles à partir de grands ensembles de données en utilisant des techniques de modélisation. Il existe de nombreux outils de BI disponibles sur le marché pour y parvenir.