web-dev-qa-db-fra.com

Différence entre la classification et le clustering dans l'exploration de données?

Quelqu'un peut-il expliquer la différence entre la classification et le clustering dans l'exploration de données?

Si vous le pouvez, donnez des exemples des deux pour comprendre l’idée principale.

174
Kristaps

En général, dans la classification, vous avez un ensemble de classes prédéfinies et vous voulez savoir à quelle classe appartient un nouvel objet.

Le clustering essaie de grouper un ensemble d'objets et de rechercher s'il existe une relation quelque entre les objets.

Dans le contexte de l'apprentissage automatique, la classification est l'apprentissage supervisé et la mise en cluster est l'apprentissage non supervisé .

Regardez aussi Classification et Clustering sur Wikipedia.

219
Felix Kling

Veuillez lire les informations suivantes:

 enter image description here

 enter image description here  enter image description here

65
Sayali Sonawane

Si vous avez posé cette question à des personnes travaillant dans l'exploration de données ou l'apprentissage automatique, elles utiliseront le terme d'apprentissage supervisé et d'apprentissage non supervisé pour vous expliquer la différence entre le regroupement et la classification. Alors, laissez-moi d’abord vous expliquer le mot clé supervisé et non supervisé.

Apprentissage supervisé: Supposons que vous ayez un panier rempli de fruits frais et que vous ayez pour tâche d’organiser les fruits du même type en un seul endroit. Supposons que les fruits sont Apple, banane, cerise et raisin… vous savez déjà, grâce à vos travaux précédents, que la forme de chaque fruit est simple, il est donc facile de disposer les mêmes types de fruits au même endroit… .ici votre travail précédent s'appelle en tant que données formées dans l'exploration de données . de sorte que vous apprenez déjà les choses à partir de vos données formées, c'est parce que vous avez une variable de réponse qui vous dit que si certains fruits ont telle ou telle fonctionnalité, est le raisin, comme ça pour chaque fruit.

Ce type de données que vous obtiendrez à partir des données formées . Ce type d'apprentissage est appelé apprentissage supervisé . Ce type de problème de résolution relève de la classification . Vous apprenez donc déjà les choses pour pouvoir vous travail en toute confiance.

Sans surveillance: Supposons que vous ayez un panier rempli de fruits frais et que vous ayez pour tâche d’organiser les fruits du même type en un seul endroit.

Cette fois, vous ne savez rien de ces fruits, vous voyez ces fruits pour la première fois, alors comment allez-vous organiser le même type de fruits.

Ce que vous ferez en premier lieu, c’est que vous prenez le fruit et que vous sélectionniez n’importe quel caractère physique de ce fruit particulier. supposons que vous preniez de la couleur.

Ensuite, vous les disposerez en fonction de la couleur, puis les groupes seront semblables à ceux-ci . GROUPE COULEUR ROUGE: pommes & fruits de cerise . GROUPE COULEUR VERTE: bananes et raisins . donc maintenant vous prendrez un autre personnage physique comme taille, donc maintenant les groupes seront quelque chose comme ceci . COULEUR ROUGE ET GRANDE TAILLE: Apple . COULEUR ROUGE ET PETIT TAILLE: fruits de cerise . COULEUR VERTE ET GRANDE TAILLE: banane . COULEUR VERTE ET PETITE TAILLE : raisins . Travail bien fini.

ici, vous n’avez rien appris auparavant, cela signifie qu’il n’ya pas de données de train ni de variable de réponse . Ce type d’apprentissage est connu comme apprentissage non supervisé .

52
M.Abulsoud

+ Classification: On vous donne de nouvelles données, vous devez définir une nouvelle étiquette pour elles.

Par exemple, une entreprise veut classer ses clients potentiels. Lorsqu'un nouveau client arrive, il doit déterminer s'il s'agit d'un client qui achètera ses produits ou non.

+ Clustering: On vous donne un ensemble de transactions d'historique qui enregistre qui a acheté quoi.

En utilisant des techniques de clustering, vous pouvez connaître la segmentation de vos clients. 

17
studyhorror

Classification

L'affectation de classes prédéfinies} à nouvelles observations, basée sur apprendre à partir d'exemples.

C'est l'une des tâches clés de l'apprentissage automatique.

Clustering (ou analyse de cluster)

Bien que généralement rejeté comme "classification non supervisée", il en est tout à fait différent.

Contrairement à ce que beaucoup d'apprenants en machines vont vous apprendre, il ne s'agit pas d'attribuer des "classes" à des objets, mais sans les avoir prédéfinies. C’est la vision très limitée des personnes qui ont fait trop de classification; un exemple typique de si vous avez un marteau (classificateur), tout ressemble à un clou (problème de classification). Mais c’est aussi la raison pour laquelle les gens de la classification n’ont pas l’argument du clustering.

Au lieu de cela, considérez-le comme découverte de structure. La mise en cluster consiste à trouver dans vos données une structure (par exemple, des groupes) que vous ne saviez pas auparavant. Le regroupement a réussi si vous avez appris quelque chose de nouveau. Cela a échoué si vous n’avez que la structure que vous connaissez déjà.

L'analyse de cluster est une tâche clé de l'exploration de données (et le vilain petit canard dans l'apprentissage automatique, alors n'écoutez pas les apprenants qui rejettent le clustering).

"Apprentissage non supervisé" est un peu un oxymoron

Cela a été itératif dans la littérature, mais l'apprentissage non supervisé est bllsh t. Il n’existe pas, mais c’est un oxymoron comme "renseignement militaire".

Soit l'algorithme apprend à partir d'exemples (il s'agit alors d'un "apprentissage supervisé"), soit il n'apprend pas. Si toutes les méthodes de classification sont "en apprentissage", le calcul des valeurs minimale, maximale et moyenne d'un ensemble de données correspond également à un "apprentissage non supervisé". Alors n'importe quel calcul "a appris" sa sortie. Ainsi, le terme «apprentissage non supervisé» n'a pas de sens, il signifie tout et rien.

Certains algorithmes "d'apprentissage non supervisé" entrent cependant dans la catégorie optimisation. Par exemple, k-means est une optimisation par la méthode des moindres carrés. Ces méthodes recouvrent toutes les statistiques et je ne pense donc pas que nous ayons besoin de les qualifier d '"apprentissage non supervisé", nous devrions plutôt les appeler "problèmes d'optimisation". C'est plus précis et plus significatif ... Il y a beaucoup d'algorithmes de classification qui n'impliquent pas l'optimisation et qui ne cadrent pas bien avec les paradigmes d'apprentissage automatique. Alors arrêtez de les coincer sous le parapluie «apprentissage non supervisé».

Il y a un certain "apprentissage" associé à la classification, mais ce n'est pas le programme qui apprend. C'est l'utilisateur qui est censé apprendre de nouvelles choses sur son ensemble de données.

7
Anony-Mousse

Je suis un nouveau venu dans l'exploration de données, mais comme le dit mon manuel, la classification est censée être un apprentissage supervisé et un apprentissage non supervisé en cluster. La différence entre apprentissage supervisé et apprentissage non supervisé peut être trouvée ici .

6
leo

En mettant en cluster, vous pouvez regrouper des données avec les propriétés souhaitées, telles que le nombre, la forme et d'autres propriétés des clusters extraits. Alors que, dans la classification, le nombre et la forme des groupes sont fixes . La plupart des algorithmes de classification donnent le nombre de classes en tant que paramètre. Cependant, certaines approches permettent de déterminer le nombre approprié de grappes.

3

Du livre Mahout in Action, et je pense que cela explique très bien la différence:

Les algorithmes de classification sont liés aux algorithmes de classification tels que l’algorithme k-means, bien qu’ils soient encore très différents. 

Les algorithmes de classification sont une forme d'apprentissage supervisé, par opposition à l'apprentissage non supervisé, ce qui se produit avec les algorithmes de classification. 

Un algorithme d’apprentissage supervisé est un exemple donné qui contient la valeur souhaitée d’une variable cible. Les algorithmes non supervisés ne donnent pas la réponse souhaitée, mais doivent trouver quelque chose de plausible par eux-mêmes.

1
aristotll

Classification – Prédit les étiquettes de classe catégoriques – Classe les données (construit un modèle) en fonction d'un ensemble d'apprentissage et des valeurs (étiquettes de classe) dans un attribut d'étiquette de classe – Utilise le modèle pour classer les nouvelles données.

Cluster: une collection d'objets de données – similaires les uns aux autres dans le même cluster – similaires aux objets des autres clusters

1
George

Tout d’abord, je dirai comme beaucoup de personnes répondent avant celle-ci que la classification est un apprentissage supervisé et que la mise en grappes n’est pas supervisée. Ça signifie:

  1. La classification a besoin de données étiquetées pour que les classificateurs puissent être formés à ces données et commencent ensuite à classer les nouvelles données invisibles en fonction de ce qu'il sait. L'apprentissage non supervisé, comme la mise en cluster, n'utilise pas de données étiquetées. En réalité, il découvre des structures intrinsèques dans les données, telles que des groupes. 

  2. Une autre différence entre les deux techniques (liée à la précédente) réside dans le fait que la classification est une forme de problème de régression discrète dans laquelle la sortie est une variable dépendante catégorique. Tandis que la sortie du clustering génère un ensemble de sous-ensembles appelés groupes. La manière d'évaluer ces deux modèles est également différente pour la même raison: dans la classification, vous devez souvent vérifier la précision et rappeler des éléments tels que le surajustement ou l'insuffisance d'adaptation, etc. Ces éléments vous indiqueront la qualité du modèle. Mais dans le clustering, vous avez généralement besoin de la vision d'un expert pour interpréter ce que vous trouvez, car vous ne savez pas quel type de structure vous avez (type de groupe ou cluster). C'est pourquoi la classification appartient à l'analyse exploratoire de données. 

  3. Enfin, je dirais que les applications sont la principale différence entre les deux. La classification, comme le dit la Parole, est utilisée pour discriminer des instances appartenant à une classe ou à une autre, par exemple un homme ou une femme, un chat ou un chien, etc. Le regroupement est souvent utilisé dans le diagnostic de etc. 

J'espère que ça aide!!!

1
Oscar Gutierrez

Le regroupement vise à trouver des groupes dans les données. Le «groupe» est un concept intuitif et n’a pas de définition mathématiquement rigoureuse. Les membres d'un groupe doivent être similaires les uns aux autres et différents des membres des autres groupes. Un algorithme de classification Opère sur un ensemble de données non étiqueté Z et produit une partition dessus.

Pour les classes et les étiquettes de classe, Class contient des objets similaires, alors que les objets de classes différentes Sont dissemblables. Certaines classes ont un sens bien défini et, dans le cas le plus simple, S’excluent mutuellement. Par exemple, lors de la vérification de la signature, la signature est soit authentique, soit falsifiée. La vraie classe est l’une des deux, peu importe ce que nous pourrions ne pas être en mesure de deviner correctement à partir de l’observation d’une signature particulière.

1
Dr.Eng.Amr

L'apprentissage machine ou l'IA est largement perçu par la tâche qu'il effectue/réalise.

À mon avis, le fait de penser au regroupement et à la classification dans la notion de tâche accomplie peut réellement aider à comprendre la différence entre les deux.

Le regroupement consiste à grouper des éléments et la classification à, en quelque sorte, à étiqueter des éléments.

Supposons que vous êtes dans une salle des fêtes où tous les hommes sont en costume et les femmes en robe.

Maintenant, vous posez quelques questions à votre ami:

Q1: Hé, pouvez-vous m'aider à regrouper des gens?

Les réponses possibles que votre ami peut donner sont les suivantes:

1: Il peut grouper des personnes en fonction du sexe, homme ou femme

2: Il peut grouper des personnes en fonction de leurs vêtements, 1 portant des costumes, d'autres portant des robes

3: Il peut grouper des personnes en fonction de la couleur de leurs cheveux

4: Il peut grouper des personnes en fonction de leur groupe d'âge, etc. etc. etc.

Il existe de nombreuses façons pour votre ami d’accomplir cette tâche.

Bien sûr, vous pouvez influencer son processus décisionnel en fournissant des intrants supplémentaires tels que:

Pouvez-vous m'aider à regrouper ces personnes en fonction du sexe (ou du groupe d'âge, de la couleur des cheveux ou de la robe, etc.)

Q2:

Avant la Q2, vous devez effectuer un travail préparatoire.

Vous devez enseigner ou informer votre ami pour qu'il puisse prendre une décision éclairée. Alors, disons que vous avez dit à votre ami que:

  • Les personnes aux cheveux longs sont des femmes.

  • Les hommes aux cheveux courts sont des hommes.

Q2. Maintenant, vous faites remarquer à une personne aux cheveux longs et demandez à votre ami - Est-ce un homme ou une femme?

La seule réponse que vous pouvez attendre est: Femme.

Bien sûr, il peut y avoir des hommes avec des cheveux longs et des femmes avec des cheveux courts dans la soirée. Mais la réponse est correcte en fonction de l'apprentissage que vous avez fourni à votre ami. Vous pouvez encore améliorer le processus en enseignant davantage à votre ami sur la façon de différencier les deux.

Dans l'exemple ci-dessus,

Q1 représente la tâche que réalise le clustering.

Dans le clustering, vous fournissez les données (personnes) à l'algorithme (votre ami) et lui demandez de regrouper les données. 

Maintenant, c’est à l’algorithme de décider quelle est la meilleure façon de grouper? (Sexe, couleur ou groupe d'âge).

Encore une fois, vous pouvez certainement influencer la décision prise par l’algorithme en fournissant des entrées supplémentaires.

Q2 représente la tâche accomplie par la classification.

Là, vous donnez à votre algorithme (votre ami) des données (Personnes), appelées données de formation, et lui faites apprendre quelles données correspondent à quelle étiquette (Homme ou Femme). Ensuite, vous pointez votre algorithme sur certaines données, appelées données de test, et vous lui demandez de déterminer s'il s'agit d'un homme ou d'une femme. Plus votre enseignement est bon, mieux c'est la prédiction.

Et le pré-travail en Q2 ou en Classification n’est rien d’autre que la formation de votre modèle afin qu’il puisse apprendre à se différencier. Dans le clustering ou Q1, ce travail préliminaire est la partie du groupe.

J'espère que ça aide quelqu'un.

Merci

0
Ikhurana

Une doublure pour la classification:

Classer les données dans des catégories prédéfinies

Une doublure pour le regroupement:

Regroupement des données dans un ensemble de catégories

Différence clé:

La classification prend des données et les place dans des catégories prédéfinies. Le regroupement de l'ensemble de catégories dans lequel vous souhaitez regrouper les données n'est pas connu au préalable.

Conclusion:

  • La classification attribue la catégorie à 1 nouvel élément, en fonction des éléments déjà étiquetés, tandis que le regroupement regroupe un grand nombre d'éléments non étiquetés et les divise en catégories
  • Dans Classification, les catégories\groupes à diviser sont connus À l’avance, alors que dans le Clustering, les catégories\groupes à diviser Sont inconnus à l’avance.
  • Dans la classification, il y a 2 phases - la phase d’entraînement, puis la phase de test Tandis que dans le clustering, il n’ya qu’une phase - la division des données de formation en grappes.
  • La classification est un apprentissage supervisé tandis que le clustering est Un apprentissage non supervisé

J'ai écrit un long post sur le même sujet que vous pouvez trouver ici: 

https://neelbhatt40.wordpress.com/2017/11/21/classification-and-clustering-machine-learning-interview-questions-answers-part-i/

0
Neel

 enter image description here

Classification - Un ensemble de données peut avoir différents groupes/classes. rouge, vert et noir. La classification essaiera de trouver des règles qui les divisent en différentes classes. 

Custering- Si un ensemble de données n'a pas de classe et que vous voulez les placer dans un groupe/classe, vous le faites en cluster. Les cercles violets ci-dessus. 

Si les règles de classification ne sont pas bonnes, vous aurez une mauvaise classification dans les tests ou vos règles ne sont pas assez correctes.
Si le regroupement n'est pas bon, vous aurez beaucoup de valeurs aberrantes, à savoir. points de données ne pouvant tomber dans aucun cluster.

0
Arpit Sisodia

Le clustering est une méthode de regroupement d'objets de telle sorte que les objets ayant des caractéristiques similaires se rejoignent et que les objets ayant des caractéristiques différentes se séparent. C'est une technique courante d'analyse statistique de données utilisée dans l'apprentissage automatique et l'exploration de données. 

La classification est un processus de catégorisation dans lequel les objets sont reconnus, différenciés et compris sur la base de l'ensemble de données d'apprentissage. La classification est une technique d'apprentissage supervisé où un ensemble de formation et des observations correctement définies sont disponibles.

0
Sumit Ranjan

Classification: Prédire les résultats dans une sortie discrète => mapper les variables d'entrée en catégories discrètes

Cas d'utilisation populaires:

  1. Classification de l'e-mail: spam ou non spam

  2. Prêt Sanction au client: Oui, s'il est capable de payer EMI pour le montant du prêt sanctionné. Non s'il ne peut pas

  3. Identification des cellules tumorales cancéreuses: est-ce critique ou non critique?

  4. Analyse des sentiments sur les tweets: le tweet est-il positif ou négatif ou neutre?

  5. Classification des nouvelles: classer les nouvelles dans l'une des classes prédéfinies - politique, sport, santé, etc.

Clustering: est la tâche de regrouper un ensemble d'objets de telle sorte que les objets du même groupe (appelé cluster) se ressemblent davantage (en un sens) que ceux d'autres groupes (clusters).

Cas d'utilisation populaires:

  1. Marketing: découvrez des segments de clientèle à des fins de marketing

  2. Biologie: Classification entre différentes espèces de plantes et d'animaux

  3. Bibliothèques: regrouper différents livres sur la base de sujets et d'informations

  4. Assurance: Reconnaître les clients, leurs politiques et identifier les fraudes

  5. Urbanisme: Créez des groupes de maisons et étudiez leurs valeurs en fonction de leur situation géographique et d’autres facteurs.

  6. Études sismiques: Identifier les zones dangereuses

  7. Système de recommandation

Références:

geeksforgeeks

dataaspirant

0
Ravindra babu

Les principales différences entre la classification et le regroupement sont les suivantes: La classification consiste à classer les données à l’aide d’étiquettes de classe. Par ailleurs, le regroupement est similaire à la classification mais il n’existe pas d’étiquettes de classe prédéfinies .. La classification est axée sur l’apprentissage supervisé. Par contre, le regroupement est également appelé apprentissage non supervisé. La méthode de classification fournit un échantillon de formation, tandis que dans le cas du regroupement, les données de formation ne sont pas fournies.

J'espère que cela aidera!

0
Moh K

Si vous essayez de classer un grand nombre de feuilles sur votre étagère (en fonction de la date ou d'une autre spécification du fichier), vous CLASSIFIEZ.

Si vous deviez créer des groupes à partir de l'ensemble de feuilles, cela signifierait qu'il y a quelque chose de similaire entre les feuilles.

0
0aslam0

Dans l'exploration de données, il existe deux définitions "Supervised" et "Unsupervised" . Lorsque quelqu'un dit à l'ordinateur, à l'algorithme, au code, ... que cette chose est comme une pomme et que cette chose est comme une orange, c'est un apprentissage supervisé et en utilisant l'apprentissage supervisé (comme les balises pour chaque échantillon d'un ensemble de données) pour classer les données, vous obtiendrez une classification. Par contre, si vous laissez l’ordinateur découvrir ce qui est quoi et différencier les caractéristiques d’un ensemble de données donné, en fait, apprendre sans surveillance, pour classer l’ensemble de données, on parle alors de mise en cluster. Dans ce cas, les données fournies à l'algorithme n'ont pas de balises et l'algorithme devrait rechercher différentes classes.

0
siii fsxa