je ne comprends pas ce que cela signifie. dans la base de données un Tuple signifie une valeur de champ et un attribut signifie un champ de table? Ai-je raison? et qu'est-ce qu'une étiquette de classe dans l'exploration de données?
Réponse très courte: l'étiquette de classe est l'attribut discret dont vous voulez prédire la valeur en fonction des valeurs d'autres attributs. (Lisez le reste de la réponse.)
Le terme label de classe est généralement utilisé dans les contextes d’apprentissage automatique supervisé, et dans la classification en particulier, où l’on donne un ensemble d’exemples de la forme (attribute values, classLabel)
et où l’objectif est d’apprendre une règle qui calcule la étiquette à partir des valeurs d'attribut. L'étiquette de classe prend toujours un nombre fini (par opposition à inifinite) de valeurs différentes.
Pour un exemple concret, nous pourrions avoir un groupe de personnes adultes et nous aimerions prédire si elles sont sans abri ou non. Supposons que les attributs correspondent au plus haut niveau d’éducation atteint et à l’origine (les exemples sont ceux du (Origin, educationalLevel; isHomeless)
:
(Manhattan, PhD; no)
(Brooklyn, Primary school; yes)
...
Dans ce cas particulier, isHomeless
est le libellé de la classe. L'objectif est d'apprendre une fonction qui calcule si la personne avec une valeur d'attribut donnée est sans abri ou non. (Plus spécifiquement, apprendre une fonction qui fait le moins d'erreurs possible sous une certaine quantification du nombre d'erreurs.)
L'article Wikipedia Apprentissage supervisé donne une bonne description.
Concernant l’autre question: non, un tuple désigne l’ensemble des valeurs des attributs d’une ligne donnée. Par exemple, si vous avez une table Table person(id, name, surname)
, un tuple représentant la première ligne pourrait être (0, 'Akhil', 'Mohan')
.
En gros, une étiquette de classe (en classification) peut être comparée à une variable de réponse (en régression): une valeur que nous voulons prédire en termes d’autres variables (indépendantes).
La différence est qu'une étiquette de classe est généralement une variable discrète/catégorielle (par exemple, Oui-Non, 0-1, etc.), alors qu'une variable de réponse est normalement une variable continue/à nombre réel.
Pour en savoir plus sur la régression et la classification liées aux variables de réponse et aux étiquettes de classe, consultez https://math.stackexchange.com/questions/141381/regression-vs-classification .