Je voudrais poser à tout le monde une question sur la façon dont les fonctionnalités corrélées (variables) affectent la précision de classification des algorithmes d'apprentissage automatique. Avec des caractéristiques corrélées, je veux dire une corrélation entre elles et non avec la classe cible (c'est-à-dire le périmètre et l'aire d'une figure géométrique ou le niveau d'éducation et le revenu moyen). À mon avis, les caractéristiques corrélées affectent négativement la précision d'un algorithme de classification, je dirais que la corrélation rend l'un d'entre eux inutile. Est-ce vraiment comme ça? Le problème change-t-il avec le respect du type d'algorithme de classification? Toute suggestion d'articles et de conférences est vraiment la bienvenue! Merci
Les caractéristiques corrélées n'affectent pas la précision de la classification en soi. Le problème dans des situations réalistes est que nous avons un nombre fini d'exemples de formation pour former un classificateur. Pour un nombre fixe d'exemples de formation, l'augmentation du nombre de fonctionnalités augmente généralement la précision de la classification jusqu'à un certain point, mais à mesure que le nombre de fonctionnalités continue d'augmenter, la précision de la classification finira par diminuer car nous sommes alors sous-échantillonnés par rapport au grand nombre de fonctionnalités. Pour en savoir plus sur les implications de cela, regardez le malédiction de la dimensionnalité .
Si deux caractéristiques numériques sont parfaitement corrélées, alors l'une n'ajoute aucune information supplémentaire (elle est déterminée par l'autre). Donc, si le nombre de fonctionnalités est trop élevé (par rapport à la taille de l'échantillon d'apprentissage), alors il est avantageux de réduire le nombre de fonctionnalités grâce à une technique extraction de fonctionnalités (par exemple, via composants principaux )
L'effet de la corrélation dépend du type de classificateur. Certains classificateurs non paramétriques sont moins sensibles à la corrélation des variables (bien que le temps de formation augmentera probablement avec une augmentation du nombre de fonctionnalités). Pour les méthodes statistiques telles que le maximum de vraisemblance gaussienne, le fait d'avoir trop de caractéristiques corrélées par rapport à la taille de l'échantillon d'apprentissage rendra le classificateur inutilisable dans l'espace des caractéristiques d'origine (la matrice de covariance des données d'échantillon devient singulière).
En général, je dirais que plus les fonctionnalités ne sont pas corrélées, meilleures seront les performances du classificateur. Étant donné un ensemble de caractéristiques hautement corrélées, il peut être possible d'utiliser des techniques PCA pour les rendre aussi orthogonales que possible afin d'améliorer les performances du classificateur.