J'ai récemment examiné un ensemble de didacticiels Sklearn, qui étaient tous similaires en ce sens qu'ils marquaient la qualité de l'ajustement par:
clf.fit(X_train, y_train)
clf.score(X_test, y_test)
Et ça va cracher:
0.92345...
ou un autre score.
Je suis curieux de savoir quels sont les paramètres de la fonction clf.score ou comment elle attribue une note au modèle. J'ai regardé partout sur Internet, mais je n'arrive pas à trouver de documentation à ce sujet. Est-ce que quelqu'un sait?
Il faut une matrice de caractéristiques X_test
et les valeurs cibles attendues y_test
. Les prédictions pour X_test
sont comparées à y_test
et la précision (pour les classificateurs) ou le score R² (pour les estimateurs par régression est renvoyé).
Ceci est indiqué très explicitement dans les docstrings pour les méthodes score
. Celui pour la classification lit
Returns the mean accuracy on the given test data and labels.
Parameters
----------
X : array-like, shape = (n_samples, n_features)
Test samples.
y : array-like, shape = (n_samples,)
True labels for X.
sample_weight : array-like, shape = [n_samples], optional
Sample weights.
Returns
-------
score : float
Mean accuracy of self.predict(X) wrt. y.
et celui pour la régression est similaire.
Pas sûr que j'ai bien compris votre question. Évidemment, pour calculer une erreur ou une similarité, la plupart des fonctions d'évaluation reçoivent un tableau de valeurs de référence (y_true
) et un tableau de valeurs prédites par votre modèle (y_score
) en tant que paramètres principaux, mais peuvent également recevoir d'autres paramètres, spécifiques à la métrique. Les fonctions de scoring n’ont généralement pas besoin des valeurs X.
Je suggérerais de regarder dans le code source des fonctions de scoring pour comprendre leur fonctionnement.
Voici une liste des fonctions de scoring dans scikit-learn .
Ceci est classifieur dépendant . Chaque classificateur fournit sa propre fonction de notation.
Méthode du score de l’estimateur: Les estimateurs utilisent une méthode du score fournissant un critère d’évaluation par défaut du problème qu’ils sont conçus pour Résoudre. Ceci n’est pas traité sur cette page, mais dans la documentation de De chaque estimateur.
Outre la documentation qui vous a été fournie dans l'une des réponses, la seule chose supplémentaire à faire est de lire le type de paramètres fourni par votre estimateur. Par exemple, le classificateur SVM SVC a les paramètres suivants score (X, y, sample_weight = None)