Comment tracer les scores de grille de GridSearchCV?

Question

Je cherche un moyen de représenter graphiquement grid_scores_ à partir de GridSearchCV dans sklearn. Dans cet exemple, j'essaie de rechercher sur la grille les meilleurs paramètres gamma et C pour un algorithme SVR. Mon code se présente comme suit:

 C_range = 10.0 ** np.arange(-4, 4) gamma_range = 10.0 ** np.arange(-4, 4) param_grid = dict(gamma=gamma_range.tolist(), C=C_range.tolist()) grid = GridSearchCV(SVR(kernel='rbf', gamma=0.1),param_grid, cv=5) grid.fit(X_train,y_train) print(grid.grid_scores_)

Après avoir exécuté le code et imprimé les scores de la grille, le résultat suivant est obtenu:

[mean: -3.28593, std: 1.69134, params: {'gamma': 0.0001, 'C': 0.0001}, mean: -3.29370, std: 1.69346, params: {'gamma': 0.001, 'C': 0.0001}, mean: -3.28933, std: 1.69104, params: {'gamma': 0.01, 'C': 0.0001}, mean: -3.28925, std: 1.69106, params: {'gamma': 0.1, 'C': 0.0001}, mean: -3.28925, std: 1.69106, params: {'gamma': 1.0, 'C': 0.0001}, mean: -3.28925, std: 1.69106, params: {'gamma': 10.0, 'C': 0.0001},etc]

Je voudrais visualiser tous les scores (valeurs moyennes) en fonction des paramètres gamma et C. Le graphique que j'essaie d'obtenir devrait ressembler à ceci:

Où l'axe des x est le gamma, l'axe des y est le score moyen (erreur quadratique moyenne dans ce cas), et des lignes différentes représentent des valeurs de C différentes.

sascha · Accepted Answer

from sklearn.svm import SVC from sklearn.grid_search import GridSearchCV from sklearn import datasets import matplotlib.pyplot as plt import seaborn as sns import numpy as np digits = datasets.load_digits() X = digits.data y = digits.target clf_ = SVC(kernel='rbf') Cs = [1, 10, 100, 1000] Gammas = [1e-3, 1e-4] clf = GridSearchCV(clf_, dict(C=Cs, gamma=Gammas), cv=2, pre_dispatch='1*n_jobs', n_jobs=1) clf.fit(X, y) scores = [x[1] for x in clf.grid_scores_] scores = np.array(scores).reshape(len(Cs), len(Gammas)) for ind, i in enumerate(Cs): plt.plot(Gammas, scores[ind], label='C: ' + str(i)) plt.legend() plt.xlabel('Gamma') plt.ylabel('Mean score') plt.show()

Le code est basé sur this .
Seule partie déroutante: sklearn respectera toujours l'ordre de C & Gamma -> exemple officiel utilise cet "ordre"

Sortie:

David Alvarez · Answer

Le code affiché par @sascha est correct. Cependant, l'attribut grid_scores_ sera bientôt obsolète. Il est préférable d'utiliser l'attribut cv_results.

Elle peut être implémentée de la même manière que celle de la méthode @sascha:

def plot_grid_search(cv_results, grid_param_1, grid_param_2, name_param_1, name_param_2): # Get Test Scores Mean and std for each grid search scores_mean = cv_results['mean_test_score'] scores_mean = np.array(scores_mean).reshape(len(grid_param_2),len(grid_param_1)) scores_sd = cv_results['std_test_score'] scores_sd = np.array(scores_sd).reshape(len(grid_param_2),len(grid_param_1)) # Plot Grid search scores _, ax = plt.subplots(1,1) # Param1 is the X-axis, Param 2 is represented as a different curve (color line) for idx, val in enumerate(grid_param_2): ax.plot(grid_param_1, scores_mean[idx,:], '-o', label= name_param_2 + ': ' + str(val)) ax.set_title("Grid Search Scores", fontsize=20, fontweight='bold') ax.set_xlabel(name_param_1, fontsize=16) ax.set_ylabel('CV Average Score', fontsize=16) ax.legend(loc="best", fontsize=15) ax.grid('on') # Calling Method plot_grid_search(pipe_grid.cv_results_, n_estimators, max_features, 'N Estimators', 'Max Features')

Les résultats ci-dessus dans le graphique suivant:

joeln · Answer

L'ordre dans lequel la grille de paramètres est parcourue est déterministe, de sorte qu'il peut être modifié et tracé directement. Quelque chose comme ça:

scores = [entry.mean_validation_score for entry in grid.grid_scores_] # the shape is according to the alphabetical order of the parameters in the grid scores = np.array(scores).reshape(len(C_range), len(gamma_range)) for c_scores in scores: plt.plot(gamma_range, c_scores, '-')

Edward Burgin · Answer

Je voulais faire quelque chose de similaire (mais évolutif à un grand nombre de paramètres) et voici ma solution pour générer des graphiques d'essaim de la sortie:

score = pd.DataFrame(gs_clf.grid_scores_).sort_values(by='mean_validation_score', ascending = False) for i in parameters.keys(): print(i, len(parameters[i]), parameters[i]) score[i] = score.parameters.apply(lambda x: x[i]) l =['mean_validation_score'] + list(parameters.keys()) for i in list(parameters.keys()): sns.swarmplot(data = score[l], x = i, y = 'mean_validation_score') #plt.savefig('170705_sgd_optimisation//'+i+'.jpg', dpi = 100) plt.show()