Je voudrais utiliser la validation croisée pour tester/former mon ensemble de données et évaluer les performances du modèle de régression logistique sur l'ensemble de données et pas seulement sur l'ensemble de tests (par exemple 25%).
Ces concepts sont totalement nouveaux pour moi et je ne suis pas très sûr de bien faire les choses. Je serais reconnaissant à qui que ce soit de me conseiller sur les bonnes mesures à prendre lorsque je me suis trompé. Une partie de mon code est présentée ci-dessous.
De plus, comment puis-je tracer des ROC pour "y2" et "y3" sur le même graphique avec le graphique actuel?
Je vous remercie
import pandas as pd
Data=pd.read_csv ('C:\\Dataset.csv',index_col='SNo')
feature_cols=['A','B','C','D','E']
X=Data[feature_cols]
Y=Data['Status']
Y1=Data['Status1'] # predictions from elsewhere
Y2=Data['Status2'] # predictions from elsewhere
from sklearn.linear_model import LogisticRegression
logreg=LogisticRegression()
logreg.fit(X_train,y_train)
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
from sklearn import metrics, cross_validation
predicted = cross_validation.cross_val_predict(logreg, X, y, cv=10)
metrics.accuracy_score(y, predicted)
from sklearn.cross_validation import cross_val_score
accuracy = cross_val_score(logreg, X, y, cv=10,scoring='accuracy')
print (accuracy)
print (cross_val_score(logreg, X, y, cv=10,scoring='accuracy').mean())
from nltk import ConfusionMatrix
print (ConfusionMatrix(list(y), list(predicted)))
#print (ConfusionMatrix(list(y), list(yexpert)))
# sensitivity:
print (metrics.recall_score(y, predicted) )
import matplotlib.pyplot as plt
probs = logreg.predict_proba(X)[:, 1]
plt.hist(probs)
plt.show()
# use 0.5 cutoff for predicting 'default'
import numpy as np
preds = np.where(probs > 0.5, 1, 0)
print (ConfusionMatrix(list(y), list(preds)))
# check accuracy, sensitivity, specificity
print (metrics.accuracy_score(y, predicted))
#ROC CURVES and AUC
# plot ROC curve
fpr, tpr, thresholds = metrics.roc_curve(y, probs)
plt.plot(fpr, tpr)
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.0])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate)')
plt.show()
# calculate AUC
print (metrics.roc_auc_score(y, probs))
# use AUC as evaluation metric for cross-validation
from sklearn.cross_validation import cross_val_score
logreg = LogisticRegression()
cross_val_score(logreg, X, y, cv=10, scoring='roc_auc').mean()
Vous avez presque raison. cross_validation.cross_val_predict
vous donne des prédictions pour l'ensemble de données entier. Il vous suffit de supprimer logreg.fit
plus tôt dans le code. Plus précisément, ce qu'il fait est le suivant: il divise votre jeu de données en n
plis et à chaque itération, il laisse l'un des plis en tant que jeu de test et forme le modèle sur le reste des plis (n-1
plis). Ainsi, à la fin, vous obtiendrez des prévisions pour l'ensemble des données.
Illustrons cela avec l'un des ensembles de données intégrés dans sklearn, iris. Cet ensemble de données contient 150 échantillons d'apprentissage avec 4 fonctionnalités. iris['data']
est X
et iris['target']
est y
In [15]: iris['data'].shape
Out[15]: (150, 4)
Pour obtenir des prédictions sur l'ensemble complet avec validation croisée, vous pouvez procéder comme suit:
from sklearn.linear_model import LogisticRegression
from sklearn import metrics, cross_validation
from sklearn import datasets
iris = datasets.load_iris()
predicted = cross_validation.cross_val_predict(LogisticRegression(), iris['data'], iris['target'], cv=10)
print metrics.accuracy_score(iris['target'], predicted)
Out [1] : 0.9537
print metrics.classification_report(iris['target'], predicted)
Out [2] :
precision recall f1-score support
0 1.00 1.00 1.00 50
1 0.96 0.90 0.93 50
2 0.91 0.96 0.93 50
avg / total 0.95 0.95 0.95 150
Revenons donc à votre code. Tout ce dont vous avez besoin est le suivant:
from sklearn import metrics, cross_validation
logreg=LogisticRegression()
predicted = cross_validation.cross_val_predict(logreg, X, y, cv=10)
print metrics.accuracy_score(y, predicted)
print metrics.classification_report(y, predicted)
Pour tracer ROC dans une classification multi-classes, vous pouvez suivre ce tutoriel qui vous donne quelque chose comme ceci:
En général, sklearn propose de très bons didacticiels et une bonne documentation. Je recommande fortement de lire leur tutoriel sur cross_validation .