En termes simples, quelle est la différence entre la validation croisée et la recherche sur grille? Comment fonctionne la recherche par grille? Devrais-je faire d'abord une validation croisée puis une recherche sur la grille?
La validation croisée consiste à réserver une partie de vos données à l'évaluation de votre modèle. Il existe différentes méthodes de validation croisée. Le concept le plus simple consiste simplement à prendre 70% de vos données (à partir d’un nombre précis ici, il n’est pas nécessaire que ce soit 70%) et à les utiliser pour la formation, puis à utiliser les 30% restants pour évaluer le modèle. performance. La raison pour laquelle vous avez besoin de données différentes pour la formation et l'évaluation du modèle est la protection contre le surajustement. Il existe bien sûr d’autres techniques (légèrement plus compliquées) de validation croisée, comme la validation croisée à plis multiples, souvent utilisée dans la pratique.
La recherche en grille est une méthode permettant d’optimiser les hyper-paramètres, c’est-à-dire de trouver la meilleure combinaison d’hyper-paramètres (un exemple d’hyper-paramètre est le taux d’apprentissage de l’optimiseur), pour un modèle donné ( par exemple un CNN) et test de données. Dans ce scénario, vous avez plusieurs modèles, chacun avec une combinaison différente d'hyper-paramètres. Chacune de ces combinaisons de paramètres, qui correspondent à un seul modèle, peut être considérée comme située sur un point d'une "grille". L’objectif est alors de former chacun de ces modèles et de les évaluer, par exemple. en utilisant la validation croisée. Vous sélectionnez ensuite celui qui a le mieux fonctionné.
Pour donner un exemple concret, si vous utilisez une machine à vecteurs de support, vous pouvez utiliser différentes valeurs pour gamma
et C
. Ainsi, par exemple, vous pourriez avoir une grille avec les valeurs suivantes pour (gamma, C)
: (1, 1), (0.1, 1), (1, 10), (0.1, 10)
. C'est une grille parce que c'est comme un produit de [1, 0.1]
pour gamma
et [1, 10]
pour C
. En principe, Grid-search formera un SVM pour chacune de ces quatre paires de valeurs (gamma, C)
, puis l'évaluera à l'aide d'une validation croisée et sélectionnera celle qui donnera les meilleurs résultats.
La validation croisée est une méthode permettant d'estimer de manière robuste les performances d'un ensemble de modèles en termes de performances (généralisation).
Ici, par "modèle", je ne veux pas dire une instance formée, plus les algorithmes avec les paramètres, tels que SVC(C=1, kernel='poly')
.
Validation croisée, séparant simplement les données de test et de formation et validant les résultats de formation avec les données de test. Je connais deux techniques de validation croisée.
Tout d’abord, testez/entraînez la validation croisée. Fractionnement des données en test et entraînement.
Deuxièmement, la validation croisée au pli multiple divise vos données en kbins, utilise chaque casier comme données de test, utilise le reste des données en tant que données d'apprentissage et valide les données par rapport aux tests. Répétez le processus k fois. Et obtenez la performance moyenne. La validation croisée au pli k est particulièrement utile pour les petits ensembles de données car elle optimise les données de test et de formation.
Recherche de grille; en travaillant systématiquement sur de multiples combinaisons de mélodies de paramètres, effectuez une validation croisée et déterminez celle qui offre les meilleures performances. Vous pouvez travailler sur de nombreuses combinaisons uniquement en modifiant légèrement les paramètres.
La validation croisée est une méthode de réservation d'un sous-ensemble particulier de votre jeu de données sur lequel vous ne formez pas le modèle. Plus tard, vous testez votre modèle sur ce sous-ensemble avant de le finaliser.
Les principales étapes à effectuer pour effectuer la validation croisée sont les suivantes:
Fractionner l'intégralité du jeu de données dans les ensembles de données d'apprentissage et de test (par exemple, 80% de l'ensemble de données complet correspond à l'ensemble de données d'apprentissage et les 20% restants à l'ensemble de données d'essai)
Former le modèle à l'aide du jeu de données d'apprentissage
Testez votre modèle sur l'ensemble de données de test. Si votre modèle fonctionne bien sur l'ensemble de données de test, poursuivez le processus de formation.
Il existe d'autres méthodes de validation croisée, par exemple
Validation croisée Laisser un sort (LOOCV)
Validation croisée des plis en K
Validation croisée des plis en K
Stratégies contradictoires de validation croisée (utilisées lorsque les ensembles de données train et repos diffèrent largement les uns des autres).