Il est courant d'augmenter les données (ajouter des échantillons par programme, comme des cultures aléatoires, etc. dans le cas d'un ensemble de données composé d'images) à la fois sur l'ensemble de formation et de test, ou simplement sur l'ensemble de données de formation?
Uniquement à l'entraînement. L'augmentation des données est utilisée pour augmenter la taille de l'ensemble d'entraînement et obtenir des images plus différentes. Techniquement, vous pouvez utiliser l'augmentation des données sur l'ensemble de test pour voir comment le modèle se comporte sur ces images, mais généralement les gens ne le font pas.
L'augmentation des données se fait uniquement sur l'ensemble de formation car cela aide le modèle à devenir plus généralisé et robuste. Il n'y a donc aucun intérêt à augmenter l'ensemble de test.
Cette réponse sur stats.SE plaide en faveur de l'application de cultures sur les ensembles de validation/test afin de rendre cette entrée similaire à l'entrée dans l'ensemble de formation sur laquelle le réseau a été formé.
Faites-le uniquement sur le kit d'entraînement.
La raison pour laquelle nous utilisons une formation et un ensemble de tests en premier lieu est que nous voulons estimer l'erreur que notre système aura en réalité. Les données de l'ensemble de test doivent donc être aussi proches que possible des données réelles.
Si vous le faites sur l'ensemble de test, vous pourriez avoir le problème que vous introduisez des erreurs. Par exemple, disons que vous voulez reconnaître les chiffres et augmentez en tournant. Puis un 6
pourrait ressembler à un 9
.
En vision par ordinateur, vous pouvez utiliser l'augmentation des données pendant le temps de test pour obtenir différentes vues sur l'image de test . Vous devez ensuite agréger les résultats obtenus à partir de chaque image par exemple en les faisant la moyenne.
Par exemple, étant donné ce symbole ci-dessous, changer le point de vue peut conduire à différentes interprétations: