Actuellement, je forme de petits ensembles de données de logo similaires à Flickrlogos-32 avec des CNN profonds. Pour former de plus grands réseaux, j'ai besoin de plus de données, donc en utilisant l'augmentation. Le mieux que je fais en ce moment est d'utiliser des transformations affines (normalisation par fonctionnalité, centre par fonctionnalité, rotation, décalage de hauteur en largeur, retournement vertical horizontal). Mais pour les réseaux plus importants, j'ai besoin de plus d'augmentation. J'ai essayé de chercher sur le bol national de science des données de kaggle forum mais je n'ai pas pu obtenir beaucoup d'aide. Il y a du code pour certaines méthodes données ici mais je ne sais pas ce qui pourrait être utile. Quelles autres (ou meilleures) techniques d'augmentation des données d'image pourraient être appliquées à ce type de jeu de données (ou dans toute image générale) autres que les transformations affines?
Un bon récapitulatif peut être trouvé ici , section 1 sur l'augmentation des données: donc à savoir flips , recadrage aléatoire et tremblement des couleurs et aussi bruit d'éclairage :
Krizhevsky et al. a proposé la fantaisie PCA lors de la formation du célèbre Alex-Net en 2012. La fantaisie PCA modifie les intensités des canaux RVB dans les images de formation.
Alternativement, vous pouvez également jeter un œil au défi Kaggle Galaxy Zoo: les gagnants ont écrit un article de blog très détaillé . Il couvre le même type de techniques:
Comme indiqué, ils le font également "en temps réel, c'est-à-dire pendant la formation".
Par exemple, voici une pratique Torchmise en œuvre par Facebook (pour ResNet formation).
J'ai rassemblé quelques techniques d'augmentation dans ma thèse de maîtrise, page 8 . Il comprend: