J'utilise la bibliothèque librosa pour convertir des segments de musique en mél-spectrogrammes à utiliser comme entrées pour mon réseau de neurones, comme indiqué dans les documents ici .
En quoi est-ce différent de MFCC , le cas échéant? Y a-t-il des avantages ou des inconvénients à utiliser l'un ou l'autre?
Pour obtenir MFCC, calculez le DCT sur le mel-spectrogramme. Le mel-spectrogramme est souvent à l'échelle logarithmique auparavant.
MFCC est une représentation très compressible, utilisant souvent seulement 20 ou 13 coefficients au lieu de 32 à 64 bandes dans le spectrogramme Mel. Le MFCC est un peu plus décorrélé, ce qui peut être bénéfique avec des modèles linéaires comme les modèles de mélange gaussiens. Avec beaucoup de données et des classificateurs solides comme les réseaux de neurones convolutionnels, le spectromogramme mel peut souvent être plus performant.
Je suppose que la réponse de Jonnor n'est pas exactement correcte. Il y a deux étapes:
1. Prenez des journaux du spectrogramme Mel.
2. Calculez DCT sur les journaux.
De plus, la prise de journaux semble être "la partie principale" de la formation NN: https://qr.ae/TWtPLD