web-dev-qa-db-fra.com

Modélisation de sujets LDA - Formation et tests

J'ai lu LDA et je comprends les mathématiques de la façon dont les sujets sont générés lorsque l'on entre une collection de documents.

Les références indiquent que LDA est un algorithme qui, étant donné une collection de documents et rien de plus (aucune supervision nécessaire), peut découvrir les "sujets" exprimés par les documents de cette collection. Ainsi, en utilisant l'algorithme LDA et le Gibbs Sampler (ou Variational Bayes), je peux entrer un ensemble de documents et en sortie, je peux obtenir les sujets. Chaque sujet est un ensemble de termes avec des probabilités assignées.

Ce que je ne comprends pas, c'est que si ce qui précède est vrai, pourquoi de nombreux didacticiels de modélisation de sujet parlent-ils de séparer l'ensemble de données en ensemble de formation et de test?

Quelqu'un peut-il m'expliquer les étapes (le concept de base) de la façon dont LDA peut être utilisé pour former un modèle, qui peut ensuite être utilisé pour analyser un autre ensemble de données de test?

37
tan

La division des données en ensembles de formation et de test est une étape courante dans l'évaluation des performances d'un algorithme d'apprentissage. C'est plus clair pour l'apprentissage supervisé, où vous entraînez le modèle sur l'ensemble de formation, puis voyez dans quelle mesure ses classifications sur l'ensemble de test correspondent aux véritables étiquettes de classe. Pour un apprentissage non supervisé, une telle évaluation est un peu plus délicate. Dans le cas de la modélisation de sujet, une mesure courante des performances est perplexité . Vous entraînez le modèle (comme LDA) sur l'ensemble d'entraînement, puis vous voyez à quel point le modèle est "perplexe" sur l'ensemble d'essai. Plus précisément, vous mesurez dans quelle mesure le nombre de mots des documents de test est représenté par les distributions Word représentées par les rubriques.

La perplexité est bonne pour les comparaisons relatives entre les modèles ou les réglages de paramètres, mais sa valeur numérique ne signifie pas vraiment grand-chose. Je préfère évaluer les modèles de sujet en utilisant le processus d'évaluation, quelque peu manuel:

  1. Inspectez les sujets : regardez les mots les plus probables dans chaque sujet. Sonnent-ils comme s'ils formaient un "sujet" cohérent ou simplement un groupe aléatoire de mots?
  2. Inspectez les affectations de sujets : tenez quelques documents aléatoires de la formation et voyez quels sujets LDA leur assigne. Inspectez manuellement les documents et les premiers mots des rubriques affectées. Est-ce que les sujets décrivent vraiment de quoi parlent réellement les documents?

Je me rends compte que ce processus n'est pas aussi agréable et quantitatif qu'on pourrait le souhaiter, mais pour être honnête, les applications des modèles de sujet sont rarement quantitatives non plus. Je suggère d'évaluer votre modèle de sujet en fonction du problème auquel vous l'appliquez.

Bonne chance!

37
gregamis