web-dev-qa-db-fra.com

Score de cohérence 0.4 est bon ou mauvais?

J'ai besoin de savoir si le score de cohérence de 0,4 est bon ou mauvais? J'utilise LDA comme algorithme de modélisation de sujet.

Quel est le score de cohérence moyen dans ce contexte.

6
User Mohamed

En plus de l'excellente réponse de Sara:

cohérence à μl Mesure à quelle fréquence les deux mots (WI, WJ) ont été observés ensemble dans le corpus. Il est défini comme suit:

D(Wi, Wj) = log [ (D(Wi, Wj) + EPSILON) / D(Wi) ]

Où: D (wi, wj) est combien de fois mot wi et mot wj est apparu ensemble

D (wi) est combien de fois le mot wi est apparu seul dans le corpus

Epsilon est une petite valeur (((comme 1e-12) ajouté au numérateur pour éviter les valeurs 0

Si WI et WJ n'apparaissent jamais ensemble, cela entraîne le journal (0) qui brisera l'univers. La valeur Epsilon est une sorte de hack pour résoudre ce problème.

En conclusion, vous pouvez obtenir une valeur du très gros nombre négatif jusqu'au bout jusqu'à environ 0. L'interprétation est la même que celle que Sara a écrit, plus le nombre est grand, meilleur, où 0 serait évidemment faux.

0
Muhammad Ali

Je voudrais juste ajouter que le bon ou le mauvais est par rapport au corpus que vous travaillez et les scores des autres clusters.

Dans le lien que la SARA fournissait que l'article affiche 33 sujets comme optimaux avec un score de cohérence de ~ 0,33, mais comme l'auteur mentionne peut-être des termes répétés dans ce cluster. Dans ce cas, vous devriez comparer les termes/extraits de la décomposition de grappes optimale à un score de cohérence plus faible pour voir si les résultats sont plus ou moins interprétables.

Bien sûr, vous devez ajuster les paramètres de votre modèle, mais le score dépendant de manière contextuelle, et je ne pense pas que vous puissiez nécessairement dire un score de cohérence spécifique regroupé vos données de manière optimale sans comprendre ce que les données ressemblent. Cela dit, comme Sara mentionnait ~ 1 ou ~ 0 sont probablement faux.

Vous pouvez comparer votre modèle contre un jeu de données de référence et s'il a une cohérence plus élevée, vous avez une meilleure jauge de votre fonctionnement de votre modèle.

Cet article m'a été utile: https://rb.gy/kejxkz

0
Patrick Cullinane