Quelle est la différence entre les modèles de chaîne de Markov et le modèle de Markov caché? J'ai lu sur Wikipedia, mais je n'ai pas pu comprendre les différences.
Pour expliquer par l'exemple, je vais utiliser un exemple de traitement du langage naturel. Imaginez que vous vouliez connaître la probabilité de cette phrase:
J'apprécie le café
Dans un modèle de Markov, vous pouvez estimer sa probabilité en calculant:
P(Word = I) x P(Word = enjoy | PREVIOUS_Word = I) x P(Word = coffee| PREVIOUS_Word = enjoy)
Maintenant, imaginez que nous voulions connaître les balises de parties de discours de cette phrase, c'est-à-dire si un mot est un verbe au passé, un substantif, etc.
Nous n'avons pas observez aucune étiquette de partie du discours dans cette phrase, mais nous supposez qu'elles sont là. Ainsi, nous calculons quelle est la probabilité de la séquence d'étiquettes de parties de discours. Dans notre cas, la séquence réelle est:
PRP-VBP-NN
(où PRP = "pronom personnel", VBP = "verbe, présent singulier non-3e personne", NN = "nom, singulier ou masse". Voir https://cs.nyu.edu /grishman/jet/guide/PennPOS.html pour la notation complète du balisage Penn POS)
Mais attendez! Il s'agit d'une séquence à laquelle nous pouvons appliquer un modèle de Markov. Mais nous l'appelons caché, car la séquence des parties du discours n'est jamais directement observée. Bien sûr, dans la pratique, nous calculerons un grand nombre de ces séquences et nous aimerions trouver la séquence cachée qui explique le mieux notre observation (par exemple, nous sommes plus susceptibles de voir des mots tels que `` le '', `` ceci '', générés à partir du déterminant ( DET))
La meilleure explication que j'ai jamais rencontrée se trouve dans un article de 1989 de Lawrence R. Rabiner: http://www.cs.ubc.ca/~murphyk/Bayes/rabiner.pdf
Le modèle de Markov est un machine d'état avec les changements d'état étant des probabilités. Dans un modèle de Markov caché, vous ne connaissez pas les probabilités, mais vous connaissez les résultats.
Par exemple, lorsque vous lancez une pièce, vous pouvez obtenir les probabilités, mais, si vous ne pouviez pas voir les flips et que quelqu'un déplace l'un des cinq doigts avec chaque flip de pièce, vous pouvez prendre les mouvements des doigts et utiliser un modèle de Markov caché pour obtenez la meilleure estimation des flips de pièces.
Si je comprends bien, la question est: quelle est la différence entre un processus de Markov et un processus de Markov caché?
Un processus de Markov (MP) est un processus stochastique avec:
Un processus de Markov caché (HMM) est également un processus stochastique avec:
Exemple - (HMM) Bourse:
En Bourse, les gens négocient avec la valeur de l'entreprise. Supposons que la valeur réelle de l'action soit de 100 $ (ce n'est pas observable, et en fait, vous ne le savez jamais). Ce que vous voyez vraiment, c'est alors la valeur avec laquelle il est échangé: supposons dans ce cas 90 $ (c'est observable).
Pour les personnes intéressées par Markov: La partie intéressante est lorsque vous commencez à prendre des mesures sur ces modèles (dans l'exemple précédent, pour gagner de l'argent). Cela va aux processus de décision de Markov (MDP) et aux processus de décision de Markov partiellement observables (POMDP). Pour évaluer une classification générale de ces modèles, j'ai résumé dans l'image suivante les principales caractéristiques de chaque modèle de Markov.
Puisque Matt a utilisé des étiquettes de parties de discours comme exemple HMM, je pourrais ajouter un autre exemple: la reconnaissance vocale. Presque tous les systèmes de reconnaissance vocale continue de grand vocabulaire (LVCSR) sont basés sur des HMM.
"L'exemple de Matt": j'aime le café
Dans un modèle de Markov, vous pouvez estimer sa probabilité en calculant:
P(Word = I) x P(Word = enjoy | PREVIOUS_Word = I) x P(Word = coffee| PREVIOUS_Word = enjoy)
Dans un modèle de Markov caché,
Disons que 30 personnes différentes lisent la phrase "J'apprécie les câlins" et nous devons la reconnaître. Chaque personne prononcera cette phrase différemment. Nous ne savons donc pas si la personne voulait ou non dire "étreindre" ou "accaparer". Nous n'aurons que la distribution probabiliste de la Parole réelle.
En bref, un modèle de Markov caché est un modèle statistique de Markov dans lequel le système modélisé est supposé être un processus de Markov avec des états (cachés) non observés.
Un modèle de Markov caché est un processus stochastique à double incrustation à deux niveaux.
Le niveau supérieur est un processus de Markov et les états sont inobservables.
En fait, l'observation est une fonction probabiliste des états de Markov de niveau supérieur.
Différents états de Markov auront différentes fonctions probabilistes d'observation.