Quelle est la différence entre un analyseur de circonscription et un analyseur de dépendance? Quels sont les différents usages des deux?
Un arbre d'analyse de circonscription décompose un texte en sous-phrases. Les non-terminaux dans l'arborescence sont des types de phrases, les terminaux sont les mots de la phrase et les bords ne sont pas étiquetés. Pour une simple phrase "John voit Bill", une analyse de circonscription serait:
Sentence
|
+-------------+------------+
| |
Noun Phrase Verb Phrase
| |
John +-------+--------+
| |
Verb Noun Phrase
| |
sees Bill
Une analyse de dépendance relie les mots en fonction de leurs relations. Chaque sommet de l'arborescence représente un mot, les nœuds enfants sont des mots qui dépendent du parent et les bords sont étiquetés par la relation. Une analyse de dépendance de "John voit Bill" serait:
sees
|
+--------------+
subject | | object
| |
John Bill
Vous devez utiliser le type d'analyseur qui vous rapproche le plus de votre objectif. Si vous êtes intéressé par des sous-phrases dans la phrase, vous voulez probablement l'analyse syntaxique de la circonscription. Si vous êtes intéressé par les relations de dépendance entre les mots, alors vous voulez probablement l'analyse de dépendance.
L'analyseur de Stanford peut vous donner soit ( démo en ligne ). En fait, la façon dont cela fonctionne vraiment est de toujours analyser la phrase avec l'analyseur de circonscription, puis, si nécessaire, il effectue une transformation déterministe (basée sur des règles) sur l'arbre d'analyse de circonscription pour la convertir en un arbre de dépendance.
Plus d'informations peuvent être trouvées ici: