Je suis actuellement en train de suivre un cours de traitement du langage naturel dans mon université et je suis toujours confondu avec un concept de base. J'obtiens la définition de l'étiquetage POS à partir du livre Foundations of Statistical Natural Language Processing :
Le balisage consiste à étiqueter (ou baliser) chaque mot d'une phrase avec sa partie appropriée du discours. Nous décidons si chaque mot est un nom, un verbe, un adjectif ou autre.
Mais je ne trouve pas de définition de l'analyse superficielle dans le livre car elle décrit également l'analyse superficielle comme l'un des utilitaires du balisage POS. J'ai donc commencé à chercher sur le Web et je n'ai trouvé aucune explication directe de l'analyse superficielle, mais dans Wikipedia :
L'analyse syntaxique superficielle (également fragmentée, "analyse syntaxique légère") est une analyse d'une phrase qui identifie les constituants (groupes de noms, verbes, groupes de verbes, etc.), mais ne précise pas leur structure interne, ni leur rôle dans la phrase principale.
Franchement, je ne vois pas la différence, mais c'est peut-être à cause de mon anglais ou simplement parce que je ne comprends pas le concept de base simple. Quelqu'un peut-il expliquer la différence entre l'analyse superficielle et le balisage POS? L'analyse syntaxique superficielle est-elle souvent également appelée analyse sémantique superficielle?
Merci avant.
L'étiquetage POS donnerait une étiquette POS à chaque mot de la phrase d'entrée.
L'analyse de la phrase (en utilisant le pcfg de Stanford par exemple) convertirait la phrase en un arbre dont les feuilles contiendront des balises POS (qui correspondent aux mots de la phrase), mais le reste de l'arbre vous dirait exactement comment ces mots se joignent ensemble pour faire la phrase globale. Par exemple, un adjectif et un nom peuvent se combiner pour être une `` phrase de nom '', qui peut se combiner avec un autre adjectif pour former une autre phrase de nom (par exemple, renard brun rapide) (la façon exacte dont les pièces se combinent dépend de l'analyseur en question).
Vous pouvez voir à quoi ressemble la sortie de l'analyseur http://nlp.stanford.edu:8080/parser/index.jsp
Un analyseur peu profond ou "chunker" se situe quelque part entre ces deux. Un tagueur PLV simple est vraiment rapide mais ne vous donne pas suffisamment d'informations et un analyseur complet est lent et vous en donne trop. Un tagueur POS peut être considéré comme un analyseur qui ne vous renvoie que le niveau le plus bas de l'arbre d'analyse. Un chunker peut être considéré comme un analyseur qui vous renvoie à la place un autre niveau de l'arbre d'analyse. Parfois, vous avez juste besoin de savoir qu'un tas de mots ensemble forment une expression nominale mais ne se soucient pas de la sous-structure de l'arbre dans ces mots (c'est-à-dire quels mots sont des adjectifs, des déterminants, des noms, etc. et comment se combinent-ils) . Dans de tels cas, vous pouvez utiliser un segment pour obtenir exactement les informations dont vous avez besoin au lieu de perdre du temps à générer l'arborescence d'analyse complète de la phrase.
Le balisage POS est un processus qui décide du type de chaque jeton d'un texte, par ex. NOM, VERBE, DETERMINER, etc. Le jeton peut être Word ou ponctuation.
Pendant ce temps, l'analyse ou le découpage superficiel est un processus qui divise un texte en un groupe syntaxiquement apparenté.
Sortie d'étiquetage de position
Mon/chien PRP $/NN aime/VBZ son/nourriture PRP $/NN ./.
Chunking output
[NP My Dog] [VP aime] [NP sa nourriture]
Dans POS_tagger, nous marquons les mots en utilisant un "tagset" comme {nom, verbe, adj, adv, prob ...} tandis que analyseur peu profond essayez de définir sous-composants tels que l'entité de nom et les phrases dans la phrase comme "Je suis actuellement (en train de suivre un cours de traitement de langue (naturel) à (mon université)) et (toujours confondu avec des notions de base concept.)"
Le cadre de grammaire de contrainte est illustratif. Dans sa forme la plus simple et la plus grossière, il prend en entrée du texte balisé POS et ajoute ce que vous pourriez appeler des balises Part of Clause. Pour un adjectif, par exemple, il pourrait ajouter @NN>
pour indiquer qu'il fait partie d'un NP dont le mot Word est à droite.
D. Jurafsky et JH Martin disent dans leur livre , que l'analyse superficielle (analyse partielle) est une analyse qui n'extrait pas toutes les informations possibles de la phrase, mais juste extrait précieux dans les informations de cas spécifiques.
Le découpage n'est qu'une des approches de l'analyse peu profonde. Comme il a été mentionné, il extrait uniquement des informations sur les phrases de base non récursives (par exemple, les phrases verbales ou les phrases nominales).
D'autres approches, par exemple, produisent des arbres d'analyse plats. Ces arbres peuvent contenir des informations sur les balises de partie du discours, mais différer les décisions qui peuvent nécessiter des facteurs sémantiques ou contextuels, tels que PP pièces jointes, ambiguïtés de coordination et analyses composées nominales).
Ainsi, l'analyse peu profonde est l'analyse qui produit un arbre d'analyse partielle. Le découpage est un exemple d'une telle analyse.